Está en la página 1de 297

INTRODUCCIN A LA TEORA DE LA

PROBABILIDAD, VOL. 2
Miguel Angel Garca Alvarez
CONTENIDO
Prlogo v
Notacin ix
Parte 1. VECTORES ALEATORIOS 1
Captulo 1. DISTRIBUCIONES CONJUNTAS 3
1. Funciones de distribucin conjuntas 3
2. Funciones de densidad conjuntas 9
3. Funciones de densidad marginales 16
4. Distribuciones conjuntas de variables aleatorias independientes 18
Captulo 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS 29
1. Distribuciones de funciones de vectores aleatorios discretos 29
2. Distribuciones de funciones de vectores aleatorios continuos 31
3. Distribuciones conjuntas de funciones de vectores aleatorios 39
4. Estadsticos de orden 46
5. Esperanza de funciones de vectores aleatorios 49
5.1 Coeciente de correlacin y matriz de covarianzas 53
Captulo 3. DISTRIBUCIN NORMAL MULTIVARIADA 67
1. Distribucin normal bivariada 67
2. Un poco de Clculo Matricial 73
3. Distribucin normal multivariada 96
4. Distribuciones muestrales 111
Captulo 4. ESPERANZAS CONDICIONALES 119
1. Generalizacin de la denicin de probabilidad condicional 119
2. Esperanzas condicionales en el caso discreto 120
3. Denicin general de la esperanza condicional 123
4. Esperanzas condicionales en el caso absolutamente continuo 128
5. Distribuciones condicionales 132
6. Regla general de la probabilidad total 140
7. Distribuciones condicionales en el caso mixto 147
iii
iv CONTENIDO
Parte 2. CONVERGENCIA 161
Captulo 5. TEOREMAS LMITE 163
1. Diferentes tipos de convergencia 164
2. Relacin entre modos de convergencia 168
3. Lema de Borel-Cantelli y convergencia casi segura 170
4. Funciones generadoras y convergencia en distribucin 171
5. Ley dbil de los grandes nmeros 173
5.1 Interpretacin de la Esperanza 177
6. Ley fuerte de los grandes nmeros 182
7. Teorema de Poisson 189
8. Teorema del lmite central 190
9. Convergencia de series aleatorias 193
Parte 3. HISTORIA 199
Captulo 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES 201
1. Algunos resultados particulares 202
2. El Trabajo de Girolamo Cardano 204
3. El trabajo de Pascal-Fermat-Huygens 206
3.1 Problema de la divisin de apuestas 207
3.2 Problemas con dados 213
3.3 Ubicacin del trabajo de Pascal-Fermat-Huygens 219
Captulo 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA 223
1. El Clculo de Probabilidades clsico 225
2. Las probabilidades numerables de mile Borel 230
2.1 Teorema de Borel sobre los nmeros normales 238
3. Surgimiento de la Teora de la Medida 239
3.1 La integral de Cauchy 239
3.2 La integral de Riemann 241
3.3 De la Teora de Integracin a la Teora del Contenido 242
3.4 Teora de la Medida de Borel 244
3.5 Teora de la Medida de Lebesgue 246
4. Identicacin de funciones de probabilidad con medidas 248
5. Construccin de medidas de probabilidad en espacios de dimensin innita 253
5.1 El modelo de Kolmogorov 254
Respuestas a los ejercicios 263
Tabla de la distribucin normal 283
ndice 285
Prlogo
Hemos oido ms de una vez la opinin de que una ciencia
debe hallarse edicada sobre conceptos fundamentales, claros
y precisamente denidos. En realidad, ninguna ciencia, ni
an la ms exacta, comienza por tales deniciones. El ver-
dadero principio de la actividad cientca consiste ms bien
en la descripcin de fenmenos, que luego son agrupados, or-
denados y relacionados entre s.
Ya en esta descripcin se hace inevitable aplicar al material
determinadas ideas abstractas extradas de diversos sectores
y, desde luego, no nicamente de la observacin del nuevo
conjunto de fenmenos descritos... Slo despus de una ms
profunda investigacin del campo de fenmenos de que se
trate resulta posible precisar ms sus conceptos fundamen-
tales cientcos y modicarlos progresivamente, de manera a
extender en gran medida su esfera de aplicacin, hacindo-
los as irrebatibles. ste podr ser el momento de concre-
tarlos en deniciones. Pero el progreso del conocimiento no
tolera tampoco la inalterabilidad de las deniciones. Como
nos lo evidencia el ejemplo de la Fsica, tambin los concep-
tos fundamentales jados en deniciones experimentan una
perpetua modicacin del contenido.
Sigmund Freud
Uno de los conceptos centrales de la Teora de la Probabilidad es el de variable aleatoria, el cual, en un
sentido, generaliza al de evento pues un evento A puede verse como variable aleatoria considerando
su funcin indicadora I
A
. Asociadas a un evento, tenemos dos probabilidades, la del evento y la de su
complemento. En cambio, asociada a una variable aleatoria X, tenemos una familia de eventos, todos
aqullos generados por X, a saber, los eventos de la forma [X B], en donde B es un subconjunto
del conjunto en donde la variable aleatoria toma sus valores.
Dada una variable aleatoria de inters en un determinado problema, el primer objetivo consiste en
encontrar la distribucin de la variable aleatoria, es decir, el conjunto de probabilidades de los eventos
generados por ella. En el caso de las variables aleatorias con valores reales, la distribucin de una
variable aleatoria X queda determinada por su funcin de distribucin F
X
. Dicho de otra manera,
la funcin de distribucin contiene toda la informacin probabilstica de la correspondiente variable
aleatoria, de manera que esta funcin adquiere una importancia bsica.
La funcin de distribucin F
X
de una variable aleatoria es siempre una funcin montona no decre-
ciente, de manera que admite una descomposicin en una parte de saltos y una parte continua.
v
vi PRLOGO
Cuando la parte continua de F
X
es cero, se dice que la variable aleatoria es discreta y en ese caso
F
X
queda determinada por la funcin de densidad f
X
de la variable aleatoria, la cual se dene, en
este caso, mediante la relacin f
X
(x) = P [X = x]. De esta forma, en el caso discreto, el clculo de
cualquier probabilidad se reduce a una suma nita o a una serie, siendo entonces estos conceptos la
herramienta matemtica que se utiliza para estudiar a la variable aleatoria.
Cuando la parte de saltos de F
X
es cero, se dice que la variable aleatoria es continua. En ese
caso, es posible que F
X
sea no slo una funcin continua sino tambin absolutamente continua, es
decir que exista una funcin f
X
tal que F
X
(x) =
R
x

f
X
(y)dy, as que tambin en este caso la
funcin de distribucin queda determinada por una funcin de densidad. De esta forma, en el caso
absolutamente continuo, el clculo de cualquier probabilidad se reduce a una integral, siendo entonces
la Teora de Integracin en una variable la herramienta matemtica que se utiliza para estudiar a la
variable aleatoria.
No siempre existe una funcin de densidad asociada a una variable aleatoria, pero la funcin de
distribucin siempre existe. En general, una funcin de distribucin representa una medida sobre
los conjuntos borelianos, a saber, la medida que comienza por asignar a cada intervalo de la forma
(a, b] la medida F
X
(b) F
X
(a), y que se extiende despus a todos los borelianos. De esta forma, en
general, la herramienta que se requiere para el estudio de una variable aleatoria es la Teora de la
Medida en la recta real.
Es muy frecuente que en un problema de probabilidad estemos interesados no en una sola variable
aleatoria real, sino en una coleccin nita de ellas. Esta coleccin puede verse como un vector
aleatorio pues el conjunto de valores que toma una familia de n variables aleatorias es una n-ada de
nmeros reales, es decir, un vector en R
n
.
Dado un vector aleatorio de inters en un determinado problema, el primer objetivo consiste en
encontrar la distribucin de ese vector aleatorio, es decir, el conjunto de probabilidades de los even-
tos generados por las variables aleatorias que forman el vector, a saber, los eventos de la forma
[(X
1
, . . . , X
n
) B], en donde X
1
, . . . , X
n
son las variables aleatorias que componen el vector aleato-
rio y B es un conjunto boreliano de R
n
.
Al igual que en el caso de una sola variable aleatoria, la distribucin de un vector aleatorio queda
determinada por una funcin, llamada la funcin de distribucin conjunta de la familia de variables
aleatorias que componen al vector. Esta funcin contiene toda la informacin probabilstica del
vector aleatorio.
Tambin en el caso vectorial, la funcin de distribucin conjunta puede ser una funcin de saltos o
una funcin absolutamente continua, en cuyo caso queda determinada por una funcin de densidad.
La herramienta matemtica que se utiliza en estos casos es la Teora de Series Mltiples, en el caso
discreto, y la Teora de Integrales Mltiples, en el caso absolutamente continuo.
No siempre existe una funcin de densidad asociada a un vector aleatorio, pero la funcin de dis-
tribucin conjunta siempre existe. En general, una funcin de distribucin conjunta de n variables
aleatorias representa una medida sobre los conjuntos borelianos de R
n
, de manera que, en general, la
herramienta que se requiere para el estudio de un vector aleatorio es la Teora de la Medida en R
n
.
Un problema de especial inters consiste en determinar el comportamiento en el lmite de deter-
minadas funciones denidas mediante familias nitas de variables aleatorias. En este contexto se
obtienen los teoremas fundamentales de la Teora de la Probabilidad, los llamados teoremas lmite,
entre los que se encuentran la ley dbil de los grandes nmeros, la ley fuerte de los grandes nmeros
y el teorema del lmite central.
Es tambin frecuente que en un problema de probabilidad estemos interesados no en una colec-
cin nita de variables aleatorias reales sino en una innidad de ellas. En ese caso el tratamiento
matemtico se complica un poco pues un conjunto de posibles valores de esa familia innita no puede
PRLOGO vii
verse ya como un elemento de un espacio de dimensin nita, a saber, R
n
para alguna n N, sino
como una funcin denida sobre el conjunto de ndices de la coleccin innita de variables aleatorias.
Por ejemplo, si tenemos una variable aleatoria X
t
para cada nmero real no negativo t, entonces
un conjunto de posibles valores de la familia (X
t
)
t0
se puede representar mediante una funcin
f : [0, ) R, en donde f(t) es el valor que toma la variable aleatoria X
t
.
Dada una coleccin innita (X

de variables aleatorias reales, el primer objetivo consiste en en-


contrar la distribucin de esa familia, es decir, el conjunto de probabilidades de los eventos generados
por las variables aleatorias que la componen, a saber, los eventos de la forma

X

1
, . . . , X

,
en donde X

1
, . . . , X

n
son elementos de la familia y B es un conjunto boreliano de R
n
. de nmeros
reales. El problema aqu es que ahora la coleccin X

1
, . . . , X

n
no es ja.
En este caso, no hay una funcin de distribucin que determine la distribucin de la familia innita
de variables aleatorias. Lo que se hace es buscar una medida sobre el conjunto de los posibles valores
que toma la familia completa, es decir, sobre el conjunto de funciones f : R.
El estudio de la funcin de distribucin de una sola variable aleatoria es un tema que usualmente se
desarrolla en un primer curso de probabilidad. ste se encuentra desarrollado en el primer volumen
de este libro.
El estudio de las funciones de distribucin conjuntas y, en general, de los vectores aleatorios, in-
cluyendo los teoremas lmite, es un tema que usualmente se desarrolla en un segundo curso de
probabilidad. Estos temas son el objeto de estudio de este segundo volumen.
El estudio de las familias innitas de variables aleatorias es un tema que corresponde a la Teora
de Procesos Estocsticos, la cual actualmente es de fundamental importancia en la Teora de la
Probabilidad y sus aplicaciones.
Este segundo volumen integra todo el material que forma parte del programa de un segundo curso
de probabilidad que se ofrece en varias universidades.
Al igual que en el primer volumen de este libro, se pretende aqu presentar una introduccin a
la formulacin moderna de la Teora de la Probabilidad, intentando motivar heursticamente los
conceptos, ubicar el origen de ellos y exponer los resultados con el mayor rigor posible.
Este segundo volumen est dividido en tres grandes partes; en la primera se realiza el estudio de las
distribuciones de vectores aleatorios, en la segunda se tratan los teoremas lmite y en la tercera se
exponen temas sobre la historia de la Teora de la Probabilidad.
A su vez, la primera parte se divide en cuatro captulos: en el primero, distribuciones conjuntas, se
introduce el concepto de funcin de distribucin conjunta de una familia nita de variables aleato-
rias; en particular, se tratan los casos discreto y absolutamente continuo, en los cuales existe una
funcin de densidad conjunta. Finalmente se estudia la independencia de variables aleatorias, la
cual se caracteriza utilizando la funcin de distribucin conjunta y la densidad conjunta, cuando
existe. En el segundo, distribuciones de funciones de vectores aleatorios, se trata el problema consis-
tente en encontrar la distribucin de sumas, cocientes, productos y, en general, de cualquier funcin
de una pareja de variables aleatorias; se estudia tambin el problema consistente en encontrar la
distribucin conjunta de variables aleatorias denidas como funciones de n variables aleatorias con
distribucin conjunta conocida; adems, se estudian los estadsticos de orden de una familia nita
de variables aleatorias absolutamente continuas, independientes e idnticamente distribuidas; nal-
mente, se tratan problemas relativos al clculo de esperanzas de funciones de una familia nita de
variables aleatorias y se introducen los conceptos de correlacin y covarianza. En el tercer captulo,
distribucin normal multivariada, se estudian las transformaciones lineales invertibles de vectores
aleatorios formados por variables aleatorias independientes, todas ellas con distribucin normal es-
tndar, obteniendo de esta forma lo que se llama la distribucin normal multivariada; en particular,
viii PRLOGO
se aplican estas ideas para demostrar algunos resultados tiles en la Estadstica. En el cuarto cap-
tulo, esperanzas condicionales, se introduce un concepto de especial importancia en la Teora de la
Probabilidad moderna, el de esperanza condicional de una variable aleatoria conocido el valor de otra
variable aleatoria; se consideran tambin las distribuciones condicionales de una variable aleatoria
dada otra, tanto en el caso en que las dos son discretas o absolutamente continuas, como en aqul
en el cual una es discreta y otra absolutamente continua.
La segunda parte consta de un slo captulo: teoremas lmite. Se comienza este captulo estudiando
la convergencia de variables aleatorias, introduciendo tres diferentes tipos de convergencia con-
vergencia en probabilidad, convergencia casi segura y convergencia en distribucin y se estudia
la relacin que hay entre estos modos de convergencia. Se contina con el estudio de los teoremas
lmite, demostrando algunos de los teoremas fundamentales de la Teora de la Probabilidad: las leyes
dbil y fuerte de los grandes nmeros y el teorema del lmite central; adems, se trata el problema
de la convergencia de series aleatorias.
Finalmente, la tercera parte se divide en dos captulos: en el primero, surgimiento del Clculo de
Probabilidades, se analiza principalmente el trabajo realizado, en la Teora de la Probabilidad, por
Blaise Pascal, Pierre de Fermat y Christiaan Huygens, quienes dieron las bases para el desarrollo
de un Clculo de Probabilidades como disciplina matemtica independiente.En el segundo captulo,
surgimiento de la Teora de la Probabilidad moderna, se analiza el proceso que condujo a la formu-
lacin axiomtica de la Teora de la Probabilidad, dada por Andrey Nikolaevich Kolmogorov en el
ao 1933.
Miguel A. Garca Alvarez
Junio, 2003
Departamento de Matemticas
Facultad de Ciencias,UNAM
MXICO D.F., 04510
e-mail: magaz@servidor.unam.mx
Notacin
Conjunto vaco
N Conjunto de los nmeros naturales
Z Conjunto de los nmeros enteros
R Conjunto de los nmeros reales
{n, . . . , m} Conjunto de nmeros enteros entre n y m inclusive
{n, n + 1 . . .} Conjunto de nmeros enteros mayores o iguales a n
A B Unin de los conjuntos A y B
A B Interseccin de los conjuntos A y B
S
n
k=1
A
k
Unin de los conjuntos A
1
, . . . , A
n
T
n
k=1
A
k
Interseccin de los conjuntos A
1
, . . . , A
n
A
c
Complemento del conjunto A
AB Producto cartesiano de los conjuntos A y B
A B El conjunto A est contenido en el conjunto B
A B El conjunto A contiene al conjunto B
(a, b) Intervalo abierto {x R |a < x < b}
[a, b] Intervalo cerrado {x R |a x b}
(a, b] Intervalo semiabierto {x R |a < x b}
[a, b) Intervalo semiabierto {x R |a x < b}
x y Producto punto de los vectores x y y
kxk Norma del vector x
|x| Valor absoluto del nmero real x
[[x]] Mayor entero menor o igual a x
z Conjugado del nmero complejo z
mn(a, b) Mnimo entre a y b
m ax(a, b) Mximo entre a y b
x
+
m ax(x, 0)
x

m ax(x, 0)
P
n
k=1
x
k
Suma de los nmeros x
1
, . . . , x
n
Q
n
k=1
x
k
Producto de los nmeros x
1
, . . . , x
n
ln x Logaritmo natural de x

n
k

Combinaciones de n elementos tomados de k en k


g f Composicin de las funciones f y g
f : A 7B funcin denida sobre el conjunto A, con valores en el conjunto B
x x tiende al valor
ix
Parte 1
VECTORES ALEATORIOS
CAPTULO 1
DISTRIBUCIONES CONJUNTAS
Una partcula puede tener una posicin o puede tener
una velocidad, pero en sentido estricto no puede tener
las dos... Cuanto ms aclaramos el secreto de la posi-
cin, ms profundamente se esconde el secreto de la ve-
locidad... Podemos distribuir como queramos la incer-
tidumbre, pero nunca podremos eliminarla.
Werner Heisenberg
Lo que hace que la Naturaleza entrae contenido pro-
babilstico no es nuestro desconocimiento del mecanismo
interno, de las complicaciones internas. La probabilidad
parece ser de algn modo intrnseca... Un lsofo dijo
una vez: Para que la ciencia exista, es necesario que las
mismas condiciones produzcan siempre los mismos resul-
tados. Pues bien, no los producen.
Richard Phillips Feynman
1.1. Funciones de distribucin conjuntas
En todo este volumen se asume que se tiene un espacio de probabilidad (, =, P) correspon-
diente a un determinado experimento aleatorio.
Recordemos adems que, dadas las variables aleatorias X : 7 R, X
1
: 7 R, . . .,
X
n
: 7 R, y los subconjuntos de R, B, B
1
, . . . , B
n
, denotamos por [X B] al con-
junto { : X() B} y por [X
1
B
1
, . . . , X
n
B
n
] a la interseccin de los conjuntos
{ : X
k
() B
k
}, para k {1, . . . , n}. Tambin, si A R
n
, denotamos por
[(X
1
, . . . , X
n
) A] al conjunto { : (X
1
(), . . . , X
n
()) A}.
Toda la informacin probabilstica relativa a una variable aleatoria X est contenida en su
funcin de distribucin pues, disponiendo de esta ltima, se puede obtener la probabilidad
de cualquier evento cuya ocurrencia o no ocurrencia dependa del valor que tome X. Dos
variables aleatorias pueden ser distintas, vistas como funciones denidas sobre el espacio
muestral , pero ser idnticas en cuanto a su distribucin y entonces, desde el punto de vista
probabilstico, nos dan exactamente la misma informacin y pueden ser entonces utilizadas
3
4 1. DISTRIBUCIONES CONJUNTAS
indistintamente para el mismo propsito. Por ejemplo, consideremos el experimento aleatorio
consistente en elegir al azar un nmero real en el intervalo (0, 1) y denamos X como el
nmero que se selecciona. El espacio muestral de este experimento es el mismo intervalo
(0, 1). Denamos ahora una nueva variable aleatoria Y mediante la frmula Y = 1 X.
Vistas como funciones denidas sobre el espacio muestral, X y Y son diferentes pues por
un lado se tiene X(x) = x, mientras que por el otro Y (x) = 1 x. Ahora bien, como la
eleccin se realiza al azar, X tiene distribucin uniforme en el intervalo (0, 1) y se puede ver
inmediatamente que la distribucin de Y tambin es uniforme en el intervalo (0, 1). Por tal
motivo, desde el punto de vista probabilstico, X y Y tienen el mismo comportamiento y
pueden ser utilizadas indistintamente con el mismo propsito. Por ejemplo, en un problema
se simulacin, para generar n nmeros que puedan considerarse como provenientes de una
variable aleatoria con distribucin exponencial de parmetro = 1, se pueden generar n
nmeros aleatorios x
1
, . . . , x
n
cuya distribucin sea uniforme en el intervalo (0, 1) y denir,
para k {1, . . . , n}, y
k
= ln x
k
. Los nmeros y
1
, . . . , y
n
resuelven entonces el problema
planteado. Pero deniendo z
k
= ln(1 x
k
), los nmeros z
1
, . . . , z
n
tambin lo resuelven.
Cuando en un determinado problema son varias las variables aleatorias de inters, la coleccin
de las correspondientes funciones de distribucin nos da la informacin probabilstica completa
de cada una de las variables aleatorias por separado. Sin embargo, esta coleccin no nos
da la informacin completa de las variables aleatorias vistas como una familia pues falta la
informacin correspondiente a la posible relacin que puede existir entre ellas. Los siguientes
2 ejemplos ilustran este punto.
Ejemplo 1.1. Consideremos el experimento aleatorio consistente en seleccionar al azar un
punto en el interior del cuadrado de vrtices A(0, 0), B(1, 0), C(1, 1) y D(0, 1). Denamos
entonces las variables aleatorias X y Y como la abscisa y ordenada, respectivamente, del punto
seleccionado.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
Recordemos que en un experimento de este tipo, la probabilidad de que el punto seleccionado
est contenido en un subconjunto A de R
2
es igual al cociente del rea de AC entre el rea
de C, en donde C representa la regin en la cual se selecciona el punto. Con base en esto,
las funciones de distribucin de X y Y pueden obtenerse fcilmente, llegndose al siguiente
resultado:
1.1. FUNCIONES DE DISTRIBUCIN CONJUNTAS 5
F
X
(x) =

0 si x 0
x si 0 < x < 1
1 si x 1
F
Y
(y) =

0 si y 0
y si 0 < y < 1
1 si y 1
Ejemplo 1.2. Consideremos ahora el experimento aleatorio consistente en seleccionar al azar
un punto sobre la diagonal de pendiente 1 del cuadrado de vrtices A(0, 0), B(1, 0), C(1, 1) y
D(0, 1). Denamos, como antes, las variables aleatorias X y Y como la abscisa y ordenada,
respectivamente, del punto seleccionado.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
Recordemos que ahora, la probabilidad de que el punto seleccionado est contenido en un
subconjunto A de R
2
es igual al cociente de la longitud de A D entre la longitud de D, en
donde D representa la regin en la cual se selecciona el punto. Con base en esto, las funciones
de distribucin de X y Y pueden, nuevamente, obtenerse fcilmente, llegndose al siguiente
resultado:
F
X
(x) =

0 si x 0
x si 0 < x < 1
1 si x 1
F
Y
(y) =

0 si y 0
y si 0 < y < 1
1 si y 1
Como puede verse, en ambos problemas se obtienen las mismas funciones de distribucin para
las variables aleatorias X y Y. Sin embargo, es evidente que la relacin entre X y Y es distinta
en los dos problemas. En el ejemplo 1.2, conociendo el valor de X se obtiene inmediatamente
el de Y pues Y = X; en cambio, en el ejemplo 1.1, el conocimiento de X no nos da informacin
sobre el valor de Y pues en cualquier caso ste puede ser cualquier nmero entre 0 y 1.
En el caso de una familia de n variables aleatorias, el papel central, que juega la funcin
de distribucin cuando se trata de una sola variable aleatoria, no lo tiene la coleccin de las
n funciones de distribucin correspondientes, sino lo que se llama la funcin de distribucin
conjunta, concepto que se dene a continuacin:
6 1. DISTRIBUCIONES CONJUNTAS
Definicin 1.3 (Funcin de distribucin conjunta). Sean X
1
, . . . , X
n
n variables aleato-
rias. La funcin F
X
1
,...,Xn
: R
n
7[0, 1], denida por:
F
X
1
,...,X
n
(x
1
, . . . , x
n
) = P [X
1
x
1
, . . . , X
n
x
n
]
es llamada la funcin de distribucin conjunta de X
1
, . . . , X
n
.
Para ilustrar esta denicin, encontremos la funcin de distribucin conjunta de X y Y en
cada uno de los dos ejemplos mencionados previamente.
Ejemplo 1.4. En el ejemplo 1.1, si 0 < x < 1 y 0 < y < 1, entonces F
X,Y
(x, y) =
P [X x, Y y] es igual al rea de la regin sombreada de la gura siguiente:
0
0.2
0.4
0.6
0.8
1
0.2 0.4 0.6 0.8 1 x
De manera que se obtiene, F
X,Y
(x, y) = xy.
Considerando los diferentes casos, se obtiene:
F
X,Y
(x, y) =

0 si x 0 y 0
xy si 0 < x < 1, 0 < y < 1
x si 0 < x < 1, y 1
y si 0 < y < 1, x 1
1 si x 1, y 1
En el ejemplo 1.2, si 0 < x < 1 y 0 < y < 1, entonces F
X,Y
(x, y) = P [X x, Y y] es
igual al cociente de la longitud de la regin marcada en negrita de la gura siguiente, entre la
longitud de la diagonal del cuadrado.
0
0.2
0.4
0.6
0.8
1
0.2 0.4 0.6 0.8 1 x
De manera que se obtiene, F
X,Y
(x, y) = x.
Considerando los diferentes casos, se obtiene:
1.1. FUNCIONES DE DISTRIBUCIN CONJUNTAS 7
F
X,Y
(x, y) =

0 si x 0 y 0
x si 0 < x < 1, y x
y si 0 < y < 1, y < x
1 si x 1, y 1
Como puede verse, las funciones de distribucin conjuntas resultan diferentes. La distinta
relacin que hay entre X y Y en los dos problemas no queda reejada en las distribuciones de
X y Y por separado, pero si se maniesta en las distribuciones conjuntas.
La funcin de distribucin conjunta de 2 variables aleatorias nos da la informacin probabils-
tica de la pareja de variables aleatorias vista como un todo, pero, adems, de acuerdo con
la siguiente proposicin, nos da la informacin probabilstica de cada variable aleatoria por
separado, cuyas distribuciones son conocidas como distribuciones marginales.
Proposicin 1.5. Sean X y Y dos variables aleatorias cualesquiera y sea F
X,Y
su funcin
de distribucin, entonces:
(i) lm
x
F
X,Y
(x, y) = F
Y
(y), para cualquier y R.
(ii) lm
y
F
X,Y
(x, y) = F
X
(x), para cualquier x R.
Demostracin
Sea y R y (x
n
) una sucesin montona creciente de nmeros reales tal que lm
n
x
n
= .
Entonces, la sucesin de eventos [X x
n
, Y y] es montona no decreciente y [Y y] =
S

n=1
[X x
n
, Y y], por lo tanto:
F
Y
(y) = P [Y y] = lm
n
P [X x
n
, Y y] = lm
n
F
X,Y
(x
n
, y)
La otra relacin se demuestra de manera similar.
El resultado se puede extender al caso de n variables aleatorias, al igual que algunas propie-
dades que tiene la funcin de distribucin de una sola variable aleatoria. Estas propiedades,
cuya demostracin se deja como ejercicio, se enuncian en la siguiente proposicin:
Proposicin 1.6. Sean X
1
, . . . , X
n
n variables aleatorias y sea F
X
1
,...,Xn
su funcin de dis-
tribucin conjunta, entonces, para cada (x
1
, . . . , x
j1
, x
j+1
, . . . , x
n
) R
n1
, se tiene:
a) la funcin x 7 F
X
1
,...,Xn
(x
1
, . . . , x
j1
, x, x
j+1
, . . . , x
n
) es no decreciente y continua por la
derecha.
b) lm
x
F
X
1
,...,X
n
(x
1
, . . . , x
j1
, x, x
j+1
, . . . , x
n
)
= F
X
1
,,...,X
j1
,X
j+1
,...,Xn
(x
1
, . . . , x
j1
, x
j+1
, . . . , x
n
)
c) lm
x
F
X
1
,...,X
n
(x
1
, . . . , x
j1
, x, x
j+1
, . . . , x
n
) = 0
Las condiciones arriba mencionadas no son sucientes para que una funcin F sea una funcin
de distribucin. En efecto, consideremos, por ejemplo, la siguiente funcin:
F(x, y) =

0 si x < 0 y < 0
x +y si x +y < 1, x 0, y 0
1 si x +y 1, x 0, y 0
Esta funcin tiene las propiedades siguientes:
(i) Para cada y R, la funcin x 7F(x, y) es no decreciente y continua por la derecha
y lm
x
F(x, y) = 0.
8 1. DISTRIBUCIONES CONJUNTAS
(ii) Para cada x R, la funcin y 7F(x, y) es no decreciente y continua por la derecha
y lm
y
F(x, y) = 0.
(iii) Las funciones G : R 7[0, 1] y H : R 7[0, 1], denidas por G(y) = lm
x
F(x, y)
y H(x) = lm
y
F(x, y), respectivamente, son funciones de distribucin en una
variable.
Sin embargo, F no es una funcin de distribucin conjunta de alguna pareja de variables
aleatorias X, Y . En efecto, si lo fuera, se tendra:
P [X x] = lm
y
F
X,Y
(x, y) =

0 si x < 0
1 si x 0
P [Y y] = lm
x
F
X,Y
(x, y) =

0 si y < 0
1 si y 0
As que, P [X = 0] = P [Y = 0] = 1.
Por lo tanto, se tendra P [X = 0, Y = 0] = 1.
Pero, P [X = 0, Y = 0] F(0, 0) = 0, lo cual es una contradiccin.
En realidad, una funcin de distribucin representa una medida. En el caso de una sola variable
se tratara de una medida sobre subconjuntos de nmeros reales. En el caso de la funcin de
distribucin de dos variables aleatorias X y Y se tratara de una medida sobre subconjuntos de
R
2
. En ese caso, dicha medida comenzara asignando el valor F
X,Y
(x, y) = P [X x, Y y]
al rectngulo innito (, x] (, y]. De manera ms general, si x
1
x
2
y y
1
y
2
y C es
el rectngulo (x
1
, x
2
] ( y
1
, y
2
], entonces:
P [(X, Y ) C] = F
X,Y
(x
2
, y
2
) F
X,Y
(x
1
, y
2
) F
X,Y
(x
2
, y
1
) +F
X,Y
(x
1
, y
1
)
As que ese valor sera entonces la medida asignada al rectngulo C.
Obsrvese que, en particular, la cantidad:
F
X,Y
(x
2
, y
2
) F
X,Y
(x
1
, y
2
) F
X,Y
(x
2
, y
1
) +F
X,Y
(x
1
, y
1
)
es no negativa cualquiera que sea la funcin de distribucin F
X,Y
.
Se puede demostrar que basta con que se cumpla esta condicin adicional para que una funcin
de dos variables represente la distribucin conjunta de dos variables aleatorias. Es decir, se
tiene el siguiente resultado:
Proposicin 1.7. Una funcin F : R
2
7 R representa la funcin de distribucin de una
pareja de variables aleatorias X, Y si y slo si se cumplen las siguientes condiciones:
(i) Para cada y R, la funcin x 7F(x, y) es no decreciente y continua por la derecha
y lm
x
F(x, y) = 0.
(ii) Para cada x R, la funcin y 7F(x, y) es no decreciente y continua por la derecha
y lm
y
F(x, y) = 0.
(iii) Las funciones G : R 7[0, 1] y H : R 7[0, 1], denidas por G(y) = lm
x
F(x, y)
y H(x) = lm
y
F(x, y), respectivamente, son funciones de distribucin en una
variable.
(iv) Si x
1
x
2
y y
1
y
2
entonces F(x
2
, y
2
) F(x
1
, y
2
) F(x
2
, y
1
) +F(x
1
, y
1
) 0.
Obsrvese que en el ejemplo considerado arriba se tiene:
F(1, 1) F(0, 1) F(1, 0) +F(0, 0) = 1
1.2. FUNCIONES DE DENSIDAD CONJUNTAS 9
Es decir, si F fuera la funcin de distribucin de una pareja de variables aleatoria X, Y y C
es el cuadrado 0 < x 1, 0 < y 1, entonces se tendra P [(X, Y ) C] = 1, lo cual es una
contradiccin.
De manera general, la funcin de distribucin conjunta, de n variables aleatorias, representa
una medida sobre R
n
, y la familia de variables aleatorias X
1
, . . . , X
n
puede verse como la
funcin de en R
n
que asigna a cada el vector (X
1
(), . . . , X
n
()); de esta forma,
podemos decir que las variables aleatorias forman un vector aleatorio (X
1
, . . . , X
n
).
1.2. Funciones de densidad conjuntas
Cuando se estudia la distribucin de una variable aleatoria por separado, hay dos casos en los
cuales sta queda determinada por una funcin de densidad. Nos referimos al caso discreto y al
absolutamente continuo. Esta situacin puede extenderse al caso de una familia de variables
aleatorias, lo cual se desarrolla a continuacin. Para claridad en la exposicin, primero se
trata el caso de una familia formada por dos variables aleatorias y despus se enuncian los
resultados para el caso general.
Definicin 1.8 (Vector aleatorio discreto bidimensional). Se dice que la pareja de
variables aleatorias X, Y forman un vector aleatorio discreto si existe una coleccin nita o
innita numerable de vectores (x
1
, y
1
), (x
2
, y
2
), . . . tales que:
(i) P [X = x
m
, Y = y
m
] > 0 para cualquier m
(ii)
P
m
P [X = x
m
, Y = y
m
] = 1
En este caso, la funcin f
X,Y
: R
2
7 [0, 1] denida por f
X,Y
(x, y) = P [X = x, Y = y] es
llamada la funcin de densidad conjunta del vector (X, Y ).
La propiedad de la aditividad numerable implica la siguiente relacin:
F
X,Y
(x, y) =
P
{(u,v)R
2
|ux,vy}
f
X,Y
(u, v)
De manera ms general, si A R
2
, la propiedad de la aditividad numerable tambin implica
la relacin:
(1.1) P [(X, Y ) A] =
X
{(x,y)R
2
|(x,y)A}
f
X,Y
(x, y)
la cual es sumamente til para calcular probabilidades de eventos cuya ocurrencia depende
tanto de los valores de X como de los de Y .
Ejemplo 1.9. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

cx si x, y {1, . . . , N}
0 en otro caso
en donde N es un entero positivo. Encuentre a) el valor de c, b) P [X = Y ], c) P [X < Y ] y
d) P [X > Y ].
Solucin
a. 1 =
P
{(x,y)|x,y{1,...,N}}
f
X,Y
(x, y) = c
P
{(x,y)|x,y{1,...,N}}
x = cN
P
N
x=1
x = c
N
2
(N+1)
2
10 1. DISTRIBUCIONES CONJUNTAS
Por lo tanto, c =
2
N
2
(N+1)
b. P [X = Y ] =
P
{(x,y)|x,y{1,...,N},x=y}
f
X,Y
(x, y) = c
P
{(x,y)|x,y{1,...,N},x=y}
x
= c
P
N
x=1
x =
2
N
2
(N+1)
N(N+1)
2
=
1
N
c. P [X < Y ] =
P
{(x,y)|x,y{1,...,N},x<y}
f
X,Y
(x, y) = c
P
{(x,y)|x,y{1,...,N},x<y}
x
= c
P
N1
x=1
P
N
y=x+1
x = c
P
N1
x=1
x(N x) = c
h
N
P
N1
x=1
x
P
N1
x=1
x
2
i
=
2
N
2
(N+1)
h
N
(N1)N
2

(N1)N(2N1)
6
i
=
1
3
N1
N
d. P [X > Y ] = 1 P [X < Y ] P [X = Y ] = 1
N1
3N

1
N
=
2
3
N1
N
Obsrvese que, en el tipo de problemas que ilustra el ltimo ejemplo, en general, se tendr que
encontrar el valor de una doble sumatoria. Este valor podr obtenerse ya sea jando primero
x y sumando sobre los valores correspondientes de y, para concluir realizando la sumatoria
sobre x, o bien jando primero y y sumando sobre los valores correspondientes de x, para
concluir realizando la sumatoria sobre y. Esto equivale a utilizar alguno de los dos mtodos
siguientes:
P [(X, Y ) A] =
P
x
P [(X, Y ) A, X = x] =
P
x
P [(x, Y ) A, X = x]
(1.2) =
X
x
X
{y:(x,y)A}
P [X = x, Y = y]
P [(X, Y ) A] =
P
y
P [(X, Y ) A, Y = y] =
P
y
P [(X, y) A, Y = y]
(1.3) =
X
y
X
{x:(x,y)A}
P [X = x, Y = y]
Por ejemplo, la parte c del ejemplo anterior puede tambin obtenerse de la siguiente manera:
P [X < Y ] =
P
N
y=1
P [X < Y, Y = y] =
P
N
y=1
P [X < y, Y = y]
=
P
N
y=2
P
y1
x=1
P [X = x, Y = y] = c
P
N
y=2
P
y1
x=1
x = c
P
N1
x=1
y(y1)
2
=
c
2
h
P
N
y=2
y
2

P
N
y=2
y
i
=
c
2
h
P
N
y=1
y
2

P
N
y=1
y
i
=
1
N
2
(N+1)
h
N(N+1)(2N+1)
6

N(N+1)
2
i
=
1
N

2N+1
6

1
2

=
1
3
N1
N
Evidentemente, el orden que se escoja conduce al mismo resultado, aunque alguno de ellos
puede conducir a clculos ms complicados que el otro.
A continuacin se trata la extensin de lo hecho arriba para el caso de 2 variables aleatorias
al caso de n.
Definicin 1.10 (Vector aleatorio discreto n-dimensional). Se dice que las variables
aleatorias X
1
, . . . , X
n
forman un vector aleatorio discreto si existe una coleccin nita o in-
nita numerable de vectores (x
(1)
1
, . . . , x
(1)
n
), (x
(2)
1
, . . . , x
(2)
n
), . . . tales que:
(i) P
h
X
1
= x
(m)
1
, . . . , X
n
= x
(m)
n
i
> 0 para cualquier m
1.2. FUNCIONES DE DENSIDAD CONJUNTAS 11
(ii)
P
m
P
h
X
1
= x
(m)
1
, . . . , X
n
= x
(m)
n
i
= 1
En este caso, la funcin f
X
1
,...,X
n
: R
n
7[0, 1] denida por:
f
X
1
,...,X
n
(x
1
, . . . , x
n
) = P [X
1
= x
1
, . . . , X
n
= x
n
]
es llamada la funcin de densidad conjunta de X
1
, . . . , X
n
.
La propiedad de la aditividad numerable implica la siguiente relacin:
F
X
1
,...,Xn
(x
1
, . . . , x
n
) =
P
{(y
1
,...,yn)|y
1
x
1
,...,ynxn,}
f
X
1
,...,Xn
(y
1
, . . . , y
n
)
De manera ms general, si A R
n
, la propiedad de la aditividad numerable tambin implica:
P [(X
1
, . . . , X
n
) A] =
P
{(x
1
,...,x
n
)|(x
1
,...,x
n
)A}
f
X
1
,...,Xn
(x
1
, . . . , x
n
)
Ejemplo 1.11 (Distribucin multinomial). Consideremos un experimento aleatorio E
que admita nicamente un nmero nito de posibles resultados, los cuales denotaremos por
e
1
, . . . , e
r
, y sean p
1
, . . . , p
r
las respectivas probabilidades de que stos ocurran. Al considerar
el experimento aleatorio consistente en la realizacin de n repeticiones independientes de E,
resulta de inters denir, para cada k {1, . . . , r}, la variable aleatoria N
k
como el nmero
de veces en que se obtiene el resultado e
k
.
Para obtener la funcin de densidad conjunta del vector (N
1
, . . . , N
r
), consideremos r nmeros
enteros no negativos, n
1
, . . . , n
r
, tales que
P
r
k=1
n
k
= n.
El espacio muestral, correspondiente al experimento aleatorio consistente en la realizacin de
n repeticiones independientes de E, consiste de eneadas (e
i
1
, . . . , e
in
), en donde i
1
, . . . , i
n

{1, . . . , r}, de tal manera que la probabilidad de obtener la eneada (e
i
1
, . . . , e
i
n
) es igual a
p
i
1
p
in
.
El evento [N
1
= n
1
, . . . , N
r
= n
r
] consta de todas las eneadas tales que, para k {1, . . . , r},
contengan n
k
veces el resultado e
k
. Cada una de esas eneadas ocurre con probabilidad p
n
1
1
p
n
r
r
,
as que para calcular la probabilidad del evento [N
1
= n
1
, . . . , N
r
= n
r
] resta nicamente obtener
el nmero de eneadas que lo componen.
Ahora bien, en n repeticiones de E, el total de maneras en que se puede obtener, para k
{1, . . . , r}, n
k
veces el resultado e
k
es igual a:

n
n
1

nn
1
n
2

nn
1
n
r1
n
r

=
n!
n
1
!(nn
1
)!
(nn
1
)!
n
2
!(nn
1
n
2
)!

(nn
1
n
r1
)!
nr!
=
n!
n
1
!n
2
!nr!
Se tiene entonces:
f
N
1
,...Nr
(n
1
, . . . , n
r
) =

n!
n
1
!n
r
!
p
n
1
1
p
n
r
r
si
P
r
k=1
n
k
= n, n
k
{0, 1, . . . , n}
0 en otro caso
Definicin 1.12 (Distribucin multinomial). Se dice que el vector aleatorio (N
1
, . . . , N
r
)
tiene distribucin multinomial de parmetros n, p
1
, . . . , p
r
si su funcin de densidad est dada
por:
f
N
1
,...Nr
(n
1
, . . . , n
r
) =

n!
n
1
!n
r
!
p
n
1
1
p
n
r
r
si
P
r
k=1
n
k
= n, n
k
{0, 1, . . . , n}
0 en otro caso
Proposicin 1.13. Sea (N
1
, . . . , N
r
) un vector aleatorio con distribucin multinomial de pa-
rmetros n, p
1
, . . . , p
r
. Entonces, dada cualquier subcoleccin N
i
1
, . . . , N
i
s
, tomada de entre
12 1. DISTRIBUCIONES CONJUNTAS
las variables aleatorias N
1
, . . . , N
r
, el vector aleatorio (N
i
1
, . . . , N
i
s
, n
P
s
j=1
N
i
j
) tiene dis-
tribucin multinomial de parmetros n, p
i
1
, . . . , p
is
, 1
P
s
j=1
p
i
j
.
Demostracin
Obsrvese primero que el vector aleatorio (N
1
, . . . , N
r
) tiene distribucin multinomial de
parmetros n, p
1
, . . . , p
r
si y slo si N
r
= n
P
r1
k=0
N
k
y, si n
1
, . . . , n
r1
son enteros no
negativos tales que
P
r1
k=1
n
k
n, entonces:
P [N
1
= n
1
, . . . , N
r1
= n
r1
]
=
n!
n
1
!n
2
!n
r1
!(nn
1
n
r1
)!
p
n
1
1
p
n
r1
r1
(1 p
1
p
r1
)
nn
1
n
r1
Por otra parte, basta con demostrar el resultado para s = r 2 pues el resultado general, para
cualquier s {1, . . . , r 2}, se obtiene aplicando r s 1 veces dicho resultado. Adems,
reordenando la coleccin N
1
, . . . , N
r
, se puede asumir que i
k
= k. De esta manera, para
s = r 2 y n
1
, . . . , n
r2
enteros no negativos tales que m =
P
r2
k=1
n
k
n, se tiene:
P [N
1
= n
1
, . . . , N
r2
= n
r2
] =
P
nm
n
r1
=0
P [N
1
= n
1
, . . . , N
r1
= n
r1
]
=
P
nn
1
n
r2
n
r1
=0
n!
n
1
!n
2
!n
r1
!(nmn
r1
)!
p
n
1
1
p
n
r1
r1
(1 p
1
p
r1
)
nmn
r1
=
n!
n
1
!n
r2
!
p
n
1
1
p
n
r2
r2
P
nm
n
r1
=0
1
n
r1
!(nmn
r1
)!
p
n
r1
r1
(1 p
1
p
r1
)
nmn
r1
=
n!
n
1
!n
r2
!(nm)!
p
n
1
1
p
n
r2
r2
P
nm
n
r1
=0
(nm)!
n
r1
!(nmn
r1
)!
p
n
r1
r1
(1 p
1
p
r1
)
nmn
r1
=
n!
n
1
!n
r2
!(nm)!
p
n
1
1
p
n
r2
r2
P
nm
n
r1
=0

nm
n
r1

p
n
r1
r1
(1 p
1
p
r1
)
nmn
r1
=
n!
n
1
!n
r2
!(nm)!
p
n
1
1
p
n
r2
r2
(1 p
1
p
r2
)
nm
Corolario 1.14. Sea (N
1
, . . . , N
r
) un vector aleatorio con distribucin multinomial de par-
metros n, p
1
, . . . , p
r
, entonces, para k {1, . . . , r}, la variable aleatoria N
k
tiene distribucin
binomial de parmetros n y p
k
.
La denicin de funcin de densidad en el caso n-dimensional absolutamente continuo es
similar a la denicin en el caso de una sola variable aleatoria.
Definicin 1.15 (Vector aleatorio absolutamente continuo). Se dice que la funcin
de distribucin conjunta, F
X
1
,...,X
n
, de las variables aleatorias X
1
, . . . , X
n
es absolutamente
continua si existe una funcin f
X
1
,...,Xn
: R
n
7R integrable tal que:
F
X
1
,...,Xn
(x
1
, . . . , x
n
) =
R
x
1


R
x
n

f
X
1
,...,Xn
(y
1
, . . . , y
n
)dy
n
dy
1
para cualquier vector (x
1
, . . . , x
n
) R
n
.
En este caso se dice tambin que las variables aleatorias X
1
, . . . , X
n
forman un vector aleato-
rio absolutamente continuo y la funcin f
X
1
,,...,X
n
es llamada una funcin de densidad
conjunta de X
1
, . . . , X
n
.
Al igual que en el caso de una sola variable aleatoria, cuando existe una funcin de densidad
conjunta de n variables aleatorias, X
1
, . . . , X
n
, sta no es nica. En efecto, dada una de ellas,
se puede, por ejemplo, modicar su valor en un nmero nito de puntos y la nueva funcin
que se obtiene sigue siendo una funcin de densidad conjunta de X
1
, . . . , X
n
.
Dado un vector (x
1
, . . . , x
n
) R
n
, denamos A = {(y
1
, . . . , y
n
) | y
1
x
1
, . . . , y
n
x
n
}. La
propiedad que caracteriza a una funcin de densidad conjunta de X
1
, . . . , X
n
se puede escribir
entonces de la siguiente manera:
1.2. FUNCIONES DE DENSIDAD CONJUNTAS 13
(1.4) P [(X
1
, . . . , X
n
) A] =
Z

Z
A
f
X
1
,...,Xn
(y
1
, . . . , y
n
)dy
1
dy
n
Se puede demostrar que esta misma relacin se cumple para cualquier subconjunto A R
n
para el cual la integral
R

R
A
f
X
1
,...,X
n
(y
1
, . . . , y
n
)dy
1
dy
n
est bien denida.
Ejemplo 1.16. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
y
e

x
y
e
y
si x > 0, y > 0
0 en otro caso
Encuentre a) P[X < 2Y ] y b) P[Y < 2X].
Solucin
a. P[X < 2Y ] =
R

0
R
2y
0
1
y
e

x
y
e
y
dxdy =
R

0
e
y
R
2y
0
1
y
e

x
y
dxdy
=
R

0
e
y
(1 e
2
)dy = 1 e
2
b. P[Y < 2X] =
R

0
R

y
2
1
y
e

x
y
e
y
dxdy =
R

0
e
y
R

y
2
1
y
e

x
y
dxdy =
R

0
e
y
e

1
2
dy = e

1
2
La funcin de distribucin conjunta de las variables aleatorias X y Y del ejemplo 1.1 es
absolutamente continua. En efecto, la funcin:
f
X,Y
(x, y) =

1 si 0 < x < 1, 0 < y < 1
0 en otro caso
es una funcin de densidad conjunta de X y Y .
En cambio, la funcin de distribucin conjunta de las variables aleatorias X y Y del ejemplo
1.2 no es absolutamente continua. En efecto, si existiera una funcin de densidad conjunta,
f
X,Y
, de X y Y , se tendra 1 = P [(X, Y ) D] =
RR
D
f
X,Y
(x, y)dydx = 0, ya que el rea de D
es cero. Obsrvese que en este caso la funcin de distribucin conjunta F
X,Y
es una funcin
continua y que, vistas por separado, tanto X como Y son absolutamente continuas.
En general, se puede armar que si la pareja (X, Y ) toma nicamente valores dentro de un
subconjunto Ade R
2
de rea cero, entonces la funcin de distribucin F
X,Y
no es absolutamente
continua pues en caso de serlo se tendra:
1 = P [(X, Y ) A] =
RR
A
f
X,Y
(x, y)dydx = 0.
Ejemplo 1.17. Un experimento aleatorio consiste en seleccionar al azar un punto sobre la
base AB de un tringulo equiltero ABC cada uno de cuyos lados mide 2 unidades. Sean X
y Y las distancias del punto seleccionado a los vrtices C y A, respectivamente. Existe una
funcin de densidad conjunta de X y Y ?
14 1. DISTRIBUCIONES CONJUNTAS
C
A B
Solucin
No existe una funcin de densidad conjunta pues la pareja (X, Y ) nicamente toma valores
sobre la parte de la hiprbola x
2
(y 1)
2
= 3 que se encuentre dentro del rectngulo

3
x 2, 0 y 2, la cual tiene un rea igual a cero.
En el caso de un experimento aleatorio consistente en la eleccin al azar de un punto dentro de
un subconjunto R de R
2
, denamos las variables aleatorias X y Y como la abscisa y ordenada,
respectivamente, del punto seleccionado. Si el rea de la regin R est bien denida y no es
cero, entonces la funcin f : R
2
7R denida por:
f(x, y) =

1
rea de R
si (x, y) R
0 en otro caso
es una funcin de densidad conjunta de X y Y . En efecto, si A es un subconjunto de R
2
para
el cual la integral
RR
A
f(x, y)dxdy est bien denida, entonces:
P [(X, Y ) A] =
rea de AR
rea de R
=
RR
A
f(x, y)dxdy
De una manera ms general, en el caso de un experimento aleatorio consistente en la eleccin
al azar de un punto dentro de un subconjunto R de R
n
, denamos las variables aleatorias
X
1
, . . . , X
n
como las coordenadas del punto seleccionado. Si la integral
R

R
R
dy
1
dy
n
est
bien denida y es positiva, entonces la funcin f : R
n
7R denida por:
f(x
1
, , x
n
) =
(
1
_

_
R
dy
1
dyn
si (x
1
, , x
n
) R
0 en otro caso
es una funcin de densidad conjunta de X
1
, . . . , X
n
. En efecto, si A R
n
y la integral
R

R
A
f(x
1
, , x
n
)dx
1
dx
n
existe, entonces:
P [(X
1
, . . . , X
n
) A] =
_

_
AR
dx
1
dxn
_

_
R
dx
1
dx
n
=
R

R
A
f(x
1
, , x
n
)dx
1
dx
n
Por otra parte, al igual que en el caso de una sola variable aleatoria, cuando la funcin
de distribucin, F
X
1
,...,X
n
, de una familia de variables aleatorias, X
1
, . . . , X
n
, es derivable,
entonces es absolutamente continua y la funcin de densidad conjunta se obtiene mediante la
frmula siguiente:
f
X
1
,...,X
n
=

n
F
X
1
,...,X
n
x
1
...x
n
1.2. FUNCIONES DE DENSIDAD CONJUNTAS 15
De manera ms especca, la continuidad absoluta de un vector aleatorio n-dimensional puede
establecerse aplicando el siguiente resultado:
Proposicin 1.18. Sea (X
1
, . . . , X
n
) un vector aleatorio con funcin de distribucin conjunta
F
X
1
,...,X
n
y S R
n
un conjunto abierto tal que P [(X
1
, . . . , X
n
) S] = 1. Supongamos que:
(i) F
X
1
,...,X
n
es continua sobre R
n
.
(ii)

n
F
X
1
,...,X
n
x
1
xn
existe y es continua sobre S.
Entonces, el vector aleatorio (X
1
, . . . , X
n
) es absolutamente continuo y su funcin de densidad
conjunta, f
X
1
,...,X
n
, est dada por:
f
X
1
,...,X
n
(x
1
, . . . , x
n
) =


n
F
X
1
,...,X
n
x
1
x
n
(x
1
, . . . , x
n
) si (x
1
, . . . , x
n
) S
0 en otro caso
Ejemplo 1.19. Consideremos la funcin de distribucin del ejemplo 1.1, la cual est dada
por:
F
X,Y
(x, y) =

0 si x 0 y 0
xy si 0 < x < 1, 0 < y < 1
x si 0 < x < 1, y 1
y si 0 < y < 1, x 1
1 si x 1, y 1
Se puede ver inmediatamente que F
X,Y
es continua sobre R
2
y, si S = (0, 1) (0, 1), entonces
P [(X, Y ) S] = 1 y

2
F
X,Y
xy
existe y es continua sobre S. Por lo tanto, el vector aleatorio
(X, Y ) es absolutamente continuo y su funcin de densidad conjunta, f
X,Y
, est dada por:
f
X,Y
(x, y) =
(

2
F
X,Y
xy
(x, y) si (x, y) S,
0 en otro caso
=

1 si (x, y) S
0 en otro caso
Ejemplo 1.20. Consideremos la funcin de distribucin del ejemplo 1.2, la cual est dada
por:
F
X,Y
(x, y) =

0 si x 0 y 0
x si 0 < x < 1, y x
y si 0 < y < 1, y < x
1 si x 1, y 1
Se puede ver inmediatamente que F
X,Y
es continua sobre R
2
y si S = (0, 1) (0, 1), entonces
P [(X, Y ) S] = 1. Pero

2
F
X,Y
xy
no existe sobre S pues, para 0 < x < 1, vista como funcin
de y,
F
X,Y
x
es discontinua en y = x.
Por lo tanto, no se puede concluir, basndonos en la proposicin 1.18, que la pareja X, Y
forme un vector aleatorio absolutamente continuo.
Ejemplo 1.21. Sea (X, Y ) un vector aleatorio con funcin de distribucin conjunta F
X,Y
dada
por:
16 1. DISTRIBUCIONES CONJUNTAS
F
X,Y
(x, y) =

0 si x 0 y 0
1
2
(x
3
y +xy
3
) si 0 < x < 1, 0 < y < 1
1
2
(x
3
+x) si 0 < x < 1, y 1
1
2
(y +y
3
) si 0 < y < 1, x 1
1 si x 1, y 1
Encuentre P [2X < 3Y ].
Solucin
Se puede ver inmediatamente que F
X,Y
es continua sobre R
2
y si S = (0, 1) (0, 1), entonces
P [(X, Y ) S] = 1 y

2
F
X,Y
xy
existe y es continua sobre S. Por lo tanto, el vector aleatorio
(X, Y ) es absolutamente continuo y su funcin de densidad conjunta, f
X,Y
, est dada por:
f
X,Y
(x, y) =
(

2
F
X,Y
xy
(x, y) si (x, y) S
0 en otro caso
=

3
2
(x
2
+y
2
) si 0 < x < 1, 0 < y < 1
0 en otro caso
De manera que:
P [2X < 3Y ] =
3
2
R
1
0
R
1
2x
3
(x
2
+y
2
)dydx =
77
108
1.3. Funciones de densidad marginales
Sea (X
1
, . . . , X
n
) un vector aleatorio discreto con funcin de densidad conjunta f
X
1
,...,X
n
. Por
la propiedad de la aditividad numerable, se tiene:
f
X
1
,...,X
j1
,X
j+1
,...,Xn
(x
1
, . . . , x
j1
, x
j+1
, . . . , x
n
)
=
P
x
f
X
1
,...,X
n
(x
1
, . . . , x
j1
, x, x
j+1
, . . . , x
n
)
Para 1 i < j n, aplicando dos veces la frmula anterior, se obtiene
f
X
1
,...,X
i1
,X
i+1
,...,X
j1
,X
j+1
,...,Xn
(x
1
, . . . , x
i1
, x
i+1
, . . . , x
j1
, x
j+1
, . . . , x
n
)
=
P
x,y
f
X
1
,...,X
n
(x
1
, . . . , x
i1
, x, x
i+1
, . . . , x
j1
, y, x
j+1
, . . . , x
n
)
Aplicando varias veces la primera frmula, se obtiene una frmula similar para la funcin de
densidad conjunta de cualquier subfamilia de las familia de variables aleatorias X
1
, . . . , X
n
.
En particular, se tiene:
f
X
j
(x
j
) =
P
x
1
,...,x
j1
,x
j+1
,...,x
n
f
X
1
,...,Xn
(x
1
, . . . , x
j1
, x
j
, x
j+1
, . . . , x
n
)
Para el caso de dos variables aleatorias, X, Y , este resultado se escribe de la siguiente manera:
f
X
(x) =
P
y
f
X,Y
(x, y)
f
Y
(y) =
P
x
f
X,Y
(x, y)
En este contexto, las densidades f
X
y f
Y
son conocidas como densidades marginales.
Ejemplo 1.22. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

2x
N
2
(N+1)
si x, y {1, . . . , N}
0 en otro caso
en donde N es un entero positivo. Encuentre las funciones de densidad marginales f
X
y f
Y
.
Solucin
f
X
(x) =
P
y
f
X,Y
(x, y) =
2
N
2
(N+1)
P
N
y=1
x =
2x
N(N+1)
, para x {1, . . . , N}
1.3. FUNCIONES DE DENSIDAD MARGINALES 17
f
Y
(y) =
P
x
f
X,Y
(x, y) =
2
N
2
(N+1)
P
N
x=1
x =
1
N
, para y {1, . . . , N}
En el caso absolutamente continuo, se tiene:
F
X
1
,...,X
j1
,X
j+1
,...,X
n
(x
1
, . . . , x
j1
, x
j+1
, . . . , x
n
)
= lm
x
F
X
1
,...,Xn
(x
1
, . . . , x
j1
, x, x
j+1
, . . . , x
n
)
= lm
x
R
x
1


R
x
j1

R
x

R
x
j+1



R
xn

f
X
1
,...,X
n
(y
1
, . . . , y
j1
, y, y
j+1
, . . . , y
n
)dy
n
dy
j+1
dydy
j1
dy
1
=
R
x
1


R
x
j1

R
x
j+1



R
xn

f
X
1
,...,Xn
(y
1
, . . . , y
j1
, y, y
j+1
. . . , y
n
)dy
n
dy
j+1
dydy
j1
dy
1
=
R
x
1


R
x
j1

R
x
j+1



R
x
n

f
X
1
,...,Xn
(y
1
, . . . , y
j1
, y, y
j+1
, . . . , y
n
)dydy
n
dy
j+1
dy
j1
dy
1
Por lo tanto:
f
X
1
,...,X
j1
,X
j+1
,...,Xn
(x
1
, . . . , x
j1
, x
j+1
, . . . , x
n
) =
R

f
X
1
,...,Xn
(x
1
, . . . , x
j1
, x, x
j+1
, . . . , x
n
)dx
Para 1 i < j n, aplicando dos veces la frmula anterior, se obtiene:
f
X
1
,...,X
i1
,X
i+1
,...,X
j1
,X
j+1
,...,Xn
(x
1
, . . . , x
i1
, x
i+1
, . . . , x
j1
, x
j+1
, . . . , x
n
)
=
R

f
X
1
,...,Xn
(x
1
, . . . , x
i1
, x, x
i+1
, . . . , x
j1
, y, x
j+1
, . . . , x
n
)dxdy
Aplicando varias veces la primera frmula, se obtiene una frmula similar para la funcin de
densidad conjunta de cualquier subfamilia de las familia de variables aleatorias X
1
, . . . , X
n
.
En particular, se tiene:
f
X
j
(x
j
) =
R

f
X
1
,...,Xn
(x
1
, . . . , x
j1
, x
j
, x
j+1
, . . . , x
n
)dx
1
. . . dx
j1
dx
j+1
. . . dx
n
En particular, para el caso de dos variables aleatorias, X, Y , se tiene:
f
X
(x) =
R

f
X,Y
(x, y)dy
f
Y
(y) =
R

f
X,Y
(x, y)dx
Para el caso de tres variables aleatorias, X, Y, Z, se tiene:
f
X
(x) =
R

f
X,Y,Z
(x, y, z)dydz
f
Y
(y) =
R

f
X,Y,Z
(x, y, z)dxdy
f
Z
(z) =
R

f
X,Y,Z
(x, y, z)dxdy
f
Y,Z
(y, z) =
R

f
X,Y,Z
(x, y, z)dx
f
X,Z
(x, z) =
R

f
X,Y,Z
(x, y, z)dy
f
X,Y
(x, y) =
R

f
X,Y,Z
(x, y, z)dz
Ejemplo 1.23. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
y
e

x
y
e
y
si x > 0, y > 0
0 en otro caso
Encuentre la funcin de densidad de Y .
Solucin
Para y > 0, se tiene:
18 1. DISTRIBUCIONES CONJUNTAS
f
Y
(y) =
R

0
1
y
e

x
y
e
y
dx = e
y
R

0
1
y
e

x
y
dx = e
y
As que Y tiene distribucin exponencial de parmetro = 1.
Ejemplo 1.24. Se elige un punto al azar en el interior del crculo de centro en el origen y radio
R. Sean X y Y la abscisa y ordenada, respectivamente, del punto seleccionado. Encuentre las
funciones de densidad marginales f
X
y f
Y
.
Solucin
Se tiene:
f
X,Y
(x, y) =

1
R
2
si x
2
+y
2
< R
2
0 en otro caso
Por lo tanto:
f
X
(x) =
R

R
2
x
2

R
2
x
2
1
R
2
dy =
2
R
2

R
2
x
2
, para R < x < R
f
Y
(y) =
R

R
2
y
2

R
2
y
2
1
R
2
dx =
2
R
2
p
R
2
y
2
, para R < y < R
1.4. Distribuciones conjuntas de variables aleatorias independientes
Recordemos (ver secci 6.4 del primer volumen de este libro) que se dice que n variables
aleatorias, X
1
, . . . , X
n
, son independientes si para cualquier coleccin de conjuntos borelianos
de nmeros reales, A
1
, . . . , A
n
, los eventos [X
1
A
1
], . . ., [X
n
A
n
] son independientes.
Adems, se tienen los siguientes resultados:
Proposicin 1.25. Sean X
1
, . . . , X
n
n variables aleatorias independientes y f
1
, . . . , f
n
n fun-
ciones borelianas de R en R. Entonces las variables aleatorias f
1
(X
1
), . . . , f
n
(X
n
) son inde-
pendientes.
Proposicin 1.26. Sean X
1
, . . . , X
n+m
n+m variables aleatorias independientes y f : R
n
7
R y g : R
m
7 R dos funciones borelianas cualesquiera. Entonces las variables aleatorias
f(X
1
, . . . , X
n
) y f(X
n+1
, . . . , X
n+m
) son independientes.
Dadas dos variables aleatorias independientes X y Y , se tiene, para cualquier vector (x, y)
R
2
:
F
X,Y
(x, y) = P [X x, Y y] = P [X x] P [Y y] = F
X
(x)F
Y
(y)
Si, adems, tanto X como Y son absolutamente continuas, con funciones de densidad f
X
y
f
Y
, respectivamente, se tiene:
F
X,Y
(x, y) = F
X
(x)F
Y
(y) =
R
x

f
X
(u)du
R
y

f
Y
(v)dv =
R
x

R
y

f
X
(u)f
Y
(v)dvdu
Por lo tanto, el vector (X, Y ) es absolutamente continuo y f
X,Y
= f
X
f
Y
.
De la misma manera, si tanto X como Y son discretas, con funciones de densidad f
X
y f
Y
,
respectivamente, se tiene:
f
X,Y
(x, y) = P [X = x, Y = y] = P [X = x] P [Y = y] = f
X
(x)f
Y
(y)
A continuacin se demuestran los inversos de estos resultados.
Proposicin 1.27. Las variables aleatorias X
1
, . . . , X
n
son independientes si y slo si su fun-
cin de distribucin conjunta es igual al producto de las funciones de distribucin marginales.
1.4. DISTRIBUCIONES CONJUNTAS DE VARIABLES ALEATORIAS INDEPENDIENTES 19
Demostracin
nicamente se har la demostracin para el caso de dos variables aleatorias. La prueba en el
caso n-dimensional es similar.
Sean X y Y dos variables aleatorias tales que F
X,Y
(x, y) = F
X
(x)F
Y
(y) para cualquier vector
(x, y) R
2
. Denamos entonces:
H =

A R :
A es boreliano y
P [X A, Y y] = P [X A] P [Y y] para cualquier y R

.
H es entonces un d-sistema que contiene a todos los intervalos de la forma (, x], los cuales
forman un -sistema que genera a los borelianos. Con base en el teorema de clases montonas
(ver subseccin 5.5.1 del primer volumen de este libro), se concluye entonces que H contiene a
todos los borelianos. Es decir, P [X A, Y y] = P [X A] P [Y y] para cualquier y R
y cualquier boreliano A R.
Sea ahora:
G =

B R :
B es boreliano y
P [X A, Y B] = P [X A] P [Y B] para cualquier boreliano A

Con base en el resultado anterior, G es un d-sistema que contiene a todos los intervalos de la
forma (, y], los cuales forman un -sistema que genera a los borelianos. Con base en el
teorema de clases montonas, se concluye entonces que G contiene a todos los borelianos. Es
decir, P [X A, Y B] = P [X A] P [Y B] para cualquier pareja de borelianos A y B.
As que X y Y son independientes.
Proposicin 1.28. Supongamos que el vector aleatorio (X
1
, . . . , X
n
) es discreto o absoluta-
mente continuo, entonces, las variables aleatorias que lo forman son independientes si y slo si
su funcin de densidad conjunta es igual al producto de las funciones de densidad marginales.
Demostracin
nicamente se har la demostracin para el caso de dos variables aleatorias. La prueba en el
caso n-dimensional es similar.
Sea (X, Y ) un vector aleatorio discreto o absolutamente continuo y supongamos f
X,Y
(x, y) =
f
X
(x)f
Y
(y) para cualquier vector (x, y) R
2
.
En el caso discreto, se tiene:
F
X,Y
(x, y) =
P
{(u,v)R
2
|ux,vy}
f
X,Y
(u, v) =
P
{(u,v)R
2
|ux,vy}
f
X
(u)f
Y
(v)
=
P
{uR|ux}
f
X
(u)
P
{vR|vx}
f
Y
(v) = F
X
(x)F
Y
(y)
Mientras que en el caso absolutamente continuo, se tiene:
F
X,Y
(x, y) =
R
x

R
y

f
X,Y
(u, v)dvdu =
R
x

R
y

f
X
(u)f
Y
(v)dvdu
=
R
x

f
X
(u)du
R
y

f
Y
(v)dv = F
X
(x)F
Y
(y)
As que, en cualquier caso, la funcin de distribucin conjunta de X y Y es igual al producto
de las funciones de distribucin marginales. Por lo tanto, con base en la proposicin 1.27, las
variables aleatorias X y Y son independientes.
Como ejemplo, se puede ver inmediatamente que las variables aleatorias del ejemplo 1.1 son
independientes mientras que las del ejemplo 1.2 no lo son.
20 1. DISTRIBUCIONES CONJUNTAS
Ejemplo 1.29. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

1
N
2
(N+1)
(x +y) si x, y {1, . . . , N}
0 en otro caso
Son X y Y independientes?
Solucin
f
X
(x) =
P
y
f
X,Y
(x, y) =
1
N
2
(N+1)
P
N
y=1
(x +y) =
1
N
2
(N+1)
(Nx +
N(N+1)
2
)
=
x
N(N+1)
+
1
2N
, para x {1, . . . , N}
f
Y
(y) =
P
x
f
X,Y
(x, y) =
1
N
2
(N+1)
P
N
x=1
(x +y) =
1
N
2
(N+1)
(Ny +
N(N+1)
2
)
=
y
N(N+1)
+
1
2N
, para y {1, . . . , N}
Se tiene f
X,Y
6= f
X
f
Y
, por lo tanto X y Y no son independientes.
Ejemplo 1.30. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

4
N
2
(N+1)
2
xy si x, y {1, . . . , N}
0 en otro caso
Son X y Y independientes?
Solucin
f
X
(x) =
P
y
f
X,Y
(x, y) =
4
N
2
(N+1)
2
P
N
y=1
xy =
2x
N(N+1)
, para x {1, . . . , N}
f
Y
(y) =
P
x
f
X,Y
(x, y) =
4
N
2
(N+1)
2
P
N
x=1
xy =
2y
N(N+1)
, para y {1, . . . , N}
Se tiene f
X,Y
= f
X
f
Y
, por lo tanto X y Y son independientes.
Ejemplo 1.31. Sea Y
1
, Y
2
, . . . una sucesin de variables aleatorias independientes, todas ellas
con distribucin Bernoulli de parmetro p y, para k N, denamos:
T
k
=nf
n
j N :
P
j
i=1
Y
i
= k
o
Si vemos a las variables aleatorias Y
1
, Y
2
, . . . como una sucesin de ensayos de Bernoulli
independientes, en cada uno de los cuales la probabilidad de xito es p, las variables aleatorias
T
1
, T
2
, . . . son los tiempos en que ocurre xito. Vamos a encontrar, para cada n N, la funcin
de densidad conjunta de Y
1
= T
1
, Y
2
= T
2
T
1
, Y
3
= T
3
T
2
, . . . , Y
n
= T
n
T
n1
.
Denamos X
0
= 0 y, para k N, X
k
=
P
k
i=1
Y
i
, entonces:
(i) Si 0 < k
1
< < k
n
, entonces las variables aleatorias X
k
1
, X
k
2
X
k
1
, . . . , X
k
n
X
k
n1
son independientes.
(ii) Si j < k, entonces la variable aleatoria X
k
X
j
tiene distribucin binomial de
parmetros n = k j y p.
Para y
1
, . . . , y
n
N, se tiene:
P [T
1
= y
1
, T
2
T
1
= y
2
, . . . , T
n
T
n1
= y
n
]
= P [T
1
= y
1
, T
2
= y
1
+y
2
, . . . , T
n
= y
1
+y
2
+ +y
n
]
= P [X
y
1
1
= 0, X
y
1
= 1, X
y
1
+y
2
1
= 1, X
y
1
+y
2
= 2, . . . , X
y
1
++y
n
1
= n 1, X
y
1
++y
n
= n]
= P [X
y
1
1
= 0, X
y
1
X
y
1
1
= 1, X
y
1
+y
2
1
X
y
1
= 0, X
y
1
+y
2
X
y
1
+y
2
1
= 1, . . . ,
1.4. DISTRIBUCIONES CONJUNTAS DE VARIABLES ALEATORIAS INDEPENDIENTES 21
X
y
1
++yn1
X
y
1
++y
n1
= 0, X
y
1
++yn
X
y
1
++yn1
= 1

= (1 p)
y
1
1
p(1 p)
y
2
1
p (1 p)
y
n
1
p
As que T
1
, T
2
T
1
, . . . , T
n
T
n1
son independientes y todas ellas tienen distribucin geom-
trica de parmetro p.
Ejemplo 1.32. Supongamos ahora que un cierto evento ocurre en los tiempos aleatorios,
T
1
, T
2
, . . ., de tal manera que las variables aleatorias Y
1
= T
1
, Y
2
= T
2
T
1
, Y
3
= T
3
T
2
, . . . son
independientes y todas ellas tienen distribucin geomtrica de parmetro p. Vamos a demostrar
que existe una sucesin de variables aleatorias independientes, Y
1
, Y
2
, . . ., todas ellas con
distribucin Bernoulli de parmetro p tales que, para k N, T
k
=nf
n
j N :
P
j
i=1
Y
i
= k
o
.
Para cada k {0, 1, . . .}, sea X
k
el nmero de veces que ocurre el evento hasta el tiempo n y
denamos Y
1
= X
1
, Y
2
= X
2
X
1
, Y
3
= X
3
X
2
, . . .. Entonces, evidentemente. se tiene,
para k N, T
k
=nf
n
j N :
P
j
i=1
Y
i
= k
o
.
Sean k
1
, k
2
, . . . , k
n
{0, 1}, r = k
1
+ k
2
+ . . . + k
n
y k
j
1
= = k
jr
= 1, con j
1
, , j
r

{1, . . . , n}, j
1
< < j
r
. Entonces:
P [Y
1
= k
1
, Y
2
= k
2
, . . . , Y
n
= k
n
]
= P [X
1
= k
1
, X
2
X
1
= k
2
, . . . , X
n
X
n1
= k
n
]
= P [X
1
= k
1
, X
2
= k
1
+k
2
, . . . , X
n
= k
1
+k
2
+ +k
n
]
= P [T
1
= j
1
, . . . , T
r
= j
r
, T
r+1
> n]
= P [T
1
= j
1
, T
2
T
1
= j
2
j
1
, . . . , T
r
T
r1
= j
r
j
r1
, T
r+1
T
r
> n j
r
]
= p(1 p)
j
1
1
p(1 p)
j
2
j
1
1
p(1 p)
j
r
j
r1
1
(1 p)
nj
r
= p
r
(1 p)
nr
= p
k
1
+k
2
+...+kn
(1 p)
n(k
1
+k
2
+...+kn)
= p
k
1
(1 p)
1k
1
p
k
2
(1 p)
1k
2
p
kn
(1 p)
1kn
As que las variables aleatorias Y
1
, . . . , Y
n
son independientes y todas ellas tienen distribucin
Bernoulli de parmetro p.
Cuando se tiene una sucesin de ensayos de Bernoulli independientes en cada uno de los cuales
la probabilidad de xito es p, se puede pensar esta sucesin como una sucesin de eventos que
ocurren aleatoriamente en tiempos enteros positivos de tal manera que, para cada entero k,
la probabilidad de que ocurra el evento en el tiempo k es igual a p. Si denimos X
k
como
el nmero de veces que ocurre el evento hasta el tiempo k, entonces el proceso X
k
tiene las
siguientes propiedades:
(i) X
0
= 0
(ii) Si 0 < k
1
< < k
n
, entonces las variables aleatorias X
k
1
, X
k
2
X
k
1
, . . ., X
k
n
X
k
n1
son independientes.
(iii) Si j < k, entonces la variable aleatoria X
k
X
j
tiene distribucin binomial de
parmetros n = k j y p.
Inversamente, si un proceso X
k
satisface las condiciones i, ii y iii, entonces la sucesin X
1
, X
2

X
1
, X
3
X
2
, . . . constituye una sucesin de ensayos de Bernoulli independientes en cada uno
22 1. DISTRIBUCIONES CONJUNTAS
de los cuales la probabilidad de xito es p. Adems, como X
k
=
P
k
j=1
X
j
X
j1
, X
k
es igual
al nmero de xitos hasta el tiempo k.
Ejemplo 1.33. Consideremos una sucesin de ensayos de Bernoulli independientes en cada
uno de los cuales la probabilidad de xito es igual a p y, para k N, sea X
k
el nmero de
fracasos antes del k-simo xito. Vamos a encontrar, para cada n N, la funcin de densidad
conjunta de X
1
, X
2
X
1
, . . . , X
n
X
n1
.
Para j
1
, . . . , j
n
N tales que j
1
< . . . < j
n
, se tiene:
P [X
1
= j
1
, . . . , X
n
= j
n
] = (1 p)
j
1
p(1 p)
j
2
j
1
p (1 p)
j
n
j
n1
p = (1 p)
j
n
p
n
As que, para k
1
, . . . , k
n
N, se tiene:
P [X
1
= k
1
, X
2
X
1
= k
2
, . . . X
n
X
n1
= k
n
]
= P [X
1
= k
1
, X
2
= k
1
+k
2
. . . , X
n
= k
1
+k
2
+ +k
n
]
= (1 p)
k
1
+k
2
++k
n
p
n
= (1 p)
k
1
p(1 p)
k
2
p (1 p)
k
n
p
As que X
1
, X
2
X
1
, . . . , X
n
X
n1
son independientes y todas tienen distribucin geomtrica
de parmetro p.
En el caso de dos variables aleatorias independientes, X, Y , que sean discretas o absolutamente
continuas, el clculo de una probabilidad P [(X, Y ) A], para un subconjunto A R
2
, se sim-
plica gracias a la proposicin 1.28 y porque una probabilidad de la forma P [X B, Y C]
puede obtenerse como el producto P [X B] P [Y C].
Ejemplo 1.34. Sean X y Y variables aleatorias independientes, cada una de las cuales tiene
distribucin geomtrica con parmetro p. Encuentre a) P(X > 2Y ) y b) P(Y X).
Solucin
a. P [X > 2Y ] =
P

y=0
P [X > 2Y, Y = y] =
P

y=0
P [X > 2y, Y = y]
=
P

y=0
P [X > 2y] P [Y = y] =
P

y=0
(1 p)
2y+1
p(1 p)
y
= p(1 p)
P

y=0
(1 p)
3y
= p(1 p)
1
[1(1p)
3
]
=
p(1p)
1(1p)
3
b. P [Y X] =
P

x=0
P [Y X, X = x] =
P

x=0
P [Y x, X = x]
=
P

x=0
P [Y x] P [X = x] =
P

x=0
(1 p)
x
p(1 p)
x
= p
P

x=0
(1 p)
2x
=
p
1(1p)
2
=
1
2p
Ejemplo 1.35. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial, X de parmetro
1
y Y de parmetro
2
. Encuentre P [X < Y ].
Solucin
P [X < Y ] =
R

0
R

x

1

2
e

1
x
e

2
y
dydx =
R

0

1
e

1
x
2
e

2
x
dx
=

1

1
+
2
R

0
(
1
+
2
)e
(
1
+
2
)x
2
dx =

1

1
+
2
Ejemplo 1.36. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre a) P [X < 2Y ] y b) P [2X < 3Y + 1].
Solucin
a. P [X < 2Y ] =
R

0
R

x
2

2
e
x
e
y
dydx =
R

0
e

3
2
x
dx =
2
3
b. P [2X < 3Y + 1] =
R

0
R 1
2
(3y+1)
0

2
e
x
e
y
dxdy
EJERCICIOS 23
=
R

0
e
y
h
1 e

2
(3y+1)
i
dy =
R

0
e
y
dy
R

0
e

2
(5y+1)
dy = 1
2
5
e

1
2

Ejemplo 1.37. Sean X, Y y Z tres variables aleatorias independientes, las tres con distribu-
cin uniforme en el intervalo (0, 1). Encuentre P

X +Y >
3
2
Z

.
Solucin
P

X +Y >
3
2
Z

=
R 2
3
0

R 3z
2
0
R
1
x+
3z
2
dydx +
R
1
3z
2
R
1
0
dydx

dz
+
R
1
2
3
R
1
3z
2
1
R
1
x+
3z
2
dydxdz =
5
9
+
7
72
=
47
72
0
0.2
0.4
0.6
0.8
1
y
0.2 0.4 0.6 0.8 1
x
z

0,
2
3

2
3
, 1

EJERCICIOS
Ejercicio 1.1. Para cada una de las siguientes funciones, determine si F es una funcin
de distribucin conjunta y, de ser as, disee un experimento aleatorio y dena dos variables
aleatorias cuya funcin de distribucin conjunta sea F.
a) F(x, y) =

0 si x < 0 y < 0
y si x 0, 0 y < 1
1 si x 0, y 1
b) F(x, y) =

0 si x < 1 y < 0
x
2
y si x
2
y < 1, x 1, y 0
1 si x
2
y 1, x 1, y 0
Ejercicio 1.2. Un experimento aleatorio consiste en seleccionar al azar un punto en el in-
terior del rombo de vrtices A(2, 0), B(0, 1), C(2, 0) y D(0, 1). Sean X y Y la abscisa y
la ordenada, respectivamente, del punto seleccionado. Encuentre los valores de la funcin de
distribucin conjunta, F
X,Y
(x, y), de X y Y, para las parejas (x, y) pertenecientes al primer
cuadrante.
Ejercicio 1.3. Demuestre la proposicin 1.6.
Ejercicio 1.4. Consideremos el experimento aleatorio consistente en lanzar 10 veces un par
de dados y denamos X como el nmero de veces en que no se obtiene 5 en ninguno de los
dos dados y Y como el nmero de veces en que se obtiene 5 en los dos dados. Encuentre la
funcin de densidad conjunta de X y Y .
24 DISTRIBUCIONES CONJUNTAS
Ejercicio 1.5. Un experimento aleatorio admite nicamente 3 posibles resultados, e
1
, e
2
y e
3
,
con probabilidades p
1
, p
2
y p
3
= 1p
1
p
2
, respectivamente. Supongamos que este experimento
se repite, en forma independiente, n veces y, para i {1, 2, 3}, llamemos X
i
al nmero de
veces que ocurre e
i
. Encuentre a) la funcin de densidad de X
1
+X
2
y b) para z {0, . . . , n}
y y {0, . . . , z}, P [X
2
= y | X
1
+X
2
= z].
Ejercicio 1.6. 2r bolas se van colocando una por una al azar en cualquiera de r cajas. Sea
X
i
el nmero de bolas que quedan en la caja i. Encuentre la funcin de densidad conjunta de
X
1
, . . . , X
r
.
Ejercicio 1.7. Cada una de N partculas se coloca al azar en una de M celdas. Supongamos
que N tiene distribucin Poisson de parmetro y, para k {1, . . . , M}, llamemos X
k
al
nmero de partculas que quedan colocadas en la celda nmero k. Demuestre que las variables
aleatorias X
1
, . . . , X
M
son independientes y que cada una de ellas tiene distribucin Poisson.
Ejercicio 1.8 (Distribucin hipergeomtrica multivariada). Una urna contiene m
1
bolas ro-
jas, m
2
bolas blancas y m
3
bolas negras. Se eligen, al azar y sin reemplazo, n bolas de la
urna y se denen las variables aleatorias X
1
, X
2
y X
3
como el nmero de bolas rojas, blancas
y negras, respectivamente, que se obtienen en la muestra. Encuentre la funcin de densidad
conjunta de X
1
, X
2
, X
3
.
Ejercicio 1.9. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

cx si x, y {1, . . . , N
2
} , x y
2
0 en otro caso
en donde N es un nmero natural y c es una constante. Encuentre a) P [X = Y ], b) P [X < Y ]
y c) P [X > Y ].
Ejercicio 1.10. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
y
e

x
y
e
y
si x > 0, y > 0
0 en otro caso
Encuentre P[X < Y ].
Ejercicio 1.11. Sea X una variable aleatoria con distribucin normal estndar. Encuentre
la funcin de distribucin conjunta de X y Y = X
2
. Existe una funcin de densidad conjunta
de X y Y ? Justique su respuesta.
Ejercicio 1.12. Sean X y Y variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1) y sea Z = mn(X, Y ). Existe una funcin de densidad conjunta
de Z y Y ? Justique su respuesta.
Ejercicio 1.13. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta
dada por:
f
X,Y
(x, y) =

cx si x, y {1, . . . , N
2
} , x y
2
0 en otro caso
en donde N es un nmero natural y c es una constante. Encuentre las funciones de densidad
marginales f
X
y f
Y
.
EJERCICIOS 25
Ejercicio 1.14. Un experimento aleatorio consiste en seleccionar al azar un punto en el
interior del tringulo de vrtices A(0, 0), B(1, 0) y C(0, 1). Sean X y Y la abscisa y la
ordenada, respectivamente, del punto seleccionado. Encuentre a) la funcin de distribucin
conjunta de X y Y y b) las densidades marginales f
X
y f
Y
.
Ejercicio 1.15. Un experimento aleatorio consiste en seleccionar al azar un punto en el
interior del rombo de vrtices A(2, 0), B(0, 1), C(2, 0) y D(0, 1). Sean X y Y la abscisa
y la ordenada, respectivamente, del punto seleccionado. Encuentre la funcin de densidad
conjunta de X y Y y las densidades marginales f
X
y f
Y
.
Ejercicio 1.16. Sea (X, Y ) un vector aleatorio con funcin de densidad conjunta dada por:
f
X,Y
(x, y) =

1
2
xy si 0 < y < x < 2
0 en otro caso
Encuentre las funciones de densidad marginales f
X
y f
Y
.
Ejercicio 1.17. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =


2
e
y
si 0 x y
0 en otro caso
Encuentre a) P[2X < Y ] y b) las funciones de densidad de X y Y .
Ejercicio 1.18. Un sistema con dos estados, 0 y 1, funciona cambiando de estado, en cada
unidad de tiempo, con probabilidad
2
3
. Sea X
i
el estado del sistema en el tiempo i y supongamos
X
1
= 0. Para n {2, 3, . . .}, encuentre la funcin de densidad conjunta de X
1
, . . . , X
n
.
Ejercicio 1.19. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta
dada por:
f
X,Y
(x, y) =

6
N
2
(N+1)(2N+1)
x
2
si x, y {1, . . . , N}
0 en otro caso
Son X y Y independientes?
Ejercicio 1.20. Consideremos una sucesin de ensayos de Bernoulli independientes, en cada
uno de los cuales la probabilidad de xito es igual a p, y, para k N, sea X
k
el nmero de
ensayo en el cual ocurre el k-simo xito. Encuentre la probabilidad de que haya n fracasos
antes del primer xito dado que hay n +m fracasos antes del segundo xito.
Ejercicio 1.21. Sean X y Y dos variables aleatorias independientes, ambas con distribu-
cin geomtrica de parmetro p. Encuentre a) P [Y 3X 1], b) P [|X Y | = 1] y c)
P [|X Y | 2].
Ejercicio 1.22. Sean X, Y dos variables aleatorias independientes, X con distribucin geo-
mtrica de parmetro p, Y con distribucin Poisson de parmetro . Encuentre P [Y > X].
Ejercicio 1.23. Cada una de dos personas lanza una moneda n veces. Encuentre la proba-
bilidad de que obtengan el mismo nmero de caras.
Ejercicio 1.24. Sea X y Y dos variables aleatorias independientes, cada una distribuida
uniformemente en el conjunto {0, . . . N}. Encuentre a) P(X Y ) y b) P(X = Y ).
Ejercicio 1.25. Sean X y Y dos variables aleatorias independientes, ambas distribuidas uni-
formemente en el conjunto {1, . . . , 2N}. Encuentre P(Y > 2X).
26 DISTRIBUCIONES CONJUNTAS
Ejercicio 1.26. Sea X una variable aleatoria distribuida uniformemente en el conjunto
{1, . . . , N} y sea Y una variable aleatoria con distribucin geomtrica de parmetro p. Supo-
niendo que X y Y son independientes, encuentre a) P [|Y X| = 2] y b) P [Y X].
Ejercicio 1.27. Sea X una variable aleatoria con distribucin geomtrica de parmetro p
1
=
1
4
y sea Y una variable aleatoria con distribucin geomtrica de parmetro p
2
=
1
3
. Suponiendo
que X y Y son independientes, encuentre P [Y 2X + 1].
Ejercicio 1.28. Sea X una variable aleatoria con distribucin Poisson de parmetro y sea
Y una variable aleatoria con distribucin geomtrica de parmetro p. Suponiendo que X y Y
son independientes, encuentre a) P [Y = X + 2] y b) P [Y X].
Ejercicio 1.29. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal de parmetros
X
= 6,
2
X
= 1 y
Y
= 7,
2
Y
= 2, respectivamente. Encuentre
P [X > Y ].
Ejercicio 1.30. Los tiempos que les toma a dos estudiantes resolver un problema son indepen-
dientes y ambos tienen distribucin exponencial con parmetro . Encuentre la probabilidad
de que el primer estudiante requiera por lo menos del doble de tiempo que el segundo para
resolver un problema.
Ejercicio 1.31. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre P [X +Y 1, X Y 1].
Ejercicio 1.32. Se seleccionan, al azar y de manera independiente, 3 puntos sobre el seg-
mento [0, L]. Si X
1
, X
2
, X
3
son los puntos seleccionados, cul es la probabilidad de que X
2
quede comprendido entre X
1
y X
3
?
Ejercicio 1.33. Sean X, Y y Z tres variables aleatorias independientes, las 3 con distribucin
exponencial de parmetro . Encuentre P[X +Y < 2Z].
Ejercicio 1.34. Sean X
1
, X
2
y X
3
tres variables aleatorias independientes, las 3 con distribu-
cin exponencial, de parmetros
1
,
2
y
3
, respectivamente. Encuentre P[X
1
+X
2
< 2X
3
].
Ejercicio 1.35. Sean X, Y y Z tres variables aleatorias independientes, todas con distribu-
cin uniforme en el intervalo (0, 1). Encuentre a) P [X +Y < 2Z], b) P [X +Y > 3Z] y c)
P [2Y X < 2Z].
Ejercicio 1.36. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama de parmetros = 2 y . Encuentre P [1 Y 2X 3].
Ejercicio 1.37. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal estndar. Encuentre P [1 X
2
+Y
2
2].
Ejercicio 1.38. Sean X, Y y Z tres variables aleatorias independientes, X y Y con dis-
tribucin exponencial de parmetro y Z con distribucin uniforme en el intervalo (0, 1).
Encuentre P[X +Y < Z].
Ejercicio 1.39. Se seleccionan, al azar y de manera independiente, dos puntos, X y Y , sobre
los segmentos [0, L] y [L, 2L], respectivamente. Encuentre la probabilidad de que la distancia
entre los dos puntos seleccionados sea mayor que
1
3
L.
EJERCICIOS 27
Ejercicio 1.40. Sean X y Y dos variables aleatorias continuas con funcin de densidad
conjunta f. Encuentre la funcin de densidad conjunta de X
2
y Y
2
. Muestre adems que si
X y Y son independientes entonces X
2
y Y
2
tambin lo son.
Ejercicio 1.41. En una parada de autobs, el tiempo de llegada de ste se distribuye uni-
formemente en el intervalo que va de las 7:00 a las 7:15 hrs. y el siguiente autobs pasa
exactamente 15 minutos despus del primero. Si el tiempo de llegada de una persona a esa
parada se distribuye uniformemente en el intervalo que va de las 7:10 a las 7:15 hrs., a)
cul es la probabilidad de que la persona llegue a la parada antes que el primer autobs? , b)
si T es el tiempo que espera la persona, desde que llega a la parada hasta que pasa un autobs,
encuentre e identique la distribucin de T.
Ejercicio 1.42. Tres nmeros, a, b y c, se eligen al azar y de manera independiente en el
intervalo (0, 1). Cul es la probabilidad de que las races de la ecuacin ax
2
+bx+c = 0 sean
a) reales? y b) iguales?
CAPTULO 2
DISTRIBUCIONES DE FUNCIONES DE VECTORES
ALEATORIOS
Cuando una suspensin de pequeas partculas en un
lquido es vista bajo el microscopio, las partculas pare-
cen animadas con un peculiar movimiento azaroso - el
movimiento Browniano. Este movimiento es de una na-
turaleza tan irregular que Perrin dice de l: Uno se
da cuenta con tales ejemplos que tan cerca estn los
matemticos de la verdad al rechazar, por un instinto
lgico, las pretendidas demostraciones geomtricas, las
cuales son vistas como evidencia experimental de la exis-
tencia de una tangente en cada punto de una curva.
De aqu que se convierta en un tema de inters para los
matemticos el descubrir cules son las condiciones que
denen a las trayectorias de estas partculas.
Norbert Wiener
2.1. Distribuciones de funciones de vectores aleatorios discretos
En esta seccin vamos a utilizar las relaciones 1.2 y 1.3 del captulo anterior para encontrar
la funcin de densidad de una funcin de un vector aleatorio discreto.
Ejemplo 2.1. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

2x
N
2
(N+1)
si x, y {1, . . . , N}
0 en otro caso
en donde N es un entero positivo. Encuentre la funcin de densidad de a) U = X + Y , b)
V = Y X.
Solucin
a. f
U
(u) = P [X +Y = u] =
P
N
x=1
P [X +Y = u, X = x]
=
P
N
x=1
P [x +Y = u, X = x] =
P
N
x=1
P [X = x, Y = u x]
=

P
u1
x=1
2x
N
2
(N+1)
si u {2, . . . , N + 1}
P
N
x=uN
2x
N
2
(N+1)
si u {N + 2, . . . , 2N}
0 en otro caso
29
30 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
=

u(u1)
N
2
(N+1)
si u {2, . . . , N + 1}
u(2N+1u)
N
2
(N+1)
si u {N + 2, . . . , 2N}
0 en otro caso
b. f
V
(v) = P [Y X = v] =
P
N
x=1
P [Y X = v, X = x]
=
P
N
x=1
P [Y x = v, X = x] =
P
N
x=1
P [X = x, Y = x +v]
=

P
N
x=1v
2x
N
2
(N+1)
si v {1 N, . . . , 1}
P
Nv
x=1
2x
N
2
(N+1)
si v {0, . . . , N 1}
0 en otro caso
=

(N+v)(Nv+1)
N
2
(N+1)
si v {1 N, . . . , 1}
(Nv)(Nv+1)
N
2
(N+1)
si v {0, . . . , N 1}
0 en otro caso
Ejemplo 2.2. Sean X y Y variables aleatorias independientes, cada una de las cuales tiene
una distribucin geomtrica con parmetro p. Encuentre:
a) la funcin de densidad de mn(X, Y ).
b) la funcin de densidad de X +Y .
c) P(Y = y|X +Y = z) para y {0, . . . , z}.
Solucin
a. Sea Z = mn(X, Y ), entonces, para x {0, 1, . . .}, se tiene:
P(Z x) = P(X z, Y x) = P(X x)P(Y x) = (1 p)
x
(1 p)
x
= (1 p)
2x
Por lo tanto, Z tiene distribucin geomtrica de parmetro 1 (1 p)
2
= p(2 p).
b. Los posibles valores de X +Y son z = 0, 1, . . .. Para un valor z de stos, se tiene:
P [X +Y = z] =
P

x=0
P [X +Y = z, X = x] =
P

x=0
P [Y = z x, X = x]
=
P
z
x=0
P [Y = z x] P [X = x] =
P
z
x=0
p(1 p)
zx
p(1 p)
x
=
P
z
x=0
p
2
(1 p)
z
= (z + 1)p
2
(1 p)
z
Por lo tanto, X +Y tiene distribucin binomial negativa con parmetros p y r = 2.
c. P [Y = y|X +Y = z] =
P[Y =y,X+Y =z]
P[X+Y =z]
=
P[Y =y,X=zy]
P[X+Y =z]
=
P[Y =y]P[X=zy]
P[X+Y =z]
=
p(1p)
y
p(1p)
zy
(z+1)p
2
(1p)
z
=
p
2
(1p)
z
(z+1)p
2
(1p)
z
=
1
z+1
Es decir, dado que X +Y = z, Y tiene distribucin uniforme en el conjunto {0, . . . , z}.
Ejemplo 2.3. Sean X y Y variables aleatorias independientes, ambas con distribucin bi-
nomial negativa de parmetros (r, p) y (s, p), respectivamente. Demuestre que X + Y tiene
distribucin binomial negativa de parmetros (r +s, p).
Solucin
Los posibles valores de X +Y son z = 0, 1, . . .. Para un valor z de stos, se tiene:
P [X +Y = z] =
P

x=0
P [X +Y = z, X = x] =
P

x=0
P [Y = z x, X = x]
=
P
z
x=0
P [Y = z x] P [X = x] =
P
z
x=0

s+zx1
zx

p
s
(1 p)
zx

r+x1
x

p
r
(1 p)
x
= p
r+s
(1 p)
z
P
z
x=0

s+zx1
zx

r+x1
x

2.2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS CONTINUOS 31


Pero, de acuerdo con el lema 2.4, el cual se enuncia y demuestra al concluir este ejemplo, se
tiene:
P
z
x=0

s+zx1
zx

r+x1
x

=

r+s+z1
z

As que:
P [X +Y = z] =

r+s+z1
z

p
r+s
(1 p)
z
Lema 2.4. Para r, s N y z 0, se tiene:
P
z
k=0

r+k1
k

s+zk1
zk

=

r+s+z1
z

.
Demostracin
Para 1 < t < 1 y r, s N, se tiene:
(1 t)
r
=
P

k=0

r+k1
k

t
k
(1 t)
s
=
P

k=0

s+k1
k

t
k
(1 t)
(r+s)
=
P

k=0

r+s+k1
k

t
k
Por lo tanto:
P

k=0

r+k1
k

t
k
P

k=0

s+k1
k

t
k
=
P

k=0

r+s+k1
k

t
k
Igualando los coecientes de t
z
, se obtiene el resultado.
2.2. Distribuciones de funciones de vectores aleatorios continuos
En esta seccin abordaremos el problema de encontrar la funcin de densidad de una funcin
de un vector aleatorio absolutamente continuo. La propiedad bsica que utilizaremos en este
caso es la relacin 1.4.
Ejemplo 2.5. Sea (X, Y ) un vector aleatorio absolutamente continuo con funcin de densidad
conjunta f
X,Y
. Encuentre frmulas para las funciones de densidad de las variables aleatorias
U = X +Y y V = Y X.
Solucin
F
U
(u) = P [X +Y u] =
RR
{(x,y)R
2
:x+yu}
f
X,Y
(x, y)dydx
=
R

R
ux

f
X,Y
(x, y)dydx =
R

R
u

f
X,Y
(x, z x)dzdx
=
R
u

f
X,Y
(x, z x)dxdu
Por lo tanto:
f
U
(u) =
R

f
X,Y
(x, u x)dx
F
V
(v) = P [Y X v] =
RR
{(x,y)R
2
:yxv}
f
X,Y
(x, y)dydx
=
R

R
u+x

f
X,Y
(x, y)dydx =
R

R
u

f
X,Y
(x, z +x)dzdx
=
R
u

f
X,Y
(x, z +x)dxdu
Por lo tanto:
f
V
(v) =
R

f
X,Y
(x, v +x)dx
Comentario 2.6. La funcin z 7
R

f
X
(x)f
Y
(z x)dx es llamada la convolucin de f
X
y
f
Y
y se denota por f
X
f
Y
. As que, si X y Y son independientes, f
X+Y
= f
X
f
Y
. Adems:
F
Z
(z) =
R

R
zx

f
X,Y
(x, y)dydx =
R

f
X
(x)F
Y
(z x)dx, as que F
X+Y
= f
X
F
Y
.
32 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Ejemplo 2.7. Sea (X, Y ) un vector aleatorio absolutamente continuo con funcin de densidad
conjunta dada por:
f
X,Y
(x, y) =

2
11
(4 x y) si 0 < x < 1, 0 < y < x + 2
0 en otro caso
Encuentre la funcin de densidad de a) U = X +Y y b) V = Y X.
Solucin
a. Se tiene f
U
(u) =
R

f
X,Y
(x, u x)dx.
Ahora bien, para que podamos aplicar la frmula f
X,Y
(x, y) =
2
11
(4xy) dentro de la integral
R

f
X,Y
(x, u x)dx, se requiere tener 0 < x < 1 y 0 < u x < x + 2, es decir 0 < x < 1 y
u2
2
< x < u. Esta regin se representa en la siguiente gura:
0
0.2
0.4
0.6
0.8
1
x
1 2 3 4
u
En la gura puede verse que, con el objeto de especicar el rango de valores de x dentro de
la integral
R

f
X,Y
(x, u x)dx, conviene partir el rango de valores de u en tres intervalos, a
saber (0, 1), [1, 2) y [2, 4), obtenindose entonces:
f
U
(u) =

R
u
0
f
X,Y
(x, u x)dx si 0 < u < 1
R
1
0
f
X,Y
(x, u x)dx si 1 u < 2
R
1
u2
2
f
X,Y
(x, u x)dx si 2 u < 4
0 en otro caso
=

2
11
R
u
0
(4 u)dx si 0 < u < 1
2
11
R
1
0
(4 u)dx si 1 u < 2
2
11
R
1
u2
2
(4 u)dx si 2 u < 4
0 en otro caso
=

2
11
u(4 u) si 0 < u < 1
2
11
(4 u) si 1 u < 2
1
11
(4 u)
2
si 2 u < 4
0 en otro caso
b. Se tiene f
V
(v) =
R

f
X,Y
(x, v +x)dx.
Ahora bien, para que podamos aplicar la frmula f
X,Y
(x, y) =
2
11
(4xy) dentro de la integral
R

f
X,Y
(x, v + x)dx, se requiere tener 0 < x < 1 y 0 < v + x < x + 2, es decir 0 < x < 1,
x > v y v < 2. Esta regin se representa en la siguiente gura:
2.2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS CONTINUOS 33
0
0.2
0.4
0.6
0.8
x
-1 -0.5 0.5 1 1.5 2
v
En la gura puede verse que, con el objeto de especicar el rango de valores de x dentro de
la integral
R

f
X,Y
(x, v +x)dx, conviene partir el rango de valores de v en dos intervalos, a
saber (1, 0) y [0, 2), obtenindose:
f
V
(v) =

R
1
v
f
X,Y
(x, v +x)dx si 1 < v < 0
R
1
0
f
X,Y
(x, v +x)dx si 0 v < 2
0 en otro caso
=

2
11
R
1
z
(4 v 2x)dx si 1 < v < 0
2
11
R
1
0
(4 v 2x)dx si 0 v < 2
0 en otro caso
=

6
11
(1 +v) si 1 < v < 0
2
11
(3 v) si 0 v < 2
0 en otro caso
Ejemplo 2.8. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre la funcin de densidad de a) U = X + Y y b)
V = Y X.
Solucin
En este caso, la funcin de densidad conjunta de X y Y est dada por:
f
X,Y
(x, y) =

1 si 0 < x < 1, 0 < y < 1
0 en otro caso
a. Se tiene f
U
(u) =
R

f
X,Y
(x, u x)dx.
Ahora bien, para que podamos sustituir f
X,Y
(x, ux) por 1 dentro de la integral
R

f
X,Y
(x, u
x)dx, se requiere tener 0 < x < 1 y 0 < u x < 1, es decir 0 < x < 1 y u 1 < x < u. Esta
regin se representa en la siguiente gura:
0
0.2
0.4
0.6
0.8
1
x
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
u
34 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
En la gura puede verse que, con el objeto de especicar el rango de valores de x dentro de
la integral
R

f
X,Y
(x, u x)dx, conviene partir el rango de valores de u en dos intervalos, a
saber (0, 1) y [1, 2), obtenindose entonces:
f
U
(u) =

R
u
0
f
X,Y
(x, u x)dx si 0 < u < 1
R
1
u1
f
X,Y
(x, u x)dx si 1 u < 2
0 en otro caso
=

u si 0 < u < 1
2 u si 1 u < 2
0 en otro caso
b. Se tiene f
V
(v) =
R

f
X,Y
(x, v +x)dx.
Ahora bien, para que podamos sustituir f
X,Y
(x, v+x) por 1 dentro de la integral
R

f
X,Y
(x, v+
x)dx, se requiere tener 0 < x < 1 y 0 < v +x < 1, es decir 0 < x < 1, v < x < 1 v. Esta
regin se representa en la siguiente gura:
0
0.2
0.4
0.6
0.8
x
-1 -0.8 -0.6 -0.4 -0.2 0.2 0.4 0.6 0.8 1
v
En la gura puede verse que, con el objeto de especicar el rango de valores de x dentro de
la integral
R

f
X,Y
(x, v +x)dx, conviene partir el rango de valores de u en dos intervalos, a
saber (1, 0) y [0, 1), obtenindose:
f
V
(v) =

R
1
v
f
X,Y
(x, v +x)dx si 1 < v < 0
R
1v
0
f
X,Y
(x, v +x)dx si 0 v < 1
0 en otro caso
=

1 +v si 1 < v < 0
1 v si 0 v < 1
0 en otro caso
Ejemplo 2.9. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama de parmetros
1
, y
2
, respectivamente. Encuentre la funcin de densidad de U =
X +Y .
Solucin
En este caso, la funcin de densidad conjunta de X y Y est dada por:
f
X,Y
(x, y) =

1
+
2
(
1
)(
2
)
x

1
1
y

2
1
e
(x+y)
si x > 0, y > 0
0 en otro caso
2.2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS CONTINUOS 35
Se tiene entonces:
f
U
(u) =
R

f
X,Y
(x, u x)dx
=

1
+
2
(
1
)(
2
)
e
u
R
u
0
x

1
1
(u x)

1
1
dx si u > 0
0 en otro caso
=

1
+
2
(
1
)(
2
)
e
u
u

1
+
2
1
R
1
0
z

1
1
(1 z)

2
1
dz si u > 0
0 en otro caso
=

1
+
2
(
1
)(
2
)
ce
u
u

1
+
2
1
si u > 0
0 en otro caso
en donde c =
R
1
0
z

1
1
(1 z)

2
1
dz.
Se puede concluir entonces que Z tiene distribucin gama con parmetros
1
+
2
y .
Corolario 2.10. Sean X
1
, X
2
, . . . , X
n
n variables aleatorias independientes, todas con dis-
tribucin normal estndar, entonces la variable aleatoria Z = X
2
1
+ X
2
2
+ + X
2
n
tiene
distribucin gama de parmetros =
n
2
y =
1
2
. En particular, X
2
1
+ X
2
2
tiene distribucin
exponencial de parmetro =
1
2
.
Demostracin
Sabemos que, para cada i {1, . . . , n}, X
2
i
tiene distribucin gama de parmetros
1
2
y
1
2
, de
manera que el resultado se sigue del ltimo ejemplo.
Corolario 2.11.
R
1
0
u

1
1
(1 u)

2
1
du =
(
1
)(
2
)
(
1
+
2
)
Demostracin
De acuerdo con el ejemplo anterior, se tiene

1
+
2
(
1
)(
2
)
c =

1
+
2
(
1
+
2
)
, de lo cual se obtiene el
resultado.
Definicin 2.12 (Funcin beta). La funcin : (0, ) (0, ) 7R denida por:
(
1
,
2
) =
R
1
0
u

1
1
(1 u)

2
1
du
es llamada la funcin beta.
De acuerdo con el corolario 2.11, se tiene (
1
,
2
) =
(
1
)(
2
)
(
1
+
2
)
.
Ejemplo 2.13. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetros
1
y
2
respectivamente. Encuentre la funcin de densidad de
V = Y X.
Solucin
En este caso, la funcin de densidad conjunta de X y Y est dada por:
f
X,Y
(x, y) =


1

2
e

1
x
e

2
y
si x > 0, y > 0
0 en otro caso
Se tiene entonces:
f
V
(v) =
R

f
X,Y
(x, v +x)dx =

2
e

2
v
R

v
e
(
1
+
2
)x
dx si v < 0

2
e

2
v
R

0
e
(
1
+
2
)x
dx si v 0
0 en otro caso
36 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
=

1
+
2
e

1
v
si v < 0

1
+
2
e

2
v
si v 0
0 en otro caso
Ejemplo 2.14. Sea (X, Y ) un vector aleatorio absolutamente continuo con funcin de den-
sidad f
X,Y
. Encuentre una frmula para la funcin de densidad de la variable aleatoria
Z =
Y
X
I
[X6=0]
.
Solucin
Obsrvese que, como X es continua, P [X 6= 0] = 1.
F
Z
(z) = P

Y
X
I
[X6=0]
z

=
RR
{
(x,y)R
2
:
y
x
z,x6=0
}
f
X,Y
(x, y)dydx
=
R
0

R
0
zx
f
X,Y
(x, y)dydx +
R

0
R
zx
0
f
X,Y
(x, y)dydx
=
R
0

R
0
z
xf
X,Y
(x, ux)dudx +
R

0
R
z
0
xf
X,Y
(x, ux)dudx
=
R

R
z

|x| f
X,Y
(x, ux)dudx
=
R
z

|x| f
X,Y
(x, ux)dxdu
Por lo tanto:
f
Z
(z) =
R

|x| f
X,Y
(x, zx)dx
Ejemplo 2.15. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetros
1
y
2
respectivamente. Encuentre la funcin de densidad de
Z =
Y
X
.
Solucin
En este caso, la funcin de densidad conjunta de X y Y est dada por:
f
X,Y
(x, y) =


1

2
e

1
x
e

2
y
si x > 0, y > 0
0 en otro caso
Se tiene entonces:
f
Z
(z) =
R

|x| f
X,Y
(x, zx)dx
=


1

2
R

0
xe
(
1
+z
2
)x
dx si z > 0
0 en otro caso
=

1

2
(
1
+z
2
)
2
si z > 0
0 en otro caso
Ejemplo 2.16. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal estndar. Encuentre la funcin de densidad de Z =
Y
X
I
[X6=0]
.
Solucin
En este caso, la funcin de densidad conjunta de X y Y est dada por:
f
X,Y
(x, y) =
1
2
e

1
2
(x
2
+y
2
)
,
para cualquier pareja (x, y) R
2
.
Se tiene entonces, para cualquier z R:
f
Z
(z) =
R

|x| f
X,Y
(x, zx)dx =
1
2
R

|x| e

1
2
(1+z
2
)x
2
dx
=
1

0
xe

1
2
(1+z
2
)x
2
dx =
1
(1+z
2
)
R

0
ye

1
2
y
2
dy =
1
(1+z
2
)
2.2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS CONTINUOS 37
As que Z tiene distribucin Cauchy.
Ejemplo 2.17. Sean X y Y dos variables aleatorias independientes, X con distribucin
2
con
k grados de libertad, Y con distribucin normal estndar. Encuentre la funcin de densidad
de Z =
Y

X/k
.
Solucin
Se tiene:
f

X
(x, y) =

2xf
X
(x
2
) si x > 0
0 en otro caso
=
(
1
2
k
2
1
(
k
2
)
x
k1
e

1
2
x
2
si x > 0
0 en otro caso
De manera que la funcin de densidad conjunta de

X y Y est dada por:
f

X,Y
(x, y) =
(
1
2
k1
2

(
k
2
)
x
k1
e

1
2
(x
2
+y
2
)
si x > 0, y R
0 en otro caso
Se tiene entonces:
f Y

X
(z) =
R

|x| f

X,Y
(x, zx)dx =
1
2
k1
2

(
k
2
)
R

0
x
k
e

1
2
(1+z
2
)x
2
dx
=
1
2
k1
2

(
k
2
)
R

0
x
k
e

1
2
(1+z
2
)x
2
dy =
(
k+1
2
)

(
k
2
)
1
(1+z
2
)
k+1
2
Por lo tanto:
f
Z
(z) =
1

k
f Y

=
(
k+1
2
)

k(
k
2
)
1
_
1+
z
2
k
_k+1
2
Definicin 2.18 (Distribucin t). Se dice que la variable aleatoria X tiene distribucin t
con k grados de libertad si su funcin de densidad est dada por:
f
X
(x) =
(
k+1
2
)

k(
k
2
)
1
_
1+
x
2
k
_k+1
2
En la seccin 3.4 demostraremos que si X
1
, . . . , X
n
son n variables aleatorias independientes,
todas con distribucin normal de parmetros y
2
, entonces la variable aleatoria V =

n(

X)
s
X
tiene distribucin t con n 1 grados de libertad, en donde

X =
1
n
P
n
k=1
X
k
y s
2
X
=
1
n1
P
n
k=1
(X
k


X)
2
. Por esta razn, una distribucin t se utiliza cuando se quieren realizar
estimaciones de la esperanza de una variable aleatoria con distribucin normal de varianza
desconocida.
A continuacin se presentan las grcas de algunas funciones de densidad t.
0
0.1
0.2
0.3
0.4
0.5
-4 -2 2 4 x
k = 1
0
0.1
0.2
0.3
0.4
0.5
-4 -2 2 4 x
k = 5
0
0.1
0.2
0.3
0.4
0.5
-4 -2 2 4 x
k = 10
38 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Se puede observar en las grcas que, a medida que k crece, una distribucin t se va pareciendo
ms a una distribucin normal estndar. Para ver esto ms claramente, a continuacin se
muestran las grcas de algunas funciones de densidad t, comparndolas con la funci

n de
densidad normal estndar. La lnea punteada corresponde a la correspondiente densidad t,
mientras que la lnea slida corresponde a la densidad normal estndar.
0
0.1
0.2
0.3
0.4
-4 -3 -2 -1 1 2 3 4
x
k = 5
0
0.1
0.2
0.3
0.4
-4 -3 -2 -1 1 2 3 4
x
k = 10
0
0.1
0.2
0.3
0.4
-4 -3 -2 -1 1 2 3 4
x
k = 15
0
0.1
0.2
0.3
0.4
-4 -3 -2 -1 1 2 3 4
x
k = 20
Ejemplo 2.19. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
2
con m y n grados de libertad, respectivamente. Encuentre la funcin de densidad de Z =
Y/n
X/m
.
Solucin
En este caso, la funcin de densidad conjunta de X y Y est dada por:
f
X,Y
(x, y) =
(
1
2
m+n
2 (
n
2
)(
m
2
)
x
m
2
1
y
n
2
1
e

1
2
(x+y)
si x > 0, y > 0
0 en otro caso
Se tiene entonces:
fY
X
(z) =
R

|x| f
X,Y
(x, zx)dx
2.2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS CONTINUOS 39
=
(
1
2
m+n
2 (
m
2
)(
n
2
)
z
n
2
1
R

0
x
m+n
2
1
e

1
2
(1+z)x
dx si z > 0
0 en otro caso
=
(
1
(
m
2
)(
n
2
)
z
n
2
1
(1+z)
m+n
2
R

0
y
m+n
2
1
e
y
dy si z > 0
0 en otro caso
=
(
(
m+n
2
)
(
m
2
)(
n
2
)
z
n
2
1
(1+z)
m+n
2
si z > 0
0 en otro caso
Por lo tanto:
f
Z
(z) =
n
m
fY
X
(
n
m
z) =

n(
m+n
2
)
m(
m
2
)(
n
2
)
(
nz
m
)
n
2
1
(1+
nz
m
)
m+n
2
si z > 0
0 en otro caso
=
(
1
(
m
2
,
n
2
)

n
m
n
2
z
n
2
1
(1 +
n
m
z)

m+n
2
si z > 0
0 en otro caso
Definicin 2.20 (Distribucin F). Se dice que la variable aleatoria X tiene distribucin F
con n y m grados de libertad si su funcin de densidad est dada por:
f
X
(x) =
(
1
(
m
2
,
n
2
)

n
m
n
2
x
n
2
1
(1 +
n
m
x)

m+n
2
si x > 0
0 en otro caso
Basndonos en el ejemplo 2.19 y considerando que una variable aleatoria con distribucin
2
se obtiene al sumar cuadrados de variables aleatorias con distribucin normal estndar, una
distribucin F es bsicamente la distribucin del cociente de dos varianzas. Por esta razn,
una distribucin F se utiliza cuando se quiere comparar las varianzas de dos poblaciones. Se
utiliza tambin de esta manera en problemas relativos al anlisis de varianza, en los cuales
se trata de comparar las medias de 3 o ms poblaciones. Para esto, se toma una muestra
de cada poblacin y, asumiendo que las muestras de cada poblacin provienen todas ellas de
una misma poblacin, que incluye a las que estn bajo estudio, se estima la varianza de esta
poblacin mediante dos procedimientos. Finalmente, las dos varianzas se comparan utilizando
una distribucin F.
A continuacin se presentan las grcas de algunas funciones de densidad F.
0
0.2
0.4
0.6
0.8
1
1 2 3 4 5 z
m = 1, n = 1
0
0.2
0.4
0.6
0.8
1
1 2 3 4 5 z
m = 3, n = 5
0
0.2
0.4
0.6
0.8
1
1 2 3 4 5 z
m = 10, n = 7
40 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
2.3. Distribuciones conjuntas de funciones de vectores aleatorios
La relacin 1.4, utilizada en la seccin anterior para encontrar la funcin de densidad de
una funcin de un vector aleatorio absolutamente continuo, permite encontrar tambin la
funcin de densidad conjunta de variables aleatorias que son funciones de un vector aleatorio
absolutamente continuo.
Ejemplo 2.21. Sea (X, Y ) un vector aleatorio absolutamente continuo con funcin de den-
sidad conjunta f
X,Y
. Encuentre una frmula para la funcin de densidad conjunta de las
variables aleatorias U = X +Y y V = Y X.
Solucin
P [U u
0
, V v
0
] = P [X +Y u
0
, Y X v
0
] =
RR
{(x,y):x+yu
0
,yxv
0
}
f
X,Y
(x, y)dxdy
Haciendo el cambio de variable u = x +y, v = y x se tiene x =
uv
2
, y =
u+v
2
. As que:
P [U u
0
, V v
0
] =
R
u
0

R
u
0

1
2
f
X,Y

uv
2
,
u+v
2

dvdu
Por lo tanto:
f
X+Y,Y X
(u, v) =
1
2
f
X,Y

uv
2
,
u+v
2

Ejemplo 2.22. Sean X y Y variables aleatorias independientes, ambas con distribucin uni-
forme en el intervalo (0, 1). Encuentre la funcin de densidad conjunta de X +Y y Y X y
utilcela para calcular P

X +Y
3
2
, Y X
1
2

.
Solucin
f
X+Y,Y X
(u, v) =
1
2
f

uv
2
,
u+v
2

=

1
2
si 0 <
uv
2
< 1, 0 <
u+v
2
< 1
0 en otro caso
=

1
2
si 0 < u < 1, u < v < u 1 < u < 2, u 2 < v < u + 2
0 en otro caso
El conjunto de puntos (u, v) para los cuales f
X+Y,Y X
(u, v) > 0 se representa en la siguiente
gura:
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
v
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
u
Utilizando esta gura, se tiene:
P

X +Y
3
2
, Y X
1
2

= P

U
3
2
, V
1
2

= 1 P

U >
3
2

P

V <
1
2

= 1
1
2
R
2
3
2
R
u+2
u2
dvdu
1
2
R

1
2
1
R
v+2
v
dudv
2.3. DISTRIBUCIONES CONJUNTAS DE FUNCIONES DE VECTORES ALEATORIOS 41
= 1
1
8

1
8
=
3
4
El mtodo utilizado en el ejemplo 2.21 est basado en el teorema de cambio de variable para
integrales mltiples. Este mtodo puede utilizarse siempre que se cumplan las condiciones
para aplicar dicho teorema. De manera especca, se puede utilizar el siguiente resultado
general.
Proposicin 2.23. Sea (X
1
, . . . , X
n
) un vector aleatorio absolutamente continuo con funcin
de densidad conjunta f
X
1
,...,X
n
, D R
n
un conjunto abierto tal que P [(X
1
, . . . , X
n
) D] = 1
y : R
n
7R
n
una funcin tal que:
(i) es inyectiva sobre D.
(ii) Si : (D) 7R
n
es la inversa de y
1
, . . . ,
n
son las componentes de , entonces
las derivadas parciales

i
y
j
existen y son continuas sobre (D).
(iii) Si J

: (D) 7R es el Jacobiano de , entonces J

(y) 6= 0 para cualquier y (D).


Entonces el vector aleatorio (Y
1
, . . . , Y
n
) = (X
1
, . . . , X
n
) es absolutamente continuo y su
funcin de densidad conjunta, f
Y
1
,...,Yn
, est dada por:
f
Y
1
,...,Yn
(y
1
, . . . , y
n
) = |J

(y
1
, . . . , y
n
)| f
X
1
,...,Xn
((y
1
, . . . , y
n
))
para cualquier vector (y
1
, . . . , y
n
) R
n
.
Ejemplo 2.24. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama de parmetros
1
, y
2
, , respectivamente. Encuentre la funcin de densidad de
X
X+Y
.
Solucin
La transformacin u = x, v = x + y tiene como inversa x = u, y = v u, cuyo Jacobiano
est dado por:
(x,y)
(u,v)
=

1 0
1 1

= 1
Por lo tanto:
f
X,X+Y
(u, v) = f
X,Y
(u, v u) =

1
+
2
(
1
)(
2
)
u

1
1
(v u)

2
1
e
v
si u > 0, v u > 0
0 en otro caso
=

1
+
2
(
1
)(
2
)
u

1
1
(v u)

2
1
e
v
si 0 < u < v
0 en otro caso
Ahora bien, de acuerdo con el ejemplo 2.14, se tiene:
f X
X+Y
(z) =
R

|v| f
X,X+Y
(vz, v)dv
=
R

0
v

1
+
2
(
1
)(
2
)
(vz)

1
1
(v vz)

2
1
e
v
dv si 0 < z < 1
0 en otro caso
=

z

1
1
(1 z)

2
1

1
+
2
(
1
)(
2
)
R

0
v

1
+
2
1
e
v
dv si 0 < z < 1
0 en otro caso
=

z

1
1
(1 z)

2
1
(
1
+
2
)
(
1
)(
2
)
si 0 < z < 1
0 en otro caso
=

1
(
1
,
2
)
z

1
1
(1 z)

2
1
si 0 < z < 1
0 en otro caso
42 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Definicin 2.25 (Distribucin beta). Se dice que la variable aleatoria X tiene distribucin
beta de parmetros
1
y
2
si su funcin de densidad est dada por:
f
X
(x) =

1
(
1
,
2
)
x

1
1
(1 x)

2
1
si x (0, 1)
0 en otro caso
A continuacin se presentan las grcas de algunas funciones de densidad beta.
0
1
2
3
4
5
0.2 0.4 0.6 0.8 1 z

1
= 1,
2
= 5
0
1
2
3
4
5
0.2 0.4 0.6 0.8 1 z

1
= 3,
2
= 7
0
1
2
3
4
5
0.2 0.4 0.6 0.8 1 z

1
= 6,
2
= 6
Ejemplo 2.26. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama de parmetros
1
, y
2
, respectivamente. Encuentre la funcin de densidad conjunta
de U = X +Y y V =
X
X+Y
y muestre que U y V son independientes.
Solucin
La transformacin u = x+y, v =
x
x+y
tiene como inversa x = uv, y = uuv, cuyo Jacobiano
est dado por:
(x,y)
(u,v)
=

v u
1 v u

= u
Por lo tanto:
f
U,V
(u, v) = f
X+Y,
X
X+Y
(u, v) = uf
X,Y
(uv, u uv)
=

1
+
2
(
1
)(
2
)
u(uv)

1
1
(u uv)

2
1
e
u
si uv > 0, u uv > 0
0 en otro caso
=

1
+
2
(
1
+
2
)
u

1
+
2
1
e
u
(
1
+
2
)
(
1
)(
2
)
v

1
1
(1 v)

2
1
si u > 0, 0 < v < 1
0 en otro caso
=

1
+
2
(
1
+
2
)
u

1
+
2
1
e
u 1
(
1
,
2
)
v

1
1
(1 v)

2
1
si u > 0, 0 < v < 1
0 en otro caso
= f
U
(u)f
V
(v)
As que U y V son independientes.
Ejemplo 2.27. Sean X y Y variables aleatorias independientes, ambas con distribucin uni-
forme en el intervalo (0, 1). Encuentre la funcin de densidad conjunta de U = X y V = XY ,
graque la regin {(u, v) : f
U,V
(u, v) > 0} y calcule P

U >
1
2
, V >
1
4

.
Solucin
La transformacin u = x, v = xy tiene como inversa x = u, y =
v
u
, cuyo Jacobiano est dado
por:
2.3. DISTRIBUCIONES CONJUNTAS DE FUNCIONES DE VECTORES ALEATORIOS 43
(x,y)
(u,v)
=

1 0

v
u
2
1
u

=
1
u
Por lo tanto:
f
U,V
(u, v) =
1
u
f
X,Y
(u,
v
u
) =

1
u
si 0 < u < 1, 0 <
v
u
< 1
0 en otro caso
=

1
u
si 0 < v < u < 1
0 en otro caso
La regin {(u, v) : f
U,V
(u, v) > 0} se representa en la siguiente gura:
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
v
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
u
Se tiene entonces:
P

U >
1
2
, V >
1
4

=
R
1
1/2
R
u
1
4
1
u
dvdu =
1
2

1
4
ln 2 = 0.32671
Ejemplo 2.28. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal estndar. Consideremos a la pareja (X, Y ) como las coordenadas de un punto en el
plano cartesiano y denamos R y como las coordenadas polares de ese punto. Encuentre la
funcin de densidad conjunta de R y . Son R y independientes?
Solucin
El Jacobiano de la transformacin x = r cos , y = r sen est dado por r, de manera que se
tiene:
f
R,
(r, ) = rf
X,Y
(r cos , r sen ) =

1
2
re

1
2
r
2
si 0 < < 2, r > 0
0 en otro caso
De aqu se sigue que:
f
R
(r) =
R
2
0
f
R,
(r, )d =

re

1
2
r
2
si r > 0
0 en otro caso
f

() =
R

0
f
R,
(r, )dr =

1
2
si 0 < < 2
0 en otro caso
As que f
R,
(r, ) = f
R
(r)f

(), por lo tanto, R y son independientes.


Sean X, Y, R y como en el ltimo ejemplo, entonces Z = R
2
= X
2
+ Y
2
tiene distribucin
exponencial de parmetro =
1
2
y, como R y son independientes, R
2
y tambin lo son.
Adems, se tiene X =

Z cos y Y =

Z sen. Por otra parte, si U es una variable aleatoria


44 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
con distribucin uniforme en el intervalo (0, 1), entonces la variable aleatoria 2 ln U tiene
distribucin exponencial de parmetro =
1
2
. Esto sugiere el siguiente resultado:
Sean U y V dos variables aleatorias independientes, ambas con distribucin uniforme en el in-
tervalo (0, 1), entonces las variables aleatorias X =

2 lnU cos 2V y Y =

2 ln Usen2V
son independientes y ambas tienen distribucin normal estndar.
La demostracin de la validez de este resultado se deja como ejercicio.
Recurdese que se dice que una familia {P
t
: t 0} de variables aleatorias discretas forma un
proceso de Poisson de parmetro si se satisfacen las siguientes propiedades:
(i) P
0
= 0.
(ii) Si 0 < t
1
< < t
n
, entonces las variables aleatorias P
t
1
, P
t
2
P
t
1
, . . ., P
t
n
P
t
n1
son independientes.
(iii) Si s < t, entonces la variable aleatoria P
t
P
s
tiene distribucin Poisson de parmetro
(t s).
Ejemplo 2.29. Supongamos que un cierto evento ocurre en los tiempos aleatorios T
1
, T
2
, . . .,
de tal manera que si, para t 0, X
t
es el nmero de veces que ocurre el evento hasta el
tiempo t, entonces la familia de variables aleatorias {X
t
}
t0
forma un proceso de Poisson
de parmetro . Vamos a encontrar, para cada n N, la funcin de densidad conjunta de
T
1
, . . . , T
n
:
Obsrvese primero que:
P [X
t
= k] =
(t)
k
k!
e
t
=

k
(k1)!
e
t t
k
k
=

k
(k1)!
e
t
R
t
0
(t s)
k1
ds
=
R
t
0

k
(k1)!
(t s)
k1
e
t
ds =
R
t
0
[(ts)]
k1
(k1)!
e
(ts)
e
s
ds
=
R
t
0
P [X
t
X
s
= k 1] e
s
ds =
R
t
0
P [X
ts
= k 1] e
s
ds
As que:
P [X
t
1
= k
1
, . . . , X
t
n
= k
n
]
= P

X
t
1
= k
1
, X
t
2
X
t
1
= k
2
k
1
, . . . X
t
n
X
t
n1
= k
n
k
n1

= P [X
t
1
= k
1
] P [X
t
2
X
t
1
= k
2
k
1
] P

X
t
n
X
t
n1
= k
n
k
n1

=
R
t
1
0
P [X
t
1
s
= k
1
1] P [X
t
2
X
t
1
= k
2
k
1
] P

X
t
n
X
t
n1
= k
n
k
n1

e
s
ds
=
R
t
1
0
P [X
t
1
s
= k
1
1] P [X
t
2
s
X
t
1
s
= k
2
k
1
] P

X
t
n
s
X
t
n1
s
= k
n
k
n1

e
s
ds
=
R
t
1
0
P [X
t
1
s
= k
1
1, . . . , X
tns
= k
n
1] e
s
ds
Sean ahora 0 < t
1
< < t
n
, entonces:
F
T
1
,...,T
n
(t
1
, . . . , t
n
) = P [T
1
t
1
, . . . , T
n
t
n
] = P [X
t
1
1, . . . , X
t
n
n]
=
P
{k
1
k
n
:k
1
1,...,k
n
n}
P [X
t
1
= k
1
, . . . , X
tn
= k
n
]
=
R
t
1
0
P
{k
1
k
n
:k
1
1,...,k
n
n}
P [X
t
1
s
= k
1
1, . . . , X
t
n
s
= k
n
1] e
s
ds
=
R
t
1
0
P
{k
1
kn:k
1
0,...,knn1}
P [X
t
1
s
= k
1
, . . . , X
t
n
s
= k
n
] e
s
ds
=
R
t
1
0
P
{k
2
k
n
:k
2
1,...,k
n
n1}
P [X
t
2
s
= k
2
, . . . , X
tns
= k
n
] e
s
ds
=
R
t
1
0
P [X
t
2
s
1, . . . , X
t
n
s
n 1] e
s
ds
=
R
t
1
0
P [T
1
t
2
s, . . . , T
n1
t
n
s] e
s
ds
2.3. DISTRIBUCIONES CONJUNTAS DE FUNCIONES DE VECTORES ALEATORIOS 45
=
R
t
1
0
F
T
1
,...,T
n1
(t
2
s, . . . , t
n
s)e
s
ds
Supongamos que F
T
1
,...,T
n1
admite una funcin de densidad f
T
1
,...,T
n1
, entonces:
F
T
1
,...,T
n1
(t
2
s, . . . , t
n
s)
=
R

R
{0<x
1
<<x
n1
:x
1
t
2
s,...,x
n1
tns}
f
T
1
,T
2
,...,T
n1
(x
1
, . . . , x
n1
)dx
1
dx
n1
=
R

R
{s<x
1
+s<<x
n1
+s:x
1
+st
2
,...,x
n1
+st
n
}
f
T
1
,T
2
,...,T
n1
(x
1
, . . . , x
n1
)dx
1
dx
n1
=
R

R
{s<y
2
<<y
n
:y
2
t
2
,...,y
n
t
n
}
f
T
1
,T
2
,...,T
n1
(y
2
s, . . . , y
n
s)dy
2
dy
n
As que:
F
T
1
,...,T
n
(t
1
, . . . , t
n
) =
R
t
1
0
F
T
1
,...,T
n1
(t
2
s, . . . , t
n
s)e
s
ds
=
R
t
1
0
R

R
{s<y
2
<<y
n
:y
2
t
2
,...,y
n
t
n
}
f
T
1
,...,T
n1
(y
2
s, . . . , y
n
s)e
s
dsdy
2
dy
n
=
R

R
{0<s<y
2
<<yn:st
1
,y
2
t
2
,...,yntn}
f
T
1
,...,T
n1
(y
2
s, . . . , y
n
s)e
s
dsdy
2
dy
n
Por lo tanto, F
T
1
,T
2
,...,Tn
admite como funcin de densidad a la funcin:
f
T
1
,...,T
n
(t
1
, . . . , t
n
) = f
T
1
,...,T
n1
(t
2
t
1
, . . . , t
n
t
1
)e
t
1
Por otra parte, se tiene:
P [T
1
t
1
] = P [X
t
1
1] = 1 e
t
1
As que F
T
1
admite como funcin de densidad a la funcin:
f
T
1
(t
1
) =

e
t
1
si t
1
> 0
0 en otro caso
Por lo tanto:
f
T
1
,T
2
(t
1
, t
2
) = f
T
1
(t
2
t
1
)e
t
1
=

e
t
2
si 0 < t
1
< t
2
0 en otro caso
Un razonamiento de induccin muestra entonces que:
f
T
1
,T
2
,...,T
n
(t
1
, t
2
, . . . , t
n
) =


n
e
t
n
si 0 < t
1
< t
2
< < t
n
0 en otro caso
Corolario 2.30. Las variables aleatorias Y
1
= T
1
, Y
2
= T
2
T
1
, Y
3
= T
3
T
2
, . . . son
independientes y todas tienen distribucin exponencial de parmetro .
Demostracin
f
Y
1
,...,Y
n
(y
1
, . . . , y
n
) = f
T
1
,...,T
n
(y
1
, y
1
+y
2
, . . . , y
1
+ +y
n
)
=


n
e
(y
1
++y
n
)
si y
1
> 0, y
2
> 0, . . . , y
n
> 0
0 en otro caso
= f
Y
1
(y
1
) f
Y
n
(y
n
)
Lema 2.31. Para 0 a < b, se tiene
R

R
{a<x
1
<<x
n
b}
dx
1
dx
n
=
1
n!
(b a)
n
.
Demostracin
R

R
{s<x
1
<<x
n
t}
dx
1
dx
n
=
R
t
s

R
t
x
n2
R
t
x
n1
dx
n
dx
1
=
R
t
s

R
t
x
n2
(t x
n1
)dx
n1
dx
1
=
R
t
s

R
t
x
n2
1
2
(t x
n2
)
2
dx
n2
dx
1
= =
R
t
s
1
(n1)!
(t x
2
)
n1
dx
1
=
1
n!
(t s)
n
46 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Proposicin 2.32. Supongamos que un cierto evento ocurre en los tiempos aleatorios
T
1
, T
2
, . . ., de tal manera que las variables aleatorias Y
1
= T
1
, Y
2
= T
2
T
1
, Y
3
= T
3
T
2
, . . .
son independientes y todas tienen distribucin exponencial de parmetro . Para cada t 0,
sea X
t
el nmero de veces que ocurre el evento hasta el tiempo t. Entonces, la familia de
variables aleatorias {X
t
}
t0
forma un proceso de Poisson de parmetro .
Demostracin
Para cualquier n N se tiene:
f
T
1
,...,T
n
(t
1
, . . . , t
n
) = f
Y
1
,...,Y
n
(t
1
, t
2
t
1
, . . . , t
n
t
n1
)
=


n
e
t
n
si 0 < t
1
< < t
n
0 en otro caso
Denamos I
n
(a, b) =
R

R
{a<x
1
<<xnb}
dx
1
dx
n
Para 0 < s < t y m, k {0, 1, . . .}, se tiene:
P [X
s
= m, X
t
X
s
= k] = P [X
s
= m, X
t
= m+k]
= P [T
m
s, T
m+1
> s, T
m+k
t, T
m+k+1
> t]
= P [0 < T
1
< < T
m
s, s < T
m+1
< T
m+k
t, T
m+k+1
> t]
=
R

R
{0<t
1
<t
2
<<tms,s<t
m+1
<<t
m+k
t}
R

t

m+k+1
e
t
m+k+1
dt
m+k+1
dt
1
=
m+k
e
t
I
m
(0, s)I
k
(s, t) =
m+k
e
t 1
m!
s
m 1
k!
(t s)
k
=
1
m!
(s)
m
e
s 1
k!
[(t s)]
k
e
(ts)
Por lo tanto:
P [X
s
= m] =
P

k=0
P [X
s
= m, X
t
X
s
= k]
=
1
m!
(s)
m
e
s
P

k=0
1
k!
[(t s)]
k
e
(ts)
=
1
m!
(s)
m
e
s
P [X
t
X
s
= k] =
P

m=0
P [X
s
= m, X
t
X
s
= k]
=
1
k!
[(t s)]
k
e
(ts)
P

m=0
1
m!
(s)
m
e
s
=
1
k!
[(t s)]
k
e
(ts)
P [X
t
X
s
= k] =
1
k!
[(t s)]
k
e
(ts)
As que X
t
X
s
tiene distribucin Poisson de parmetro (t s).
De la misma forma, para 0 < t
1
< < t
n
y k
1
, . . . , k
n
{0, 1, . . .}, se tiene:
P

X
t
1
= k
1
, X
t
2
X
t
1
= k
2
, . . . , X
t
n
X
t
n1
= k
n

P [X
t
1
= k
1
, X
t
2
= k
1
+k
2
, . . . , X
t
n
= k
1
+k
2
+ +k
n
]
= P [T
k
1
t
1
< T
k
1
+1
, T
k
1
+k
2
t
2
< T
k
1
+k
2
+1
, . . . , T
k
1
++k
n
t
n
< T
k
1
++k
n
+1
]
= P

T
k
1
t
1
, t
1
< T
k
1
+1
< T
k
1
+k
2
t
2
, . . . , t
n1
< T
k
1
++k
n1
+1
< T
k
1
++kn
t
n
, T
k
1
++kn+1
> t
n

=
k
1
++k
n
e
tn
I
k
1
(0, t
1
)I
k
2
(t
1
, t
2
) I
k
n
(t
n1
, t
n
)
=
k
1
++k
n
e
t
n
1
k
1
!
t
k
1
1
1
k
2
!
(t
2
t
1
)
k
2

1
k
n
!
(t
n
t
n1
)
k
n
=
1
k
1
!
(t
1
)
k
1
e
t
1
1
k
2
!
[(t
2
t
1
)]
k
2
e
(t
2
t
1
)

1
k
n
!
[(t
n
t
n1
)]
kn
e
(t
n
t
n1
)
As que:
P

X
t
1
= k
1
, X
t
2
X
t
1
= k
2
, . . . , X
t
n
X
t
n1
= k
n

= P [X
t
1
= k
1
] P [X
t
2
X
t
1
= k
2
] P

X
t
n
X
t
n1
= k
n

Por lo tanto, las variables aleatorias X


t
1
, X
t
2
X
t
1
, . . ., X
t
n
X
t
n1
son independientes.
2.4. ESTADSTICOS DE ORDEN 47
2.4. Estadsticos de orden
Definicin 2.33 (Estadsticos de orden). Sean X
1
, . . . , X
n
n variables aleatorias. Las
variables aleatorias, X
(1)
, . . ., X
(n)
, las cuales se obtienen ordenando X
1
, . . . , X
n
en forma
creciente, son llamadas los estadsticos de orden correspondientes a X
1
, . . . , X
n
.
Proposicin 2.34. Sean X
1
, . . . , X
n
n variables aleatorias absolutamente continuas e inde-
pendientes, con funcin de densidad comn f. Entonces la funcin de densidad conjunta de
los estadsticos de orden, X
(1)
, . . . , X
(n)
, correspondientes a X
1
, . . . , X
n
, est dada por:
f
X
(1)
,...,X
(n)
(u
1
, . . . , u
n
) =

n!f(u
1
) f(u
n
) si u
1
< < u
n
0 en otro caso
Demostracin
Sea (u
1
, . . . , u
n
) R
n
, entonces:
F
X
(1)
,...,X
(n)
(u
1
, . . . , u
n
) = P

X
(1)
u
1
, . . . , X
(n)
u
n

= P [X
1
u
1
, . . . , X
n
u
n
, X
1
< < X
n
]
+P [X
2
u
1
, . . . , X
n
u
n
, X
2
< < X
n
]
+
=
R
{(x
1
,...,x
n
):x
1
u
1
,...,x
n
u
n
,x
1
<<x
n
}
f(x
1
) f(x
n
)dx
1
dx
n
+
R
{(x
1
,...,x
n
):x
2
u
1
,...,x
n
u
n
,x
2
<<x
n
}
f(x
2
)f(x
1
) f(x
n
)dx
2
dx
1
dx
n
+
= n!
R
{(x
1
,...,x
n
):x
1
u
1
,...,x
n
u
n
,x
1
<<x
n
}
f(x
1
) f(x
n
)dx
1
dx
n
=
R
{(x
1
,...,x
n
):x
1
u
1
,...,x
n
u
n
}
I
{(y
1
,...,y
n
)R
n
:y
1
<<y
n
}
(x
1
, . . . , x
n
)n!f(x
1
) f(x
n
)dx
1
dx
n
Por lo tanto:
f
X
(1)
,...,X
(n)
(u
1
, . . . , u
n
) =

n!f(u
1
) f(u
n
) si u
1
< < u
n
0 en otro caso
Ejemplo 2.35. Sean T
1
, T
2
y T
3
tres variables aleatorias independientes, todas con distribucin
exponencial de parmetro . Encuentre la probabilidad de que ningn par de ellas diera en
menos de t, en donde t > 0.
Solucin
Sean T
(1)
, T
(2)
, T
(3)
los estadsticos de orden correspondientes a T
1
, T
2
, T
3
, entonces:
f
T
(1)
,T
(2)
,T
(3)
(t
1
, t
2
, t
3
) =

3!
3
e
(t
1
+t
2
+t
3
)
si 0 < t
1
< t
2
< t
3
0 en otro caso
P [|T
2
T
1
| t, |T
3
T
1
| t, |T
3
T
2
| t]
= P

T
(2)
T
(1)
+t, T
(3)
T
(2)
+t

=
R

0
R

t
1
+t
R

t
2
+t
f
T
(1)
,T
(2)
,T
(3)
(t
1
, t
2
, t
3
)dt
3
dt
2
dt
1
=
R

0
R

t
1
+t
R

t
2
+t
3!
3
e
(t
1
+t
2
+t
3
)
dt
3
dt
2
dt
1
= 6
R

0
R

t
1
+t
e
t

2
e
(t
1
+2t
2
)
dt
2
dt
1
= 3
R

0
e
3t
e
3t
1
dt
1
= e
3t
48 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Ejemplo 2.36. Se seleccionan, al azar y de manera independiente, n puntos en el intervalo
(0, 1). Encuentre la probabilidad de que no haya dos de ellos cuya distancia sea menor que d,
en donde 0 < d
1
n1
.
Solucin
Sean X
1
, . . . , X
n
los n puntos seleccionados y X
(1)
, . . . , X
(n)
los estadsticos de orden corres-
pondientes a X
1
, . . . , X
n
, entonces:
f
X
(1)
,...,X
(n)
(x
1
, . . . , x
n
) =

n! si 0 < x
1
< < x
n
< 1
0 en otro caso
P [|X
i
X
j
| d para cualquier pareja i, j {1, . . . , n} con i 6= j]
= P

X
(2)
X
(1)
+d, . . . , X
(n)
X
(n1)
+d

=
R
1(n1)d
0
R
1(n2)d
x
1
+1

R
1d
x
n2
+d
R
1
x
n1
+d
f
X
(1)
,...,X
(n)
(x
1
, . . . , x
n
)dx
n
dx
1
=
R
1(n1)d
0
R
1(n2)d
x
1
+1

R
1d
x
n2
+d
R
1
x
n1
+d
n!dx
n
dx
n1
dx
1
= n!
R
1(n1)d
0
R
1(n2)d
x
1
+1

R
1d
x
n2
+d
(1 x
n1
d)dx
n1
dx
1
= n!
R
1(n1)d
0
R
1(n2)d
x
1
+1

R
12dx
n2
0
y
n1
dy
n1
dx
1
= n!
R
1(n1)d
0
R
1(n2)d
x
1
+1

R
12d
x
n3
+d
1
2
(1 2d x
n2
)
2
dx
n2
dx
1
= n!
R
1(n1)d
0
R
1(n2)d
x
1
+1

R
13d
x
n4
+d
1
3!
(1 3d x
n3
)
3
dx
n3
dx
1
= = n!
R
1(n1)d
0
1
(n1)!
[1 (n 1)d x
1
]
n1
dx
1
= [1 (n 1)d]
n
Proposicin 2.37. Sean X
1
, . . . , X
n
n variables aleatorias absolutamente continuas e inde-
pendientes, con funcin de densidad comn f. Sea F la funcin de distribucin comn de
X
1
, . . . , X
n
, a = nf {x R : F(x) > 0} y b = sup {x R : F(x) < 1}. Supongamos que f
es continua en el intervalo (a, b) de tal manera que cuando a (resp. b) es nito, f se puede
extender continuamente a a (resp. b), entonces:
a) Para k {1, . . . , n}, las funciones de distribucin y de densidad del k-simo estadstico de
orden, X
(k)
, estn dadas, respectivamente, por:
F
X
(k)
=
P
n
j=k

n
j

F
j
[1 F]
nj
f
X
(k)
= k

n
k

F
k1
[1 F]
nk
f
b) la funcin de densidad conjunta de X
(1)
y X
(n)
est dada por:
f
X
(1)
,X
(n)
(x, y) =

n(n 1) [F(y) F(x)]
n2
f(x)f(y) si x < y
0 en otro caso
Demostracin
a. El evento

X
(k)
x

ocurre cuando ocurren k o ms de los eventos [X


j
x], en donde
j {1, . . . , n}. Por otra parte, el nmero de ocurrencias de los eventos [X
j
x], en donde
j {1, . . . , n}, tiene distribucin binomial de parmetros n y p = F(x). Por lo tanto:
F
X
(k)
(x) = P

X
(k)
x

=
P
n
j=k

n
j

F
j
(x) [1 F(x)]
nj
As que, para x (a, b), se tiene:
F
0
X
(k)
(x) =
P
n
j=k

n
j

jF
j1
(x) [1 F(x)]
nj
f(x)
P
n1
j=k

n
j

(n j)F
j
(x) [1 F(x)]
nj1
f(x)
2.4. ESTADSTICOS DE ORDEN 49
= k

n
k

F
k1
(x) [1 F(x)]
nk
f(x)
+
P
n
j=k+1
n!
(j1)!(nj)!
F
j1
(x) [1 F(x)]
nj
f(x)
P
n1
j=k
n!
j!(nj1)!
F
j
(x) [1 F(x)]
nj1
f(x)
= k

n
k

F
k1
(x) [1 F(x)]
nk
f(x)
+
P
n1
j=k
n!
j!(nj1)!
F
j
(x) [1 F(x)]
nj1
f(x)
P
n1
j=k
n!
j!(nj1)!
F
j
(x) [1 F(x)]
nj1
f(x)
= k

n
k

F
k1
(x) [1 F(x)]
nk
f(x)
Por lo tanto:
f
X
(k)
= F
0
X
(k)
= k

n
k

F
k1
[1 F]
nk
f.
b. Sea x < y, entonces:
P

X
(1)
> x, X
(n)
y

= P [x < X
1
y, x < X
2
y, . . . , x < X
n
y]
= [F(y) F(x)]
n
As que:
F
X
(1)
,X
(n)
(x, y) = P

X
(1)
x, X
(n)
y

= P

X
(n)
y

P

X
(1)
> x, X
(n)
y

= F
n
(y) [F(y) F(x)]
n
de lo cual se sigue el resultado.
Corolario 2.38. Sean X
1
, . . . , X
n
n variables aleatorias absolutamente continuas e inde-
pendientes, con funcin de densidad comn f. Sea F la funcin de distribucin comn de
X
1
, . . . , X
n
, a = nf {x R : F(x) > 0} y b = sup{x R : F(x) < 1}. Supongamos que f es
continua en el intervalo (a, b), entonces:
F
mn{X
1
,...,X
n
}
= 1 [1 F]
n
f
mn{X
1
,...,Xn}
= n[1 F]
n1
f
F
max{X
1
,...,Xn}
= F
n
f
max{X
1
,...,X
n
}
= nF
n1
f
Ejemplo 2.39. Dada una cierta produccin de lmparas, se sabe que el tiempo de vida, en
horas, de cada una de ellas es independiente del tiempo de vida de las otras y tiene distribucin
exponencial de parmetro . Si se prenden n lmparas simultneamente, cul es la probabili-
dad de que a) ninguna lmpara est funcionando despus de n horas?, b) la primera lmpara
deje de funcionar dentro de la primera hora?, c) dejen de funcionar 3 o ms lmparas dentro
de la primera hora?, d) dejen de funcionar exactamente 3 lmparas dentro de la primera hora?
e) Si T es el tiempo que transcurre desde que deja de funcionar la primera lmpara hasta que
deja de funcionar la ltima, encuentre la distribucin de T.
Solucin
Para i {1, . . . , n}, sea T
i
el tiempo de vida de la i-sima lmpara y sean F y f la funcin
de distribucin y la funcin de densidad comn, respectivamente, de T
1
, . . . , T
n
.
a. P [T
1
n, . . . , T
n
n] = P [m ax {T
1
, . . . , T
n
} n]
= F
n
(n) =

1 e
n

n
b. P [mn{T
1
, . . . , T
n
} < 1] = 1 [1 F(1)]
n
= 1 e
n
c. P

T
(3)
< 1

=
P
n
j=3

n
j

F
j
(1) [1 F(1)]
nj
50 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
= 1
P
2
j=0

n
j

F
j
(1) [1 F(1)]
nj
= 1
P
2
j=0

n
j

1 e

j
e
(nj)
= 1 e
n
n(1 e

)e
(n1)

1
2
n(n 1)(1 e

)
2
e
(n2)
= 1
1
2
(n 1) (n 2) e
n
+n(n 2) e
(n1)

1
2
n(n 1)e
(n2)
d. P

T
(3)
< 1, T
(4)
1

= P

T
(3)
< 1

P

T
(4)
< 1

=

n
3

F
3
(1) [1 F(1)]
n3
=

n
3

(1 e

)
3
e
(n3)
e. Para t > 0, se tiene:
f
T
(t) = f
T
(n)
T
(1)
(t) =
R

f
T
(1)
,T
(n)
(x, x +t)dx
=
R

0
n(n 1) [F(x +t) F(x)]
n2
f(x)f(x +t)dx
=
R

0
n(n 1)
2
e
x(n2)

1 e
t

n2
e
2x
e
t
dx
= (n 1)e
t

1 e
t

n2
R

0
ne
nx
dx = (n 1)e
t

1 e
t

n2
2.5. Esperanza de funciones de vectores aleatorios
En esta seccin vamos a generalizar al caso vectorial algunos resultados que fueron expuestos
en el captulo 9 del primer volumen de este libro.
Recordemos que se dice que una variable aleatoria discreta X tiene esperanza nita si la serie
P
x
|x| f
X
(x) converge, en cuyo caso se dene la esperanza de X, E [X], mediante la frmula:
E[X] =
P
x
xf
X
(x)
De la misma manera, se dice que una variable aleatoria absolutamente continua X tiene
esperanza nita si la integral
R

|x| f
X
(x)dx es nita, en cuyo caso se dene la esperanza de
X, E [X], mediante la frmula:
E[X] =
R

xf
X
(x)dx
De manera general, si X es cualquier variable aleatoria con funcin de distribucin F
X
, se
dice que X tiene esperanza nita si
R

0
[1 F
X
(x)] dx < y
R

0
F
X
(x)dx < y, en este
caso, se dene la esperanza de X, E [X], mediante la frmula
E[X] =
R

0
[1 F
X
(x)] dx
R

0
F
X
(x)dx
Finalmente, recordemos que se tienen los siguientes resultados, los cuales fueron demostrados
en el primer volumen (corolarios 9.43 y 9.44):
Proposicin 2.40. Sean X
1
, . . . , X
n
n variables aleatorias de esperanza nita, entonces
P
n
k=1
X
k
tambin tiene esperanza nita y E[
P
n
k=1
X
k
] =
P
n
k=1
E[X
k
].
Proposicin 2.41. Sean X
1
, . . . , X
n
n variables aleatorias independientes de esperanza nita,
entonces
Q
n
k=1
X
k
tambin tiene esperanza nita y E[
Q
n
k=1
X
k
] =
Q
n
k=1
E [X
k
].
Los siguientes resultados nos van a permitir encontrar una frmula simple para calcular la
esperanza de una funcin de un vector aleatorio discreto o absolutamente continuo.
Proposicin 2.42. Sea X un vector aleatorio n-dimensional discreto con funcin de densidad
conjunta f
X
, g : R
n
7 R cualquier funcin y F
g(X)
la funcin de distribucin de g(X).
Entonces:
2.5. ESPERANZA DE FUNCIONES DE VECTORES ALEATORIOS 51
a)
P
{xR
n
:g(x)>0}
g(x)f
X
(x) =
R

1 F
g(X)
(z)

dz
b)
P
{xR
n
:g(x)<0}
|g(x)| f
X
(x) =
R

0
F
g(X)
(z)dz
Demostracin
a. Para cualquier n N, se tiene:
R

1 F
g(X)
(z)

dz =
R

0
P [g(X) > z] dz =
P

k=1
R k
n
k1
n
P [g(X) > z] dz
Pero:
R k
n
k1
n
P [g(X) > z] dz
R k
n
k1
n
P

g(X) >
k
n

dz =
1
n
P

g(X) >
k
n

R k
n
k1
n
P [g(X) > z] dz
R k
n
k1
n
P

g(X) >
k1
n

dz =
1
n
P

g(X) >
k1
n

Por lo tanto:
P

k=1
R k
n
k1
n
P [g(X) > z] dz
P

k=1
1
n
P

g(X) >
k
n

=
1
n
P

k=1
P

g(X) >
k
n

=
1
n
P

k=0
P

g(X) >
k
n

1
n
P [g(X) > 0]
=
1
n

P

0
n
< g(X)
1
n

+ 2P

1
n
< g(X)
2
n

1
n
P [g(X) > 0]
=
1
n
P

k=1
kP

k1
n
< g(X)
k
n

1
n
P [g(X) > 0]

k=1
k
n
P

k1
n
< g(X)
k
n

1
n
=
P

k=1
k
n
P
{
xR
n
:
k1
n
<g(x)
k
n
}
f
X
(x)
1
n

k=1
P
{
xR
n
:
k1
n
<g(x)
k
n
}
g(x)f
X
(x)
1
n
=
P
{xR
n
:g(x)>0}
g(x)f
X
(x)
1
n
De la misma manera se demuestra:
P

k=1
R k
n
k1
n
P [g(X) > z] dz
P

k=1
1
n
P

g(X) >
k1
n

P
{xR
n
:g(x)>0}
g(x)f
X
(x) +
1
n
As que, para cualquier n N, se tiene:
P
{xR
n
:g(x)>0}
g(x)f
X
(x)
1
n

R

1 F
g(X)
(z)

dz
P
{xR
n
:g(x)>0}
g(x)f
X
(x) +
1
n
Por lo tanto:
R

1 F
g(X)
(z)

dz =
P
{xR
n
:g(x)>0}
g(x)f
X
(x)
b. Para cualquier n N, se tiene:
R

0
F
g(X)
(z)dz =
R

0
P [g(X) z] dz =
P

k=1
R k
n
k1
n
P [g(X) z] dz
Pero:
R k
n
k1
n
P [g(X) z] dy
R k
n
k1
n
P

g(X)
k
n

dz =
1
n
P

g(X)
k
n

R k
n
k1
n
P [g(X) z] dz
R k
n
k1
n
P

g(X)
k1
n

dz =
1
n
P

g(X)
k1
n

Por lo tanto:
P

k=1
R k
n
k1
n
P [g(X) z] dz
P

k=1
1
n
P

g(X)
k
n

=
1
n
P

k=1
P

g(X)
k
n

=
1
n
P

k=0
P

g(X)
k
n

1
n
P [g(X) 0]
=
1
n

1
n
< g(X)
0
n

+ 2P

2
n
< g(X)
1
n

1
n
P [g(X) 0]
52 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
=
1
n
P

k=1
kP

k
n
< g(X)
k1
n

1
n
P [g(X) 0]

k=1
k
n
P

k
n
< g(X)
k1
n

1
n
=
P

k=1
k
n
P
{
xR
n
:
k
n
<g(x)
k1
n
}
f
X
(x)
1
n

k=1
P
{
xR
n
:
k
n
<g(x)
k1
n
}
|g(x)| f
X
(x)
1
n
=
P
{xR
n
:g(x)<0}
|g(x)| f
X
(x)
1
n
De la misma manera se demuestra:
P

k=1
R k
n
k1
n
P [g(X) z] dz
P

k=1
1
n
P

g(X)
k1
n

P
{xR
n
:g(x)<0}
|g(x, y)| f
X
(x) +
1
n
As que, para cualquier n N, se tiene:
P
{xR
n
:g(x)<0}
|g(x)| f
X
(x)
1
n

R

0
F
g(X)
(z)dz
P
{xR
n
:g(x)<0}
|g(x)| f
X
(x) +
1
n
Por lo tanto:
R

0
F
g(X)
(z)dz =
P
{xR
n
:g(x)<0}
|g(x)| f
X
(x)
Corolario 2.43. Sea X un vector aleatorio n-dimensional discreto con funcin de densidad
conjunta f
X
, g : R
n
7 R cualquier funcin y F
g(X)
la funcin de distribucin de g(X).
Entonces:
P
{xR
n
}
|g(x)| f
X
(x) < si y solo si
R

1 F
g(X
(z)

dz < y
R

0
F
g(X)
(z)dz < .
Adems, en este caso, se tiene:
a)
P
{xR
n
}
|g(x)| f
X
(x) =
R

1 F
g(X)
(z)

dz +
R

0
F
g(X)
(z)dz
b)
P
{xR
n
}
g(x)f
X
(x) =
R

1 F
g(X)
(z)

dz
R

0
F
g(X)
(z)dz
Proposicin 2.44. Sea X un vector aleatorio n-dimensional absolutamente continuo, con
funcin de densidad conjunta f
X
, g : R
n
7 R cualquier funcin y F
g(X)
la funcin de dis-
tribucin de g(X). Entonces:
a)
R

R
{xR
n
:g(x)>0}
g(x)f
X
(x)dx =
R

1 F
g(X)
(z)

dz
b)
R

R
{xR
n
:g(x)<0}
|g(x)| f
X
(x)dx =
R

0
F
g(X)
(z)dz
Demostracin
a.
R

1 F
g(X)
(z)

dz =
R

0
P [g(X) > z] dz
=
R

0
R

R
{xR
n
:g(x)>z}
f
X
(x)dxdz
=
R

0
R

R
R
n
I
{uR
n
:g(u)>z}
(x)f
X
(x)dxdz
=
R

0
R

R
R
n
I
{(u
1
,...,u
n
,w)R
n+1
:0<w<g(u
1
,...,u
n
)}
(x
1
, . . . , x
n
, z)f
X
(x)dxdz
=
R

R
R
n
R

0
I
{(u
1
,...,un,w)R
n+1
:0<w<g(u
1
,...,un)}
(x
1
, . . . , x
n
, z)f
X
(x)dzdx
=
R

R
R
n
R

0
I
{uR
n
:g(u)>0}
(x)I
(0,g(x))
(z)f
X
(x)dzdx
=
R

R
{xR
n
:g(x)>0}
R
g(x)
0
f
X
(x)dzdx
=
R

R
{xR
n
:g(x)>0}
g(x)f
X
(x)dx
b.
R

0
F
g(X)
(z)dz =
R

0
P [g(X) z] dz
=
R

0
R
{xR
n
:g(x)z}
f
X
(x)dxdz
2.5. ESPERANZA DE FUNCIONES DE VECTORES ALEATORIOS 53
=
R

0
R

R
R
n
I
{uR
n
:g(u)z}
(x)f
X
(x)dxdz
=
R

0
R

R
R
n
I
{(u
1
,...,u
n
,w)R
n+1
:0wg(u
1
,u
2
,...,u
n
)}
(x
1
, x
2
, . . . , x
n
, z)f
X
(x)dxdz
=
R

R
R
n
R

0
I
{(u
1
,...,u
n
,w)R
n+1
:0wg(u
1
,u
2
,...,u
n
)}
(x
1
, x
2
, . . . , x
n
, z)f
X
(x)dzdx
=
R

R
R
n
R

0
I
{uR
n
:g(u)<0}
(x)I
[0,g(x)]
(z)f
X
(x)dzdx
=
R

R
{xR
n
:g(x)<0}
R
g(x)
0
f
X
(x)dzdx
=
R

R
{xR
n
:g(x)<0}
|g(x)| f
X
(x)dx
Corolario 2.45. Sea (X) un vector aleatorio n-dimensional absolutamente continuo con
funcin de densidad f
X
, g : R
n
7 R cualquier funcin y F
g(X)
la funcin de distribucin de
g(X). Entonces:
R

R
<
n
|g(x)| f
X
(x)dx < si y solo si
R

1 F
g(X)
(z)

dz < y
R

0
F
g(X)
(z)dz < .
Adems, en este caso, se tiene:
a)
R

R
R
n
|g(x)| f
X
(x)dx =
R

1 F
g(X)
(z)

dz +
R

0
F
g(X)
(z)dz
b)
R

R
R
n
g(x)f
X
(x)dx =
R

1 F
g(X)
(z)

dz
R

0
F
g(X)
(z)dz
Los resultados formulados en los corolarios 2.43 y 2.45, aunados a la denicin general de la Es-
peranza, permiten ahora enunciar las siguientes proposiciones, las cuales son generalizaciones
de las formuladas en el primer volumen de este libro para el caso unidimensional.
Proposicin 2.46. Sea X un vector aleatorio n-dimensional discreto con funcin de densidad
f
X
, g : R
n
7R cualquier funcin y F
g(X)
la funcin de distribucin de g(X). Entonces g(X)
tiene esperanza nita si y solo si
P
x
|g(x)| f
X
(x) < y, en este caso, se tiene:
E[g(X)] =
P
x
g(x)f
X
(x)
Demostracin
De acuerdo con la denicin general de la Esperanza, formulada en el primer volumen de este
libro (denicin 9.21), g(X) tiene esperanza nita si y slo si
R

1 F
g(X
(z)

dz < y
R

0
F
g(X)
(z)dz < y, en este caso, se tiene:
E[g(X)] =
R

1 F
g(X)
(z)

dz
R

0
F
g(X)
(z)dz.
El resultado se sigue entonces del corolario 2.43.
Proposicin 2.47. Sea (X) un vector aleatorio n-dimensional absolutamente continuo, con
funcin de densidad f
X
, g : R
n
7 R cualquier funcin y F
g(X)
la funcin de distribucin de
g(X). Entonces g(X) tiene esperanza nita si y slo si
R

R
R
n
|g(x)| f
X
(x)dx < y, en
este caso, se tiene:
E[g(X)] =
R

R
R
n
g(x)f
X
(x)dx
Demostracin
De acuerdo con la denicin general de la Esperanza, formulada en el primer volumen (deni-
cin 9.21), g(X) tiene esperanza nita si y slo si
R

1 F
g(X
(z)

dz < y
R

0
F
g(X)
(z)dz <
y, en este caso, se tiene:
E[g(X)] =
R

1 F
g(X)
(z)

dz
R

0
F
g(X)
(z)dz.
El resultado se sigue entonces del corolario 2.45.
54 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Obsrvese que la denicin general de la Esperanza no es necesaria para demostrar la proposi-
cin 2.46 pues, por el corolario 2.43, si X es una variable aleatoria discreta entonces X tiene
esperanza nita si y slo si
R

0
[1 F
X
(x)] dx < y
R

0
F
X
(x)dx < , en cuyo caso se
tiene E[X] =
R

0
[1 F
X
(x)] dx
R

0
F
X
(x)dx; adems, una funcin de un vector aleatorio
discreto es una variable aleatoria discreta, as que la proposicin 2.46 se sigue inmediatamente
del corolario 2.43. No se puede decir lo mismo de la proposicin 2.47 pues una funcin de un
vector aleatorio absolutamente continuo puede no ser una variable aleatoria absolutamente
continua ni una discreta.
Ejemplo 2.48. Sean X, Y y Z tres variables aleatorias independientes, todas con distribucin
exponencial de parmetro . Encuentre a) E [m ax {X, Y, Z}] y b) E[mn {X, Y, Z}].
Solucin
a. E[m ax {X, Y, Z}] =
R

0
R

0
R

0
m ax {x, y, z} f
X,Y,Z
(x, y, z)dxdydz
= 6
RRR
{(x,y,z):x<y<z}
m ax {x, y, z} f
X
(x)f
Y
(y)f
Z
(z)dxdydz
= 6
RRR
{(x,y,z):x<y<z}
z
3
e
(x+y+z)
dxdydz = 6
R

0
R
z
0
R
y
0

3
ze
(x+y+z)
dxdydz =
11
6
b. E[mn{X, Y, Z}] =
R

0
R

0
R

0
mn {x, y, z} f
X,Y,Z
(x, y, z)dxdydz
= 6
RRR
{(x,y,z):x<y<z}
mn{x, y, z} f
X
(x)f
Y
(y)f
Z
(z)dxdydz
= 6
RRR
{(x,y,z):x<y<z}
x
3
e
(x+y+z)
dxdydz = 6
R

0
R

x
R

y

3
xe
(x+y+z)
dzdydx =
1
3
2.5.1. Coeciente de correlacin y matriz de covarianzas. Recordemos que si X
es una variable aleatoria de esperanza nita, se dene la varianza de X, V ar(X), mediante la
relacin:
V ar(X) = E

(X E(X))
2

= E[X
2
] (E[X])
2
Tambin, si X y Y son dos variables aleatorias de varianza nita, entonces XY tiene esperanza
nita y se dene la covarianza de X y Y , Cov(X, Y ), mediante la relacin:
Cov(X, Y ) = E[(X E[X]) (Y E [Y ])] = E[XY ] E[X] E[Y ].
Las siguientes dos proposiciones fueron demostradas en el primer volumen de este libro. Para
comodidad en la lectura, se reproducen a continuacin:
Proposicin 2.49 (Desigualdad de Cauchy-Schwarz). Sean X y Y dos variables aleato-
rias cualesquiera, entonces:
E[|XY |]
p
E[X
2
]
p
E [Y
2
]
Adems, si X y Y tienen varianza nita, entonces |E[XY ]| =
p
E [X
2
]
p
E[Y
2
] si y slo si
existen constantes a y b tales que por lo menos una de ellas es distinta de cero y P [aX +bY = 0] =
1.
Demostracin
Si E[X
2
] = o E [Y
2
] = la desigualdad es obvia.
Supongamos ahora que E[X
2
] < y E[Y
2
] < , es decir, que tanto X como Y tienen
varianza nita.
Sea = (E[Y
2
])
1
2
y = (E [X
2
])
1
2
.
Si = 0, se tiene E[X
2
] = 0, de manera que:
2.5. ESPERANZA DE FUNCIONES DE VECTORES ALEATORIOS 55
P [|XY | = 0] P [X = 0] = P [X
2
= 0] = 1
Por lo tanto, E[|XY |] = 0. As que se cumple la desigualdad.
De la misma manera, si = 0, entonces E[|XY |] = 0. As que se cumple la desigualdad.
Supongamos ahora que > 0 y > 0.
Sabemos que |X| |Y | tiene varianza nita y se tiene:
0 E

(|X| |Y |)
2

=
2
E[X
2
] +
2
E[Y
2
] 2E[|XY |] = 2
2

2
2E [|XY |]
As que, E [|XY |] 0. Es decir, E[|XY |] .
Para la segunda parte, supongamos primero que X y Y tienen varianza nita y que |E [XY ]| =
p
E[X
2
]
p
E [Y
2
].
Deniendo, como antes, = (E[Y
2
])
1
2
y = (E[X
2
])
1
2
, se tiene:
Si = 0 y = 0, entonces P [X = 0] = P [Y = 0] = 1. Por lo tanto P [X = 0, Y = 0] = 1.
De manera que, tomando en consideracin que P [X = 0, Y = 0] P [X +Y = 0], se tiene
P [X +Y = 0] = 1. Es decir, se tiene el resultado deseado con a = b = 1.
Si 6= 0 6= 0 se tienen los siguientes dos casos:
Si E [XY ] > 0, entonces:
0 E

(X Y )
2

= 2
2

2
2E[XY ] = 0
As que, E

(X Y )
2

= 0, de lo cual se sigue P [X Y = 0] = 1.
Es decir, se tiene el resultado deseado con a = y b = .
Si E [XY ] < 0, entonces:
0 E

(X +Y )
2

= 2
2

2
+ 2E[XY ] = 0
As que, E

(X +Y )
2

= 0, de lo cual se sigue P [X +Y = 0] = 1.
Es decir, se tiene el resultado deseado con a = y b = .
Finalmente, supongamos que existen constantes a y b tales que por lo menos una de ellas
es distinta de cero y P [aX +bY = 0] = 1. Supongamos, por ejemplo, que a 6= 0, entonces
P

X =
b
a
Y

= 1. As que:
(E[XY ])
2
=
b
2
a
2
(E[Y
2
])
2
= E
h

b
a
Y

2
i
E[Y
2
] = E[X
2
] E[Y
2
]
Proposicin 2.50. Sean X y Y dos variables aleatorias de varianza nita. Entonces:
|Cov(X, Y )|
p
V ar(X)
p
V ar(Y )
Adems, la igualdad se cumple si y slo si existen constantes a, b y c tales que a y b no son
ambas cero y P [aX +bY = c] = 1.
Utilizando la proposicin 2.49, se tiene:
|Cov(X, Y )| = |E[(X E [X]) (Y E[Y ])]| E[|X E[X]| |Y E [Y ]|]

q
E

(X E[X])
2

q
E

(Y E [Y ])
2

=
p
V ar(X)
p
V ar(Y )
Si la igualdad se cumple, entonces se tiene:
|E[(X E[X]) (Y E[Y ])]| =
q
E

(X E[X])
2

q
E

(Y E[Y ])
2

.
56 2. DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
De manera que, nuevamente por la proposicin 2.49, existen constantes a y b tales que no son
ambas cero y P [a (X E [X]) +b (Y E[Y ]) = 0] = 1. Es decir, P [aX +bY = c] = 1, en
donde c = aE[X] +bE [Y ].
Supongamos ahora que existen constantes a, b y c tales que a y b no son ambas cero y:
P [aX +bY = c] = 1. Entonces E [aX +bY c] = 0, de lo cual se sigue c = E [aX +bY ]. De
manera que se tiene P [a (X E [X]) +b (Y E[Y ]) = 0] = 1. As que, por la proposicin
2.49, se tiene:
|Cov(X, Y )| = |E[(X E[X]) (Y E [Y ])]| =
p
V ar(X)
p
V ar(Y )
Definicin 2.51 (Coeciente de correlacin). Sean X y Y dos variables aleatorias de
varianza nita y positiva. Se dene el coeciente de correlacin,
X,Y
, mediante la relacin:

X,Y
=
Cov(X,Y )

V ar(X)

V ar(Y )
.
De la proposicin 2.50 se sigue inmediatamente que, para cualquier par de variables aleatorias
de varianza nita y positiva, 1
X,Y
1.
En la demostracin de la proposicin 2.49, de la cual se sigue 2.50, se puede ver que si

X,Y

=
1 entonces existen constantes a, b y c tales que a y b son positivas y P [aX bY = c] = 1
cuando
X,Y
= 1 y P [aX +bY = c] = 1 cuando
X,Y
= 1. De manera que en ambos casos
X y Y estn relacionadas linealmente. En el caso
X,Y
= 1, Y crece cuando X crece, mientras
que en el caso
X,Y
= 1, Y decrece cuando X crece.
Cuando X y Y son independientes se tiene
X,Y
= 0. Pero el ejemplo 9.69 del primer volumen
de este libro muestra que el coeciente de correlacin entre dos variables aleatorias X y Y
puede ser cero sin que X y Y sean independientes.
Definicin 2.52 (Matriz de covarianzas). Sean X
1
, . . . , X
n
n variables aleatorias de va-
rianza nita. La matriz de n m cuya componente c
ij
(i-simo rengln y j-sima columna)
est dada por c
ij
= Cov(X
i
, Y
j
) es llamada la matriz de covarianzas de X
1
, . . . , X
n
.
EJERCICIOS
Ejercicio 2.1. Se elige al azar una cha de un juego de domino. Sean X y Y el menor
y mayor, respectivamente, de los nmeros de la cha seleccionada. Encuentre la funcin de
densidad de a) X +Y y b) Y X.
Ejercicio 2.2. Se eligen, al azar y sin reemplazo, dos tarjetas de una urna que contiene
20 tarjetas numeradas del 1 al 20. Sean X y Y el menor y mayor, respectivamente, de los
nmeros de las tarjetas seleccionadas. Encuentre la funcin de densidad de a) X + Y y b)
Y X.
Ejercicio 2.3. Sean X y Y variables aleatorias independientes, ambas con distribucin geo-
mtrica de parmetro p y sea Z = max(X, Y ). Encuentre P [X = x | Z = x], para x
{0, 1, . . .}.
EJERCICIOS 57
Ejercicio 2.4. Sea X y Y dos variables aleatorias independientes, ambas distribuidas uni-
formemente en el conjunto {1, . . . N}. Encuentre la funcin de densidad de:
a) X +Y
b) mn(X, Y )
c) m ax(X, Y )
d) Y X
e) Z = |Y X|
Ejercicio 2.5. Se tienen 2 urnas, cada una de las cuales contiene tarjetas marcadas con
nmeros entre 1 y n, de tal manera que para cada 1 k n, hay k tarjetas marcadas con el
nmero k. Se selecciona al azar una tarjeta de cada urna y se dene la variable aleatoria Z
como el mayor de los nmeros seleccionados. Encuentre la distribucin de Z.
Ejercicio 2.6. Un experimento aleatorio consiste en seleccionar, al azar y con reemplazo,
dos bolas de una caja que contiene 12 bolas marcadas con los nmeros 1, . . . 12. Sea X el
mayor de los dos nmeros de las bolas seleccionadas. Encuentre la funcin de densidad de X.
Ejercicio 2.7. Sea Xuna variable aleatoria distribuida uniformemente en el conjunto {1, . . . , N}
y sea Y una variable aleatoria con distribucin geomtrica de parmetro p. Suponiendo que
X y Y son independientes, encuentre la funcin de densidad de Z = mn(X, Y ).
Ejercicio 2.8. Sean X y Y dos variables aleatorias independientes, ambas con funcin de
densidad dada por:
f(x) =

1
2N
si x {1, 2, . . . , N}
1
2
si x = 0
0 en otro caso
Encuentre la funcin de densidad de X +Y .
Ejercicio 2.9. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
binomial de parmetros (n, p) y (m, p), respectivamente. Demuestre que X+Y tiene distribu-
cin binomial de parmetros (n +m, p).
Ejercicio 2.10. Sean X y Y variables aleatorias independientes, ambas con distribucin
Poisson de parmetros
1
y
2
respectivamente. Demuestre que X + Y tiene distribucin
Poisson de parmetro
1
+
2
.
Ejercicio 2.11. El nmero de defectos que tiene un cierto artculo tiene distribucin Poisson
de parmetro = 3. Calcule la probabilidad de encontrar ms de 95 defectos en 30 artculos
seleccionados al azar.
Ejercicio 2.12. Sea X una variable aleatoria distribuida uniformemente en el conjunto
{1, . . . N} y sea Y una variable aleatoria con funcin de densidad dada por:
f(y) =

1
2
si y = 0 y = N
0 en otro caso
Asumiendo que X y Y son independientes, encuentre la funcin de densidad de la variable
aleatoria a) Z = X +Y y b) Z = X Y .
Ejercicio 2.13. Sean X y Y variables aleatorias independientes, ambas con funcin de den-
sidad dada por:
58 DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
f(x) =

2x
N(N+1)
si x {1, . . . , N}
0 en otro caso
Encuentre la funcin de densidad de la variable aleatoria Z = X +Y .
Ejercicio 2.14. Sea X y Y dos variables aleatorias independientes, ambas con distribucin
Poisson de parmetros
1
y
2
, respectivamente. Encuentre P(Y = y|X + Y = z) para
z {0, 1, . . .} y y {0, . . . , z}.
Ejercicio 2.15. Sea X y Y dos variables aleatorias independientes, ambas con distribucin
binomial de parmetros n, p y m, p, respectivamente. Encuentre P(Y = y|X + Y = z) para
z {0, . . . , n +m} y y {0, 1, 2, . . . , mn{z, m}}.
Ejercicio 2.16. Sean X, Y y Z variables aleatorias independientes, las 3 con distribucin
beta de parmetros n y 1, con n N. Encuentre P [X < Y < Z].
Ejercicio 2.17. Sean X y Z variables aleatorias independientes, ambas con distribucin beta
de parmetros n y 1, con n N. Encuentre P [X < Y < Z], en donde Y es una variable
aleatoria, independiente de X y Z, con distribucin uniforme en el intervalo (0, 1).
Ejercicio 2.18. Sean X
1
, X
2
y X
3
variables aleatorias independientes tales que X
1
y X
3
tienen distribucin beta con parmetros n, 1 y X
2
distribucin uniforme en el intervalo (0, 1).
Cul es la probabilidad de que X
2
quede comprendida entre X
1
y X
3
?
Ejercicio 2.19. Sean , N, Y una variable aleatoria con distribucin beta de parmetros
y y X una variable aleatoria con distribucin binomial de parmetros n = + 1 y
p (0, 1). Demuestre que P [Y p] = P [X ].
Ejercicio 2.20. Sean > 0, t > 0, N, X
t
una variable aleatoria con distribucin
Poisson de parmetro t y Y una variable aleatoria con distribucin gama de parmetros
y . Demuestre que P [Y > t] = P [X
t
1]. Interprete el resultado en el contexto de
eventos que ocurren aleatoriamente en el tiempo, en donde representa el nmero promedio
de ocurrencias por unidad de tiempo, Y el tiempo que transcurre desde el origen hasta la
-sima ocurrencia y X
t
el nmero de ocurrencias hasta el tiempo t.
Ejercicio 2.21. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre la funcin de densidad de a) Z = 2X + Y y b)
Z = 3X Y .
Ejercicio 2.22. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre la funcin de densidad de Z = 4Y 3X.
Ejercicio 2.23. Un aparato utiliza un cierto componente cuyo tiempo de vida tiene distribu-
cin exponencial y dura ms de 50 das con probabilidad 0.95. Cuando el componente deja de
funcionar se reemplaza con otro del mismo tipo. Efectuando un solo reemplazo, cul es la
probabilidad de que el aparato se mantenga funcionando por lo menos 52 semanas?
Ejercicio 2.24. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal, X con parmetros
1
y
2
1
, Y con parmetros
2
y
2
2
. Demuestre que la distribucin
de X +Y es normal con parmetros
1
+
2
y
2
1
+
2
2
.
Sugerencia: Considere primero el caso en que
1
=
2
= 0.
EJERCICIOS 59
Ejercicio 2.25. Sea X
1
, . . . , X
n
una muestra aleatoria de una distribucin normal de par-
metros = 4 y
2
= 81 y denamos X =
1
n
P
n
k=1
X
k
. Encuentre el ms pequeo nmero
natural n tal que P


1
2
< X < +
1
2

0.95.
Ejercicio 2.26. Sean X
1
, . . . , X
25
una muestra aleatoria de una distribucin normal de pa-
rmetros = 0 y
2
= 9, Y
1
, Y
2
, . . . , Y
16
una muestra aleatoria de una distribucin normal
de parmetros = 1 y
2
= 16 y denamos X =
1
25
P
25
k=1
X
k
, Y =
1
16
P
16
k=1
Y
k
. Encuentre
P [X > Y ].
Ejercicio 2.27. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal estndar. Encuentre la distribucin de X
2
+Y
2
.
Ejercicio 2.28. Sea X una variable aleatoria con distribucin uniforme en el intervalo (0, 1)
y Y una variable aleatoria con distribucin exponencial de parmetro = 1. Asumiendo que
X y Y son independientes, encuentre la funcin de densidad de Z = X +Y .
Ejercicio 2.29. Se seleccionan, al azar y de manera independiente, dos puntos en el intervalo
(a, b). Encuentre la distribucin de la distancia entre los dos puntos seleccionados.
Ejercicio 2.30. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

c(y
2
x
2
)e
y
si y x y, 0 < y <
0 en otro caso
en donde c es una constante. Encuentre la funcin de densidad de a) X +Y y b) m ax(X, Y ).
Ejercicio 2.31. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

6(1 x y) si 0 < x < 1, 0 < y < 1 x
0 en otro caso
Demuestre que X +Y tiene distribucin beta.
Ejercicio 2.32. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

c(4 x y) si 0 < x < 1, 0 < y < 3, x < y < x + 2
0 en otro caso
Encuentre el valor de c y la funcin de densidad de Y X.
Ejercicio 2.33. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

c(4 x y) si 0 < x < 1, 0 < y < x + 2
0 en otro caso
en donde c es una constante. Encuentre el valor de c y las funciones de densidad de X, Y y
Z = 2Y 3X.
Ejercicio 2.34. Sean X y Y dos variables aleatorias continuas con funcin de densidad
conjunta f. Encuentre una frmula para la funcin de densidad de W = aX +bY , en donde
a y b son constantes distintas de cero.
60 DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Ejercicio 2.35. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (1, 1). Encuentre las funciones de densidad de U = 2X + Y y
V = 2X Y .
Ejercicio 2.36. Sean X y Y dos variables aleatorias continuas con funcin de densidad
conjunta f. Encuentre una frmula para la funcin de densidad de V = XY .
Ejercicio 2.37. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
6
ye
y
si 0 < x < y <
1
3
ye
y
si < y < x < 0
0 en otro caso
Encuentre la funcin de densidad de Z = XY .
Ejercicio 2.38. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre la funcin de densidad de Z = XY .
Ejercicio 2.39. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (1, 1). Encuentre la funcin de densidad de Z = XY y utilcela
para calcular P

1
4
< XY <
1
2

.
Ejercicio 2.40. Sean X y Y dos variables aleatorias independientes, con funciones de den-
sidad dadas por:
f
X
(x) =

1

1x
2
si 1 < x < 1
0 en otro caso
y f
Y
(y) =

ye
y
2
/2
si y > 0
0 en otro caso
respectivamente. Encuentre e identique la distribucin de Z = XY .
Ejercicio 2.41. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

e
y
si 0 < x < y < 1
0 en otro caso
Encuentre la funcin de densidad de
Y
X
.
Ejercicio 2.42. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
6
ye
y
si 0 < x < y, 0 < y <
1
3
ye
y
si y < x < 0, 0 < y <
0 en otro caso
Encuentre la funcin de densidad de Z =
Y
X
y utilcela para calcular P

3 <
Y
X
< 2

.
Ejercicio 2.43. Sean X, Y variables aleatorias independientes, X con distribucin expo-
nencial de parmetro y Y con distribucin uniforme en el intervalo (1, 1). Encuentre la
funcin de densidad de Z =
Y
X
.
Ejercicio 2.44. Sean X, Y variables aleatorias independientes, X con distribucin gama de
parmetros y y Y con distribucin uniforme en el intervalo (1, 1). Encuentre la funcin
de densidad de Z =
Y
X
.
EJERCICIOS 61
Ejercicio 2.45. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama de parmetros
1
, y
2
, respectivamente. Encuentre la funcin de densidad de Z =
Y
X
.
Ejercicio 2.46. Sean X y Y dos variables aleatorias independientes, ambas con distribu-
cin normal estndar, de parmetros 0,
2
X
y 0,
2
Y
respectivamente Encuentre la funcin de
densidad de Z =
Y
X
.
Ejercicio 2.47. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

2
x
2
y
2
si 1 < x < y
0 en otro caso
Encuentre las funciones de densidad de U = XY y V =
X
Y
.
Ejercicio 2.48. Sea X una variable aleatoria con distribucin F con n y m grados de libertad.
Demuestre que Y =
1
X
tiene distribucin F con m y n grados de libertad.
Ejercicio 2.49. Sea X una variable aleatoria con distribucin t con n grados de libertad.
Demuestre que X
2
tiene distribucin F.
Ejercicio 2.50. Sea X una variable aleatoria con distribucin F con n y m grados de libertad.
Demuestre que Z =
1
1+
n
m
X
tiene distribucin beta.
Ejercicio 2.51. Sea X una variable aleatoria con distribucin t con n grados de libertad.
Demuestre que Y =
1
1+
1
n
X
2
tiene distribucin beta.
Ejercicio 2.52. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre las distribuciones de mn(X, Y ) y m ax(X, Y ).
Ejercicio 2.53. Sean X, Y y Z tres variables aleatorias independientes, las 3 con distribucin
uniforme en el intervalo (0, 1). Encuentre la funcin de densidad de a) X+Y +Z y b) X+Y Z.
Ejercicio 2.54. Sean X
1
, . . . , X
n
n variables aleatorias independientes, cada una con dis-
tribucin exponencial de parmetro . Encuentre la funcin de densidad de a) Y = mn(X
1
, . . . , X
n
)
y b) Z = max(X
1
, . . . , X
n
).
Ejercicio 2.55. Cada uno de 8 artculos tiene un tiempo de vida que se distribuye exponen-
cialmente con parmetro . Los 8 artculos se ponen a funcionar simultneamente distribuidos
en dos grupos, uno formado por 5 artculos y otro formado por 3. Encuentre la probabilidad
de que falle un artculo del primer grupo antes que uno del segundo.
Ejercicio 2.56. Sean X
1
, . . . , X
n
n variables aleatorias independientes, cada una con dis-
tribucin uniforme en el intervalo (0, 1) y sea > 0. Demuestre que Y =
1

ln
Q
n
k=1
X
k
tiene
distribucin gama.
Ejercicio 2.57. Sean X
1
, X
2
, . . . n variables aleatorias independientes, cada una con distribu-
cin exponencial de parmetro . Para cada k {1, 2, . . .}, denamos S
k
=
P
k
j=1
X
j
. Para
t > 0, sea N
t
el nmero de S
k
s que son menores o iguales que t. Encuentre la distribucin
de N
t
.
Ejercicio 2.58. Sea f la funcin de densidad beta con parmetros
1
> 1 y
2
> 1. Encuentre
el punto en donde f toma su valor mximo.
62 DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Ejercicio 2.59. Sean X y Y variables aleatorias independientes, ambas con distribucin
exponencial. Encuentre la funcin de densidad conjunta de X + Y y Y X y utilcela para
encontrar P [X +Y 1, Y X 0].
Ejercicio 2.60. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =


2
e
y
si 0 < x < y
0 en otro caso
Encuentre la funcin de densidad conjunta de X +Y y Y X y utilcela para encontrar:
P [X +Y 1, Y X 0].
Ejercicio 2.61. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por f
X,Y
(x, y) = 4xy si 0 < x < 1 y x < y < 1 1 < x < 0 y x < y < 0. En-
cuentre la funcin de densidad conjunta de U = X + Y y V = Y X, graque la regin
{(u, v) : f
U,V
(u, v) > 0} y calcule P

U < 1, V >
1
2

.
Ejercicio 2.62. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Demuestre que las variables aleatorias U = Y X y V =
mn(X, Y ) son independientes.
Ejercicio 2.63. Sean X y Y dos variables aleatorias independientes con distribucin nor-
mal estndar. Demuestre que las variables aleatorias U = X + Y y V = X + Y son
independientes si y slo si + = 0.
Ejercicio 2.64. Sean X y Y dos variables aleatorias independientes e idnticamente dis-
tribuidas tales que las variables aleatorias U = Y X y V = mn(X, Y ) son independientes.
Asumiendo que X y Y son no negativas, absolutamente continuas y que su funcin de densidad
comn es diferenciable, demuestre que la distribucin comn de X y Y es exponencial.
Ejercicio 2.65. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama, la primera con parmetros
1
y , la segunda con parmetros
2
y . Demuestre que
las variables aleatorias Y/X y X +Y son independientes.
Ejercicio 2.66. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre la funcin de densidad conjunta de U = 2X y V =
X +Y .
Ejercicio 2.67. Sean U y V dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Demuestre que las variables aleatorias X =

2 lnU cos 2V
y Y =

2 ln Usen2V son independientes y que ambas tienen distribucin normal estndar.


Ejercicio 2.68. Sean X y Y variables aleatorias independientes, ambas con distribucin
gama de parmetros y . a) Encuentre la funcin de distribucin conjunta de U =
X
X+Y
y
V =
Y
X+Y
. b) Existe una funcin de densidad conjunta de U y V ? Justique su respuesta.
Ejercicio 2.69. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre la funcin de densidad conjunta de U = X + Y y
V =
X
X+Y
. Son U y V independientes?
Ejercicio 2.70. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre la funcin de densidad conjunta de U = Y y V =
X
X+Y
.
Son U y V independientes? Justique su respuesta.
EJERCICIOS 63
Ejercicio 2.71. Sean X y Y variables aleatorias independientes, ambas con distribucin
normal estndar. Encuentre la funcin de densidad conjunta de U = X
2
y V = X
2
+ Y
2
.
Son U y V independientes? Justique su respuesta.
Ejercicio 2.72. Un experimento aleatorio consiste en seleccionar al azar un punto en el
interior del crculo x
2
+y
2
= 1. Sean R y las coordenadas polares del punto seleccionado.
Encuentre la funcin de densidad conjunta, as como las densidades marginales de R y .
Son R y independientes? Justique su respuesta.
Ejercicio 2.73. Un experimento aleatorio consiste en seleccionar al azar un punto en el
interior de la elipse
x
2
9
+
y
2
4
= 1. Sean X y Y las coordenadas cartesianas del punto seleccionado
y R y las coordenadas que resultan de la transformacin x = 3r cos , y = 2rsen. Encuentre
la funcin de densidad conjunta, as como las densidades marginales de R y . Son R y
independientes? Justique su respuesta.
Ejercicio 2.74. Sean X y Y variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre la funcin de densidad conjunta de U = X y
V =
X
Y
y utilcela para calcular P

U >
1
2
, V < 2

.
Ejercicio 2.75. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (1, 1). Encuentre la funcin de densidad conjunta de U = X y
V = XY , graque la regin {(u, v) : f
U,V
(u, v) > 0} y calcule P

U <
1
2
, V <
1
2

.
Ejercicio 2.76. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

2
x
2
y
2
si x > 1, 1 < y < x
0 en otro caso
Encuentre a) la funcin de densidad conjunta de U = X y V = XY , b) P [2 < U < 4, V < 9]
y c) las funciones de densidad marginales de U y V .
Ejercicio 2.77. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
x
2
y
2
si x > 1, y > 1
0 en otro caso
Encuentre a) la funcin de densidad conjunta de U = XY y V =
Y
X
, b) P [U > 2, V < 3] y c)
las funciones de densidad marginales de U y V .
Ejercicio 2.78. Sean X, Y y Z 3 variables aleatorias con funcin de densidad conjunta dada
por:
f
X,Y,Z
(x, y, z) =

e
z
si 0 < x < y < z
0 en otro caso
a) Demuestre que las variables aleatorias U = X, V = Y X y W = ZY son independientes.
b) Encuentre P [X +Y > Z].
Ejercicio 2.79. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p. Demuestre que U = mn(X, Y ) y V = max(X, Y ) mn(X, Y )
son independientes.
64 DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Ejercicio 2.80. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Demuestre que U = mn(X, Y ) y V = max(X, Y ) mn(X, Y )
son independientes y que ambas tienen distribucin exponencial.
Ejercicio 2.81. Un sistema consiste de 2 componentes, cada uno de los cuales tiene un
tiempo de vida distribuido exponencialmente con parmetro . Cuando un componente se
acaba, inmediatamente es reemplazado por otro de las mismas caractersticas. Denotando por
T
1
, T
2
, . . . a los tiempos entre reemplazamientos sucesivos, encuentre la funcin de densidad
conjunta de T
1
y T
2
. Son T
1
y T
2
independientes?
Ejercicio 2.82. Un sistema consiste de 2 componentes, cada uno de los cuales tiene un
tiempo de vida distribuido uniformemente en el intervalo (0, 1). Cuando un componente se
acaba, inmediatamente es reemplazado por otro de las mismas caractersticas. Denotando por
T
1
, T
2
, . . . a los tiempos entre reemplazamientos sucesivos, encuentre la funcin de densidad
conjunta de T
1
y T
2
. Son T
1
y T
2
independientes?
Ejercicio 2.83. Dado un proceso de Poisson {P
t
: t 0} y nmeros reales 0 < t
1
< t
2
<
< t
n
, encuentre la funcin de densidad conjunta de P
t
1
, . . . , P
t
n
.
Ejercicio 2.84. Se le llama movimiento browniano (en honor a Robert Brown) al movimiento
que presenta una pequea partcula que se encuentra suspendida en un lquido, el cual es debido
a los choques de las molculas del lquido con la partcula. Si consideramos un movimiento
browniano en una dimensin, entonces ste se puede modelar mediante una familia de variables
aleatorias {W
t
: t 0} de tal manera que W
t
representa la posicin de la partcula en el
tiempo t. Norbert Wiener construy, en el ao 1922, un modelo matemtico de este tipo para
el movimiento browniano y, en honor a l, se dene un proceso de Wiener o movimiento
browniano estndar como una familia de variables aleatorias {W
t
: t 0}, la cual satisface
las siguientes propiedades:
(i) W
0
= 0.
(ii) Si 0 < t
1
< < t
n
, entonces las variables aleatorias W
t
1
, W
t
2
W
t
1
, . . ., W
tn
W
t
n1
son independientes.
(iii) Las funciones t 7W
t
son continuas.
(iv) Si 0 s < t, entonces la variable aleatoria W
t
W
s
tiene distribucin normal de
parmetros = 0 y
2
= t s.
Dado un proceso de Wiener estndar {W
t
: t 0} y n meros reales 0 < t
1
< t
2
< < t
n
,
encuentre la funcin de densidad conjunta de W
t
1
, . . . , W
t
n
.
Ejercicio 2.85. Se seleccionan, al azar y de manera independiente, n+1 puntos en el inter-
valo (0, 2n). Encuentre la probabilidad de que no haya dos de ellos cuya distancia sea menor
que 1.
Ejercicio 2.86. Dada una cierta produccin de lmparas, se sabe que el tiempo de vida de
cada una de ellas es independiente del tiempo de vida de las otras y tiene una distribucin
exponencial de parmetro . Si se prenden n lmparas simultneamente, cul es la proba-
bilidad de que no haya alguna lmpara que deje de funcionar dentro de la hora que sigue al
momento en que deja de funcionar alguna otra lmpara?
EJERCICIOS 65
Ejercicio 2.87. Se seleccionan, al azar y de manera independiente, n puntos en el intervalo
(0, 1). Si X
1
, . . . , X
n
son los n puntos seleccionados, encuentre la esperanza del k-simo
estadstico de orden correspondiente a X
1
, . . . , X
n
.
Ejercicio 2.88. Tres personas quedan de verse en un cierto lugar a las 10 de la maana. Cada
persona llega al lugar de la cita de manera independiente en un tiempo aleatorio distribuido
uniformemente entre las 10 y las 11 de la maana. Cada persona espera 10 minutos y, si no
llega alguna otra, se va; en cambio, si se llegan a encontrar 2 de ellas, esperan a la otra hasta
las 11 de la maana. a) Cul es la probabilidad de que ningn par de personas se encuentre?
b) Cul es la probabilidad de que se encuentren las 3 personas? c) Cul es el menor tiempo
que debe esperar cada persona de tal manera que la probabilidad de que se encuentren las 3
sea mayor que
1
2
?
Ejercicio 2.89. Tres personas quedan de verse en un cierto lugar a las 10 de la maana. Cada
persona llega al lugar de la cita de manera independiente en un tiempo aleatorio distribuido
uniformemente entre las 10 y las 11 de la maana. Cada persona espera 10 minutos y, si
no llega alguna otra, se va; pero, si se llegan a encontrar 2 de ellas, esperan a la otra 10
minutos a partir del momento en que se encuentran, despus de lo cual se retiran Cul es la
probabilidad de que se encuentren las 3 personas?
Ejercicio 2.90. Sean X
1
, X
2
, X
3
tres variables aleatorias independientes, las 3 con distribu-
cin uniforme en el intervalo (0, 1) y sean X
(1)
, X
(2)
, X
(3)
los estadsticos de orden correspon-
dientes a X
1
, X
2
, X
3
. Encuentre P

X
(1)
<
3
4
, X
(3)
>
1
4

.
Ejercicio 2.91. Sean X
1
, X
2
, X
3
tres variables aleatorias independientes, las 3 con distribu-
cin exponencial de parmetro = 1 y sean X
(1)
, X
(2)
, X
(3)
los estadsticos de orden corres-
pondientes a X
1
, X
2
, X
3
. Encuentre P

X
(1)
>
1
2
, X
(2)
< 2

y P

X
(2)
< 1, X
(3)
> 1

.
Ejercicio 2.92. Sean X
1
, X
2
, X
3
tres variables aleatorias independientes, las 3 con distribu-
cin uniforme en el intervalo (1, 1) y sean X
(1)
, X
(2)
, X
(3)
los estadsticos de orden corres-
pondientes a X
1
, X
2
, X
3
. Encuentre P

X
(1)
>
1
2
, X
(2)
<
1
2

y P

X
(2)
<
1
2
, X
(3)
>
1
2

.
Ejercicio 2.93. Se seleccionan, al azar y de manera independiente, tres puntos, X, Y y Z,
sobre el segmentos [0, 3L]. Encuentre la probabilidad de que la distancia entre el menor y
mayor de los puntos seleccionados sea mayor que 2L.
Ejercicio 2.94. Encuentre la esperanza y la varianza de una variable aleatoria con distribu-
cin t con k grados de libertad.
Ejercicio 2.95. Encuentre la esperanza y la varianza de una variable aleatoria con distribu-
cin F con n y m grados de libertad.
Ejercicio 2.96. Encuentre la esperanza y la varianza de una variable aleatoria con distribu-
cin beta de parmetros
1
y
2
.
Ejercicio 2.97. Un experimento aleatorio consiste en seleccionar, al azar y con reemplazo,
dos bolas de una caja que contiene 20 bolas marcadas con los nmeros 1, . . . , 20. Sea X el
menor de los dos nmeros de las bolas seleccionadas. Encuentre E[X].
Ejercicio 2.98. Un experimento aleatorio consiste en seleccionar, al azar y con reemplazo,
dos bolas de una caja que contiene 20 bolas marcadas con los nmeros 1, . . . , 20. Sea X el
mayor de los dos nmeros de las bolas seleccionadas. Encuentre E[X].
66 DISTRIBUCIONES DE FUNCIONES DE VECTORES ALEATORIOS
Ejercicio 2.99. Sea X y Y dos variables aleatorias independientes, ambas distribuidas uni-
formemente en el conjunto {1, . . . N}. Encuentre la esperanza de a) U = mn(X, Y ) y b)
V = |Y X|.
Ejercicio 2.100. Sean X
1
, . . . , X
n
n variables aleatorias independientes, todas distribuidas
uniformemente en el conjunto {1, . . . N}. Demuestre que
E[mn{X
1
, . . . , X
n
}] +E[max {X
1
, . . . , X
n
}] = N + 1
Ejercicio 2.101. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre la esperanza de Z = XY .
Ejercicio 2.102. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, todas
con distribucin uniforme en el intervalo (0, 1). Encuentre el valor esperado del primer entero
positivo N tal que X
1
+. . . +X
N
> 1.
Ejercicio 2.103. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias absolutamente conti-
nuas, independientes e idnticamente distribuidas, A = { : X
1
() X
2
() } y,
para cada A, sea N() = 0 y, para cada A
c
, sea N() {2, 3, . . .} tal que
X
1
() X
N()1
() y X
N()1
() < X
N()
().
Encuentre E[N].
Ejercicio 2.104. Sea X
0
, X
1
, . . . una sucesin de variables aleatorias absolutamente conti-
nuas, independientes e idnticamente distribuidas, A = { : X
1
() X
0
, X
2
() X
0
, . . .}.
Para cada A, sea N() = 0 y, para cada A
c
, sea N() {1, 2, . . .} tal que:
X
1
() X
0
(), , X
N()1
() X
0
() y X
N()
() > X
0
().
Encuentre E[N].
Ejercicio 2.105. Sean X
1
, . . . X
n
n variables aleatorias independientes, todas con distribucin
uniforme en el intervalo (0, 1). Encuentre a) E[m ax {X
1
, . . . X
n
}] y b) E[mn {X
1
, . . . X
n
}].
Ejercicio 2.106. Se eligen dos puntos, al azar y de manera independiente, en el interior de
un crculo de radio 1. Encuentre el valor esperado del cuadrado de la distancia entre ellos.
Ejercicio 2.107. En el tiempo t = 0, una partcula es emitida desde el origen hacia el primer
cuadrante del plano de tal manera que la magnitud de su velocidad es una variable aleatoria V
con distribucin uniforme en el intervalo (0, 1), mientras que el ngulo que forma el vector
velocidad con el eje x es una variable aleatoria con distribucin uniforme en el intervalo (0,

2
).
Sea X la abscisa de la posicin de la partcula una unidad de tiempo despus de ser lanzada.
Suponiendo que V y son independientes, encuentre el coeciente de correlacin entre X y
V .
CAPTULO 3
DISTRIBUCIN NORMAL MULTIVARIADA
Ustedes saben que yo escribo lentamente. Esto es princi-
palmente porque nunca estoy satisfecho hasta haber dicho
tanto como sea posible en pocas palabras, y escribir breve-
mente toma mucho ms tiempo que escribir ampliamente
Johann Carl Friedrich Gauss
3.1. Distribucin normal bivariada
Definicin 3.1 (Distribucin normal bivariada). Se dice que la pareja de variables aleato-
rias X y Y tiene distribucin normal bivariada si existen dos variables aleatorias independien-
tes, U y V , con distribucin normal estndar, tales que X = aU +bV + y Y = cU +dV +,
en donde a, b, c, d, y son constantes tales que ad bc 6= 0.
Obsrvese que la condicin ad bc 6= 0 signica que la transformacin x = au + bv + ,
y = cu +dv + es invertible.
Proposicin 3.2. Supongamos que la pareja de variables aleatorias X, Y tiene distribucin
normal bivariada y sean
X
,
2
X
y
Y
,
2
Y
la esperanza y la varianza de X y Y , respectivamente,
y el coeciente de correlacin entre X y Y , entonces
2
6= 1 y la funcin de densidad conjunta
de X, Y est dada por:
f
X,Y
(x, y) =
1
2
X

1
2
exp
n

1
2(1
2
)
h
(x
X
)
2

2
X
+
(y
Y
)
2

2
Y
2
(x
X
)(y
Y
)

Y
io
Demostracin
Sean U y V dos variables aleatorias independientes, con distribucin normal estndar, tales
que X = aU +bV + y Y = cU +dV +, en donde a, b, c, d, y son constantes tales que
ad bc 6= 0.
Para encontrar la funcin de densidad conjunta de X y Y , consideremos la transformacin
x = au+bv +, y = cu+dv +, la cual tiene como inversa a u =
d
adbc
(x)
b
adbc
(y ),
v =
c
adbc
(x ) +
a
adbc
(y ), cuyo Jacobiano est dado por
1
adbc
, de manera que:
f
X,Y
(x, y) =
1
|adbc|
f
U,V

d
adbc
(x )
b
adbc
(y ),
c
adbc
(x ) +
a
adbc
(y )

=
1
|adbc|
1
2
exp
n

c
2
+d
2
2(adbc)
2
(x )
2

a
2
+b
2
2(adbc)
2
(y )
2
+
ac+db
(adbc)
2
(x)(y)

Y
o
Pero, se tiene adems:

X
= E [X] = E[aU +bV +] =
67
68 3. DISTRIBUCIN NORMAL MULTIVARIADA

Y
= E[Y ] = E [cU +dV +] =

2
X
= V ar(aU +bV +) = a
2
+b
2

2
Y
= V ar(cU +dV +) = c
2
+d
2
Cov(X, Y ) = E[(X
X
)(Y
Y
)] = E [(aU +bV )(cU +dV )] = ac +bd
=
Cov(X,Y )

Y
=
ac+bd

a
2
+b
2

c
2
+d
2
1
2
= 1
(ac+bd)
2
(a
2
+b
2
)(c
2
+d
2
)
=
(adbc)
2
(a
2
+b
2
)(c
2
+d
2
)
Por lo tanto,
2
6= 1 y, adems, la frmula para f
X,Y
se puede escribir de la siguiente manera:
f
X,Y
(x, y) =
1
2
X

1
2
exp
n

1
2(1
2
)
(x
X
)
2

2
X

1
2(1
2
)
(y
Y
)
2

2
Y
+

1
2
(x
X
)(y
Y
)
o
=
1
2
X

1
2
exp
n

1
2(1
2
)
h
(x
X
)
2

2
X
+
(y
Y
)
2

2
Y
2
(x
X
)(y
Y
)

Y
io
A continuacin se presenta la grca de la funcin de densidad conjunta de un vector aleatorio
(X, Y ) con distribucin normal bivariada.

X
=
Y
= 0,
2
X
=
2
Y
= 1,
X,Y
=
1
2
Ejemplo 3.3. Sean U y V dos variables aleatorias independientes con distribucin normal
estndar. Denamos X =
1
2
U
2
3
V
5
6
y Y =
1
2
U
1
6
V
1
3
. Se tiene entonces:
E[X] =
5
6
E[Y ] =
1
3
V ar(X) =
1
4
+
4
9
=
25
36
V ar(Y ) =
1
4
+
1
36
=
10
36
Cov(X, Y ) = E

1
2
U
2
3
V

1
2
U
1
6
V

= E

1
4
U
2
+
1
9
V
2

=
5
36
=
1

10
3.1. DISTRIBUCIN NORMAL BIVARIADA 69
As que:
f
X,Y
(x, y) =
1
2
X

1
2
exp
n

1
2(1
2
)
h
(x
X
)
2

2
X
+
(y
Y
)
2

2
Y
2
(x
X
)(y
Y
)

Y
io
=
6
5
exp

1
2

8
5
(x +
5
6
)
2
+ 4(y +
1
3
)
2
+
8
5
(x +
5
6
)(y +
1
3
)

Ejemplo 3.4. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vector de
esperanzas (1, 3), vector de varianzas (4, 9) y coeciente de correlacin
2
3
. Entonces:
f
X,Y
(x, y) =
1
4

5
exp

1
2

9
20
(x + 1)
2
+
1
5
(y 3)
2
+
2
5
(x + 1)(y 3)

Se tiene:
9
20
x
2
+
1
5
y
2
+
2
5
xy =
9
20

x +
4
9
y

2
+
1
9
y
2
As que:
f
X,Y
(x, y) =
1
4

5
exp
n

1
2
h
9
20

(x + 1) +
4
9
(y 3)

2
+
1
9
(y 3)
2
io
=
1
4

5
exp

1
2

9x+4y3
6

2
+

y3
3

Denamos:
U =
9X+4Y 3
6

5
=
3

5
10
X +
2

5
15
Y

5
10
V =
Y 3
3
=
1
3
Y 1
Entonces:
f
U,V
(u, v) =
1
2
exp

1
2
[u
2
+v
2
]

As que U y V son independientes, ambas tienen distribucin normal estndar y:


X =
2

5
3
U
4
3
V 1
Y = 3V + 3
Definicin 3.5 (Formas cuadrticas bidimensionales). Se dice que una funcin F :
R
2
7R es una forma cuadrtica si tiene la forma F(x, y) = ax
2
+ bxy +cy
2
, en donde a, b
y c son constantes.
Definicin 3.6 (Formas cuadrticas bidimensionales denidas positivas). Se dice que
una forma cuadrtica F : R
2
7 R es denida positiva si F(x, y) > 0 para cualquier vector
(x, y) 6= (0, 0).
Proposicin 3.7. Una forma cuadrtica F(x, y) = ax
2
+bxy + cy
2
es denida positiva si y
slo si a > 0, c > 0 y 4ac b
2
> 0.
Demostracin
Si a 6= 0, se tiene:
F(x, y) = a
h

x +
b
2a
y

2
+
4acb
2
4a
2
y
2
i
as que, cuando a > 0 y 4ac b
2
> 0, la forma cuadrtica F es denida positiva.
Por otra parte, si F es denida positiva, obsrvese primero que no es posible tener a = 0
y c = 0 pues en ese caso se tendra F(x, y) = bxy, lo cual no dene una forma cuadrtica
denida positiva. Adems, a 6= 0 pues de otra forma se tendra:
F(x, y) = bxy +cy
2
= c
h

y +
b
2c
x

b
2
4c
2
x
2
i
70 3. DISTRIBUCIN NORMAL MULTIVARIADA
lo cual dene una forma cuadrtica que no es denida positiva.
As que se tiene:
F(x, y) = a
h

x +
b
2a
y

2
+
4acb
2
4a
2
y
2
i
y, como F es denida positiva, necesariamente se tiene a > 0 y 4ac b
2
> 0. Finalmente,
c >
b
2
4a
0.
Si el vector aleatorio (X, Y ) tiene distribucin normal bivariada, entonces su funcin de den-
sidad conjunta f
X,Y
tiene la forma f
X,Y
(x, y) = K exp

1
2
[F(x , y )]

, en donde F es
la forma cuadrtica denida por:
F(x, y) =
1
(1
2
)
h
1

2
X
x
2

Y
xy +
1

2
Y
y
2
i
=
1
(1
2
)
2
X
x
2
+
1
(1
2
)
2
Y
y
2

2
(1
2
)
X

Y
xy
Esta forma cuadrtica es denida positiva ya que
1
(1
2
)
2
x
> 0 y
1
(1
2
)
2
h
4
2

2
X

2
Y

4

2
X

2
Y
i
=

4
(1
2
)
2
X

2
Y
< 0
Proposicin 3.8. Sea X, Y una pareja de variables aleatorias con funcin de densidad con-
junta f
X,Y
dada por f
X,Y
(x, y) = K exp

1
2
[F(x , y )]

, en donde F es una forma


cuadrtica denida positiva y K, y son constantes, entonces el vector (X, Y ) tiene dis-
tribucin normal bivariada.
Demostracin
Sea F(x, y) = ax
2
+bxy +cy
2
, entonces F(x, y) = a

x +
b
2a
y

2
+
4acb
2
4a
y
2
, as que:
f
X,Y
(x, y) = K exp
n

1
2
h
a

(x ) +
b
2a
(y )

2
+
4acb
2
4a
(y )
2
io
Consideremos entonces las variables aleatorias:
U =

(X ) +
b
2a
(Y )

V =
q
4acb
2
4a
(Y )
La transformacin que dene a la pareja U, V en trminos de la pareja X, Y es invertible,
as que existen constantes A, B, C y D tales que AD BC 6= 0 y X = AU + BV + ,
Y = CU +DV +. Adems, se tiene:
f
U,V
(u, v) = C exp

1
2
[u
2
+v
2
]

en donde C es una constante.


Por lo tanto, U y V son independientes y ambas tienen distribucin normal estndar. As que
la pareja X, Y tiene distribucin normal bivariada.
Sea f : R
2
7R una funcin de densidad de la forma:
f(x, y) = C exp

1
2
(ax
2
+bxy +cy
2
+dx +ey)

en donde d, e y C son constantes y la forma cuadrtica F(x, y) = ax


2
+bxy +cy
2
es denida
positiva, es decir, por la proposicin 3.7, a > 0, c > 0 y 4ac b
2
> 0.
Para y nmeros reales cualesquiera, se tiene:
F(x , y ) = a (x )
2
+b (x ) (y ) +c (y )
2
= ax
2
+bxy +cy
2
(b + 2a) x (2c +b) y +a
2
+b +c
2
3.1. DISTRIBUCIN NORMAL BIVARIADA 71
Como b
2
4ac 6= 0, el sistema de ecuaciones:
b + 2a = d
2c +b = e
tiene una nica solucin para y . As que f puede escribirse en la forma siguiente:
f(x, y) = K exp

1
2
[F(x , y )]

= K exp

1
2

a (x )
2
+b (x ) (y ) +c (y )
2

en donde K es una constante.


Por lo tanto, f es funcin de densidad de una distribucin normal bivariada.
Sea (X, Y ) un vector aleatorio con esa funcin de densidad. Entonces f puede escribirse
tambin en la forma siguiente:
f(x, y) =
1
2
X

1
2
exp
n

1
2(1
2
)
h
(x)
2

2
X
+
(y)
2

2
Y
2
(x)(y)

Y
io
en donde
2
X
y
2
Y
son las varianzas de X y Y , respectivamente, y es el coeciente de
correlacin entre X y Y .
Se tiene entonces:
(1
2
)
2
X
=
1
a
(1
2
)
2
Y
=
1
c
2

Y
(1
2
)
= b
As que:
=
b

4ac

2
X
=
1
a
1
1
2

2
Y
=
1
c
1
1
2
Cov(X, Y ) =
X

Y
=
b
4acb
2
En particular, se tiene el siguiente resultado:
Proposicin 3.9. Sea f : R
2
7R una funcin de densidad de la forma:
f(x, y) = C exp

1
2
(ax
2
+bxy +cy
2
+dx +ey)

en donde a, b, c, d, e y C son constantes y la forma cuadrtica F denida por F(x, y) = ax


2
+
bxy +cy
2
es denida positiva. Entonces f es funcin de densidad de una distribucin normal
bivariada.
Ejemplo 3.10. Sea X, Y una pareja de variables aleatorias con funcin de densidad conjunta
f
X,Y
dada por:
f
X,Y
(x, y) = C exp

1
2
(2x
2
2xy + 2y
2
4x)

en donde C es una constante.


Como la forma cuadrtica F(x, y) = 2x
2
2xy +2y
2
= 2

x
1
2
y

2
+
3
2
y
2
es denida positiva,
la distribucin conjunta del vector aleatorio (X, Y ) es normal bivariada.
Sean y las esperanzas de X y Y , respectivamente, entonces:
F(x , y ) = 2 (x )
2
2 (x ) (y ) + 2 (y )
2
72 3. DISTRIBUCIN NORMAL MULTIVARIADA
= 2x
2
2xy + 2y
2
4


1
2

x + (2 4) y + 2
2
2 + 2
2
As que:

1
2
= 1
2 4 = 0
Por lo tanto, =
4
3
y =
2
3
.
As que:
f
X,Y
(x, y) = K exp
n

1
2
h
2

x
4
3

2
2

x
4
3

y
2
3

+ 2

y
2
3

2
io
en donde K es una constante.
Sean
2
X
y
2
Y
las varianzas de X y Y , respectivamente, y el coeciente de correlacin entre
X y Y . Se tiene entonces:
f
X,Y
(x, y) =
1
2
X

1
2
exp
n

1
2(1
2
)
h
(x)
2

2
X
+
(y)
2

2
Y
2
(x)(y)

Y
io
As que:
(1
2
)
2
X
=
1
2
(1
2
)
2
Y
=
1
2
2

Y
(1
2
)
= 2
Por lo tanto:
=
1
2

2
x
=
2
3

2
Y
=
2
3
Cov(X, Y ) =
1
3
K =
1
2
X

1
2
X,Y
=

3
2
Es decir:
f
X,Y
(x, y) =

3
2
exp
n

1
2
h
2

x
4
3

2
2

x
4
3

y
2
3

+ 2

y
2
3

2
io
Evidentemente, si la pareja de variables aleatorias X, Y tiene distribucin normal bivariada
y su coeciente de correlacin es , entonces el vector aleatorio (X, Y ) es absolutamente
continuo, X y Y tienen distribucin normal y
2
6= 1. Sin embargo, debe de observarse
que la aseveracin inversa no es vlida, es decir, para que X, Y tenga distribucin normal
bivariada no basta con que el vector aleatorio (X, Y ) sea absolutamente continuo, que X y Y
tengan distribucin normal y que su coeciente de correlacin satisfaga
2
6= 1. En efecto,
considrese el ejemplo siguiente:
Ejemplo 3.11. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

1

1
2
(x
2
+y
2
)
si x 0, y < 0 x < 0, y 0
0 en otro caso
La pareja X, Y no tiene distribucin normal bivariada pues, si la tuviera, su funcin de den-
sidad conjunta no se anulara en ningn punto. Sin embargo, se tiene:
3.2. UN POCO DE CLCULO MATRICIAL 73
f
X
(x) =
(
1

0
e

1
2
(x
2
+y
2
)
dy si x < 0
1

R
0

1
2
(x
2
+y
2
)
dy si x 0
=
1

2
e

1
2
x
2
f
Y
(y) =
(
1

0
e

1
2
(x
2
+y
2
)
dx si y < 0
1

R
0

1
2
(x
2
+y
2
)
dx si y 0
=
1

2
e

1
2
y
2
As que tanto X como Y tienen distribucin normal estndar. Adems:
Cov(X, Y ) = E[XY ] =
1

R
0

0
xye

1
2
(x
2
+y
2
)
dydx +
1

0
R
0

xye

1
2
(x
2
+y
2
)
dydx
=
1

R
0

xe

1
2
x
2
dx
1

0
xe

1
2
x
2
dx =
2

As que,
2
X,Y
=
4

2
6= 1.
Una propiedad importante de una pareja de variables aleatorias con distribucin normal biva-
riada consiste en que basta con que su coeciente de correlacin sea cero para poder asegurar
que tales variables aleatorias son independientes. Este resultado se obtiene inmediatamente
de la frmula:
f
X,Y
(x, y) =
1
2
X

1
2
X,Y
exp

1
2(1
2
X,Y
)
h
(x
x
)
2

2
x
+
(y
Y
)
2

2
y
2
X,Y
(x
x
)(y
Y
)

y
i

3.2. Un poco de Clculo Matricial


Asumimos que el lector est familiarizado con la denicin y las operaciones bsicas de suma
y producto entre matrices de nmeros real o por un nmero real :

a
11
a
12
a
1m
a
21
a
22
a
2m
.
.
.
.
.
.
.
.
.
.
.
.
a
n1
a
n2
a
nm

a
11
a
12
a
1m
a
21
a
22
a
2m
.
.
.
.
.
.
.
.
.
.
.
.
a
n1
a
n2
a
nm

a
11
a
12
a
1m
a
21
a
22
a
2m
.
.
.
.
.
.
.
.
.
.
.
.
a
n1
a
n2
a
nm

b
11
b
12
b
1m
b
21
b
22
b
2m
.
.
.
.
.
.
.
.
.
.
.
.
b
n1
b
n2
b
nm

a
11
+b
11
a
12
+b
12
a
1m
+b
1m
a
21
+b
21
a
22
+b
22
a
2m
+b
2m
.
.
.
.
.
.
.
.
.
.
.
.
a
n1
+b
n1
a
n2
+b
n2
a
nm
+b
nm

a
11
a
12
a
1r
a
21
a
22
a
2r
.
.
.
.
.
.
.
.
.
.
.
.
a
n1
a
n2
a
nr

b
11
b
12
b
1m
b
21
b
22
b
2m
.
.
.
.
.
.
.
.
.
.
.
.
b
r1
b
r2
b
rm

P
r
j=1
a
1j
b
j1
P
r
j=1
a
1j
b
j2

P
r
j=1
a
1j
b
jm
P
r
j=1
a
2j
b
j1
P
r
j=1
a
2j
b
j2

P
r
j=1
a
2j
b
jm
.
.
.
.
.
.
.
.
.
.
.
.
P
r
j=1
a
nj
b
j1
P
r
j=1
a
nj
b
j2

P
r
j=1
a
nj
b
jm

74 3. DISTRIBUCIN NORMAL MULTIVARIADA


Tambin asumimos que el lector est familiarizado con las propiedades del determinante de
una matriz A de n n, el cual ser denotado por |A|.
Si para cada i {1, . . . , n} y j {1, . . . , m}, A
ij
es una matriz, la notacin:

A
11
A
12
A
1m
A
21
A
22
A
2m
.
.
.
.
.
.
.
.
.
.
.
.
A
n1
A
n2
A
nm

representa a la matriz que se obtiene al escribir los componentes de cada una de las matrices
A
ij
. Esta notacin se utilizar nicamente cuando las matrices que pertenecen al mismo
rengln tengan el mismo nmero de renglones y las matrices que pertenecen a la misma
columna tengan el mismo nmero de columnas. Por ejemplo, si:
A =

a
11
a
12
a
21
a
22

B =

b
11
b
12
b
13
b
21
b
22
b
23

C =

c
11
c
12
c
21
c
22
c
31
c
32
c
41
c
42

D =

d
11
d
12
d
13
d
21
d
22
d
23
d
31
d
32
d
33
d
41
d
42
d
43

entonces, la notacin

A B
C D

representa a la matriz:

a
11
a
12
b
11
b
12
b
13
a
21
a
22
b
21
b
22
b
23
c
11
c
12
d
11
d
12
d
13
c
21
c
22
d
21
d
22
d
23
c
31
c
32
d
31
d
32
d
33
c
41
c
42
d
41
d
42
d
43

Esta notacin es cmoda sobre todo porque, para nes de las operaciones entre matrices,
se puede operar con las matrices que forman un arreglo matricial como si se tratara de las
entradas de una matriz usual; obviamente, esto nicamente cuando las operaciones que se
realicen estn bien denidas. Por ejemplo, si:
A
0
=

a
0
11
a
0
12
a
0
21
a
0
22

B
0
=

b
0
11
b
0
12
b
0
13
b
0
21
b
0
22
b
0
23

C
0
=

e
0
11
e
0
12
e
0
13
e
0
14
e
0
21
e
0
22
e
0
23
e
0
24

3.2. UN POCO DE CLCULO MATRICIAL 75


D
0
=

c
0
11
c
0
12
c
0
21
c
0
22
c
0
31
c
0
32

E
0
=

d
0
11
d
0
12
d
0
13
d
0
21
d
0
22
d
0
23
d
0
31
d
0
32
d
0
33

F
0
=

f
0
11
f
0
12
f
0
13
f
14
f
0
21
f
0
22
f
0
23
f
0
24
f
0
31
f
0
32
f
0
33
f
0
34

entonces:

A B
C D

A
0
B
0
C
0
D
0
E
0
F
0

=

AA
0
+BD
0
AB
0
+BE
0
AC
0
+BF
0
CA
0
+DD
0
CB
0
+DE
0
CC
0
+DF
0

Una matriz A con n renglones y m columnas, es decir, de nm, representa una transformacin
lineal de R
m
en R
n
. En efecto, representando a los vectores mediante matrices de una columna,
la transformacin que asocia a cada vector x R
m
el vector y = Ax R
n
, es lineal. En
forma desarrollada, si a
ij
son los elementos de la matriz A, x
1
, . . . , x
m
las coordenadas de x y
y
1
, . . . , y
n
las coordenadas de y, entonces, para i {1, . . . , n}, se tiene y
i
=
P
m
j=1
a
ij
x
j
.
Definicin 3.12 (Matrices diagonales). Diremos que una matriz (a
ij
) de nn es diagonal
si a
ij
= 0 para cualquier pareja i, j {1, . . . , n} tal que i 6= j.
Dados m nmeros reales d
1
, . . . , d
m
, denotaremos por D
d
1
,...,d
m
a la matriz diagonal, de mm,
con entradas d
1
, . . . , d
m
, es decir:
D
d
1
,d
2
,...,d
m
=

d
1
0 0
0 d
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 d
m

Definicin 3.13 (Matriz identidad). La matriz diagonal de nn para la cual a


ii
= 1, para
cualquier i {1, . . . , n}, ser llamada la matriz identidad de n n y ser denotada por I
n
.
Definicin 3.14 (Matrices triangulares superiores). Se dice que una matriz de nn es
triangular superior (resp. inferior) si todos sus elementos que estn debajo (resp. arriba) de
la diagonal son 0.
La matriz de n m formada exclusivamente por ceros ser denotada por 0
nm
.
Definicin 3.15 (Matrices invertibles). Diremos que una matriz A de nn es invertible,
si existe una matriz, denotada por A
1
, tal que AA
1
= A
1
A = I
n
.
Obviamente, si A es invertible, entonces A
1
tambin lo es y (A
1
)
1
= A.
El siguiente es uno de los resultados bsicos del lgebra Lineal, su demostracin puede con-
sultarse, por ejemplo, en Grossman, S. I., lgebra Lineal con aplicaciones, McGraw-Hill.
Proposicin 3.16. Si A una matriz de n n, las siguientes condiciones son equivalentes:
a) A es invertible.
76 3. DISTRIBUCIN NORMAL MULTIVARIADA
b) Para cada b R
n
existe un nico vector x R
n
tal que Ax = b.
c) No existe ningn vector distinto de cero x R
n
tal que Ax = 0.
d) El determinante de A es distinto de cero.
Corolario 3.17. Sea A una matriz de n n y supongamos que existe una matriz B tal que
BA = I
n
. Entonces A es invertible y A
1
= B.
Demostracin
Sea x R
n
tal que Ax = 0, entonces x = I
n
x = BAx = 0; as que, por la proposicin 3.16, A
es invertible. Adems:
B = I
n
B = B(AA
1
) = (BA)A
1
= I
n
A
1
= A
1
Corolario 3.18. Sea A una matriz de n n y supongamos que existe una matriz B tal que
AB = I
n
. Entonces A es invertible y A
1
= B.
Demostracin
Por el corolario 3.17, B es invertible y B
1
= A, as que A tambin es invertible y A
1
=
(B
1
)
1
= B.
Un mtodo para determinar si una matriz es invertible y, en su caso, encontrar su inversa,
consiste en transformar la matriz en una cuyos elementos sean exclusivamente 0s y 1s me-
diante la aplicacin repetida de las siguientes operaciones: a) multiplicacin de los elementos
de un rengln de la matriz por un nmero real distinto de cero, b) adicin de los elementos de
un rengln de la matriz a los de otro rengln de la misma y c) intercambio de los elementos
de dos renglones de la matriz. Este proceso siempre permite transformar la matriz original en
una con las siguientes propiedades: a) los renglones formados exclusivamente por 0s son los
ltimos, b) el primer elemento distinto de cero de cada rengln es un 1, c) el primer elemento
distinto de 0 en cualquier rengln se encuentra a la derecha del primer elemento distinto de
0 del rengln anterior y d) la columna en donde se encuentra el primer elemento distinto de
0 de un rengln tiene exclusivamente 0s en sus otras entradas. La forma de la matriz que se
obtiene es conocida como escalonada reducida y el mtodo para obtenerla es llamado de
Gauss-Jordan.
Por ejemplo, las siguientes matrices estn en su forma escalonada reducida:

1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1

1 0 0 0 2
0 1 0 0 1
0 0 1 0 4
0 0 0 1 7
0 0 0 0 0

1 0 2 0 0
0 1 5 0 0
0 0 0 1 0
0 0 0 0 1
0 0 0 0 0

1 6 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1
0 0 0 0 0

1 4 0 0 2
0 0 1 0 3
0 0 0 1 5
0 0 0 0 0
0 0 0 0 0

1 3 0 8 0
0 0 1 5 0
0 0 0 0 1
0 0 0 0 0
0 0 0 0 0

Se puede demostrar que una matriz A de n n es invertible si y slo si su forma escalonada


reducida es la identidad y la inversa de A es la matriz que se obtiene al aplicar a la matriz
3.2. UN POCO DE CLCULO MATRICIAL 77
identidad exactamente las mismas operaciones, y en el mismo orden que se efectuaron sobre
A, para obtener su forma escalonada reducida.
Por ejemplo, consideremos la siguiente matriz:
A =

0 1
1
2
1
1
2
1
2
1 1 0 0

1
2
1 0 1 0
1 2 1 2
1
2
0
1
2
1 0 1

Vamos a aplicar el mtodo de Gauss-Jordan para llevar A a su forma escalonada reducida,


aplicando, simultneamente, las mismas operaciones sobre A y la matriz identidad:

0 1
1
2
1
1
2
1
2
1 1 0 0

1
2
1 0 1 0
1 2 1 2
1
2
0
1
2
1 0 1

1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1

1 2 2 0 0
0 2 1 2 1
1 2 0 2 0
2 4 2 4 1
0 1 2 0 2

0 2 0 0 0
2 0 0 0 0
0 0 2 0 0
0 0 0 2 0
0 0 0 0 2

1 2 2 0 0
0 1
1
2
1
1
2
0 0 2 2 0
0 0 2 4 1
0 1 2 0 2

0 2 0 0 0
1 0 0 0 0
0 2 2 0 0
0 4 0 2 0
0 0 0 0 2

1 2 2 0 0
0 1
1
2
1
1
2
0 0 1 1 0
0 0 2 4 1
0 0
3
2
1
3
2

0 2 0 0 0
1 0 0 0 0
0 1 1 0 0
0 4 0 2 0
1 0 0 0 2

1 2 2 0 0
0 1
1
2
1
1
2
0 0 1 1 0
0 0 0 1
1
2
0 0 0
5
2

3
2

0 2 0 0 0
1 0 0 0 0
0 1 1 0 0
0 1 1 1 0
1
3
2

3
2
0 2

1 2 2 0 0
0 1
1
2
1
1
2
0 0 1 1 0
0 0 0 1
1
2
0 0 0 0 1

0 2 0 0 0
1 0 0 0 0
0 1 1 0 0
0 1 1 1 0
4
11

4
11
16
11
10
11

8
11

78 3. DISTRIBUCIN NORMAL MULTIVARIADA

1 0 0 0 0
0 1
1
2
1
1
2
0 0 1 1 0
0 0 0 1
1
2
0 0 0 0 1

28
11

6
11

20
11
4
11

12
11
1 0 0 0 0
0 1 1 0 0
0 1 1 1 0
4
11

4
11
16
11
10
11

8
11

1 0 0 0 0
0 1 0 0 0
0 0 1 1 0
0 0 0 1
1
2
0 0 0 0 1

28
11

6
11

20
11
4
11

12
11

12
11
12
11

4
11

8
11
2
11
0 1 1 0 0
0 1 1 1 0
4
11

4
11
16
11
10
11

8
11

1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1

28
11

6
11

20
11
4
11

12
11

12
11
12
11

4
11

8
11
2
11

2
11
2
11
14
11
6
11
4
11
2
11
9
11

3
11

6
11

4
11
4
11

4
11
16
11
10
11

8
11

As que A es invertible y:
A
1
=

28
11

6
11

20
11
4
11

12
11

12
11
12
11

4
11

8
11
2
11

2
11
2
11
14
11
6
11
4
11
2
11
9
11

3
11

6
11

4
11
4
11

4
11
16
11
10
11

8
11

=
1
11

28 6 20 4 12
12 12 4 8 2
2 2 14 6 4
2 9 3 6 4
4 4 16 10 8

Definicin 3.19 (Matrices transpuestas). La transpuesta de una matriz A de n m es


una matriz de m n la cual se obtiene colocando los renglones de A como columnas. Esta
matriz ser denotada por A
t
.
Se puede demostrar que el determinante de una matriz de n n es igual al determinante de
su transpuesta, as que la matriz es invertible si y slo si lo es su transpuesta.
Recurdese que un vector x R
n
se representa mediante una matriz de una columna. Por lo
tanto x
t
es una matriz de un rengln. Adems, kxk
2
= x
t
x.
Definicin 3.20 (Matrices simtricas). Diremos que una matriz A es simtrica si A
t
= A.
Definicin 3.21 (Matrices ortogonales). Diremos que una matriz A, de nn, es ortogonal
si A
t
A = I
n
.
Por el Corolario 3.17, si A es ortogonal, entonces A es invertible y A
1
= A
t
. De aqu se sigue
a su vez que A es ortogonal si y slo si su transpuesta es ortogonal.
Proposicin 3.22. Sea A una matriz simtrica de n n, entonces existe un nmero real
y un vector x R
n
, de norma 1, tal que Ax = x.
Demostracin
Por el teorema fundamental del lgebra, el polinomio en la variable compleja z, P(z) =
|AzI
n
|, tiene por lo menos una raz, es decir, existe un nmero complejo z = +i tal que
|AzI| = 0. El conjugado de z, z = i es entonces tambin raz del mismo polinomio.
Sea B = (AzI)(AzI) = A
2
2A+(
2
+
2
)I, entonces, como el determinante de B es
3.2. UN POCO DE CLCULO MATRICIAL 79
nulo, existe un vector distinto de cero y R
n
tal que By = 0. Entonces, deniendo x =
y
kyk
,
se tiene Bx = 0, kxk = 1 y:
0 = x
t
Bx = x
t
A
2
x 2x
t
Ax + (
2
+
2
)x
t
x
= x
t
A
t
Ax x
t
A
t
x x
t
Ax +
2
+
2
= (x
t
A
t
x
t
)(Ax x) +
2
= (Ax x)
t
(Ax x) +
2
= kAx xk
2
+
2
As que, = 0 y Ax x = 0
Proposicin 3.23. Sea Q una matriz simtrica de n n, entonces existe un nmero real
y una matriz ortogonal P tal que P
t
QP tiene la forma:
P
t
QP =

0
1(n1)
0
(n1)1
Q
0

en donde Q
0
es una matriz de (n 1) (n 1) simtrica.
Demostracin
Sea R y x R
n
, de norma 1, tal que Qx = x.
Sean x
1
, . . . , x
n
las coordenadas de x. Como x 6= 0, por lo menos una de sus coordenadas es
distinta de cero; supongamos x
j
6= 0. Entonces, para k {1, . . . , j 1}, sea w
k
el vector de
R
n
cuya k-sima coordenada es 1 y todas las dems son cero y, para k {j, . . . , n 1}, sea
w
k
el vector de R
n
cuya (k + 1)-sima coordenada es 1 y todas las dems son cero.
Obviamente, los vectores w
1
, . . . , w
n1
son linealmente independientes. Adems, si
0
, . . . ,
n1
son tales que
0
x+ +
n1
w
n1
= 0 entonces,
0
x
j
= 0, as que
0
= 0. Por lo tanto, como
w
1
, . . . , w
n1
son linealmente independientes, tambin se tiene
1
= . . . =
n1
= 0. Es decir,
los vectores x, w
1
, . . . , w
n1
son linealmente independientes.
Siguiendo el procedimiento de ortogonalizacin de Gram-Schmidt, denamos v
1
= x y, para
k {2, . . . n}:
v
k
= w
k1

P
k1
i=1
1
kv
i
k
2
(v
i
w
k1
)v
i
Entonces v
1
6= 0 y si v
2
= w
1
(v
1
w
1
)v
1
= 0, x y w
1
seran linealmente dependientes, lo cual
es una contradiccin. Por lo tanto, v
2
6= 0.
Adems:
v
1
v
2
= v
1
(w
1
(v
1
w
1
)v
1
) = (v
1
w
1
) (v
1
w
1
) = 0
As que v
1
y v
2
son ortogonales.
Supongamos ahora que v
1
, . . . , v
m
son todos distintos de cero y ortogonales por parejas. En-
tonces v
m+1
= w
m

P
m
i=1
1
kv
i
k
2
(v
i
w
m
)v
i
est bien denido y si v
m+1
= 0, los vectores
x, w
1
, . . . , w
m
seran linealmente dependientes, lo cual es una contradiccin. Por lo tanto,
v
m+1
6= 0.
Adems, si k {1, . . . , m}, se tiene:
v
k
v
m+1
= v
k

w
m

P
m
i=1
1
kv
i
k
2
(v
i
w
m
)v
i

= (v
k
w
m
) v
k

P
m
i=1
1
kv
i
k
2
(v
i
w
m
)v
i

80 3. DISTRIBUCIN NORMAL MULTIVARIADA


= (v
k
w
m
)
P
m
i=1
1
kv
i
k
2
(v
i
w
m
)(v
i
v
k
)
= (v
k
w
m
)
1
kv
k
k
2
(v
k
w
m
)(v
k
v
k
) = 0
As que v
k
y v
m+1
son ortogonales.
Por lo tanto, v
1
, . . . , v
n
estn bien denidos, todos son distintos de cero y son ortogonales.
Para k {1, . . . , n}, sea u
k
=
v
k
kv
k
k
, entonces los vectores u
1
, . . . , u
n
son ortogonales y de norma
1.
Sea P la matriz cuyas columnas son los vectores u
1
, . . . , u
n
. Obviamente, P es una matriz
ortogonal y su primera columna est formada por las coordenadas de x, as que tiene la forma
siguiente:
P =

x
1
p
12
p
1n
x
2
p
22
p
2n
.
.
.
.
.
.
.
.
.
.
.
.
x
n
p
n2
p
nn

Adems, como Qx = x, P
t
QP tiene la forma siguiente:
P
t
QP =

s
12
s
1n
0 s
22
s
2n
.
.
.
.
.
.
.
.
.
.
.
.
0 s
n2
s
n

Pero (P
t
QP)
t
= P
t
Q
t
P = P
t
QP, as que P
t
QP es simtrica. Por lo tanto, tiene la forma:
P
t
QP =

0 0
0 s
22
s
2n
.
.
.
.
.
.
.
.
.
.
.
.
0 s
n2
s
n

y la matriz:
Q
0
=

s
22
s
2n
.
.
.
.
.
.
.
.
.
s
n2
s
n

es simtrica.
Proposicin 3.24. Sea Q una matriz simtrica de n n, entonces existen n nmeros reales

1
, . . . ,
n
y una matriz ortogonal P tal que P
t
QP = D

1
,...,
n
.
Demostracin
Por la proposicin 3.23, existe
1
R y una matriz ortogonal P
1
tal que P
t
1
QP
1
tiene la forma:
P
t
1
QP
1
=


1
0
1(n1)
0
(n1)1
Q
1

en donde Q
1
es una matriz de (n 1) (n 1) simtrica.
Consideremos ahora k {1, . . . , n 2} y supongamos que existen k nmeros reales
1
, . . . ,
k
y una matriz ortogonal P
k
tal que P
t
k
QP
k
tiene la forma:
3.2. UN POCO DE CLCULO MATRICIAL 81
P
t
k
QP
k
=

D

1
,...,
k
0
k(nk)
0
(nk)k
Q
k

en donde Q
k
es una matriz de (n k) (n k) simtrica.
Nuevamente por la proposicin 3.23, existe
k+1
R y una matriz ortogonal R, de (n k)
(n k), tal que R
t
Q
k
R tiene la forma:
R
t
Q
k
R =


k+1
0
1(nk1)
0
(nk1)1
Q
k+1

en donde Q
k+1
es una matriz de (n k 1) (n k 1) simtrica.
Denamos:
S =

I
k
0
k(nk)
0
(nk)k
R

Entonces:
S
t
S =

I
k
0
k(nk)
0
(nk)k
R
t

I
k
0
k(nk)
0
(nk)k
R

=

I
k
0
k(nk)
0
(nk)k
R
t
R

=

I
k
0
k(nk)
0
(nk)k
I
nk

= I
n
As que S es ortogonal y, por lo tanto, P
k+1
= P
k
S tambin es ortogonal. Adems:
P
t
k+1
QP
k+1
= S
t
P
t
k
QP
k
S
=

I
k
0
k(nk)
0
(nk)k
R
t

1
,...,
k
0
k(nk)
0
(nk)k
Q
k

I
k
0
k(nk)
0
(nk)k
R

=

I
k
0
k(nk)
0
(nk)k
R
t

1
,...,
k
0
k(nk)
0
(nk)k
Q
k
R

=

D

1
,...,
k
0
k(nk)
0
(nk)k
R
t
Q
k
R

=

D

1
,...,
k+1
0
(k+1)(nk1)
0
(nk1)(k+1)
Q
k+1

As que, para cualquier m {1, . . . , n 1}, existen m nmeros reales


1
, . . . ,
m
y una matriz
ortogonal P
m
tal que P
t
m
QP
m
tiene la forma:
P
t
m
QP
m
=

D

1
,...,
m
0
m(nm)
0
(nm)m
Q
m

en donde Q
m
es una matriz de (n m) (n m) simtrica.
En particular, para m = n1, existen n1 nmeros reales
1
, . . . ,
n1
y una matriz ortogonal
P tal que P
t
QP tiene la forma:
P
t
QP =

D

1
,
2
,...,
n1
0
(n1)1
0
1(n1)
Q
n1

en donde Q
n1
es una matriz de 1 1 simtrica, es decir, Q
n1
tiene un nico elemento
n
.
As que, P
t
QP = D

1
,...,n
.
Sea Q una matriz simtrica de n n, y P una matriz ortogonal tal que P
t
QP = D

1
,...,
n
,
en donde
1
, . . . ,
n
son nmeros reales. Se tiene entonces QP = PD

1
,...,n
. Sea x
k
el vector
que forma la k-sima columna de P. Entonces Qx
k
forma la k-sima columna de PD

1
,...,
n
;
pero, la k-sima columna de PD

1
,...,n
est dada por el vector
k
x
k
. Por lo tanto, se tiene,
Qx
k
=
k
x
k
y, como x
k
6= 0, el determinante |Q
k
I
n
| es nulo. Es decir,
1
, . . . ,
n
son
82 3. DISTRIBUCIN NORMAL MULTIVARIADA
races del polinomio en z, |QzI
n
| y, para cada k {1, . . . , n}, la k-sima columna de P
est formada por un vector x
k
de norma 1 tal que Qx
k
=
k
x
k
. En otras palabras, se tiene el
siguiente resultado:
Corolario 3.25. Sea Q una matriz simtrica de n n, entonces existen n nmeros reales

1
, . . . ,
n
y n vectores de norma 1, x
1
, . . . , x
n
, ortogonales entre s, tales que
1
, . . . ,
n
son
races del polinomio p(z) = |QzI| y, para i {1, . . . , n}, Q(x
i
) =
i
x
i
. Adems, si P es la
matriz cuyas columnas estn formadas por los vectores x
1
, . . . , x
n
, entonces P es ortogonal y
satisface la relacin P
t
QP = D

1
,...,
n
.
En la terminologa del lgebra Lineal, si Q es una matriz de n n,el polinomio p(z) =
|QzI
n
| es llamado el polinomio caracterstico de Q. Tambin, si es un nmero real o
complejo para el cual existe un vector x R
n
tal que Q(x) = x, entonces es llamado un
valor propio de Q y se dice que x es un vector propio correspondiente a .
Tambin se tiene el siguiente resultado:
Proposicin 3.26. Sean y dos valores propios distintos de la matriz simtrica Q y sean
x, y vectores propios correspondientes a y , respectivamente, entonces x y y son ortogonales.
Demostracin
Como 6= , por lo menos uno de ellos es distinto de 0. Supongamos 6= 0. Entonces:
x y = (x) (y) = (Qx) (Qy) = y
t
Q
t
Qx = y
t
Q
2
x
= y
t
Q(Qx) = y
t
Q(x) = y
t
Q(x) =
2
y
t
x =
2
x y
As que:
( ) x y = 0
Por lo tanto, x y = 0, as que x y y son ortogonales.
Ejemplo 3.27. Sea Q =

9 5 3 3
5 7 5 5
3 5 6 0
3 5 0 6

El determinante |QzI
4
| est dado por:
p(z) = z
4
14z
3
96z
2
+ 2016z 6912
Las races de este polinomio son
1
= 12,
2
= 6,
3
= 8 y
4
= 12.
Sea una de las races de p. Para obtener un vector propio asociado a , se tiene que resolver
el sistema de ecuaciones Qx = x cuya matriz est dada por:

9 5 3 3
5 7 5 5
3 5 6 0
3 5 0 6

la cual se puede llevar a su forma escalonada reducida de la siguiente manera:

5 7 5 5
9 5 3 3
3 5 6 0
3 5 0 6

3.2. UN POCO DE CLCULO MATRICIAL 83

5 7 5 5
0
2
+ 2 + 88 5 + 60 5 + 60
0 3 4 5 + 45 15
0 3 4 15 5 + 45

5 7 5 5
0
2
+ 2 + 88 5 + 60 5 + 60
0 3 4 5 + 45 15
0 0 6 + 6

5 7 5 5
0 3 4 5 + 45 15
0 0 6 + 6
0
2
+ 2 + 88 5 + 60 5 + 60

5 7 5 5
0 3 4 5 + 45 15
0 0 6 + 6
0 0

3
+8
2
+110840
34
2
17156
34

5 7 5 5
0 3 4 5 + 45 15
0 0

3
+8
2
+110840
34
34312
34
0 0 6 ( 6)

5 7 5 5
0 3 4 5 + 45 15
0 0

3
+8
2
+110840
34
34312
34
0 0 0
(+12)(6)(8)(12)

3
+8
2
+110840

1 0

2
+67
34
25
34
0 3 4 5 + 45 15
0 0

3
+8
2
+110840
34
34312
34
0 0 0 0

1 0

2
+67
34
25
34
0 3 4 5 + 45 15
0 0 1
34312

3
+8
2
+110840
0 0 0 0

1 0 0
(6)(34)

3
+8
2
+110840
0 1 0
5(6)(12)

3
+8
2
+110840
0 0 1
34312

3
+8
2
+110840
0 0 0 0

Por lo tanto, una solucin est dada por el vector:


84 3. DISTRIBUCIN NORMAL MULTIVARIADA
w =

( 6) (3 4)
5 ( 6) ( 12)
34 + 312

3
+ 8
2
+ 110 840

As que 4 vectores propios, correspondientes a los valores propios 12, 6, 8 y 12, estn dados,
respectivamente, por:

720
2160
720
720

= 1440

1
6

3
1
2

3
1
6

3
1
6

0
0
108
108

= 108

0
0
1
2

1
2

40
40
40
40

= 80

1
2

1
2
1
2
1
2

192
0
96
96

= 96

1
3

6
0
1
6

6
1
6

Entonces, una matriz ortogonal P tal que P


t
QP = D

1
,
2
,
3
,
4
est dada por:
P =

1
6

3 0
1
2
1
3

6
1
2

3 0
1
2
0
1
6

3
1
2

2
1
2
1
6

6
1
6

3
1
2

2
1
2
1
6

lo cual se puede vericar directamente:


QP =

3 0 4 4

6
6

3 0 4 0
2

3 3

2 4 2

6
2

3 3

2 4 2

P
t
QP =

12 0 0 0
0 6 0 0
0 0 8 0
0 0 0 12

En general, para encontrar una matriz ortogonal P tal que P


t
QP = D

1
,...,
n
, en donde Q
es una matriz simtrica de n n, primero se encuentran los valores propios de Q, es decir,
las races del polinomio p(z) = |QzI
n
|. Despus se encuentran vectores propios correspon-
dientes a los valores propios encontrados. Sabemos que si dos valores propios son distintos
entonces dos vectores propios correspondientes, respectivamente, a esos valores propios, son
3.2. UN POCO DE CLCULO MATRICIAL 85
ortogonales; pero si p(z) tiene alguna raz de multiplicidad k, en donde k > 1, entonces
k vectores propios correspondientes a , no necesariamente son ortogonales, incluso cuando
son linealmente independientes. En ese caso, se encuentran k vectores propios linealmente
independientes correspondientes a y se aplica a esos vectores el proceso de ortogonalizacin
de Gram-Schmidt.
Ejemplo 3.28. Sea Q =
1
4

5 1 1 1
1 5 1 1
1 1 5 1
1 1 1 5

El determinante |QzI
4
| est dado por:
z
4
5z
3
+ 9z
2
7z + 2 = (z 2) (z 1)
3
Para obtener un vector propio asociado al valor propio 1, se tiene que resolver el sistema de
ecuaciones Qx = x cuya matriz est dada por:

5
4
1
1
4

1
4
1
4

1
4
5
4
1
1
4

1
4

1
4
1
4
5
4
1
1
4
1
4

1
4

1
4
5
4
1

la cual tiene la siguiente forma escalonada reducida:

1 1 1 1
0 0 0 0
0 0 0 0
0 0 0 0

Por lo tanto, Hay tres soluciones linealmente independientes, dadas por los vectores:
w
1
=

1
1
0
0

, w
2
=

1
0
1
0

, w
3
=

1
0
0
1

Para obtener un vector propio asociado al valor propio 2, resolvamos el sistema de ecuaciones
Qx = 2x cuya matriz est dada por:

5
4
2
1
4

1
4
1
4

1
4
5
4
2
1
4

1
4

1
4
1
4
5
4
2
1
4
1
4

1
4

1
4
5
4
2

la cual tiene la siguiente forma escalonada reducida:

1 0 0 1
0 1 0 1
0 0 1 1
0 0 0 0

Por lo tanto, una solucin est dada por el vector:


86 3. DISTRIBUCIN NORMAL MULTIVARIADA
w
4
=

1
1
1
1

w
4
es ortogonal a w
1
, w
2
y w
3
ya que corresponden a distintos valores propios, pero w
1
, w
2
y w
3
no son ortogonales. Entonces, para obtener 3 vectores propios correspondientes al valor
propio 1, aplicaremos el proceso de ortogonalizacin de Gram-Schmidt a w
1
, w
2
, w
3
.
Sean:
v
1
= w
1
=

1
1
0
0

v
2
= w
2

1
2
(w
2
v
1
) v
1
= w
2

1
2
v
1
=

1
2

1
2
1
0

v
3
= w
3

1
2
(w
3
v
1
) v
1

2
3
(w
3
v
2
) v
2
= w
3
+
1
2
v
1
+
1
3
v
2
=

1
3
1
3
1
3
1

Los vectores v
1
, v
2
y v
3
son ortogonales y, por ser combinaciones lineales de w
1
, w
2
y w
3
, son
tambin vectores propios correspondientes al valor propio 1. As que una matriz ortogonal P
tal que P
t
QP = D
1,1,1,2
est dada por:
P =

1
2

2
1
6

6
1
6

3
1
2
1
2

2
1
6

6
1
6

3
1
2
0
1
3

6
1
6

3
1
2
0 0
1
2

3
1
2

Definicin 3.29 (Formas cuadrticas n-dimensionales). Se dice que una funcin F :


R
n
7 R es una forma cuadrtica si tiene la forma F(x
1
, . . . , x
n
) =
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j
,
en donde los coecientes a
ij
son constantes.
Definicin 3.30 (Formas cuadrticas n-dimensionales denidas positivas). Se dice
que una forma cuadrtica F : R
n
7R es denida positiva si F(x) > 0 para cualquier vector
x 6= 0.
Una manera, conocida como el mtodo de Lagrange, para investigar si una forma cuadrtica
es denida positiva consiste en ir completando cuadrados para expresarla como suma de
cuadrados.
Ejemplo 3.31. Consideremos la forma cuadrtica F : R
5
7R denida por:
F(x
1
, x
2
, x
3
, x
4
, x
5
) = x
2
1
+ 2x
2
2
+ 3x
2
4
+x
2
5
+ 2x
1
x
2
x
1
x
3
2x
1
x
4
+x
2
x
4
2x
3
x
5
Lo primero que podemos observar es que los coecientes de los trminos al cuadrado son no
negativos; si alguno de ellos fuera negativo, la forma cuadrtica no sera denida positiva pues,
3.2. UN POCO DE CLCULO MATRICIAL 87
haciendo cero las otras coordenadas, podramos encontrar un vector distinto de cero para el
cual la forma cuadrtica sera negativa.
En seguida podemos analizar cmo es la forma cuadrtica en cada pareja de variables cuyo
producto aparezca en la forma cuadrtica; en este caso tenemos las siguientes:
F
1
(x
1
, x
2
) = x
2
1
+ 2x
2
2
+ 2x
1
x
2
= (x
1
+x
2
)
2
+x
2
2
F
2
(x
1
, x
3
) = x
2
1
x
1
x
3
=

x
1

1
2
x
3

1
4
x
2
3
F
3
(x
1
, x
4
) = x
2
1
+ 3x
2
4
2x
1
x
4
= (x
1
x
4
)
2
+ 2x
2
4
F
4
(x
2
, x
4
) = 2x
2
2
+ 3x
2
4
+x
2
x
4
= 2

x
2
+
1
4
x
4

2
+
23
8
x
2
4
F
5
(x
3
, x
5
) = x
2
5
2x
3
x
5
= (x
5
x
3
)
2
x
2
3
De estas cinco formas cuadrticas, F
1
, F
3
y F
4
son denidas positivas ya que son no negativas
y se hacen cero nicamente cuando las dos variables son nulas. En cambio, F
2
y F
5
no son
denidas positivas pues, por ejemplo, para cualquier valor distinto de cero de x
3
, tomando
x
1
=
1
2
x
3
y x
5
= x
3
, se tiene F
2
(x
1
, x
3
) =
1
4
x
2
3
< 0 y F
5
(x
3
, x
5
) = x
2
3
< 0.
Con esto es suciente para concluir que la forma cuadrtica F no es denida positiva pues
si lo fuera, sera denida positiva en cualquier subconjunto de variables, haciendo nulas las
otras.
Ejemplo 3.32. Consideremos la forma cuadrtica F : R
5
7R denida por:
F(x
1
, x
2
, x
3
, x
4
, x
5
) = x
2
1
+ 2x
2
2
+x
2
3
+ 10x
2
4
+ 5x
2
5
+2x
1
x
2
x
1
x
3
2x
1
x
4
+x
2
x
4
+ 5x
3
x
4
+ 2x
3
x
5
+ 10x
4
x
5
En este caso se tiene:
F
1
(x
1
, x
2
) = x
2
1
+ 2x
2
2
+ 2x
1
x
2
= (x
1
+x
2
)
2
+x
2
2
F
2
(x
1
, x
3
) = x
2
1
+x
2
3
x
1
x
3
=

x
1

1
2
x
3

2
+
3
4
x
2
3
F
3
(x
1
, x
4
) = x
2
1
+ 10x
2
4
2x
1
x
4
= (x
1
x
4
)
2
+ 9x
2
4
F
4
(x
2
, x
4
) = 2x
2
2
+ 10x
2
4
+x
2
x
4
= 2

x
2
+
1
4
x
4

2
+
79
8
x
2
4
F
5
(x
3
, x
4
) = x
2
3
+ 10x
2
4
+ 5x
3
x
4
=

x
3
+
5
2
x
4

2
+
15
4
x
2
4
F
6
(x
3
, x
5
) = x
2
3
+ 5x
2
5
+ 2x
3
x
5
= (x
3
+x
5
)
2
+ 4x
2
5
F
7
(x
4
, x
5
) = 10x
2
4
+ 5x
2
5
+ 10x
4
x
5
= 10

x
4
+
1
2
x
5

2
+
5
2
x
2
5
Las siete formas cuadrticas que se obtienen con cada pareja de variables cuyo producto aparece
en la forma cuadrtica, son denidas positivas. Esto no contradice el que F sea denida
positiva pero no es suciente para mostrar que lo es.
Expresemos entonces F, completa, como suma de cuadrados, lo cual se hace completando
cuadrados en cada una de las variables:
F(x
1
, x
2
, x
3
, x
4
, x
5
) = (x
2
1
+ 2x
1
x
2
x
1
x
3
2x
1
x
4
)
+2x
2
2
+x
2
3
+ 10x
2
4
+ 5x
2
5
+x
2
x
4
+ 5x
3
x
4
+ 2x
3
x
5
+ 10x
4
x
5
=

x
1
+x
2

1
2
x
3
x
4

x
2

1
2
x
3
x
4

+2x
2
2
+x
2
3
+ 10x
2
4
+ 5x
2
5
+x
2
x
4
+ 5x
3
x
4
+ 2x
3
x
5
+ 10x
4
x
5
=

x
1
+x
2

1
2
x
3
x
4

2
+ (x
2
2
+x
2
x
3
+ 3x
2
x
4
)
88 3. DISTRIBUCIN NORMAL MULTIVARIADA
+
3
4
x
2
3
+ 4x
3
x
4
+ 9x
2
4
+ 5x
2
5
+ 2x
3
x
5
+ 10x
4
x
5
=

x
1
+x
2

1
2
x
3
x
4

2
+

x
2
+
1
2
x
3
+
3
2
x
4

1
2
x
3
+
3
2
x
4

2
+
3
4
x
2
3
+ 9x
2
4
+ 5x
2
5
+ 4x
3
x
4
+ 2x
3
x
5
+ 10x
4
x
5
=

x
1
+x
2

1
2
x
3
x
4

2
+

x
2
+
1
2
x
3
+
3
2
x
4

2
+
1
2
(x
2
3
+ 5x
3
x
4
+ 4x
3
x
5
)
+
27
4
x
2
4
+ 5x
2
5
+ 10x
4
x
5
=

x
1
+x
2

1
2
x
3
x
4

2
+

x
2
+
1
2
x
3
+
3
2
x
4

2
+
1
2

x
3
+
5
2
x
4
+ 2x
5

1
2

5
2
x
4
+ 2x
5

2
+
27
4
x
2
4
+ 5x
2
5
+ 10x
4
x
5
=

x
1
+x
2

1
2
x
3
x
4

2
+

x
2
+
1
2
x
3
+
3
2
x
4

2
+
1
2

x
3
+
5
2
x
4
+ 2x
5

2
+
29
8

x
2
4
+
40
29
x
4
x
5

+ 3x
2
5
=

x
1
+x
2

1
2
x
3
x
4

2
+

x
2
+
1
2
x
3
+
3
2
x
4

2
+
1
2

x
3
+
5
2
x
4
+ 2x
5

2
+
29
8

x
4
+
20
29
x
5

29
8

20
29
x
5

2
+ 3x
2
5
=

x
1
+x
2

1
2
x
3
x
4

2
+

x
2
+
1
2
x
3
+
3
2
x
4

2
+
1
2

x
3
+
5
2
x
4
+ 2x
5

2
+
29
8

x
4
+
20
29
x
5

2
+
37
29
x
2
5
As que F es denida positiva pues es no negativa y se hace cero nicamente cuando las 5
variables son nulas.
Si F(x
1
, x
2
, . . . , x
n
) =
P
{i,j{1,2,...,n}:ij}
c
ij
x
i
x
j
es una forma cuadrtica denida positiva en-
tonces c
ii
> 0 y 4c
ii
c
jj
c
2
ij
> 0 para cualquier pareja i, j. En efecto, consideremos la forma
cuadrtica F
ij
: R
2
7R denida por:
F
ij
(x
i
, x
j
) = c
ii
x
2
i
+c
ij
x
i
x
j
+c
jj
x
2
j
la cual es denida positiva, as que, por la proposicin 3.7, se tiene c
ii
> 0, c
jj
> 0 y
4c
ii
c
jj
c
2
ij
> 0.
Iniciando el mtodo de Lagrange, de completacin de cuadrados, se obtiene:
F(x
1
, . . . , x
n
) =

c
11
x
1
+
c
12
2

c
11
x
2
+ +
c
1n
2

c
11
x
n

c
12
2

c
11
x
2
+ +
c
1n
2

c
11
x
n

2
+
P
n
i=2
c
ii
x
2
i
+
P
{i,j{2,...,n}:i<j}
c
ij
x
i
x
j
=

c
11
x
1
+
c
12
2

c
11
x
2
+ +
c
1n
2

c
11
x
n

P
n
i=2
c
2
1i
4c
11
x
2
i
2
P
{i,j{2,...,n}:i<j}
c
1i
c
1j
4c
11
x
i
x
j
+
P
n
i=2
c
ii
x
2
i
+
P
{i,j{2,...,n}:i<j}
c
ij
x
i
x
j
=

c
11
x
1
+
c
12
2

c
11
x
2
+ +
c
1n
2

c
11
x
n

2
+

4c
11
c
22
c
2
12
4c
11

x
2
2
+
P
{j{3,...,n}}

2c
11
c
2j
c
12
c
1j
2c
11

x
2
x
j
+
P
n
i=3
c
2
ii
x
2
i
+
P
{i,j{3,...,n}:i<j}
c
ij
x
i
x
j
2
P
{i,j{3,...,n}:i<j}
c
1i
c
1j
4c
11
x
i
x
j
=

c
11
x
1
+
c
12
2

c
11
x
2
+ +
c
1n
2

c
11
x
n

2
3.2. UN POCO DE CLCULO MATRICIAL 89
+

4c
11
c
22
c
2
12
2

c
11
x
2
+
1
2

c
11

4c
11
c
22
c
2
12
2c
11
c
23
c
12
c
13
c
11
x
3
+ +
1
2

c
11

4c
11
c
22
c
2
12
2c
11
c
2n
c
12
c
1n
c
11
x
n

1
2

c
11

4c
11
c
22
c
2
12
2c
11
c
23
c
12
c
13
c
11
x
3
+ +
1
2

c
11

4c
11
c
22
c
2
12
2c
11
c
2n
c
12
c
1n
c
11
x
n

2
+
P
n
i=3
c
2
ii
x
2
i
+
P
{i,j{3,...,n}:i<j}
c
ij
x
i
x
j
2
P
{i,j{3,...,n}:i<j}
c
1i
c
1j
4c
11
x
i
x
j
= (a
11
x
1
+ +a
1n
x
n
)
2
+ (a
22
x
2
+ +a
2n
x
n
)
2
+
en donde a
11
y a
22
son positivos.
Proposicin 3.33. Una forma cuadrtica F(x
1
, . . . , x
n
) =
P
{i,j{1,...,n}:ij}
c
ij
x
i
x
j
es denida
positiva si y slo si el mtodo de Lagrange, de completacin de cuadrados, puede continuarse
hasta obtener una expresin de la forma siguiente:
F(x
1
, . . . , x
n
) = (a
11
x
1
+ +a
1n
x
n
)
2
+ (a
22
x
2
+ +a
2n
x
n
)
2
+ +

a
(n1)(n1)
x
n1
+a
(n1)n
x
n

2
+ (a
nn
x
n
)
2
en donde a
jj
> 0 para cualquier j {1, . . . , n}.
Demostracin
Supongamos primero que el mtodo de Lagrange, de completacin de cuadrados, puede con-
tinuarse hasta obtener una expresin de la forma:
F(x
1
, . . . , x
n
) = (a
11
x
1
+ +a
1n
x
n
)
2
+ (a
22
x
2
+ +a
2n
x
n
)
2
+ +

a
(n1)(n1)
x
n1
+a
(n1)n
x
n

2
+ (a
nn
x
n
)
2
en donde a
jj
> 0 para cualquier j {1, . . . , n}.
Se tiene F(x
1
, . . . , x
n
) 0 para cualquier vector (x
1
, . . . , x
n
) R
n
.
Adems, si F(x
1
, . . . , x
n
) = 0 entonces todos los trminos de la sumatoria son 0, es decir:
a
nn
x
n
= 0
a
(n1)(n1)
x
n1
+a
(n1)n
x
n
= 0
.
.
.
a
22
x
2
+ +a
2n
x
n
= 0
a
11
x
1
+a
12
x
2
+ +a
1n
x
n
= 0
As que entonces, x
n
= x
n1
= = x
2
= x
1
= 0
Por lo tanto, F es denida positiva.
Supongamos ahora que F es denida positiva.
Primero demostraremos que, completando cuadrados, F puede llevarse siempre a la forma
siguiente:
F(x
1
, . . . , x
n
) = (a
11
x
1
+ +a
1n
x
n
)
2
+ (a
22
x
2
+ +a
2n
x
n
)
2
(a
33
x
3
+ +a
3n
x
n
)
2
+

a
(n1)(n1)
x
n1
+a
(n1)n
x
n

2
(a
nn
x
n
)
2
en donde a
jj
> 0 para cualquier j {1, . . . , n}.
En efecto, supongamos que despus de m1 cuadrados ya no hay trminos conteniendo x
2
m
,
entonces consideremos la forma cuadrtica que se obtiene de F aplicndola a un vector cuyas
90 3. DISTRIBUCIN NORMAL MULTIVARIADA
coordenadas, despus de la m-sima, son cero. Esta nueva forma cuadrtica, F
m
(x
1
, . . . , x
m
),
sigue siendo denida positiva y se tiene:
F
m
(x
1
, . . . , x
m
) = (a
11
x
1
+ +a
1m
x
m
)
2
+ (a
22
x
2
+ +a
2m
x
m
)
2

a
(m)(m1)
x
m1
+a
(m1)m
x
m

2
Consideremos un vector con coordenada x
m
= 1. Las primeras m 1 coordenadas de ese
vector pueden tomarse de tal forma que los m cuadrados de la sumatoria sean 0, as que
se tendra F(x
1
, . . . , x
m1
, 1) = 0, lo cual es una contradiccin. Por lo tanto, el proceso de
completacin de cuadrados contina hasta obtener una expresin de la forma:
F(x
1
, . . . , x
n
) = (a
11
x
1
+a
12
x
2
+ +a
1n
x
n
)
2
+ (a
22
x
2
+ +a
2n
x
n
)
2

a
(n1)(n1)
x
n1
+a
(n1)n
x
n

2
(a
nn
x
n
)
2
en donde a
jj
6= 0 para cualquier j {1, . . . , n}.
a
jj
puede hacerse positivo ya que se encuentra dentro de una expresin al cuadrado.
Ahora demostraremos que todos los signos de la suma de cuadrados son positivos. En efecto,
supongamos que el m-simo trmino de esta suma de cuadrados es el primero con signo
negativo, entonces consideremos la forma cuadrtica que se obtiene de F aplicndola a un
vector cuyas coordenadas, despus de la m-sima, son cero. Esta nueva forma cuadrtica,
F
m
(x
1
, . . . , x
m
), sigue siendo denida positiva y se tiene:
F
m
(x
1
, . . . , x
m
) = (a
11
x
1
+a
12
x
2
+ +a
1m
x
m
)
2
+ (a
22
x
2
+ +a
2m
x
m
)
2
+ +

a
(m)(m1)
x
m1
+a
(m1)m
x
m

2
(a
mm
x
m
)
2
Consideremos un vector con coordenada x
m
= 1. Las primeras m 1 coordenadas de ese
vector pueden tomarse de tal forma que los primeros m1 cuadrados de la sumatoria sean 0,
as que se tendra F(x
1
, . . . , x
m1
, 1) 0, lo cual es una contradiccin. Por lo tanto, no existe
ningn trmino con signo negativo en la sumatoria.
Se tiene entonces:
F(x
1
, . . . , x
n
) = (a
11
x
1
+a
12
x
2
+ +a
1n
x
n
)
2
+ (a
22
x
2
+ +a
2n
x
n
)
2
+ +

a
(n1)(n1)
x
n1
+a
(n1)n
x
n

2
+ (a
nn
x
n
)
2
en donde a
jj
> 0 para cualquier j {1, . . . , n}.
Definicin 3.34 (Matriz asociada a una forma cuadrtica). Si F : R
n
7 R es una
forma cuadrtica dada por:
F(x
1
, . . . , x
n
) =
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j
,
entonces la matriz Q denida por Q =

a
11
1
2
a
12

1
2
a
1n
1
2
a
12
a
22

1
2
a
2n
.
.
.
.
.
.
.
.
.
.
.
.
1
2
a
1n
1
2
a
2n
a
nn

es llamada la matriz asociada a la forma cuadrtica F.


Obsrvese que la matriz Q asociada a una forma cuadrtica F : R
n
7 R es simtrica y
satisface la relacin F(x) = (Qx) x = x
t
Qx
3.2. UN POCO DE CLCULO MATRICIAL 91
Obsrvese tambin que si Q es una matriz simtrica arbitraria, entonces la funcin F : R
n
7R
denida por F(x) = x
t
Qx es una forma cuadrtica.
Definicin 3.35 (Matrices denidas positivas). Se dice que una matriz simtrica de nn
es denida positiva si su forma cuadrtica asociada es denida positiva.
Proposicin 3.36. Sea A una matriz de n n invertible, entonces la matriz Q = AA
t
es
simtrica y denida positiva
Demostracin
Q
t
= (AA
t
)
t
= AA
t
= Q, as que Q es simtrica.
x
t
Qx = x
t
AA
t
x = (A
t
x)
t
(A
t
x
t
) = (A
t
x) (A
t
x) 0
Adems, como A es invertible, A
t
x = 0 si y slo si x = 0.
Corolario 3.37. Sea A una matriz de n n invertible, entonces la matriz Q = A
t
A es
simtrica y denida positiva.
Proposicin 3.38. Sea A una matriz de n n tal que la matriz Q = A
t
A es simtrica y
denida positiva, entonces A es invertible.
Demostracin
Sea F la forma cuadrtica denida por Q y x R
n
distinto de 0, entonces:
kAxk
2
= (Ax) (Ax) = (Ax)
t
(Ax) = x
t
A
t
Ax = x
t
Qx = F(x) > 0
Por lo tanto, Ax 6= 0.
Es decir, no existe ningn vector x R
n
, distinto de 0, tal que Ax = 0. As que, por la
proposicin 3.16, A es invertible.
Corolario 3.39. Sea A una matriz de n n tal que la matriz Q = AA
t
es simtrica y
denida positiva, entonces A es invertible.
Combinando las proposiciones 3.36 y 3.38, as como sus corolarios, se tienen los siguientes
resultados:
Proposicin 3.40. Sea A una matriz de n n, entonces la matriz Q = AA
t
es simtrica y
denida positiva si y slo si A es invertible.
Corolario 3.41. Sea A una matriz de n n, entonces la matriz Q = A
t
A es simtrica y
denida positiva si y slo si A es invertible.
Por otra parte, la proposicin 3.33 nos lleva al siguiente resultado:
Proposicin 3.42. Sea Q una matriz simtrica de n n, entonces Q es denida positiva si
y slo si existe una matriz invertible B triangular superior tal que B
t
B = Q.
Demostracin
Si existe una matriz invertible B triangular superior tal que B
t
B = Q, entonces de la proposi-
cin 3.36 se sigue que Q es denida positiva.
Supongamos ahora que Q es denida positiva y consideremos la forma cuadrtica que dene:
F(x
1
, . . . , x
n
) = x
t
Qx =
P
n
i=1
c
2
ii
x
2
i
+
P
{i,j{1,...,n}:i<j}
2c
ij
x
i
x
j
92 3. DISTRIBUCIN NORMAL MULTIVARIADA
en donde x =

x
1
x
2
.
.
.
x
n

De acuerdo con la proposicin 3.33, F puede expresarse de la siguiente manera:


F(x
1
, . . . , x
n
) = (a
11
x
1
+a
12
x
2
+ +a
1n
x
n
)
2
+ (a
22
x
2
+ +a
2n
x
n
)
2
+ +

a
(n1)(n1)
x
n1
+a
(n1)n
x
n

2
+ (a
nn
x
n
)
2
en donde a
jj
> 0 para cualquier j {1, . . . , n}.
Sea B =

a
11
a
12
a
1(n1)
a
1n
0 a
22
a
2(n1)
a
2n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 a
(n1)(n1)
a
(n1)n
0 0 0 a
nn

entonces:
F(x
1
, . . . , x
n
) = (Bx) (Bx) = x
t
(B
t
B) x
Por lo tanto B
t
B = Q, la cual es una matriz simtrica y denida positiva, as que B es
invertible.
Combinando este ltimo resultado con los anteriores, se tiene la siguiente proposicin:
Proposicin 3.43. Una matriz simtrica Q es denida positiva si y slo si existe una matriz
A invertible tal que Q = A
t
A.
Corolario 3.44. Una matriz simtrica Q es denida positiva si y slo si existe una matriz
A invertible tal que Q = AA
t
.
Corolario 3.45. Sea Q una matriz simtrica y denida positiva. Entonces Q es invertible
y su inversa es simtrica y denida positiva
Demostracin
Por la proposicin 3.43, existe una matriz invertible A tal que Q = A
t
A, as que Qes invertible.
Adems, Q
1
= A
1
(A
t
)
1
= A
1
(A
1
)
t
, as que, por la proposicin 3.36, Q
1
es simtrica y
denida positiva.
Recordemos que la forma cuadrtica F que dene una matriz simtrica Q est dada por
F(x) = x
t
Qx. As que si Q = A
t
A, entonces:
F(x) = x
t
A
t
Ax = (Ax) (Ax) = kAxk
2
Es decir, se tienen los siguientes resultados:
Proposicin 3.46. Una forma cuadrtica F : R
n
7R es denida positiva si y slo si existe
una matriz invertible A de n n tal que F(x) = kAxk
2
para todo x R
n
.
Proposicin 3.47. Sea A una matriz de n n, entonces la forma cuadrtica F : R
n
7 R
denida por F(x) = kAxk
2
es denida positiva si y slo si A es invertible.
3.2. UN POCO DE CLCULO MATRICIAL 93
Proposicin 3.48. Una matriz Q, de nn, es simtrica y denida positiva si y slo si existen
n nmeros reales positivos
1
,
2
, . . . ,
n
y una matriz ortogonal P tal que P
t
QP = D

1
,
2
,...,n
.
Demostracin
Supongamos primero que existen n nmeros reales positivos
1
, . . . ,
n
y una matriz ortogonal
P tal que P
t
QP = D

1
,
2
,...,
n
. Entonces Q = PD

1
,...,
n
P
t
, por lo tanto Q
t
= PD

1
,...,
n
P
t
=
Q, as que Q es simtrica. Adems, D

1
,...,n
es denida positiva, as que, si x 6= 0:
x
t
Qx = x
t
PD

1
,...,
n
P
t
x = (P
t
x)
t
D

1
,...,
n
(P
t
x) > 0
Por lo tanto, Q es denida positiva.
Supongamos ahora que Q es simtrica y denida positiva.
Por la proposicin 3.24, existen n nmeros reales
1
, . . . ,
n
y una matriz ortogonal P tal que
P
t
QP = D

1
,...,
n
.
Para cada k {1, . . . , n}, sea x
k
el vector que forma la k-sima columna de P y w
k
el vector de
R
n
cuya k-sima coordenada es 1 y todas las dems son cero. Entonces, como P es invertible,
Pw
k
6= 0 y como Q es denida positiva, (Pw
k
)
t
Q(Pw
k
) > 0. Por lo tanto:

k
= w
t
k

k
w
k
= w
t
k
D

1
,...,n
w
k
= w
t
k
P
t
QPw
k
= (Pw
k
)
t
Q(Pw
k
) > 0
Corolario 3.49. Una matriz simtrica Q es denida positiva si y slo si sus valores propios
son positivos.
Ejemplo 3.50. Sea Q =

11 9 0 0
9 11 0 0
0 0 9 2
0 0 2 6

El determinante |QzI
n
| est dado por:
p(z) = z
4
37z
3
+ 420z
2
1700z + 2000
Las races de este polinomio son
1
= 2,
2
= 5,
3
= 10,y
4
= 20, as que Q es denida
positiva.
Sea una de las races de p. Para obtener un vector propio asociado a , se tiene que resolver
el sistema de ecuaciones Qx = x cuya matriz est dada por:

11 9 0 0
9 11 0 0
0 0 9 2
0 0 2 6

la cual se puede llevar a su forma escalonada reducida de la siguiente manera:

9 11 0 0
11 9 0 0
0 0 9 2
0 0 2 6

9 11 0 0
0
(2)(20)
9
0 0
0 0 9 2
0 0 2 6

94 3. DISTRIBUCIN NORMAL MULTIVARIADA

9 11 0 0
0 ( 2) ( 20) 0 0
0 0 2 6
0 0 9 2

1
+11
9
0 0
0 ( 2) ( 20) 0 0
0 0 1
6
2
0 0 0 ( 5) ( 10)

As que, para = 2 o = 20, se obtiene la matriz:

1
+11
9
0 0
0 0 0 0
0 0 1 0
0 0 0 1

1
+11
9
0 0
0 0 1 0
0 0 0 1
0 0 0 0

Por lo tanto, en este caso, una solucin est dada por el vector:
v =

11
9
1
0
0

Es decir, dos vectores propios correspondientes a = 2 y = 20 estn dados, respectivamente,


por:

1
1
0
0

1
1
0
0

para = 5 o = 10, se obtiene la matriz:

1 0 0 0
0 1 0 0
0 0 1
6
2
0 0 0 0

Por lo tanto, en este caso, una solucin est dada por el vector:
w =

0
0

6
2
1

Es decir, dos vectores propios correspondientes a = 5 y = 10 estn dados, respectivamente,


por:

0
0
1
2
1

0
0
2
1

As que una matriz ortogonal P tal que P


t
QP = D

1
,
2
,
3
,
4
est dada por:
3.2. UN POCO DE CLCULO MATRICIAL 95
P =

1
2

2 0 0
1
2

2
1
2

2 0 0
1
2

2
0
1
5

5
2
5

5 0
0
2
5

5
1
5

5 0

Las matrices simtricas y denidas positivas tienen propiedades similares a las de los nmeros
reales positivos. Un ejemplo de ello es la siguiente proposicin, la cual establece una de sus
principales propiedades.
Proposicin 3.51. Sea Q una matriz simtrica y denida positiva, entonces existe una matriz
B, invertible, simtrica y denida positiva tal que Q = B
2
.
Demostracin
Por la proposicin 3.48, si Q es de n n, existen n nmeros reales positivos
1
, . . . ,
n
y una
matriz ortogonal P tal que P
t
QP = D

1
,...,
n
.
Sea D la matriz diagonal formada por las races positivas de
1
, . . . ,
n
, es decir, D =
D

1
,...,

n
, y denamos B = PDP
t
. Entonces:
B
2
= PDP
t
PDP
t
= PD
2
P
t
= PD

1
,...,
n
P
t
= Q
El determinar si una matriz Q es denida positiva utilizando sus valores propios requiere
el encontrar tales valores propios, lo cual se realiza, en general, encontrando las races del
polinomio caracterstico de Q, es decir, p(z) = |QzI
n
|. Un mtodo, en general ms simple,
para determinar si Q es denida positiva es el de Lagrange, que, como mencionamos antes,
consiste en ir completando cuadrados para expresar la forma cuadrtica que dene Q como
suma de cuadrados.
Ejemplo 3.52. Sea Q =

1
1
3
1
3
1
3
1
3
10
9
4
9
4
9
1
3
4
9
11
9
5
9
1
3
4
9
5
9
4
3

La forma cuadrtica asociada a Q est dada por:


F(x
1
, x
2
, x
3
, x
4
) =

x
1
x
2
x
3
x
4

1
1
3
1
3
1
3
1
3
10
9
4
9
4
9
1
3
4
9
11
9
5
9
1
3
4
9
5
9
4
3

x
1
x
2
x
3
x
4

= x
2
1
+
2
3
x
1
x
2
+
2
3
x
1
x
3
+
2
3
x
1
x
4
+
10
9
x
2
2
+
8
9
x
2
x
3
+
8
9
x
2
x
4
+
11
9
x
2
3
+
10
9
x
3
x
4
+
4
3
x
2
4
=

x
1
+
1
3
x
2
+
1
3
x
3
+
1
3
x
4

2
+

x
2
+
1
3
x
3
+
1
3
x
4

2
+

x
3
+
1
3
x
4

2
+x
2
4
As que Q es denida positiva.
El determinante |QzI
4
| est dado por:
p(z) = z
4

14
3
z
3
+
575
81
z
2

3247
729
z + 1.
Las races
1
,
2
,
3
y
4
de p pueden estimarse mediante algn mtodo numrico, obtenin-
dose:

1
0.69894458127259582741

2
0.71972257623022239805
96 3. DISTRIBUCIN NORMAL MULTIVARIADA

3
0.81809269002976566574

4
2.4299068191340827755
Sea una de esas races. Para obtener un vector propio asociado a , se tiene que resolver el
sistema de ecuaciones Qx = x cuya matriz est dada por:

1
1
3
1
3
1
3
1
3
10
9

4
9
4
9
1
3
4
9
11
9

5
9
1
3
4
9
5
9
4
3

la cual, al reducirla, siguiendo el mtodo de Gauss-Jordan, puede llevarse a la forma siguiente:

1
3
10
9

4
9
4
9
0
2
3
+
7
9

1
9
0 0
2
3
+
7
9

0 0 0
1
27
729
4
3402
3
+5175
2
3247+729
(23)
2

1
3
10
9

4
9
4
9
0
2
3
+
7
9

1
9
0 0
2
3
+
7
9

0 0 0 0

1 0 0
1
27
729
3
2673
2
+2745862
(32)
2
0 1 0
1
9
81
2
135+55
(32)
2
0 0 1
1
3
97
32
0 0 0 0

Por lo tanto, una solucin est dada por el vector:


w =

1
27
729
3
2673
2
+2745862
(32)
2
1
9
81
2
135+55
(32)
2
1
3
97
32
1

As que, una matriz ortogonal P tal que P


t
QP = D

1
,
2
,
3
,
4
est dada por:
P

.3113471995 .5625057937 .6688159463 .3732765507


.6566290227 .4280070195 .401000884 .474179933
.6357260432 .5221760344 .161054579 .5452027235
.2602953051 .4772100297 .604933834 .5818693995

Por lo tanto, una matriz B, invertible, simtrica y denida positiva tal que Q = B
2
est dada
por:
B = P

DP
t

.9712632179 .1433231007 .1360982808 .1326028212


.1433231008 1.011812765 .1851937348 .1802992213
.1360982808 .1851937348 1.056013705 .2328901348
.1326028211 .1802992212 .2328901349 1.108604619

3.3. DISTRIBUCIN NORMAL MULTIVARIADA 97


3.3. Distribucin normal multivariada
Si la pareja de variables aleatorias X, Y tiene distribucin normal bivariada, existen dos
variables aleatorias independientes, U, V , con distribucin normal estndar, tales que X =
aU + bV +
1
y Y = cU + dV +
2
, en donde a, b, c, d,
1
y
2
son constantes tales que
ad bc 6= 0. Esta propiedad puede expresarse diciendo que existe una matriz invertible
A =

a b
c d

y un vector =


1

tales que:

X
Y

= A

U
V

+
Esta forma de expresar la propiedad que caracteriza a una distribucin normal bivariada
permite extender la denicin al caso de tres o ms variables aleatorias.
Definicin 3.53 (Distribucin normal multivariada). Se dice que la familia de variables
aleatorias X
1
, . . . , X
n
tiene distribucin normal multivariada si existen n variables aleatorias
independientes U
1
, . . . , U
n
, todas con distribucin normal estndar, una matriz de n n in-
vertible A y un vector n-dimensional tales que X = AU + , en donde X =

X
1
X
2
.
.
.
X
n

y
U =

U
1
U
2
.
.
.
U
n

.
Proposicin 3.54. Supongamos que la familia de variables aleatorias X
1
, . . . , X
n
tiene dis-
tribucin normal multivariada y sean A, U y tales que X = AU + , de acuerdo con la
denicin 3.53, entonces y C = AA
t
son el vector de esperanzas y la matriz de covarianzas,
respectivamente, de X
1
, . . . , X
n
.
Demostracin
Sean A = (a
ij
) y C = (c
ij
), entonces X
i
=
P
n
k=1
a
ik
U
k
+
i
, as que E[X
i
] =
i
y
E

(X
i

i
)(X
j

j
)

= E [(
P
n
k=1
a
ik
U
k
)(
P
n
k=1
a
jk
U
k
)] =
P
n
k=1
a
ik
a
jk
= c
ij
.
Proposicin 3.55. Supongamos que la familia de variables aleatorias X
1
, . . . , X
n
tiene dis-
tribucin normal multivariada y sean A, U y tales que X = AU + , de acuerdo con la
denicin 3.53, entonces la funcin de densidad conjunta de X
1
, . . . , X
n
est dada por:
f
X
1
,X
2
,...,X
n
(x) =

|C
1
|
(

2
)
n exp

1
2
C
1
(x ) (x )

en donde C = AA
t
.
Demostracin
Para encontrar la funcin de densidad conjunta de X
1
, . . . , X
n
, consideremos la transformacin
x = Au+, la cual tiene como inversa a u = A
1
(x), cuyo jacobiano est dado por |A
1
|,
de manera que:
98 3. DISTRIBUCIN NORMAL MULTIVARIADA
f
X
1
,...,X
n
(x) = |A
1
| f
U
1
,...,U
n
(A
1
(x ))
=

|A
1
|
(

2
)
n exp

1
2
A
1
(x ) A
1
(x )

=

|A
1
|
(

2
)
n exp
n

1
2
[A
1
(x )]
t
A
1
(x )
o
=

|A
1
|
(

2)
n exp

1
2
(x )
t
(A
1
)
t
A
1
(x )

=

|A
1
|
(

2
)
n exp

1
2
(x )
t
(A
t
)
1
A
1
(x )

=

|A
1
|
(

2)
n exp

1
2
(x )
t
(AA
t
)
1
(x )

=

|C
1
|
(

2)
n exp

1
2
C
1
(x ) (x )

De acuerdo con las proposiciones 3.55 y 3.36, si la familia de variables aleatorias X


1
, . . . , X
n
tiene distribucin normal multivariada entonces su funcin de densidad conjunta f
X
1
,...,X
n
est
dada por:
f
X
1
,...,X
n
(x) =

|C
1
|
(

2)
n exp

1
2
C
1
(x ) (x )

en donde C es una matriz simtrica y denida positiva. La siguiente proposicin muestra que
el inverso de este resultado es tambin vlido.
Proposicin 3.56. Sea X un vector aleatorio con funcin de densidad conjunta f
X
dada por:
f
X
(x) = K exp

1
2
C
1
(x ) (x )

,
en donde C es una matriz simtrica y denida positiva y K y son constantes, entonces X
tiene distribucin normal multivariada.
Demostracin
Sea B una matriz invertible, simtrica y denida positiva tal que C = B
2
y consideremos la
transformacin x = +Bu, entonces:
(C
1
(Bu)) (Bu) = ((B
2
)
1
(Bu)) (Bu) = ((B
1
)
2
(Bu)) (Bu)
= (B
1
u) (Bu) = (Bu)
t
(B
1
u) = u
t
BB
1
u = u u
As que, deniendo U = B
1
(X ), se tiene:
f
U
(u) = |B| f
X
( +Bu) = |B| K exp

1
2
(C
1
(Bu)) (Bu)

= |B
1
| K exp

1
2
u u

Por lo tanto, el vector aleatorio U est formado por variables aleatorias independientes, todas
con distribucin normal estndar. Adems, X = BU + y la matriz B es invertible, as que
X tiene distribucin normal multivariada.
Sea f : R
n
7R una funcin de densidad de la forma:
f(x
1
, . . . , x
n
) = C exp
n

1
2

P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j
+
P
n
i=1
a
i
x
i
o
en donde a
1
, . . . , a
n
y C son constantes y la forma cuadrtica F(x
1
, . . . , x
n
) =
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j
es denida positiva.
La matriz asociada a la forma cuadrtica F est dada por:
3.3. DISTRIBUCIN NORMAL MULTIVARIADA 99
Q =

a
11
1
2
a
12

1
2
a
1n
1
2
a
12
a
22

1
2
a
2n
.
.
.
.
.
.
.
.
.
.
.
.
1
2
a
1n
1
2
a
2n
a
nn

Para i, j {1, . . . , n}, con i > j, denamos a


ij
= a
ji
. Entonces, para
1
, . . . ,
n
nmeros
reales cualesquiera, se tiene:
F(x
1

1
, . . . , x
n

n
) =
P
{i,j{1,...,n}:ij}
a
ij
(x
i

i
)(x
j

j
)
=
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j

P
{i,j{1,...,n}:ij}
a
ij

i
x
j

P
{i,j{1,...,n}:ij}
a
ij

j
x
i
+
P
{i,j{1,...,n}:ij}
a
ij

j
=
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j

P
n
j=1
P
j
i=1
a
ij

i
x
j

P
n
i=1
P
n
j=1
a
ij

j
x
i
+
P
{i,j{1,...,n}:ij}
a
ij

j
=
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j

P
n
i=1
P
i
j=1
a
ji

j
x
i

P
n
i=1
P
n
j=1
a
ij

j
x
i
+
P
{i,j{1,...,n}:ij}
a
ij

j
=
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j

P
n
i=1

P
i
j=1
a
ji

j
+
P
n
j=i
a
ij

x
i
+
P
{i,j{1,...,n}:ij}
a
ij

j
=
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j

P
n
i=1

P
i
j=1
a
ij

j
+
P
n
j=i
a
ij

x
i
+
P
{i,j{1,...,n}:ij}
a
ij

j
=
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j

P
n
i=1

a
ii

i
+
P
n
j=1
a
ij

x
i
+
P
{i,j{1,...,n}:ij}
a
ij

j
Consideremos entonces el sistema de ecuaciones en
1
, . . . ,
n
:
a
ii

i
+
P
n
j=1
a
ij

j
= a
i
El determinante de este sistema est dado por:

2a
11
a
12
a
1n
a
12
2a
22
a
2n
.
.
.
.
.
.
.
.
.
.
.
.
a
1n
a
2n
2a
nn

= 2
n

a
11
1
2
a
12

1
2
a
1n
1
2
a
12
a
22

1
2
a
2n
.
.
.
.
.
.
.
.
.
.
.
.
1
2
a
1n
1
2
a
2n
a
nn

= 2
n
|Q| 6= 0
As que el sistema tiene una solucin nica.
Por lo tanto, f puede escribirse en la forma siguiente:
f(x
1
, . . . , x
n
) = K exp
n

1
2
P
{i,j{1,...,n}:ij}
a
ij
(x
i

i
)(x
j

j
)
o
en donde K es una constante.
As que f es funcin de densidad de una distribucin normal multivariada.
Se tiene entonces el siguiente resultado:
Proposicin 3.57. Sea f : R
2
7R una funcin de densidad de la forma:
f(x
1
, . . . , x
n
) = C exp
n

1
2

P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j
+
P
n
i=1
a
i
x
i
o
en donde a
1
, . . . , a
n
y C son constantes y la forma cuadrtica:
F(x
1
, . . . , x
n
) =
P
{i,j{1,...,n}:ij}
a
ij
x
i
x
j
es denida positiva. Entonces f es funcin de densidad de una distribucin normal multiva-
riada.
Ejemplo 3.58. Sea (X
1
, X
2
, X
3
, X
4
) un vector aleatorio con funcin de densidad conjunta f
dada por
100 3. DISTRIBUCIN NORMAL MULTIVARIADA
f(x
1
, x
2
, x
3
, x
4
) = C exp

1
2
(x
2
1
+x
2
2
+x
2
3
+x
2
4
x
1
x
2
x
2
x
3
x
3
x
4
+ 2x
1
3x
2
x
3
+x
4
)

en donde C es una constante.


Completando cuadrados, se tiene:
x
2
1
+x
2
2
+x
2
3
+x
2
4
x
1
x
2
x
2
x
3
x
3
x
4
=

x
1

1
2
x
2

2
+
3
4

x
2

2
3
x
3

2
+
2
3

x
3

3
4
x
4

2
+
5
8
x
2
4
As que la forma cuadrtica:
F(x
1
, x
2
, x
3
, x
4
) = x
2
1
+x
2
2
+x
2
3
+x
2
4
x
1
x
2
x
2
x
3
x
3
x
4
es denida positiva.
Sean
1
,
2
,
3
,
4
las esperanzas de X
1
, X
2
, X
3
, X
4
, respectivamente, entonces,
F(x
1

1
, x
2

2
, x
3

3
, x
4

4
)
= (x
1

1
)
2
+ (x
2

2
)
2
+ (x
3

3
)
2
+ (x
4

4
)
2
(x
1

1
)(x
2

2
) (x
2

2
)(x
3

3
) (x
3

3
)(x
4

4
)
= x
2
1
+x
2
2
+x
2
3
+x
2
4
x
1
x
2
x
2
x
3
x
3
x
4
+(2
1
+
2
) x
1
+ (
1
2
2
+
3
) x
2
+ (
2
2
3
+
4
) x
3
+ (
3
2
4
) x
4
+
2
1
+
2
2
+
2
3
+
2
4

4
As que:
2
1
+
2
= 2

1
2
2
+
3
= 3

2
2
3
+
4
= 1

3
2
4
= 1
Por lo tanto:

1
=
2
5
,
2
=
14
5
,
3
=
11
5
,
4
=
3
5
As que:
f(x
1
, x
2
, x
3
, x
4
)
= K exp

1
2
F(x
1

2
5
, x
2

14
5
, x
3

11
5
, x
4

3
5
)

= K exp

1
2

(x
1

2
5
)
2
+ (x
2

14
5
)
2
+ (x
3

11
5
)
2
+ (x
4

3
5
)
2
(x
1

2
5
)(x
2

14
5
) (x
2

14
5
)(x
3

11
5
) (x
3

11
5
)(x
4

3
5
)

en donde K es una constante.


La matriz Q asociada a la forma cuadrtica F est dada por:
Q =

1
1
2
0 0

1
2
1
1
2
0
0
1
2
1
1
2
0 0
1
2
1

=
1
2

2 1 0 0
1 2 1 0
0 1 2 1
0 0 1 2

As que la matriz de covarianzas de X


1
, X
2
, X
3
, X
4
est dada por:
C = Q
1
=

8
5
6
5
4
5
2
5
6
5
12
5
8
5
4
5
4
5
8
5
12
5
6
5
2
5
4
5
6
5
8
5

=
2
5

4 3 2 1
3 6 4 2
2 4 6 3
1 2 3 4

3.3. DISTRIBUCIN NORMAL MULTIVARIADA 101


Adems:
K =

|C
1
|
(

2)
4
=
1

5
Por lo tanto, si es el vector con coordenadas
2
5
,
14
5
,
11
5
,
3
5
, se tiene:
f(x) =
1

5
exp

1
2
(x )
t
C
1
(x )

=
1

5
exp

1
2

(x
1

2
5
)
2
+ (x
2

14
5
)
2
+ (x
3

11
5
)
2
+ (x
4

3
5
)
2
(x
1

2
5
)(x
2

14
5
) (x
2

14
5
)(x
3

11
5
) (x
3

11
5
)(x
4

3
5
)

Para vericar los clculos anteriores, evaluemos el producto (x )


t
C
1
(x ):
(x )
t
C
1
(x )
=

x
1

2
5
x
2

14
5
x
3

11
5
x
4

3
5

1
1
2
0 0

1
2
1
1
2
0
0
1
2
1
1
2
0 0
1
2
1

x
1

2
5
x
2

14
5
x
3

11
5
x
4

3
5

= x
2
1
+x
2
2
+x
2
3
+x
2
4
x
1
x
2
x
2
x
3
x
3
x
4
+ 2x
1
3x
2
x
3
+x
4
+
23
5
Proposicin 3.59. Sea X un vector aleatorio n-dimensional con distribucin normal multi-
variada con vector de esperanzas y matriz de covarianzas C. Sea un vector n-dimensional
y A una matriz de n n invertible. Entonces Y = AX + tiene distribucin normal multi-
variada con vector de esperanzas A + y matriz de covarianzas ACA
t
.
Demostracin
Sabemos que X = BZ+, en donde B es una matriz invertible tal que C = BB
t
y Z es un vec-
tor aleatorio n-dimensional formado por variables aleatorias independientes con distribucin
normal estndar. Por lo tanto:
Y = A(BZ +) + = (AB)Z + (A +)
De manera que Y tiene una distribucin normal multivariada con matriz de covarianzas C
Y
=
(AB)(AB)
t
= ABB
t
A
t
= ACA
t
y vector de esperanzas
Y
= A +.
Una propiedad importante de una distribucin normal multivariada consiste en que basta con
que sea nula la covarianza entre cada pareja de variables aleatorias de la familia para asegurar
que son independientes. Esto se prueba a continuacin.
Proposicin 3.60. Sea X = (X
1
, . . . , X
n
) un vector aleatorio con distribucin normal multi-
variada con vector de esperanzas y tal que su matriz de covarianzas C es diagonal. Entonces
las variables aleatorias X
1
, . . . , X
n
son independientes.
Demostracin
La funcin de densidad conjunta de X
1
, . . . , X
n
est dada por:
f
X
1
,...,X
n
( x) =

|C
1
|
(

2
)
n exp

1
2
C
1
( x ) ( x )

en donde es el vector de esperanzas de X


1
, X
2
, . . . , X
n
.
Como C es diagonal, tiene la forma:
102 3. DISTRIBUCIN NORMAL MULTIVARIADA
C =

2
1
0 0
0
2
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
2
n

en donde
2
1
, . . . ,
2
n
son las varianzas de X
1
, . . . , X
n
, respectivamente. Por lo tanto:
f
X
1
,...,X
n
(x
1
, . . . , x
n
) =
1
(

2
)
n

n
exp
n

1
2
2
1
(x
1

1
)
2

1
2
2
n
(x
n

n
)
2
o
=
1

2
exp
n

1
2
2
1
(x
1

1
)
2
o

1

2
exp
n

1
2
2
n
(x
n

n
)
2
o
= f
X
1
(x
1
) f
X
n
(x
n
)
As que las variables aleatorias X
1
, . . . , X
n
son independientes.
Corolario 3.61. Sean U
1
, . . . , U
n
n variables aleatorias independientes, todas con distribu-
cin normal estndar, P una matriz de n n ortogonal y V
1
, . . . , V
n
las variables aleatorias
denidas mediante la relacin:

V
1
V
2
.
.
.
V
n

= P

U
1
U
2
.
.
.
U
n

Entonces V
1
, . . . , V
n
son independientes y todas tienen distribucin normal estndar.
Demostracin
La matriz de covarianzas de la familia V
1
, . . . , V
n
est dada por C = AA
t
, as que, como A es
ortogonal, C es la identidad. El resultado se sigue entonces de la proposicin 3.60.
De acuerdo con la denicin 3.53, si el vector aleatorio n-dimensional X tiene distribucin
normal multivariada, existe un vector aleatorio n-dimensional U formado por variables aleato-
rias independientes, todas con distribucin normal estndar, una matriz de n n invertible
A y un vector n-dimensional tales que X = AU +. La pareja U, A en esta representacin,
no es nica. En efecto, si P es una matriz ortogonal, entonces, de acuerdo con la proposicin
3.61, el vector aleatorio U
0
= PU tambin est formado por variables aleatorias indepen-
dientes con distribucin normal estndar y, deniendo A
0
= AP
t
, A
0
es invertible y se tiene:
A
0
U
0
= AP
t
PU = AU.
Dado un vector aleatorio X con distribucin normal multivariada, con matriz de covarianzas
C y vector de esperanzas , para expresar X en la forma X = AU + , en donde A es una
matriz invertible y U un vector aleatorio formado por variables aleatorias independientes,
todas con distribucin normal estndar, se requiere encontrar una matriz invertible A tal que
C = AA
t
y entonces se tiene X = AU + , en donde U es un vector aleatorio formado por
variables aleatorias independientes,todas con distribucin normal estndar. En efecto, Si A es
una matriz de nn invertible tal que C = AA
t
, entonces U = A
1
(X ) tiene distribucin
normal multivariada con matriz de covarianzas:
C
U
= A
1
C (A
1
)
t
= A
1
C (A
t
)
1
= A
1
AA
t
(A
t
)
1
= I
n
y vector de esperanzas
U
= A
1
A
1
= 0
3.3. DISTRIBUCIN NORMAL MULTIVARIADA 103
As que U es un vector aleatorio formado por variables aleatorias independientes, todas con
distribucin normal estndar y X = AU +.
Ahora bien, para encontrar una matriz invertible A tal que C = AA
t
se pueden seguir di-
ferentes procedimientos. Uno de ellos consiste en encontrar una matriz ortogonal P tal que
P
t
CP = D, en donde D es una matriz diagonal cuyos elementos sobre la diagonal son posi-
tivos. De acuerdo con la proposicin 3.48, tales matrices existen. Entonces tanto A = P

D
como A
0
= P

DP
t
satisfacen la propiedad requerida. En efecto, se tiene:
AA
t
=

P

t
= P

DP
t
= PDP
t
= C
A
0
(A
0
)
t
=

P

DP
t

DP
t

t
= P

DP
t
P

DP
t
= P

DP
t
= PDP
t
= C
Este mtodo para expresar X en la forma X = AU + puede resultar muy laborioso pues
para encontrar P se requiere encontrar los valores y vectores propios de C, lo cual no siempre
resulta un proceso simple.
El mtodo ms simple para encontrar una matriz invertible A tal que C = AA
t
consiste en
aplicar a la forma cuadrtica denida por C
1
el mtodo de Lagrange, de completacin de
cuadrados, el cual, de acuerdo con la proposicin 3.42, nos permite encontrar una matriz
triangular superior invertible B tal que B
t
B = C
1
. Deniendo entonces A = B
1
, se tiene:
AA
t
= (B
1
) (B
1
)
t
= (B
t
B)
1
= C
Ejemplo 3.62. Sea X un vector aleatorio con distribucin normal multivariada, con vector
de esperanzas 0 y matriz de covarianzas C, en donde:
C =

1
1
3
0
1
3
1
2
9
0
2
9
1

Se tiene:
C
1
=

77
68

27
68
3
34

27
68
81
68

9
34
3
34

9
34
18
17

La forma cuadrtica denida por C


1
est dada por:
F(x
1
, x
2
, x
3
) =

x
1
x
2
x
3

77
68

27
68
3
34

27
68
81
68

9
34
3
34

9
34
18
17

x
1
x
2
x
3

=
77
68
x
2
1

27
34
x
1
x
2
+
3
17
x
1
x
3
+
81
68
x
2
2

9
17
x
2
x
3
+
18
17
x
2
3
=
77
68

x
1

27
77
x
2
+
6
77
x
3

77
68

27
77
x
2
+
6
77
x
3

2
+
81
68
x
2
2

9
17
x
2
x
3
+
18
17
x
2
3
=
77
68

x
1

27
77
x
2
+
6
77
x
3

2
+
81
77

x
2

2
9
x
3

2
+x
2
3
As que si denimos:
A =

77
2

17

27
2

1309
3

1309
0
9

77

2

77
0 0 1

1
=

17

77
3

77
0
0

77
9
2
9
0 0 1

entonces U = A
1
X es un vector aleatorio formado por variables aleatorias independientes,
todas con distribucin normal estndar y X = AU.
104 3. DISTRIBUCIN NORMAL MULTIVARIADA
Como mencionamos antes, otro mtodo para encontrar una matriz invertible A tal que X =
AU, en donde U es un vector aleatorio formado por variables aleatorias independientes, to-
das con distribucin normal estndar, consiste en encontrar una matriz ortogonal P tal que
P
t
CP = D

1
,
2
,
3
, en donde
1
,
2
,
3
son nmeros reales. Esto se puede lograr encontrando
los valores y vectores propios de C, como se hace a continuacin:
El determinante |C zI
3
| est dado por p(z) = z
3
3z
2
+
230
81
z
68
81
. Las races de este
polinomio son
1
= 1,
2
= 1 +
1
9

13, y
3
= 1
1
9

13.
Sea una de las races de p. Para obtener un vector propio asociado a , se tiene que resolver
el sistema de ecuaciones Cx = x cuya matriz est dada por:

1
1
3
0
1
3
1
2
9
0
2
9
1

la cual se puede llevar a su forma escalonada reducida de la siguiente manera:

1
3
1
2
9
1
1
3
0
0
2
9
1

1
3
1
2
9
0
1
3
(3 2) (3 4)
2
3
(1 )
0
2
9
1

1
3
1
2
9
0
2
9
1
0 (3 2) (3 4) 2 (1 )

1
3
1
2
9
0
2
9
1
0 0
81
2
( 1)

1
1
9

13

1 +
1
9

13

1
3
0
1
18
(9 7) (9 11)
0
2
9
1
0 0 0

1 0
1
6
(9 7) (9 11)
0 1
9
2
(1 )
0 0 0

Por lo tanto, una solucin est dada por el vector:


w =

(9 7) (9 11)
27 (1 )
6

As que 3 vectores propios, correspondientes a los valores propios 1, 1 +


1
9

13 y 1
1
9

13,
estn dados, respectivamente, por:

4
0
6

= 2

13


2
13

13
0
3
13

13

3.3. DISTRIBUCIN NORMAL MULTIVARIADA 105

9
3

13
6

= 3

26

3
26

26
1
2

2
1
13

26

9
3

13
6

= 3

26

3
26

26

1
2

2
1
13

26

Entonces, una matriz ortogonal P tal que P


t
CP = D

1
,
2
,
3
est dada por:
P =


2
13

13
3
26

26
3
26

26
0
1
2

2
1
2

2
3
13

13
1
13

26
1
13

26

Se tiene:
P
t
CP =

1 0 0
0 1 +
1
9

13 0
0 0 1
1
9

13

= D
As que si denimos:
A
0
= P

D =

2
13

13
1
26
p
234 + 26

13
1
26
p
234 26

13
0
1
6
p
18 + 2

13
1
6
p
18 2

13

3
13

13
1
39
p
234 + 26

13
1
39
p
234 26

13

A
00
= P

DP
t
=

4
13
+
3
26
p
18 + 4

17
1
26
p
234 52

17
6
13
+
1
13
p
18 + 4

17
1
26
p
234 52

17
1
6
p
18 + 4

17
1
39
p
234 52

17

6
13
+
1
13
p
18 + 4

17
1
39
p
234 52

17
9
13
+
2
39
p
18 + 4

17

entonces:
(A
0
)(A
0
)
t
= C
(A
00
)(A
00
)
t
= C
as que, tanto U
0
= (A
0
)
1
X como U
00
= (A
00
)
1
X son vectores aleatorios formados por
variables aleatorias independientes, todas con distribucin normal estndar, y X = A
0
U
0
=
A
00
U
00
.
Ejemplo 3.63. Sea X un vector aleatorio con distribucin normal multivariada, con vector
de esperanzas 0 y matriz de covarianzas C, en donde:
C =

73
8
5
12

13
12

10
3

29
12
5
12
33
32
11
8

3
4

3
8

13
12
11
8
3 1 0

10
3

3
4
1 2 1

29
12

3
8
0 1 1

Se tiene:
106 3. DISTRIBUCIN NORMAL MULTIVARIADA
C
1
=

3 2 4 6
1
2
2
16
3

14
3

9
2
5
3
4
14
3
41
6
35
4

5
6
6
9
2
35
4
217
16

3
4
1
2
5
3

5
6

3
4
43
12

La forma cuadrtica denida por C


1
est dada por:
F(x
1
, x
2
, x
3
, x
4
, x
5
) =

x
1
x
2
x
3
x
4
x
5

3 2 4 6
1
2
2
16
3

14
3

9
2
5
3
4
14
3
41
6
35
4

5
6
6
9
2
35
4
217
16

3
4
1
2
5
3

5
6

3
4
43
12

x
1
x
2
x
3
x
4
x
5

= 3x
2
1
+
16
3
x
2
2
+
41
6
x
2
3
+
217
16
x
2
4
+
43
12
x
2
5
4x
1
x
2
+ 8x
1
x
3
+ 12x
1
x
4
+x
1
x
5

28
3
x
2
x
3
9x
2
x
4
+
10
3
x
2
x
5
+
35
2
x
3
x
4

5
3
x
3
x
5

3
2
x
4
x
5
= 3

x
1

2
3
x
2
+
4
3
x
3
+ 2x
4
+
1
6
x
5

2
+ 4

x
2

1
2
x
3

1
8
x
4
+
1
2
x
5

2
+
1
2
(x
3
+x
4
x
5
)
2
+ (x
4
x
5
)
2
+x
2
5
As que si denimos:
A =

3
2
3

3
4
3

3 2

3
1
6

3
0 2 1
1
4
1
0 0
1
2

2
1
2

2
1
2

2
0 0 0 1 1
0 0 0 0 1

1
=

1
3

3
1
3

2
11
12

29
12
0
1
2
1
2

2
3
8

3
8
0 0

2 1 0
0 0 0 1 1
0 0 0 0 1

entonces U = A
1
X es un vector aleatorio formado por variables aleatorias independientes,
todas con distribucin normal estndar y X = AU.
Al igual que en el ejemplo anterior, otro mtodo para encontrar una matriz invertible A tal que
X = AU, en donde U es un vector aleatorio formado por variables aleatorias independientes,
todas con distribucin normal estndar, consiste en encontrar una matriz ortogonal P tal que
P
t
CP = D

1
,
2
,
3
, en donde
1
,
2
,
3
son nmeros reales. Esto se puede lograr encontrando
los valores y vectores propios de C, como se hace a continuacin:
El determinante |C zI
5
| est dado por:
p(z) = z
5

517
32
z
4
+
134681
2304
z
3

38921
1152
z
2
+
517
96
z
1
6
Las races
1
,
2
,
3
,
4
y
5
de p pueden estimarse mediante algn mtodo numrico, obtenin-
dose:

1
0.040545812153911241212

2
0.20068031071127636834

3
0.42674719477100637021
3.3. DISTRIBUCIN NORMAL MULTIVARIADA 107

4
4.2839044782934629629

5
11.204372204070343057
Sea una de las races de p. Para obtener un vector propio asociado a , se tiene que resolver
el sistema de ecuaciones Cx = x cuya matriz est dada por:

73
8

5
12

13
12

10
3

29
12
5
12
33
32

11
8

3
4

3
8

13
12
11
8
3 1 0

10
3

3
4
1 2 1

29
12

3
8
0 1 1

la cual se puede llevar a su forma escalonada reducida de la siguiente manera:

5
12
+
33
32
11
8

3
4

3
8
+
73
8
5
12

13
12

10
3

29
12

13
12
11
8
+ 3 1 0

10
3

3
4
1 + 2 1

29
12

3
8
0 1 + 1

5
12
+
33
32
11
8

3
4

3
8
0
12
5

2
+
195
8

21281
960
33
10

7487
240

9
5
+
1571
120

9
10
+
1391
240
0
13
5
+
649
160
+
263
40

59
20

39
40
0 8 +
15
2
10 4 2
0
928897
160
319
40

67
20

47
40

5
12
+
33
32
11
8

3
4

3
8
0
928897
160
319
40

67
20

47
40
0
13
5
+
649
160
+
263
40

59
20

39
40
0 8 +
15
2
10 4 2
0
12
5

2
+
195
8

21281
960
33
10

7487
240

9
5
+
1571
120

9
10
+
1391
240

5
12
+
33
32
11
8

3
4

3
8
0 1
1276
928897
536
928897
160+188
928897
0 0
928
2
3681+722
928897

1344472
928897
416
2
1065+112
928897
0 0
928600
928897

928
2
1473+432
928897
1280
2
1552+384
928897
0 0
1
3
2422+910
928897

1
3
1152
2
2096416
928897
1
6
2304
3
25704
2
+309016188
928897

5
12
+
33
32
11
8

3
4

3
8
0 1
1276
928897
536
928897
160+188
928897
0 0 1
1344472
928
2
3681+722

1121065+416
2
928
2
3681+722
0 0 0 1
1280
3
5808
2
+3256384
928
3
4257
2
+153832
0 0 0 0 0

108 3. DISTRIBUCIN NORMAL MULTIVARIADA

1 0 0 0
384
4
2700
3
+4836
2
2028+192
928
3
4257
2
+153832
0 1 0 0
160
3
224
2
+200128
928
3
4257
2
+153832
0 0 1 0
416
3
3177
2
+1824256
928
3
4257
2
+153832
0 0 0 1
1280
3
5808
2
+3256384
928
3
4257
2
+153832
0 0 0 0 0

Por lo tanto, una solucin est dada por el vector:


w =

384
4
+ 2700
3
4836
2
+ 2028 192
160
3
+ 224
2
200 + 128
416
3
3177
2
+ 1824 256
1280
3
5808
2
+ 3256 384
928
3
4257
2
+ 1538 32

As que 5 vectores propios, correspondientes a los valores propios


1
,
2
,
3
,
4
y
5
, estn
dados, respectivamente, por:

117.5443646
120.2484203
187.2395799
261.4456526
23.42296569

= 363.64472

.3232395746
.3306755569
.5148970124
.718959023
.06441167547

41.41980776
95.59189092
14.54304574
45.85675733
112.705932

= 160.84271

.2575174701
.5943190768
.09041781092
.285103113
.7007214191

10.15744383
71.00930534
23.85667824
47.25242812
78.79786041

= 118.9812211

.08537014275
.5968110319
.2005079291
.3971418992
.6622714045

2686.235631
9196.772348
18041.05824
7607.344885
1389.930322

= 21842.15805

.1229839847
.4210560297
.8259741642
.3482872374
.06363521035

2838576.268
199044.2106
206481.4671
1107387.692
788085.9066

= 3160246.085

.8982136807
.06298376938
.06533714829
.3504118547
.2493748542

As que, una matriz ortogonal P tal que P


t
CP = D

1
,
2
,
3
,
4
,
5
est dada por:
3.3. DISTRIBUCIN NORMAL MULTIVARIADA 109
P

.3232395746 .2575174701 .08537014275 .1229839847 .8982136807


.3306755569 .5943190768 .5968110319 .4210560297 .06298376938
.5148970124 .09041781092 .2005079291 .8259741642 .06533714829
.718959023 .285103113 .3971418992 .3482872374 .3504118547
.06441167547 .7007214191 .6622714045 .06363521035 .2493748542

Se tiene:
P
t
CP =

1
0 0 0 0
0
2
0 0 0
0 0
3
0 0
0 0 0
4
0
0 0 0 0
5

= D
As que si denimos:
A
0
= P

D =

.065087 .115361 .055769 .254547 3.006585


.066585 .26624 .389872 .871485 .210825
.10368 .040505 .130984 1.709568 .218703
.14477 .127719 .259437 .720871 1.172931
.01297 .313905 .432635 .13171 .834731

A
00
= P

DP
t
=

2.787368 .095942 .372426 .907350 .619991


.095942 .793151 .56952 .194534 .175384
.372426 .56952 1.509658 .507810 .002564
.907350 .194534 .507810 .905609 .246725
.619991 .175384 .002564 .246725 .723859

entonces:
(A
0
)(A
0
)
t
= C
(A
00
)(A
00
)
t
= C
As que, tanto U
0
= (A
0
)
1
X como U
00
= (A
00
)
1
X son vectores aleatorios formados por
variables aleatorias independientes, todas con distribucin normal estndar, y X = A
0
U
0
=
A
00
U
00
.
Queremos demostrar ahora que si X
1
, . . . , X
n
es una familia de variables aleatorias con dis-
tribucin normal multivariada y X
j
1
, . . . , X
j
k
es una subfamilia de esa coleccin, entonces
X
j
1
, , . . . , X
j
k
tambin tiene distribucin normal multivariada.
Para eso, obsrvese primero que si X
1
, . . . , X
n
tiene distribucin normal multivariada entonces,
de acuerdo con la denicin 3.53, existen n variables aleatorias independientes U
1
, . . . , U
n
,
todas con distribucin normal estndar, una matriz de n n invertible A y un vector n-
dimensional tales que X = AU +, en donde:
X =

X
1
X
2
.
.
.
X
n

, U =

U
1
U
2
.
.
.
U
n

Sea ahora {k
1
, . . . , k
n
} una permutacin de los primeros n nmeros naturales y denamos:
110 3. DISTRIBUCIN NORMAL MULTIVARIADA

X
0
=

X
k
1
X
k
2
.
.
.
X
k
n

,

U
0
=

U
k
1
U
k
2
.
.
.
U
k
n

A
0
la matriz formada permutando, de manera similar, los renglones de la matriz A, y
0
el
vector obtenido permutando las coordenadas del vector , entonces la matriz A
0
es inverti-
ble y X
0
= A
0
U
0
+
0
, as que la familia de variables aleatorias X
k
1
, . . . , X
kn
tambin tiene
distribucin normal multivariada.
Por lo tanto, para demostrar que cualquier subfamilia X
j
1
, . . . , X
j
k
tiene distribucin normal
multivariada, basta con probar que, para cualquier k {1, . . . , n}, la familia X
1
, . . . , X
k
tiene
distribucin normal multivariada, lo cual se hace a continuacin:
Proposicin 3.64. Sea X un vector aleatorio n-dimensional con distribucin normal mul-
tivariada y k {1, . . . , n}, entonces el vector k-dimensional formado por las primeras k
coordenadas de X tiene distribucin normal multivariada.
Demostracin
Si es el vector de esperanzas de X, entonces X tambin tiene distribucin normal
multivariada. Si el resultado es vlido para X entonces el vector k-dimensional formado
por las primeras k coordenadas de X tiene distribucin normal multivariada; por lo
tanto, el vector k-dimensional formado por las primeras k coordenadas de X tambin tiene
distribucin normal multivariada. As que basta con considerar el caso en que el vector de
esperanzas de X es cero.
Sabemos que existe un vector aleatorio n-dimensional U formado por variables aleatorias
independientes con distribucin normal estndar y una matriz de nn invertible A tales que
X = AU.
Consideremos la transformacin V = BX, en donde B es una matriz de la forma:
B =

I
k
0
k(nk)
F I
nk

en donde F es una matriz de (n k) k.


El determinante de B es 1, as que B es invertible.
Se tiene V = BX = (BA)U, as que V tiene distribucin normal multivariada con vector de
esperanzas 0 y matriz de covarianzas C
V
= (BA)(BA)
t
= BAA
t
B
t
= BC
X
B
t
, en donde C
X
es la matriz de covarianzas de X.
Expresemos C
X
en la forma siguiente:
C
X
=

C
k
D
D
t
E

en donde C
k
es una matriz de k k, D una matriz de k (n k) y E una matriz de
(n k) (n k).
Obviamente, C
k
es simtrica. Adems, si z R
k
es un vector distinto de cero y w R
n
es
un vector cuyas primeras coordenadas coinciden con las de z y el resto son nulas, entonces
z
t
C
k
z = w
t
C
X
w > 0 ya que C
X
es denida positiva, as que C
k
tambin es denida positiva
y, por lo tanto, invertible. Adems:
3.4. DISTRIBUCIONES MUESTRALES 111
C
V
= BC
X
B
t
=

I
k
0
k(nk)
F I
nk

C
k
D
D
t
E

I
k
F
t
0
(nk)k
I
nk

=

C
k
C
k
F
t
+D
FC
k
+D
t
FC
k
F
t
+D
t
F
t
+FD +E

Tomemos F tal que FC


k
+D
t
= 0
k(nk)
, es decir, F = D
t
C
1
k
, entonces:
C
V
=

C
k
0
(nk)k
0
k(nk)
E D
t
C
1
k
D

Como C
V
es simtrica y denida positiva, la matriz G = E D
t
C
1
k
D tambin es simtrica
y denida positiva.
Por otra parte, Si X
(k)
es el vector formado por las primeras k coordenadas de X y X
(nk)
el
vector formado por sus ltimas n k coordenadas, se tiene:
V = BX =

I
k
0
k(nk)
F I
nk

X
(k)
X
(nk)

=

X
(k)
FX
(k)
+X
(nk)

Es decir, las primeras coordenadas de V y de X coinciden.


Sea v un vector n dimensional, v
(k)
es el vector formado por las primeras k coordenadas de v
y v
(nk)
el vector formado por sus ltimas n k coordenadas. Entonces:
f
V
(v) =
_
|
C
1
V
|
(

2
)
n exp

1
2
v
t
C
1
V
v

=
_
|
C
1
k
|
|G
1
|
(

2)
n exp

1
2

v
(k)
v
(nk)

C
1
k
0
k(nk)
0
(nk)k
G
1

v
(k)
v
(nk)

=
_
|
C
1
k
|
(

2)
k

|G
1
|
(

2)
nk
exp
n

1
2
v
t
(k)
C
1
k
v
(k)

1
2
v
t
(nk)
G
1
v
(nk)
o
=
_
|C
1
k
|
(

2
)
k
exp
n

1
2
v
t
(k)
C
1
k
v
(k)
o

|G
1
|
(

2
)
nk
exp
n

1
2
v
t
(nk)
G
1
v
(nk)
o
Por lo tanto, la funcin de densidad conjunta del vector aleatorio X
(k)
est dada por:
f
X
(k)
(v
(k)
) =
_
|C
1
k
|
(

2
)
k
exp
n

1
2
v
t
(k)
C
1
k
v
(k)
o
As que, por la proposicin 3.56, la familia X
1
, X
2
, . . . , X
k
tiene distribucin normal multiva-
riada.
3.4. Distribuciones muestrales
De acuerdo con el corolario 3.61, Si U es un vector formado por variables aleatorias inde-
pendientes, todas con distribucin normal estndar, y P es una matriz ortogonal, entonces
V = PU tambin es un vector formado por variables aleatorias independientes, todas con
distribucin normal estndar. Este resultado se puede extender de la siguiente manera:
Proposicin 3.65. Sean X
1
, . . . , X
n
n variables aleatorias independientes, todas con dis-
tribucin normal de varianza comn
2
, A una matriz ortogonal de n n y un vector n-
dimensional. Denamos las variables aleatorias Y
1
, . . . , Y
n
mediante la relacin Y = AX +,
en donde:
112 3. DISTRIBUCIN NORMAL MULTIVARIADA
X =

X
1
X
2
.
.
.
X
n

, Y =

Y
1
Y
2
.
.
.
Y
n

Entonces las variables aleatorias Y


1
, . . . , Y
n
son independientes y todas ellas tienen distribucin
normal con varianza comn
2
.
Demostracin
Para i {1, . . . , n}, sea
i
= E [X
i
] y sea =

2
.
.
.

,
entonces las variables aleatorias U
1
, . . . , U
n
denidas por U
i
=
X
i

son independientes y
todas tienen distribucin normal estndar. Adems:
Y = AX + = AU +A +
en donde U =

U
1
U
2
.
.
.
U
n

As que, de acuerdo con la proposicin 3.61, las variables aleatorias


1

Y
1
, . . . ,
1

Y
n
son indepen-
dientes y todas tienen distribucin normal de varianza 1, de lo cual se sigue el resultado.
Corolario 3.66. Sean X
1
, . . . , X
n
n variables aleatorias independientes, todas con distribu-
cin normal de varianza comn
2
y A una matriz ortogonal de nn. Denamos las variables
aleatorias Y
1
, . . . , Y
n
mediante la relacin Y = AX, en donde:
X =

X
1
X
2
.
.
.
X
n

, Y =

Y
1
Y
2
.
.
.
Y
n

Entonces las variables aleatorias Y


1
, . . . , Y
n
son independientes, todas ellas tienen distribucin
normal con varianza comn
2
y
P
n
j=1
Y
2
j
=
P
n
j=1
X
2
j
.
Demostracin
Por el corolario 3.65, nicamente resta probar que
P
n
j=1
Y
2
j
=
P
n
j=1
X
2
j
.
P
n
j=1
Y
2
j
= Y Y = (AX) (AX) = (AX)
t
(AX) = X
t
A
t
AX = X
t
A
t
AX = X X =
P
n
j=1
X
2
j
.
Los resultados anteriores permiten ahora demostrar el siguiente resultado, el cual es de im-
portancia bsica en la Estadstica.
Proposicin 3.67 (Independencia de la media y la varianza muestrales). Sean X
1
, . . . , X
n
n variables aleatorias independientes, todas con distribucin N(,
2
). Entonces la media
muestral

X =
1
n
P
n
k=1
X
k
y la varianza muestral s
2
X
=
1
n1
P
n
k=1
(X
k


X)
2
son independien-
tes.
3.4. DISTRIBUCIONES MUESTRALES 113
Demostracin
Denamos una nueva familia de variables aleatorias, Y
1
, . . . , Y
n
, de la siguiente manera (trans-
formacin de Helmert):
Y
1
=
1

n
P
n
k=1
X
k
,
Y
i
=
1

i(i1)
h
P
i1
k=1
X
k
(i 1)X
i
i
para i {2, . . . , n}.
Sea A = (a
ij
) la matriz de n n que transforma el vector

X
1
X
2
.
.
.
X
n

en el vector

Y
1
Y
2
.
.
.
Y
n

. Se
tiene entonces, a
ij
=
1

n
, para j {1, . . . , n} y, para i {2, . . . , n}:
a
ij
=

i(i1)
si j {1, . . . , i 1}

(i1)

i(i1)
si j = i
0 si j {i + 1, . . . , n}
As que,
P
n
j=1
a
2
1j
=
P
n
j=1
1
n
= 1 y, para i {2, . . . , n},
P
n
j=1
a
2
ij
=
P
n
j=1
1
i(i1)
+
i1
i
=
1
i
+ 1
1
i
= 1.
Tambin:
P
n
j=1
a
1j
a
ij
=
1

n
P
n
j=1
a
ij
=
1

P
i1
j=1
1

i(i1)

(i1)

i(i1)

=
1

i1

i(i1)

(i1)

i(i1)

= 0
y, para i {2, . . . , n} y k {3, . . . , n}, con i < k:
P
n
j=1
a
ij
a
kj
=
P
i1
j=1
1

i(i1)
1

k(k1)

(i1)

i(i1)
1

k(k1)
=
(i1)

i(i1)
1

k(k1)

(i1)

i(i1)
1

k(k1)
= 0
De manera que la matriz A es ortogonal. Por lo tanto, de acuerdo con el corolario 3.66, las
variables aleatorias Y
1
, . . . , Y
n
son independientes, cada una de ellas tiene distribucin normal
de varianza
2
y
P
n
j=1
Y
2
j
=
P
n
j=1
X
2
j
.
Adems:

X =
1
n
P
n
k=1
X
k
=
1

n
Y
1
s
2
X
=
1
n1
P
n
k=1
(X
k


X)
2
=
1
n1
P
n
k=1
X
2
k
2

X
P
n
k=1
X
k
+n

X
2

=
1
n1
P
n
k=1
X
2
k
2n

X
2
+n

X
2

=
1
n1
P
n
k=1
X
2
k
n

X
2

=
1
n1
[
P
n
k=1
Y
2
k
Y
2
1
] =
1
n1
P
n
k=2
Y
2
k
De manera que

X y s
2
X
son variables aleatorias independientes.
Corolario 3.68. Sean X
1
, . . . , X
n
n variables aleatorias independientes, todas con distribu-
cin N(,
2
). Entonces a) U =
(n1)s
2
X

2
tiene distribucin X
2
con n 1 grados de libertad y
b) V =

n(

X)
s
X
tiene distribucin t con n 1 grados de libertad.
Demostracin
a. U =
(n1)s
2
X

2
=
1

2
P
n
k=2
Y
2
k
=
P
n
k=2
Y
2
k

2
Pero, para k {2, . . . , n}:
114 3. DISTRIBUCIN NORMAL MULTIVARIADA

Y
ik
=
1

k(k1)
h
P
k1
j=1

X
j
(k 1)
X
k
i
=
1

k(k1)
h
P
k1
j=1
(k 1)
i
= 0
As que
Y
k

tiene una distribucin normal estndar. Por lo tanto, U tiene distribucin X


2
con
n 1 grados de libertad.
b. V =

n(

X)
s
X
=

X

n
_
U
n1
Adems,
Y
1
=
1

n
P
n
k=1

X
k
=
1

n
P
n
k=1
=

n, as que

X
/

n
=
Y
1

es una variable
aleatoria independiente de U y tiene distribucin normal estndar. Por lo tanto, V tiene
distribucin t con n 1 grados de libertad.
EJERCICIOS
Ejercicio 3.1. Sean U y V dos variables aleatorias independientes con distribucin normal
estndar. Denamos X = 3U 4V + 1 y Y = 2U + V 2. Encuentre la esperanza y la
varianza de X y Y , as como el coeciente de correlacin y la funcin de densidad conjunta
de X y Y .
Ejercicio 3.2. Sea (X, Y ) un vector aleatorio con funcin de densidad f : R
2
7R dada por:
f(x, y) = C exp

1
2
(2x
2
+ 3xy + 5y
2
+x 4y)

en donde C es una constante.


a) Verique que el vector (X, Y ) tiene distribucin normal bivariada.
b) Exprese f en la forma:
f(x, y) = K exp

1
2

a (x )
2
+b (x ) (y ) +c (y )
2

en donde K, a, b, c, y son constantes.


c) Encuentre la esperanza y la varianza de X y Y , as como el coeciente de correlacin entre
X y Y .
Ejercicio 3.3. Sea X = (X
1
, X
2
) un vector aleatorio con distribucin normal bivariada
con vector de esperanzas (
1
2
,
1
2
), vector de varianzas (3, 6) y coeciente de correlacin
1
3
.
Encuentre dos variables aleatorias independientes, U y V , con distribucin normal estndar
tales que X = aU +bV + y Y = cU +dV +, en donde a, b, c, d, y son constantes
Ejercicio 3.4. Sea X una variable aleatoria con distribucin normal estndar y Z una varia-
ble aleatoria, independiente de X, con distribucin Bernoulli de parmetro p =
1
2
. Denamos
la variable aleatoria Y de la siguiente manera:
Y =

X si Z = 1
X si Z = 0
Demuestre que a) Y tiene distribucin normal estndar, b) X y Y no son independientes y
c) Cov(X, Y ) = 0. d) Es normal bivariada la distribucin conjunta de X y Y ?, por qu?
Ejercicio 3.5. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vec-
tor de esperanzas (0, 0), vector de varianzas (1, 1) y coeciente de correlacin . Encuentre
P [X 0, Y 0].
EJERCICIOS 115
Ejercicio 3.6. Sea X = (X
1
, X
2
) un vector aleatorio con distribucin normal bivariada
con vector de esperanzas (
1
,
2
), vector de varianzas (
2
,
2
) y coeciente de correlacin
1
2
.
Encuentre la funcin de densidad de Y = X
1
+X
2
.
Ejercicio 3.7. Sea X = (X
1
, X
2
) un vector aleatorio con distribucin normal bivariada con
vector de esperanzas (5, 2), vector de varianzas (4, 1) y coeciente de correlacin
1
3
. Encuentre
la funcin de densidad de Y = 2X
1
3X
2
.
Ejercicio 3.8. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vector
de esperanzas (0, 0), vector de varianzas (1, 1) y coeciente de correlacin
1
2
. Encuentre la
funcin de densidad conjunta de U = X + 2Y y V = 2X Y .
Ejercicio 3.9. Determine cules de las siguientes matrices son invertibles y, en su caso,
encuentre su inversa:
a) A =

2 1 1
4 0 2
1 3 1

b) B =

0 1
2
5
3
5
2
1
5
0 1
1 0
2
5
1
5
1
3
5
0 2

c) C =

1
2

1
2
1 0
1
4
1
2
0 1 1
3
2

1
2
0 3 1 1
2 1
5
2
1
1
2
3 1
1
2
3 3

d) D =

1 1 2 1 1
1 0 1 0 0
2 1 0 1 0
1 0 1 0 0
1 0 0 0 1

Ejercicio 3.10. Sea Q =

5
2

1
2
2

1
2
5
2
2
2 2 0

Encuentre una matriz ortogonal P tal que P


t
QP = D

1
,
2
,
3
, en donde
1
,
2
,
3
son nmeros
reales.
Ejercicio 3.11. Expresndolas como sumas de cuadrados, determine cules de las siguientes
formas cuadrticas son denidas positivas:
a) F(x
1
, x
2
) = 3x
2
1
+x
2
2
+ 4x
1
x
2
b) F(x
1
, x
2
, x
3
) = x
2
1
+ 2x
2
2
+ 3x
3
3
+ 2x
1
x
2
x
1
x
3
c) F(x
1
, x
2
, x
3
, x
4
) = x
2
1
+x
2
2
+x
2
3
+x
2
4
+x
1
x
2
+x
1
x
3
+x
1
x
4
+x
2
x
3
+x
2
x
4
+x
3
x
4
d) F(x
1
, x
2
, x
3
, x
4
, x
5
) = 2x
2
1
+x
2
2
+x
2
3
+ 3x
2
4
+ 3x
1
x
2
x
1
x
3
+x
2
x
4
+x
2
x
5
2x
4
x
5
Ejercicio 3.12. Determine cules de las siguientes matrices Q son denidas positivas y, en
su caso, encuentre una matriz B tal que Q = B
2
:
116 DISTRIBUCIN NORMAL MULTIVARIADA
a) Q =

3 2
2 5

b) Q =

4 2 5
2 3 6
5 6 7

c) Q =

1 1 1 1
1 2 2 2
1 2 3 3
1 2 3 4

Ejercicio 3.13. Sea X un vector aleatorio con distribucin normal multivariada, con vector
de esperanzas 0 y matriz de covarianzas C, en donde:
a) C =
1
30

79 42 51
42 36 18
51 18 54

b) C =
1
18

1547 492 52 111


492 162 12 36
52 12 32 6
111 36 6 18

c) C =
1
45

121 122 158 104 48


122 175 130 130 60
158 130 265 130 60
104 130 130 130 60
48 60 60 60 90

Encuentre una matriz invertible A tal que X = AU, en donde U es un vector aleatorio formado
por variables aleatorias independientes, todas con distribucin normal estndar.
Ejercicio 3.14. Sea Q
n
la matriz de n n denida por:
Q
n
=

1 c c c
c 1 c c
.
.
.
.
.
.
.
.
. c
.
.
.
c c 1 c
c c c 1

en donde c es una constante.


a) Demuestre que Q
n
es denida positiva si y slo si
1
n1
< c < 1.
Sugerencia: Dena P
n
() = |QI
n
| y demuestre que:
P
n
() = c (1 c )
n1
+ (1 c ) P
n1
().
b) Demuestre que:
EJERCICIOS 117

1
1
0
0
0
0

1
0
1
0
0
0

1
0
0
0
0
1

1
1
1
1
1
1

son vectores propios de Q.


Ejercicio 3.15. Sea C la matriz dada por:
C =

1
1
4
1
4
1
4
1
4
1
1
4
1
4
1
4
1
4
1
1
4
1
4
1
4
1
4
1

a) Encuentre una matriz ortogonal P tal que P


t
CP = D

1
,
2
,
3
,
4
, en donde
1
,
2
,
3
,
4
son
nmeros reales positivos.
b) Encuentre una matriz B tal que C = B
2
.
c) Encuentre una matriz invertible A tal que la matriz de covarianzas de X = AU sea C,
en donde U es un vector aleatorio formado por variables aleatorias independientes, todas con
distribucin normal estndar.
Ejercicio 3.16. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por f
X,Y
(x, y) =
1

3
exp

2
3
(x
2
+y
2
xy)

para cualquier vector (x, y) R


2
. a) Encuentre
la matriz de covarianzas de U = X + Y y V = X Y . b) Son U y V independientes?
Justique su respuesta. c) Encuentre la matriz de covarianzas de X y Y . d) Son X y Y
independientes? Justique su respuesta.
Ejercicio 3.17. Sean X y Y dos variables aleatorias con distribucin normal estndar. a)
Encuentre la funcin de densidad conjunta de U = 2X + Y y V = X Y y exprsela en
la forma f
U,V
( u) = k exp

1
2
Q( u ) ( u )

. b) Encuentre directamente la matriz de


covarianzas C y muestre que Q es la inversa de C.
Ejercicio 3.18. Sean X
1
, . . . , X
8
una muestra aleatoria de una distribucin normal de pa-
rmetros y
2
= 15 y denamos

X =
1
8
P
8
k=1
X
k
, s
2
=
1
7
P
8
k=1
(X
k


X)
2
. Encuentre
P [3 < s
2
< 20].
Ejercicio 3.19. Sean X
1
, X
2
, X
3
y X
4
4 variables aleatorias independientes, todas con dis-
tribucin normal estndar y denamos las variables aleatorias U y V de la siguiente manera:
U = X
1
+X
2
+X
3
+X
4
V = 4 (X
2
1
+X
2
2
+X
2
3
+X
2
4
) (X
1
+X
2
+X
3
+X
4
)
2
Demuestre que U y V son independientes y encuentre sus funciones de densidad.
Sugerencia: Considere la transformacin:
Y
1
=
1
2
(X
1
+X
2
+X
3
+X
4
),
Y
2
=
1

2
(X
1
X
2
)
Y
3
=
1

6
(X
1
+X
2
2X
3
)
Y
4
=
1

12
(X
1
+X
2
+X
3
3X
4
)
118 DISTRIBUCIN NORMAL MULTIVARIADA
Ejercicio 3.20. Sean X
1
, X
2
y X
3
tres variables aleatorias independientes, las 3 con distribu-
cin normal estndar, y denamos:
Y
1
=
1
2
X
1
+
1
2
X
2
+
1

2
X
3
,
Y
2
=
1
2
X
1

1
2
X
2
+
1

2
X
3
,
Y
3
=
1

2
X
1
+
1

2
X
2
.
Encuentre la funcin de densidad de Z =
Y
1

Y
2
2
+Y
2
3
.
Ejercicio 3.21. Sean X
1
, X
2
, X
3
, X
4
cuatro variables aleatorias independientes, todas con
distribucin normal estndar y denamos:
Y
1
=
1
2
(X
1
+X
2
+X
3
+X
4
)
Y
2
=
1
2
(X
1
X
2
+X
3
X
4
)
Y
3
=
1

2
(X
1
X
3
)
Y
4
=
1

2
(X
2
X
4
)
Encuentre la funcin de densidad conjunta de Y
1
, Y
2
, Y
3
, Y
4
y la funcin de densidad de Z =
Y
2
1
+Y
2
2
Y
2
1
+Y
2
2
+Y
2
3
+Y
2
4
. Adems, identique esta ltima.
Ejercicio 3.22. Sean X y Y dos variables aleatorias de esperanza y varianza nitas y coe-
ciente de correlacin . a) Demuestre que la matriz de covarianzas, C, de la pareja X, Y es
denida positiva si y solo si
2
6= 1. b) Asumiendo
2
6= 1, demuestre que:

|C
1
|
2
e

1
2
C
1
(x
x
,y
Y
)(x
x
,y
Y
)
=
1
2
X

1
2
exp
n

1
(1
2
)
h
(x
X
)
2

2
x
+
(y
Y
)
2

2
y
2
(x
x
)(y
Y
)

y
io
en donde
X
,
X
y
Y
,
Y
son la esperanza y la varianza de X y Y , respectivamente.
Ejercicio 3.23. Demuestre que si X = (X
1
, . . . , X
n
) es un vector aleatorio con distribucin
normal multivariada y c
1
, . . . , c
n
son constantes, no todas cero, entonces c
1
X
1
+ . . . + c
n
X
n
tiene distribucin normal.
Ejercicio 3.24. Sean X
1
, . . . , X
n
n variables aleatorias independientes, todas con distribucin
normal estndar. Demuestre que las variables aleatorias U =
P
n
k=1
X
k
y V =
P
n
k=1

k
X
k
son
independientes si y slo si
P
n
k=1

k
= 0.
Ejercicio 3.25. Sean X
1
, . . . , X
n
variables aleatorias independientes, todas con distribucin
normal, X el vector con coordenadas X
1
, . . . , X
n
, un vector n-dimensional y A una matriz
de nn invertible. Demuestre que la distribucin del vector aleatorio Y = AX + es normal
multivariada.
Ejercicio 3.26. Sea (X, Y, Z) un vector aleatorio con distribucin normal multivariada con
vector de esperanzas (0, 0, 0) y matriz de covarianzas:

1
1
2
1
2
1
2
1
1
2
1
2
1
2
1

.
Encuentre e identique la funcin de densidad de U = X +Y Z.
CAPTULO 4
ESPERANZAS CONDICIONALES
No se le puede pedir al rigor ms que consolidar las con-
quistas de la intuicin.
Jacques Salomon Hadamard
4.1. Generalizacin de la denicin de probabilidad condicional
Sea A un evento de probabilidad positiva y X una variable aleatoria de esperanza nita.
Queremos denir la esperanza condicional de X dada la ocurrencia del evento A, E[X | A].
Si X es discreta y x
1
, x
2
, . . . son sus posibles valores, entonces E [X] =
P
k
x
k
P [X = x
k
]. De
manera que resulta natural denir:
E[X | A] =
P
k
x
k
P [X = x
k
| A]
expresin que se puede escribir en la siguiente forma:
E[X | A] =
P
k
x
k
P [X = x
k
| A] =
P
k
x
k
P(A[X=x
k
])
P(A)
=
1
P(A)
P
k
x
k
P(A [X = x
k
]) =
1
P(A)
P
k
x
k
P [XI
A
= x
k
] =
1
P(A)
E[XI
A
].
Esta ltima expresin no depende de la forma que tiene X, as que se puede utilizar para dar
la siguiente denicin general:
Definicin 4.1 (Esperanza condicional dada la ocurrencia de un evento). Sea A un
evento de probabilidad positiva y X una variable aleatoria de esperanza nita. Se dene la
esperanza condicional de X dada la ocurrencia del evento A, E [X | A], mediante la frmula:
E[X | A] =
1
P(A)
E [XI
A
]
Obsrvese que E[X | A] est bien denida pues E[|XI
A
|] E [|X|] < .
Obsrvese tambin que esta denicin es una extensin de la denicin de probabilidad condi-
cional de un evento B dada la ocurrencia de A , P(B | A) =
P(BA)
P(A)
. En efecto, si X = I
B
,
entonces:
E[X | A] =
1
P(A)
E[I
B
I
A
] =
1
P(A)
E[I
BA
] =
P(BA)
P(A)
= P(B | A)
Ejemplo 4.2. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p. Encuentre a) E [X | X > 4] y b) E [X | X > Y ].
Solucin
a. P [X > 4] =
P

x=5
p(1 p)
x
= (1 p)
5
119
120 4. ESPERANZAS CONDICIONALES
E

XI
[X>4]

=
P

x=5
xf
X
(x) =
P

x=5
xp(1 p)
x
=
4p+1
p
(1 p)
5
As que, E[X | X > 4] =
4p+1
p
=
1
p
+ 4.
P [X = x | X > 4] =

p(1 p)
x5
si x {5, 6, . . .}
0 en otro caso
b. P [X > Y ] =
P

y=0
P [X > Y, Y = y] =
P

y=0
P [X > y, Y = y]
=
P

y=0
P [X > y] P [Y = y] =
P

y=0
(1 p)
y+1
p(1 p)
y
=
1p
2p
.
E

XI
[X>Y ]

=
P

x=0
P
x1
y=0
xf
X,Y
(x, y) =
P

x=0
xP [X = x] P [Y x 1]
=
P

x=0
xp(1 p)
x
[1 (1 p)
x
] =
P

x=0
xp(1 p)
x

x=0
xp(1 p)
2x
=
1p
p

(1p)
2
p(2p)
2
=
(1p)(p
2
3p+3)
p(2p)
2
.
As que, E[X | X > Y ] =
2p
1p
(1p)(p
2
3p+3)
p(2p)
2
=
p
2
3p+3
p(2p)
.
Ejemplo 4.3. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial, X de parmetro
1
y Y de parmetro
2
. Encuentre a) E [X | X > 4], b)
E[X | X > Y ] y c) E[X | X < Y ].
Solucin
a. P (X > 4) =
R

4

1
e

1
x
dx = e
4
1
E

XI
[X>4]

=
R

4

1
xe

1
x
dx =
1

1
(4
1
+ 1) e
4
1
As que, E[X | X > 4] =
1

1
(4
1
+ 1) =
1

1
+ 4.
b. P (X > Y ) =
R

0
R
x
0

1

2
e

1
x
e

2
y
dydx =

2

1
+
2
.
E

XI
[X>Y ]

=
R

0
R
x
0

1

2
xe

1
x
e

2
y
dydx =

2
(2
1
+
2
)

1
(

1
+
2
)
2
.
As que, E[X | X > Y ] =

2
(2
1
+
2
)

1
(

1
+
2
)
2

1
+
2

2
=
2
1
+
2

1
(

1
+
2
)
=
1

1
+
1

1
+
2
.
c. P (X < Y ) = 1 P (X > Y ) =

1

1
+
2
.
E

XI
[X<Y ]

= E[X] E

XI
[X>Y ]

=
1

1


2
(2
1
+
2
)

1
(

1
+
2
)
2
=

1
(

1
+
2
)
2
.
As que, E[X | X < Y ] =

1
(

1
+
2
)
2

1
+
2

1
=
1

1
+
2
.
Obsrvese que:
E[X | X < Y ] =
1
P[X<Y ]
E

XI
[X>Y ]

=
1
P[X<Y ]
RR
{(x,y)R
2
:x<y}
xf
X,Y
(x, y)dxdy
4.2. Esperanzas condicionales en el caso discreto
Sea X una variable aleatoria discreta de esperanza nita y Y cualquier variable aleatoria
discreta. Si y es un nmero real tal que P [Y = y] > 0 y x
1
, x
2
, . . . son los posibles valores de
X, se tiene:
E[X | Y = y] =
1
P[Y =y]
E

XI
[Y =y]

=
P
k
x
k
f
X,Y
(x
k
,y)
f
Y
(y)
Obsrvese que E[X | Y = y] se calcula de la misma manera que E[X], reemplazando la fun-
cin de densidad f
x
(x
k
) de X, por el cociente
f
X,Y
(x
k
,y)
f
Y
(y)
. Esto motiva las siguientes deniciones:
4.2. ESPERANZAS CONDICIONALES EN EL CASO DISCRETO 121
Sean X y Y dos variables aleatorias discretas con funcin de densidad conjunta f
X,Y
. Para
cada y R denamos la funcin x 7f
X|Y
(x | y) de la siguiente manera:
f
X|Y
(x | y) =
(
f
X,Y
(x,y)
f
Y
(y)
si f
Y
(y) > 0
f
X
(x) en otro caso
Obsrvese que, para nes de la denicin de f
X|Y
, no importan los valores de f
X|Y
(x | y) en
los puntos y en los cuales P [Y = y] = 0 pues Y no toma esos valores.
Obsrvese que, para cualquier y R, vista como funcin de x, f
X|Y
(x | y) es una funcin de
densidad discreta y, adems, si f
Y
(y) > 0 , para cualquier x R, se tiene:
P [X = x | Y = y] = f
X|Y
(x | y).
Resulta entonces natural denir a la funcin x 7f
X|Y
(x | y) como la funcin de densidad
condicional de X dado que Y = y. Como toda funcin de densidad, la funcin de densi-
dad condicional de una variable aleatoria X dene una distribucin, la cual ser llamada la
distribucin condicional de X dada Y.
Definicin 4.4 (Esperanza condicional de una variable aleatoria dada otra variable
aleatoria - caso discreto). Sea X una variable aleatoria discreta de esperanza nita y Y
cualquier variable aleatoria discreta. Denamos la funcin h : R 7R de la siguiente manera:
h(y) =
P
k
x
k
f
X|Y
(x | y)
La variable aleatoria h(Y ) es llamada la esperanza condicional de X dada Y y se denota por
E[X | Y ].
Obsrvese que, para nes de la denicin de E[X | Y ], no importan los valores de h en los
puntos y en los cuales P [Y = y] = 0 pues Y no toma esos valores.
Ejemplo 4.5. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

2
N(N+1)
si x y, x, y {1, . . . , N}
0 en otro caso
en donde N es un entero positivo.
Encuentre a) E [X | Y ] y b) E [Y | X].
Solucin
a. Para y {1, . . . , N}, se tiene:
f
Y
(y) =
P
N
x=1
f
X,Y
(x, y) =
P
y
x=1
2
N(N+1)
=
2
N(N+1)
y.
E[X | Y = y] =
P
N
x=1
x
f
X,Y
(x,y)
f
Y
(y)
=
1
y
P
y
x=1
x =
1
2
(y + 1).
As que, E[X | Y ] =
1
2
(Y + 1).
b. Para x {1, . . . , N} se tiene:
f
X
(x) =
P
N
y=1
f
X,Y
(x, y) =
P
N
y=x
2
N(N+1)
=
2
N(N+1)
(N + 1 x).
E[Y | X = x] =
P
N
y=1
y
f
X,Y
(x,y)
f
X
(x)
=
1
N+1x
P
N
y=x
y =
1
2
(x +N).
As que, E[Y | X] =
1
2
(X +N).
122 4. ESPERANZAS CONDICIONALES
Ejemplo 4.6. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p. Encuentre a) E [X | Y X] y b) E [Y | Y X].
Solucin
Para z Z, se tiene:
P [Y X = z] = P [Y = X +z] =
P

x=0
P [Y = X +z, X = x]
=
P

x=0
P [Y = x +z] P [X = x] =

p
2
(1 p)
z
P

x=0
(1 p)
2x
si z 0
p
2
(1 p)
z
P

x=.z
(1 p)
2x
si z < 0
=
(
p(1p)
z
2p
si z 0
p(1p)
z
2p
si z < 0
a. E[X | Y X = z] =
P

k=0
k
P[X=k,Y X=z]
P[Y X=z]
=
P

k=0
k
P[X=k,Y =k+z]
P[Y X=z]
=

p(2 p)
P

k=0
k(1 p)
2k
si z 0
p(2 p)(1 p)
2z
P

k=z
k(1 p)
2k
si z < 0
=

p(2 p)
P

k=0
k(1 p)
2k
si z 0
p(2 p)(1 p)
2z
P

k=0
(k z)(1 p)
2k2z
si z < 0
=

p(2 p)
P

k=0
k(1 p)
2k
si z 0
p(2 p)
P

k=0
k(1 p)
2k
zp(2 p)
P

k=0
(1 p)
2k
si z < 0
=
(
(1p)
2
p(2p)
si z 0
(1p)
2
p(2p)
z si z < 0
Por lo tanto, E[X | Y X] =
(1p)
2
p(2p)
(Y X)I
(,0)
(Y X).
b. E[Y | Y X = z] =
P

k=0
k
P[Y =k,Y X=z]
P[Y X=z]
=
P

k=0
k
P[Y =k,X=kz]
P[Y X=z]
=

p(2 p)(1 p)
2z
P

k=z
k(1 p)
2k
si z 0
p(2 p)
P

k=0
k(1 p)
2k
si z < 0
=

p(2 p)
P

k=0
(k +z)(1 p)
2k
si z 0
p(2 p)
P

k=0
k(1 p)
2k
si z < 0
=

p(2 p)
P

k=0
k(1 p)
2k
+zp(2 p)
P

k=0
(1 p)
2k
si z 0
p(2 p)
P

k=0
k(1 p)
2k
si z < 0
=
(
(1p)
2
p(2p)
+z si z 0
(1p)
2
p(2p)
si z < 0
Por lo tanto, E[Y | Y X] =
(1p)
2
p(2p)
+ (Y X)I
[0,)
(Y X).
La siguiente proposicin caracteriza a la variable aleatoria E [X | Y ] y esta caracterizacin
constituye la base para la denicin general de la esperanza condicional en la siguiente seccin.
Proposicin 4.7. Sea X una variable aleatoria discreta de esperanza nita y Y cualquier
variable aleatoria discreta. La variable aleatoria h(Y ) = E[X | Y ] tiene esperanza nita y
E[f(Y )h(Y )] = E [f(Y )X] para cualquier funcin f : R 7 R acotada. Adems, si h
1
y h
2
son dos funciones con estas mismas dos propiedades, entonces P [h
1
(Y ) = h
2
(Y )] = 1.
4.2. ESPERANZAS CONDICIONALES EN EL CASO DISCRETO 123
Demostracin
Demostremos primero que h(Y ) tiene esperanza nita. En efecto, si y
1
, y
2
, . . . son los posibles
valores de Y y x
1
, x
2
, . . . son los posibles valores de X, se tiene:
P
j
|h(y
j
)| P [Y = y
j
]
P
j
P
k
|x
k
|
P[X=x
k
,Y =y
j
]
P[Y =y
j
]
P [Y = y
j
]
=
P
j
P
k
|x
k
| P [X = x
k
, Y = y
j
] =
P
k
|x
k
| P [X = x
k
] = E[|X|] <
Sea ahora f : R 7R cualquier funcin acotada, se tiene entonces:
E[f(Y )h(Y )] =
P
j
f(y
j
)h(y
j
)P [Y = y
j
]
=
P
j
f(y
j
)
P
k
x
k
P[X=x
k
,Y =y
j
]
P[Y =y
j
]
P [Y = y
j
]
=
P
j
f(y
j
)
P
k
x
k
)P [X = x
k
, Y = y
j
]
=
P
j,k
f(y
j
)x
k
P [X = x
k
, Y = y
j
] = E[f(Y )X]
Supongamos ahora que g : R 7 R es una funcin tal que g(Y ) tiene esperanza nita y
E[f(Y )g(Y )] = E [f(Y )X] para cualquier funcin f : R 7R acotada. Se tiene entonces:
P
j
f(y
j
)g(y
j
)P [Y = y
j
] =
P
j,k
f(y
j
)x
k
P [X = x
k
, Y = y
j
]
para cualquier funcin f acotada. En particular, si f = I
{y
j
}
, se tiene:
g(y
j
)P [Y = y
j
] =
P
k
x
k
P [X = x
k
, Y = y
j
]
As que:
g(y
j
) =
1
P[Y =y
j
]
P
k
x
k
P [X = x
k
, Y = y
j
] =
P
k
x
k
P[X=x
k
,Y =y
j
]
P[Y =y
j
]
= h(y
j
)
Es decir, g(y) = h(y) para cualquier y R tal que P [Y = y] > 0.
De manera que, si h
1
y h
2
satisfacen las dos propiedades mencionadas, h
1
(y) = h
2
(y) para
cualquier y tal que P [Y = y] > 0, lo cual implica P [h
1
(Y ) = h
2
(Y )] = 1.
La ltima proposicin nos dice que la variable aleatoria h(Y ) queda caracterizada por las dos
propiedades mencionadas. Se puede concluir entonces que se puede denir E[X | Y ] = h(Y )
mediante cualquier funcin h : R 7 R tal que h(Y ) tenga esperanza nita y que satisfaga
E[f(Y )h(Y )] = E [f(Y )X] para cualquier funcin f : R 7R acotada.
Ejemplo 4.8. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p. Encuentre E [XY | X +Y ].
Solucin
Se busca una funcin h tal que E [f(X +Y )h(X +Y )] = E [f(X +Y )XY ] para cualquier
funcin f acotada. Es decir:
P

z=0
f(z)h(z)(z + 1)p
2
(1 p)
z
=
P

k=0
P

j=0
f(j +k)jkp
2
(1 p)
j+k
=
P

k=0
P

z=k
f(z)(z k)kp
2
(1 p)
z
=
P

z=0
P
z
k=0
f(z)(z k)kp
2
(1 p)
z
As que:
h(z) =

z
k=0
(zk)kp
2
(1p)
z
(z+1)p
2
(1p)
z
=

z
k=0
(zk)k
z+1
=
1
6
z(z1)(z+1)
z+1
=
1
6
(z
2
z)
Por lo tanto:
E[XY | X +Y ] =
1
6
[(X +Y )
2
(X +Y )]
124 4. ESPERANZAS CONDICIONALES
4.3. Denicin general de la esperanza condicional
Las propiedades que caracterizan a la esperanza condicional en el caso discreto motivan la
siguiente denicin general:
Definicin 4.9 (Esperanza condicional de una variable aleatoria dada otra variable
aleatoria). Sea X una variable aleatoria de esperanza nita y Y cualquier variable aleatoria.
Si existe una funcin h : R 7R tal que h(Y ) es una variable aleatoria de esperanza nita y
E[f(Y )h(Y )] = E[f(Y )X] para cualquier funcin f : R 7 R acotada, entonces se dice que
h(Y ) es una versin de la esperanza condicional E[X | Y ] y se dene E[X | Y ] = h(Y ) y
E[X | Y = y] = h(y) para cualquier y R.
Lo que demostramos en la seccin anterior es que, en el caso en que X y Y sean variables
aleatorias discretas y X tenga esperanza nita, existe una versin de la esperanza condicional
E[X | Y ], a saber, h(Y ), en donde h es la funcin denida por h(y) =
P
k
x
k
f
X|Y
(x | y), en
donde x
1
, x
2
, . . . son los posibles valores de X y f
X|Y
es la funcin de densidad condicional de
X dada Y .
La siguiente proposicin generaliza este resultado:
Proposicin 4.10. Sean X y Y dos variables aleatorias discretas y g : R
2
7R una funcin
tal que g(X, Y ) tiene esperanza nita. Denamos la funcin:
h(y) =
P
k
g(x
k
, y)f
X|Y
(x
k
| y)
en donde x
1
, x
2
, . . . son los posibles valores de X. Entonces h(Y ) es una versin de la esperanza
condicional E [g(X, Y ) | Y ].
Demostracin
Demostremos primero que h est bien denida. En efecto, si y
1
, y
2
, . . . son los posibles valores
de Y , se tiene:
P
j
P
k
|g(x
k
, y
j
)| P [X = x
k
, Y = y
j
] = E[g(X, Y )] <
Por lo tanto,
P
k
|g(x
k
, y)| P [X = x
k
, Y = y] < para cualquier y R.
De manera que, si P [Y = y] > 0:
P
k
|g(x
k
, y)| f
X|Y
(x
k
| y) =
P
k
|g(x
k
, y)|
P[X=x
k
,Y =y]
P[Y =y]
=
1
P[Y =y]
P
k
|g(x
k
, y)| P [X = x
k
, Y = y] <
Demostremos ahora que la variable aleatoria h(Y ) tiene esperanza nita. En efecto, se tiene:
E[h(Y )] =
P
j
|h(y
j
)| P [Y = y
j
]
P
j
P
k
|g(x
k
, y
j
)|
P[X=x
k
,Y =y
j
]
P[Y =y
j
]
P [Y = y
j
]
=
P
j
P
k
|g(x
k
, y
j
)| P [X = x
k
, Y = y
j
] = E[g(X, Y )] <
Sea ahora f : R 7R cualquier funcin acotada. Se tiene entonces:
E[f(Y )h(Y )] =
P
j
f(y
j
)h(y
j
)P [Y = y
j
]
=
P
j
f(y
j
)
P
k
g(x
k
, y
j
)P [X = x
k
, Y = y
j
]
=
P
j,k
f(y
j
)g(x
k
, y
j
)P [X = x
k
, Y = y
j
] = E[f(Y )g(X, Y )]
Obsrvese que, si P [Y = y] > 0, el valor de E[g(X, Y ) | Y = y] = h(y) coincide con el que se
obtiene aplicando directamente la denicin, es decir:
4.3. DEFINICIN GENERAL DE LA ESPERANZA CONDICIONAL 125
E[g(X, Y ) | Y = y] =
1
P[Y =y]
E

g(X, Y )I
[Y =y]

Obsrvese tambin que como dos versiones de la esperanza condicional E[g(X, Y ) | Y ] son
iguales con probabilidad 1, entonces, si H(Y ) es cualquiera de esas versiones, se tiene:
H(y) =
P
k
g(x
k
, y)
P[X=x
k
,Y =y]
P[Y =y]
para cualquier y tal que P [Y = y] > 0.
Ejemplo 4.11. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p. Encuentre a) E [mn(X, Y ) | Y ] y b) E [max(X, Y ) | Y ].
Solucin
a. Para y = {0, 1, . . .}, se tiene:
P

k=0
mn(k, y)
P[X=k,Y =y]
P[Y =y]
=
P

k=0
mn(k, y)P [X = k]
=
P
y
k=0
kP [X = k] +
P

k=y+1
yP [X = k]
= p
P
y
k=0
k(1 p)
k
+py
P

k=y+1
(1 p)
k
=
1p
p

py+1
p
(1 p)
y+1
+y(1 p)
y+1
=
1p
p

1
p
(1 p)
y+1
.
Por lo tanto, E [mn(X, Y ) | Y ] =
1p
p

1
p
(1 p)
Y +1
.
b. Para y {0, 1, . . .}, se tiene:
P

k=0
m ax(k, y)
P[X=k,Y =y]
P[Y =y]
=
P

k=0
m ax(k, y)P [X = k]
=
P
y1
k=0
yP [X = k] +
P

k=y
kP [X = k]
= py
P
y1
k=0
(1 p)
k
+p
P

k=y
k(1 p)
k
= y y (1 p)
y
+y (1 p)
y
+
1
p
(1 p)
y+1
= y +
1
p
(1 p)
y+1
Por lo tanto, E [m ax(X, Y ) | Y ] = Y +
1
p
(1 p)
Y +1
.
Obsrvese en el ltimo ejemplo que si y es un nmero real tal que P [Y = y] > 0 entonces
E[mn(X, Y ) | Y = y] es simplemente la esperanza (no condicional) de la variable aleatoria
mn(X, y). Este resultado se puede generalizar. En efecto, si X y Y son dos variables aleatorias
discretas independientes, y un nmero real tal que P [Y = y] > 0 y g : R
2
7R una funcin tal
que g(X, Y ) tiene esperanza nita, entonces, denotando por x
1
, x
2
, . . . a los posibles valores
de X, se tiene:
E[g(X, Y ) | Y = y] =
P
k
g(x
k
, y)
P[X=x
k
,Y =y]
P[Y =y]
=
P
k
g(x
k
, y)P [X = x
k
]
= E[g(X, y)]
Es decir, la esperanza condicional de g(X, Y ), dado que Y = y, es simplemente la esperanza
(no condicional) de la variable aleatoria g(X, y).
La existencia de una versin de la esperanza condicional de cualquier variable aleatoria de
esperanza nita, dada otra variable aleatoria cualquiera, es un resultado que puede probarse.
Sin embargo, la demostracin general requiere de resultados que rebasan el nivel de este libro.
Por tal motivo nicamente se enuncia aqu el resultado general sin prueba.
Teorema 4.12. Sea X una variable aleatoria de esperanza nita y Y cualquier variable aleato-
ria. Existe entonces una funcin h : R 7 R tal que h(Y ) es una versin de la esperanza
126 4. ESPERANZAS CONDICIONALES
condicional E[X | Y ]. Adems, dos versiones de la esperanza condicional de X con respecto
a Y son iguales con probabilidad 1.
La siguiente proposicin muestra que la esperanza condicional tiene propiedades similares a
las de la esperanza no condicional. Se muestra tambin que tiene las propiedades que podran
esperarse con una buena denicin, por corresponder a la idea intuitiva del concepto, por
ejemplo, una buena denicin de la esperanza condicional debera ser tal que si X y Y son
independientes entonces el hecho de que Y tome un cierto valor y no debera alterar el valor
esperado de X, es decir debera de tenerse E [X | Y ] = E[X]. Finalmente, se muestran otras
propiedades especcas de la esperanza condicional, las cuales no resultan evidentes a partir
de la idea intuitiva.
Proposicin 4.13. Sea Y cualquier variable aleatoria. Se tienen entonces las siguientes
propiedades:
(i) E[c | Y ] = c para cualquier constante c.
(ii) E[cX | Y ] = cE[X | Y ] para cualquier constante c y cualquier variable aleatoria X
de esperanza nita.
(iii) E[X
1
+X
2
| Y ] = E [X
1
| Y ] +E[X
2
| Y ] para cualquier par de variables aleatorias
X
1
y X
2
de esperanza nita.
(iv) Si X es una variable aleatoria de esperanza nita, entonces:
E [E[X | Y ]] = E[X]
(v) Si X es una variable aleatoria de esperanza nita y Z = g(Y ), entonces:
E [E(X | Y ) | Z] = E(X | Z)
(vi) Si X es una variable aleatoria de esperanza nita e independiente de Y , entonces:
E [X | Y ] = E[X]
(vii) Si X es una variable aleatoria de esperanza nita y g : R 7R es una funcin tal que
g(Y )X es una variable aleatoria de esperanza nita, entonces g(Y )E [X | Y ] tiene
esperanza nita y
E [g(Y )X | Y ] = g(Y )E[X | Y ]
(viii) Si X y Z son dos variables aleatorias de esperanza nita tales que X Z, entonces:
E [X | Y ] E[Z | Y ]
(ix) Si X es una variable aleatoria de varianza nita, entonces Z = E[X | Y ] tambin
tiene varianza nita.
Demostracin
Las demostraciones de i, ii y iii se dejan como ejercicio, mientras que vii y viii requieren de
herramientas que rebasan el nivel de este libro. nicamente se demuestran aqu iv, v, vi y ix.
iv es un caso particular de una de las propiedades que caracterizan a la esperanza condicional.
De manera especca, sabemos que la esperanza condicional E[X | Y ] tiene la propiedad
de que E[f(Y )E[X | Y ]] = E[f(Y )X] para cualquier funcin f acotada. En particular,
considerando la funcin f 1, se tiene E[E[X | Y ]] = E[X].
Para probar v, sean h
1
(Y ) = E [X | Y ], h
2
(Z) = E[h
1
(Y ) | Z] y f : R 7R cualquier funcin
acotada. Se tiene entonces:
E[f(Z)h
2
(Z)] = E [f(Z)h
1
(Y )] = E[(f g)(Y )h
1
(Y )]
= E[(f g)(Y )X] = E[f(Z)X]
Por lo tanto, E[E(X | Y ) | Z] = h
2
(Z) es una versin de E[X | Z].
4.3. DEFINICIN GENERAL DE LA ESPERANZA CONDICIONAL 127
Para probar vi, sea f : R 7R cualquier funcin acotada. Se tiene entonces:
E[f(Y )X] = E [f(Y )] E[X] = E[f(Y )E[X]]
Por lo tanto, E[X] es una versin de E [X | Y ].
Para probar ix, obsrvese que X
2
Z
2
2Z(XZ) y, para cada n N, sea W
n
= I
[n,n]
(Z).
Se tiene entonces W
n
X
2
W
n
Z
2
2W
n
Z(X Z). Pero, como W
n
y W
n
Z son variables
aleatorias acotadas que dependen de Y , se tiene:
W
n
E[X
2
| Y ] W
n
Z
2
= E [W
n
X
2
| Y ] E[W
n
Z
2
| Y ]
2E[W
n
Z(X Z) | Y ] = 2W
n
ZE[(X Z) | Y ] = 0
As que, para cualquier n N:
W
n
Z
2
W
n
E[X
2
| Y ],
de lo cual se obtiene, tomando lmites cuando n , Z
2
E [X
2
| Y ]. Finalmente, tomando
esperanzas en ambos miembros de la ltima desigualdad, se concluye que
E[Z
2
] E [X
2
] < .
Ejemplo 4.14. Sea X una variable aleatoria de esperanza y varianza nitas, Y cualquier
variable aleatoria y Z = E[X | Y ]. Demuestre que a) E

(X Z)
2

= E[X
2
Z
2
] y b)
V ar (X Z) = V ar (X) V ar (Z).
Solucin
a. E

(X Z)
2
| Y

= E[X
2
2XZ +Z
2
| Y ]
= E[X
2
| Y ] 2ZE[X | Y ] +Z
2
= E[X
2
| Y ] 2Z
2
+Z
2
= E[X
2
Z
2
| Y ]
As que, tomando esperanzas:
E

(X Z)
2

= E[X
2
Z
2
]
b. Tomando en cuenta que E [X] = E[Z], se tiene:
V ar (X Z) = E

(X Z)
2

(E [X Z])
2
= E

(X Z)
2

= E[X
2
] E[Z
2
] = E [X
2
] (E[X])
2
E [Z
2
] + (E[Z])
2
= V ar (X) V ar (Z)
Ejemplo 4.15. Sean X una variable aleatoria de esperanza y varianza nitas, Y cualquier
variable aleatoria y h(Y ) = E[X | Y ]. Demuestre que E

(X h(Y ))
2

(X g(Y ))
2

para cualquier funcin g tal que g(Y ) tenga esperanza y varianza nitas.
Solucin
Por el inciso a del ejemplo anterior, se tiene:
E

(X h(Y ))
2

= E[X
2
] E[h
2
(Y )]
Por otra parte:
E

(X g(Y ))
2
| Y

= E[X
2
2Xg(Y ) +g
2
(Y ) | Y ]
= E[X
2
| Y ] 2g(Y )E[X | Y ] +g
2
(Y ) = E[X
2
| Y ] 2g(Y )h(Y ) +g
2
(Y )
As que:
E

(X g(Y ))
2

= E[X
2
] 2E [g(Y )h(Y )] +E[g
2
(Y )]
De manera que:
128 4. ESPERANZAS CONDICIONALES
E

(X g(Y ))
2

(X h(Y ))
2

= E[h
2
(Y )] 2E [g(Y )h(Y )] +E[g
2
(Y )]
= E[h
2
(Y ) 2g(Y )h(Y ) +g
2
(Y )] = E

(h(Y ) g(Y ))
2

0.
Obsrvese que el ltimo ejemplo muestra que, cuando se conoce Y , E[X | Y ] es un buen
estimador de X en el sentido de que, entre todas las funciones g tales que g(Y ) tiene esperanza
y varianza nitas, E [X | Y ] minimiza el valor de E

(X g(Y ))
2

. Por tal motivo se puede


decir que, conociendo el valor de Y , E[X | Y ] es el mejor estimador de X en el sentido
de la media cuadrtica.
4.4. Esperanzas condicionales en el caso absolutamente continuo
Al igual que en el caso discreto, se puede dar la forma explcita de la esperanza condicional
en el caso absolutamente continuo. Sin embargo, la demostracin de que efectivamente se
obtiene una versin de sta requiere de herramientas que rebasan el nivel de este libro. Por tal
motivo nicamente se enuncia el resultado general sin prueba, despus de lo cual se muestra,
con un caso particular, cuales son las ideas bsicas de la demostracin general.
Proposicin 4.16. Sea (X, Y ) un vector aleatorio absolutamente continuo con funcin de
densidad conjunta f
X,Y
y g : R
2
7 R una funcin tal que g(X, Y ) tiene esperanza nita.
Denamos la funcin h : R 7R de la siguiente manera:
h(y) =

g(x, y)
f
X,Y
(x,y)
f
Y
(y)
dx
si f
Y
(y) > 0 y
R

|g(x, y)|
f
X,Y
(x,y)
f
Y
(y)
dx <
0 en otro caso
Entonces h(Y ) es una versin de la esperanza condicional E [g(X, Y ) | Y ].
Recurdese que, si h(Y ) es una versin de la esperanza condicional E [X | Y ], se dene
E[X | Y = y] = h(y) para cualquier y R. De manera que dado el vector aleatorio (X, Y ) y
la funcin g de la ltima proposicin, se tiene:
E [g(X, Y ) | Y = y] =

g(x, y)
f
X,Y
(x,y)
f
Y
(y)
dx
si f
Y
(y) > 0 y
R

|g(x, y)|
f
X,Y
(x,y)
f
Y
(y)
dx <
0 en otro caso.
Debe observarse que la denicin h(y) = E[g(X, Y ) | Y = y] = 0 en los puntos y / A =
n
y R : f
Y
(y) > 0 y
R

|g(x, y)|
f
X,Y
(x,y)
f
Y
(y)
dx <
o
no tiene inuencia sustancial en la deni-
cin de E[g(X, Y ) | Y ] pues P [Y / A] = 0. En efecto, sea B = {y R : f
Y
(y) = 0} y
C =
n
y R :
R

|g(x, y)| f
X,Y
(x, y)dx =
o
. Se tiene entonces A
c
= B C. Adems,
P [Y B] =
R
B
f
Y
(y)dy = 0
Por otra parte, se tiene
R

|g(x, y)| f
X,Y
(x, y)dxdy = E [|g(X, Y )|] < y se puede
probar que esto implica P [Y C] = 0. De manera que:
P [Y / A] = P [Y B C] = P [(Y B) (Y C)] P [Y B] +P [Y C] = 0
Ejemplo 4.17. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Sea Z = Y X y denamos:
4.4. ESPERANZAS CONDICIONALES EN EL CASO ABSOLUTAMENTE CONTINUO 129
h(z) =
(
R

x
f
X,Z
(x,z)
f
Z
(z)
dx si f
Z
(z) > 0
0 en otro caso
Demuestre que h(Z) es una versin de la esperanza condicional E[X | Z].
Solucin
Se tiene:
f
X,Z
(x, z) = f
X
(x)f
Y
(z +x) =


2
e
z
e
2x
si x > z, x > 0
0 en otro caso
Por lo tanto:
f
Z
(z) =
R

0

2
e
z
e
2x
dx si z > 0
R

z

2
e
z
e
2x
dx si z 0
=

1
2
e
z
si z > 0
1
2
e
z
si z 0
h(z) =
R

0
2xe
2x
dx si z > 0
R

z
2xe
2(x+z)
dx si z 0
=
R

0
2xe
2x
dx si z > 0
R

0
2(x z)e
2x
dx si z 0
=

1
2
si z > 0
1
2
z si z 0
=
1
2
zI
(,0]
(z)
As que, h(Z) =
1
2
ZI
(,0]
(Z).
Evidentemente h(Z) es una variable aleatoria. Adems:
R

|h(z)| f
Z
(z)dz =
R

x
f
X,Z
(x,z)
f
Z
(z)
dx

f
Z
(z)dz

0
R

|x|
f
X,Z
(x,z)
f
Z
(z)
f
Z
(z)dxdz =
R

|x| f
X,Z
(x, z)dxdz
= E[|X|] <
As que, h(Z) tiene esperanza nita.
Sea ahora f : R 7R cualquier funcin acotada. Se tiene entonces:
E[f(Z)h(Z)] =
R

f(z)h(z)f
Z
(z)dz =
R

f(z)
R

xf
X,Z
(x, z)dxdz
=
R

f(z)xf
X,Z
(x, z)dxdz = E[f(Z)X]
Ejemplo 4.18. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =


2
e
x
si 0 < y < x
0 en otro caso.
Encuentre a) E [X | Y ], b) E

e
X
| Y

, c) E

e
(XY )
| Y

y d) E

e
XY
| Y

.
Solucin
a. f
Y
(y) =
R

y

2
e
x
dx si y > 0
0 en otro caso
=

e
y
si y > 0
0 en otro caso
Por lo tanto:
E[X | Y = y] =
R

y
xe
(xy)
dx si y > 0
0 en otro caso
=

y +
1

si y > 0
0 en otro caso
130 4. ESPERANZAS CONDICIONALES
As que, E[X | Y ] = Y +
1

.
b. E

e
X
| Y = y

=
R

y
e
x
e
(xy)
dx si y > 0
0 en otro caso
=


+1
e
y
si y > 0
0 en otro caso
As que, E

e
X
| Y

=

+1
e
Y
.
c. Las variable aleatorias e
X
y e
(XY )
tienen esperanza nita. Por lo tanto:
E

e
(XY )
| Y

= E

e
X
e
Y
| Y

= e
Y
E

e
X
| Y

= e
Y
+1
e
Y
=

1+
d. E

e
XY
| Y = y

=
R

y
e
xy
e
(xy)
dx si y > 0
0 en otro caso
=


+y
e
y
2
si y > 0
0 en otro caso
As que, E

e
XY
| Y

=

+Y
e
Y
2
.
Ejemplo 4.19. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre a) E[XY | X] y b) E[X | XY ].
Solucin
a. E[XY | X] = XE[Y | X] = XE[Y ] =
1
2
X
b. f
X,XY
(x, v) =
1
|x|
f
X,Y
(x,
v
x
) =

1
x
si 0 < v < x < 1
0 en otro caso
f
XY
(v) =
R

f
X,XY
(x, v)dx =
R
1
v
1
x
dx si 0 < v < 1
0 en otro caso
=

ln v si 0 < v < 1
0 en otro caso
E[X | XY = v] =


R
1
v
1
lnv
dx si 0 < v < 1
0 en otro caso
=

v1
lnv
si 0 < v < 1
0 en otro caso
As que, E[X | XY ] =
XY 1
ln(XY )
.
Ejemplo 4.20. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por f
X,Y
(x, y) = 4xy si 0 < x < 1 y x < y < 1 1 < x < 0 y x < y < 0 . Encuentre
E[X +Y | Y X].
Solucin
f
X+Y,Y X
(u, v) =
1
2
f
X,Y
(
uv
2
,
u+v
2
)
=

1
2
(u
2
v
2
) si v 2 < u < v < 0 0 < v < u < v + 2
0 en otro caso
E[X +Y | Y X = v]
4.4. ESPERANZAS CONDICIONALES EN EL CASO ABSOLUTAMENTE CONTINUO 131
=
(
1
2f
Y X
(v)

R
v
v2
u(u
2
v
2
)du +
R
v+2
v
u(u
2
v
2
) du

si 0 < v < 1
0 en otro caso
= 0
As que, E[X +Y | Y X] = 0.
Ejemplo 4.21. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre a) E [mn(X, Y ) | Y ] y b) E [m ax(X, Y ) | Y ].
Solucin
a. E[mn(X, Y ) | Y = y]
=
(
R
1
0
mn(x, y)
f
X,Y
(x,y)
f
Y
(y)
dx si 0 < y < 1
0 en otro caso
=
R
1
0
mn(x, y)f
X
(x)dx si 0 < y < 1
0 en otro caso
=
R
y
0
xdx +
R
1
y
ydx si 0 < y < 1
0 en otro caso
=

y
1
2
y
2
si 0 < y < 1
0 en otro caso
Por lo tanto, E [mn(X, Y ) | Y ] = Y
1
2
Y
2
.
b. E[max(X, Y ) | Y ] = E[X +Y mn(X, Y ) | Y ]
= E[X] +Y E [mn(X, Y ) | Y ]
=
1
2
+Y

Y
1
2
Y
2

=
1
2
(1 +Y
2
)
Obsrvese en el ltimo ejemplo que si y es un nmero real tal que f
Y
(y) > 0 entonces
E[mn(X, Y ) | Y = y] es simplemente la esperanza (no condicional) de la variable aleato-
ria mn(X, y). Al igual que en el caso discreto, este resultado se puede generalizar. En efecto,
si X y Y son dos variables aleatorias absolutamente continuas independientes, y un nmero
real tal que f
Y
(y) > 0 y g : R
2
7 R una funcin tal que g(X, Y ) y g(X, y) tienen esperanza
nita, entonces se tiene:
E[g(X, Y ) | Y = y] =
R

g(x, y)
f
X,Y
(x,y)
f
Y
(y)
dx =
R

g(x, y)f
X
(x)dx
= E[g(X, y)].
Es decir, la esperanza condicional de g(X, Y ), dado que Y = y, es simplemente la esperanza
(no condicional) de la variable aleatoria g(X, y).
Ejemplo 4.22. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal estndar. Encuentre E[X
n
| X
2
+Y
2
] para cualquier n N.
Solucin
Busquemos una funcin h tal que E[h(X
2
+Y
2
)f(X
2
+Y
2
)] = E[f(X
2
+Y
2
)X
n
] para cual-
quier funcin f acotada.
Como X
2
+Y
2
tiene una distribucin exponencial de parmetro =
1
2
, se tiene:
E[h(X
2
+Y
2
)f(X
2
+Y
2
)] =
1
2
R

0
h(z)f(z)e

z
2
dz.
E[f(X
2
+Y
2
)X
n
] =
1
2
R

f(x
2
+y
2
)x
n
e

1
2
(x
2
+y
2
)
dxdy
=
1
2
R

0
R
2
0
f(r
2
)r
n
cos
n
e

1
2
r
2
rddr =
1
2
R

0
R
2
0
r
n+1
f(r
2
)e

1
2
r
2
cos
n
ddr
132 4. ESPERANZAS CONDICIONALES
= C
R

0
r
n+1
f(r
2
)e

1
2
r
2
dr =
C
2
R

0
z
1
2
n
f(z)e

1
2
z
dz,
en donde C =
1
2
R
2
0
cos
n
d.
Por lo tanto, h(z) = Cz
1
2
n
. Es decir:
E[X
n
| X
2
+Y
2
] = C (X
2
+Y
2
)
n
2
Para n impar, se tiene
R
2
0
cos
n
d = 0.
Para n par, se tiene
R
cos
n
d =
1
n
cos
n1
sen +
n1
n
R
cos
n2
d. As que:
R
2
0
cos
n
d =
n1
n
R
2
0
cos
n2
d = =
13(n1)
24n
2 =
n!
2
n
[(
n
2
)
!
]
2
2
Por lo tanto:
E[X
n
| X
2
+Y
2
] =
(
n!
2
n
[(
n
2
)
!
]
2
(X
2
+Y
2
)
n
2
si n es par
0 si n es impar
4.5. Distribuciones condicionales
Como lo mencionamos con anterioridad, al igual que toda funcin de densidad, la funcin de
densidad condicional de una variable aleatoria discreta X dene una distribucin, la cual es
llamada la distribucin condicional de X dada Y .
Ejemplo 4.23. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

2
N(N+1)
si x y y x, y {1, . . . , N}
0 en otro caso
en donde N es un entero positivo.
Encuentre la funcin de densidad condicional de a) X dado que Y = y, para y {1, . . . , N},
y b) Y dado que X = x, para x {1, . . . , N}.
Solucin
a. f
Y
(y) =
P
N
x=1
f
X,Y
(x, y) =
P
y
x=1
2
N(N+1)
=
2
N(N+1)
y
f
X|Y
(x | y) =
f
X,Y
(x,y)
f
Y
(y)
=

1
y
si x {1, . . . , y}
0 en otro caso
As que, dado que Y = y, X tiene distribucin uniforme en el conjunto {1, . . . , y}.
b. f
X
(x) =
P
N
y=1
f
X,Y
(x, y) =
P
N
y=x
2
N(N+1)
=
2
N(N+1)
(N + 1 x)
f
Y |X
(y | x) =
f
X,Y
(x,y)
f
X
(x)
=

1
N+1x
si y {x, . . . , N}
0 en otro caso
As que, dado que X = x, Y tiene distribucin uniforme en el conjunto {x, . . . , N}.
Ejemplo 4.24. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p y sea Z = mn(X, Y ). Para y {0, 1, . . .}, encuentre la funcin
de densidad condicional de Z dado que Y = y.
Solucin
f
Z|Y
(z | y) =
P[mn(X,Y )=z,Y =y]
P[Y =y]
=
P[mn(X,y)=z,Y =y]
P[Y =y]
= P [mn(X, y) = z]
4.5. DISTRIBUCIONES CONDICIONALES 133
=

P [X = z] si z < y
P [X z] si z = y
0 en otro caso
=

p(1 p)
z
si z {0, . . . , y 1}
(1 p)
z
si z = y
0 en otro caso
Obsrvese en el ltimo ejemplo que si P [Y = y] > 0 entonces la distribucin condicional de
mn(X, Y ), dado que Y = y, es simplemente la distribucin (no condicional) de la variable
aleatoria mn(X, y). Este resultado se puede generalizar. En efecto, si X y Y son dos variables
aleatorias discretas independientes, y un nmero real tal que P [Y = y] > 0 y g : R
2
7 R
cualquier funcin, entonces, para cualquier z R, se tiene:
f
g(X,Y )|Y
(z | y) =
P[g(X,Y )=z,Y =y]
P[Y =y]
=
P[g(X,y)=z,Y =y]
P[Y =y]
= P [g(X, y) = z]
Es decir, la distribucin condicional de g(X, Y ), dado que Y = y, es simplemente la distribu-
cin (no condicional) de la variable aleatoria g(X, y).
Comentario 4.25. En general, dadas dos variables aleatorias discretas, X y Y , la distribu-
cin condicional de g(X, Y ), dado que Y = y, es tambin la distribucin de la variable aleatoria
g(X, y), pero calculada tomando como funcin de densidad de X a la densidad condicional
f
X|Y
, la cual, en general, como se muestra en los ejemplos, depende del valor de Y .
Para hacer ver la ltima armacin, sean X y Y dos variables aleatorias discretas, y un
nmero real tal que P [Y = y] > 0 y g : R
2
7R cualquier funcin. Entonces, para cualquier
z R, se tiene:
f
g(X,Y )|Y
(z | y) =
P[g(X,Y )=z,Y =y]
P[Y =y]
=
P[g(X,y)=z,Y =y]
P[Y =y]
=
P
{x:g(x,y)=z}
P[X=z,Y =y]
P[Y =y]
=
P
{x:g(x,y)=z}
f
X|Y
(x | y).
Tambin se tiene:
F
g(X,Y )|Y
(z | y) = P [g(X, Y ) z | Y = y] = E

I
[g(X,Y )z]
| Y = y

= E

I
{(u,v):g(u,v)z}
(X, Y ) | Y = y

=
P
x
I
{(u,v):g(u,v)z}
(x, y)f
X|Y
(x | y)
=
P
x
I
{u:g(u,y)z}
(x)f
X|Y
(x | y)
Es decir, F
g(X,Y )|Y
(z | y) es la funcin de distribucin de la variable aleatoria g(X, y) calculada
tomando como funcin de densidad de X a la funcin de densidad condicional f
X|Y
.
El comentario 4.25 muestra que la distribucin condicional de una funcin g(X, Y ) de dos
variables aleatorias discretas, X y Y , dado que Y = y, se puede tratar como una distribucin
no condicional si sustituimos a la funcin de densidad de X por la funcin de densidad condi-
cional f
X|Y
. Como se muestra en la siguiente proposicin, esta propiedad se extiende incluso
a la frmula que da la esperanza de una variable aleatoria en trminos de la integral de su
funcin de distribucin.
Proposicin 4.26. Sean X y Y dos variables aleatorias discretas, y un nmero real tal que
P [Y = y] > 0 y g : R
2
7 R una funcin tal que g(X, Y ) tiene esperanza nita. Entonces
R

1 F
g(X,Y )|Y
(z | y)

dz < y
R

0
F
g(X,Y )|Y
(z | y)dz < y se tiene:
E [g(X, Y ) | Y = y] =
R

1 F
g(X,Y )|Y
(z | y)

dz
R

0
F
g(X,Y )|Y
(z | y)dz
Demostracin
Sean x
1
, x
2
, . . . los posibles valores de X. Por el corolario 2.43 del captulo 2, se sabe que
P
k
|g(x
k
, y)| f
X|Y
(x
k
| y) < si y slo si
R

1 F
g(X,Y )|Y
(z | y)

dz < y
R

0
F
g(X,Y )|Y
(z | y)dz < y, en este caso, se tiene:
134 4. ESPERANZAS CONDICIONALES
P
k
g(x
k
, y)f
X|Y
(x
k
| y) =
R

1 F
g(X,Y )|Y
(z | y)

dz
R

1 F
g(X,Y )|Y
(z | y)

dz
Pero, como g(X, Y ) tiene esperanza nita, se tiene
P
k
|g(x
k
, y)| f
X|Y
(x
k
| y) < y
E[g(X, Y ) | Y = y] =
P
k
g(x
k
, y)f
X|Y
(x
k
| y), de lo cual se obtiene el resultado.
Ejemplo 4.27. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p. Para x {0, 1, . . .}, encuentre la funcin de densidad condicional
de X dado que X +Y = z e identique la correspondiente distribucin condicional.
Solucin
f
X|X+Y
(x | z) =
P[X=x,X+Y =z]
P[X+Y =z]
=
P[X=x]P[Y =zx]
P[X+Y =z]
=
(
p(1p)
x
p(1p)
zx
(z+1)p
2
(1p)
z
si x {0, . . . , z}
0 en otro caso
=

1
z+1
si x {0, . . . , z}
0 en otro caso
As que, dado que X +Y = z, X tiene distribucin uniforme en el conjunto {0, . . . , z}.
Para denir el concepto de distribucin condicional en el caso absolutamente continuo se
requiere de la siguiente denicin:
Definicin 4.28 (Probabilidad condicional de un evento dada una variable aleato-
ria). Si A es un evento cualquiera y Y cualquier variable aleatoria, se dene:
P [A | Y ] = E [I
A
| Y ]
Sea (X, Y ) un vector aleatorio absolutamente continuo con funcin de densidad conjunta f
X,Y
.
Para cada y R denamos la funcin x 7f
X|Y
(x | y) de la siguiente manera:
f
X|Y
(x | y) =
(
f
X,Y
(x,y)
f
Y
(y)
si f
Y
(y) > 0
f
X
(x) en otro caso
Obsrvese que, para cualquier y R, la funcin x 7f
X|Y
(x | y) es una funcin de densidad.
Adems, si f
Y
(y) > 0:
P [X x | Y = y] = E

I
(,x]
(X) | Y = y

=
R

I
(,x]
(u)f
X|Y
(u | y)du =
R
x

f
X|Y
(u | y)du.
Por lo tanto, al igual que en el caso discreto, resulta natural denir a la funcin x 7f
X|Y
(x | y)
como la funcin de densidad condicional de X dado que Y = y y a la distribucin que
dene como la distribucin condicional de X dada Y. Tambin denimos a la funcin
x 7F
X|Y
(x | y) = P [X x | Y = y] como la funcin de distribucin condicional de X
dado que Y = y.
Comentario 4.29. Obsrvese que, al igual que en el caso discreto, la denicin de la funcin
de densidad condicional, en el caso absolutamente continuo, est acorde con la denicin de
la esperanza condicional. En efecto, si y es un nmero real tal que f
Y
(y) > 0 y g : R
2
7 R
una funcin tal que g(X, Y ) tiene esperanza nita y
R

|g(x, y)| f
X|Y
(x | y)dx < , entonces
se tiene:
E [g(X, Y ) | Y = y] =
R

g(x, y)
f
X,Y
(x,y)
f
Y
(y)
dx =
R

g(x, y)f
X|Y
(x | y)dx
4.5. DISTRIBUCIONES CONDICIONALES 135
Es decir, dado que Y = y, la esperanza condicional de g(X, Y ) es la esperanza de la variable
aleatoria g(X, y) calculada tomando como funcin de densidad de X a la densidad condicional
f
X|Y
.
Ejemplo 4.30. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =


2
e
x
si 0 < y < x
0 en otro caso
Encuentre a) la distribucin condicional de X dado que Y = y, para y > 0, y b) la distribucin
condicional de Y dado que X = x, para x > 0.
Solucin
a. f
Y
(y) =
R

y

2
e
x
dx si y > 0
0 en otro caso
=

e
y
si y > 0
0 en otro caso
f
X|Y
(x | y) =
(
f
X,Y
(x,y)
f
Y
(y)
si f
Y
(y) > 0
0 en otro caso
=


2
e
x
e
y
si 0 < y < x
0 en otro caso
=

e
(xy)
si 0 < y < x
0 en otro caso
Por lo tanto, dado que Y = y, X y tiene distribucin exponencial de parmetro .
b. f
X
(x) =
R
x
0

2
e
x
dy si x > 0
0 en otro caso
=


2
xe
x
si x > 0
0 en otro caso
f
Y |X
(y | x) =
(
f
X,Y
(x,y)
f
X
(x)
si f
X
(x) > 0
0 en otro caso
=


2
e
x

2
xe
x
si 0 < y < x
0 en otro caso
=

1
x
si 0 < y < x
0 en otro caso
Por lo tanto, dado que X = x, Y tiene distribucin uniforme en el intervalo (0, x).
Ejemplo 4.31. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vector de
esperanzas (
X
,
Y
), vector de varianzas (
2
X
,
2
Y
) y coeciente de correlacin . Demuestre
que la distribucin condicional de Y , dado que X = x, es normal con media
Y
+

X
(x
X
)
y varianza
2
Y
(1
2
).
Solucin
f
Y |X
(y | x) =
f
X,Y
(x,y)
f
X
(x)
=

2
X
exp
h
1
2
2
X
(x
X
)
2
i
1
2
X

1
2
exp

1
2(1
2
)

x
X

2
+

y
Y

2
2
(x
X
)(y
Y
)

=
1

2
Y

1
2
exp

1
2
2
X
(x
X
)
2

1
2(1
2
)

x
X

2
+

y
Y

2
2
(x
X
)(y
Y
)

=
1

2
Y

1
2
exp

1
2(1
2
)

x
X

2
+

y
Y

2
2
(x
X
)(y
Y
)

136 4. ESPERANZAS CONDICIONALES


=
1

2
Y

1
2
exp

1
2
2
Y
(1
2
)

2
Y

x
X

2
+ (y
Y
)
2
2
Y
(x
X
)(y
Y
)

=
1

2
Y

1
2
exp

1
2
2
Y
(1
2
)
h
(y
Y
)
Y

x
X

X
i
2

=
1

2
Y

1
2
exp

1
2
2
Y
(1
2
)
h
y

Y
+

X
(x
X
)
i
2

Ejemplo 4.32. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vector
de esperanzas (0, 0), vector de varianzas (1, 1) y coeciente de correlacin
1
2
. Encuentre e
identique la funcin de densidad de 2X +Y dado que 2Y X = z, para cualquier z R.
Solucin
El vector (2X +Y, 2Y X) se obtiene del vector (X, Y ) mediante una transformacin lineal
invertible. Por lo tanto, la distribucin de (2X + Y, 2Y X) es tambin normal bivariada.
Dado que 2Y X = z, 2X + Y tiene entonces una distribucin normal con media
2X+Y
+

2X+Y

2Y X

z
2Y X

y varianza
2
2X+Y
(1
2
), en donde es el coeciente de correlacin de
la pareja (2X +Y, 2Y X). Adems, se tiene:

2X+Y
=
2Y X
= 0

2
2X+Y
= 4
2
X
+
2
y
+ 4Cov(X, Y ) = 7

2
2Y X
=
2
X
+ 4
2
y
4Cov(X, Y ) = 3
Cov(2X +Y, 2Y X) = E[(2X +Y )(2Y X)]
= 3E[XY ] 2E[X
2
] + 2E[Y
2
] = 3Cov(X, Y ) 2
2
X
+ 2
2
Y
=
3
2
=
Cov(2X+Y,2Y X)

2X+Y

2Y X
=
1
14

21
Por lo tanto, dado que 2Y X = z, 2X+Y tiene distribucin normal con media
1
2
z y varianza
25
4
.
Ejemplo 4.33. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama, X de parmetros y , Y de parmetros y . Encuentre la distribucin condicional
de X dado que X + Y = z, para z > 0. Cul es el mejor estimador de X, en el sentido de
la media cuadrtica, dado que X +Y = z?
Solucin
f
X,X+Y
(x, z) = f
X
(x)f
Y
(z x)
=
(

+
()()
x
1
(z x)
1
e
z
si 0 < x < z
0 en otro caso
f
X+Y
(z) =
(

+
(+)
z
+1
e
z
si z > 0
0 en otro caso
f
X|X+Y
(x | z) =

1
B(,)
z
1
x
1
(z x)
1
si 0 < x < z
0 en otro caso
Observemos que si z es una constante positiva y U es una variable aleatoria con distribucin
beta de parmetros y , entonces la funcin de densidad de la variable aleatoria zU est
dada por:
4.5. DISTRIBUCIONES CONDICIONALES 137
f
zU
(x) =
(
1
z
1
B(,)

x
z

1
(1
x
z
)
1
si 0 < x < z
0 en otro caso
=

1
B(,)
z
1
x
1
(z x)
1
si 0 < x < z
0 en otro caso
Por lo tanto, dado que X +Y = z,
X
z
tiene distribucin beta de parmetros y .
Con base en este resultado, se tiene:
E

X
z
| X +Y = z

=

+
.
As que, E[X | X +Y = z] =
z
+
.
De manera que, dado que X + Y = z, el mejor estimador de X, en el sentido de la media
cuadrtica, es
z
+
.
Ejemplo 4.34. Sean X y Y variables aleatorias independientes, ambas con distribucin ex-
ponencial de parmetro . Encuentre la distribucin condicional de X dado que Y X = z,
para cualquier z R.
Solucin
f
X,Y X
(x, z) = f
X
(x)f
Y
(z +x) =


2
e
z
e
2x
si x > m ax(z, 0)
0 en otro caso
f
Y X
(z) =
R

0

2
e
z
e
2x
dx si z > 0
R

z

2
e
z
e
2x
dx si z 0
=

1
2
e
z
si z > 0
1
2
e
z
si z 0
f
X|Y X
(x | z) =

2e
2x
si z > 0, x > 0
2e
2(x+z)
si z 0, x > z
0 en otro caso
Por lo tanto, dado que Y X = z, X + z tiene distribucin exponencial de parmetro 2 si
z 0 y X tiene distribucin exponencial de parmetro 2 si z > 0.
Ejemplo 4.35. Sean X y Y variables aleatorias independientes, ambas con distribucin ex-
ponencial de parmetro . Encuentre a) la funcin de densidad condicional de X + Y dado
que Y X = v, para cualquier v R, y b) E

(X +Y )
2
| Y X

.
Solucin
a. f
X+Y,Y X
(u, v) =
1
2
f
X

uv
2

f
Y

u+v
2

=

1
2

2
e
u
si u < v < u, u > 0
0 en otro caso
f
Y X
(v) =
R

0
f
X+Y,Y X
(u, v)du =
1
2
R

|v|

2
e
u
du =
1
2
e
|v|
f
X+Y |Y X
(u | v) =
f
X+Y,Y X
(u,v)
f
Y X
(v)
=

e
(u|v|)
si u > |v|
0 en otro caso
Por lo tanto, dado que Y X = v, X +Y |v| tiene distribucin exponencial de parmetro
.
b. Dado Y X = v, sea Z = X +Y |v|, entonces:
E

(X +Y )
2
| Y X = v

= E

(Z +|v|)
2
| Y X = v

= E[Z
2
| Y X = v] + 2 |v| E [Z | Y X = v] +v
2
138 4. ESPERANZAS CONDICIONALES
=
2

2
+
2

|v| +v
2
Por lo tanto, E

(X +Y )
2
| Y X

=
2

2
+
2

|Y X| + (Y X)
2
.
Ejemplo 4.36. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1) y sea Z = mn(X, Y ). Para y (0, 1), encuentre la funcin de
distribucin condicional de Z dado que Y = y.
Solucin
Obsrvese que la funcin de distribucin conjunta de Z y Y no es absolutamente continua.
En efecto, si lo fuera, se tendra P [Z = Y ] = 0, pero P [Z = Y ] = P [X Y ] =
1
2
. La
distribucin de Z, dado el valor de Y , no puede entonces obtenerse mediante la funcin de
densidad condicional f
Z|Y
.
Se tiene:
I
[mn(X,Y )>z]
= I
[X>z]
I
[X>z]
= I
(z,)
(X)I
(z,)
(Y )
As que:
P [mn(X, Y ) > z | Y = y] = E

I
[mn(X,Y )>z]
| Y = y

= E

I
(z,)
(X)I
(z,)
(Y ) | Y = y

=
R

I
(z,)
(x)I
(z,)
(y)f
X|Y
(x | y)dx
=
R
1
0
I
(z,)
(x)I
(z,)
(y)
f
X,Y
(x,y)
f
Y
(y)
dx =
R
1
0
I
(z,)
(x)I
(z,)
(y)f
X
(x)dx
=
R
1
0
I
(z,1)
(x)I
(z,1)
(y)dx =

1 si z 0
1 z si 0 < z < y
0 si z y
Por lo tanto:
F
Z|Y
(z | y) = P [mn(X, Y ) z | Y = y] =

0 si z 0
z si 0 < z < y
1 si z y
Obsrvese que, dado Y = y, la funcin de distribucin condicional de Z no es ni discreta ni
continua. En efecto, evidentemente no es discreta y tiene una discontinuidad en z = y.
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
-0.2 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
z
Obsrvese en el ltimo ejemplo que si f
Y
(y) > 0 entonces la distribucin condicional de
mn(X, Y ), dado que Y = y, es simplemente la distribucin (no condicional) de la variable
aleatoria mn(X, y). Este resultado se puede generalizar. En efecto, si X y Y son dos variables
4.5. DISTRIBUCIONES CONDICIONALES 139
aleatorias absolutamente continuas independientes, y un nmero real tal que f
Y
(y) > 0 y
g : R
2
7R cualquier funcin, entonces, para cualquier z R, se tiene:
F
g(X,Y )|Y
(z | y) = P [g(X, Y ) z | Y = y] = E

I
[g(X,Y )z]
| Y = y

= E

I
[g(X,y)z]

= P [g(X, y) z] = F
g(X,y)
(z)
Es decir, la distribucin condicional de g(X, Y ), dado que Y = y, es simplemente la distribu-
cin (no condicional) de la variable aleatoria g(X, y).
Comentario 4.37. En general, dado un vector aleatorio absolutamente continuo, (X, Y ), la
distribucin condicional de g(X, Y ), dado que Y = y, es tambin la distribucin de la variable
aleatoria g(X, y), pero calculada tomando como funcin de densidad de X a la funcin de
densidad condicional f
X|Y
, la cual, en general, como se muestra en los ejemplos, depende del
valor de Y .
Para hacer ver la ltima armacin, sea (X, Y ) un vector aleatorio absolutamente continuo,
y un nmero real tal que P [Y = y] > 0 y g : R
2
7 R cualquier funcin. Entonces, para
cualquier z R, se tiene:
F
g(X,Y )|Y
(z | y) = P [g(X, Y ) z | Y = y] = E

I
[g(X,Y )z]
| Y = y

= E

I
{(u,v):g(u,v)z}
(X, Y ) | Y = y

=
R

I
{(u,v):g(u,v)z}
(x, y)f
X|Y
(x | y)dx
=
R

I
{u:g(u,y)z}
(x)f
X|Y
(x | y)dx
Es decir, F
g(X,Y )|Y
(z | y) es la funcin de distribucin de la variable aleatoria g(X, y), pero
calculada tomando como funcin de densidad de X a la funcin de densidad condicional f
X|Y
.
Los comentarios 4.29 y 4.37 muestran que, al igual que en el caso discreto, la distribucin
condicional de una funcin g(X, Y ) de un vector aleatorio absolutamente continuo, (X,Y ),
dado que Y = y, se puede tratar como una distribucin no condicional si sustituimos a la
funcin de densidad de X por la funcin de densidad condicional f
X|Y
. Como se muestra en
la siguiente proposicin, al igual que en el caso discreto, esta propiedad se extiende incluso
a la frmula que da la esperanza de una variable aleatoria en trminos de la integral de su
funcin de distribucin.
Proposicin 4.38. Sea (X,Y ) un vector aleatorio absolutamente continuo, y un nmero
real tal que f
Y
(y) > 0 y g : R
2
7 R una funcin tal que g(X, Y ) tiene esperanza nita y
R

|g(x, y)| f
X|Y
(x | y)dx < . Entonces
R

1 F
g(X,Y )|Y
(z | y)

dz < y
R

0
F
g(X,Y )|Y
(z | y)dz < y se tiene:
E[g(X, Y ) | Y = y] =
R

1 F
g(X,Y )|Y
(z | y)

dz
R

0
F
g(X,Y )|Y
(z | y)dz.
Demostracin
Se sabe, por el corolario 2.45, que
R

|g(x, y)| f
X|Y
(x | y)dx < si y slo si
R

1 F
g(X,Y )|Y
(z | y)

dz <
y
R

0
F
g(X,Y )|Y
(z | y)dz < y, en este caso, se tiene:
R

g(x, y)f
X|Y
(x | y)dx =
R

1 F
g(X,Y )|Y
(z | y)

dz
R

1 F
g(X,Y )|Y
(z | y)

dz
Pero se tiene E[g(X, Y ) | Y = y] =
R

g(x, y)f
X|Y
(x | y)dx, de lo cual se sigue el resultado.
En el caso del ejemplo 4.36, se tiene:
140 4. ESPERANZAS CONDICIONALES
E[Z | Y = y] =
R
y
0

1 F
Z|Y
(z | y)

dz =
R
y
0
(1 z) dz = y
1
2
y
2
Por lo tanto, E[Z | Y ] = Y
1
2
Y
2
.
Ejemplo 4.39. Supongamos que un cierto evento ocurre en los tiempos aleatorios T
1
, T
2
, . . .,
de tal manera que si, para t 0, X
t
es el nmero de veces que ocurre el evento hasta el
tiempo t, entonces la familia de variables aleatorias {X
t
}
t0
forma un proceso de Poisson de
parmetro . Vamos a encontrar la distribucin conjunta de T
1
, . . . , T
n
, dado que T
n+1
= t,
en donde t > 0 y n N.
Recordemos que:
f
T
1
,...,T
n+1
(t
1
, . . . , t
n+1
) =


n
e
t
n
si 0 < t
1
< < t
n+1
0 en otro caso
Adems, T
n+1
= T
1
+ (T
2
T
1
) + + (T
n+1
T
n
), as que T
n+1
tiene distribucin gama de
parmetros = n + 1 y .
Sean 0 < t
1
< t
2
< < t
n
, entonces:
f
T
1
,...,Tn|T
n+1
(t
1
, . . . , t
n
| t) =
f
T
1
,...,T
n+1
(t
1
,...,tn,t)
f
T
n+1
(t)
=

n!
n+1
e
t

n+1
t
n
e
t
si 0 < t
1
< < t
n
< t
0 en otro caso
=

n!
t
n
si 0 < t
1
< < t
n
< t
0 en otro caso
Por lo tanto, dado que T
n+1
= t, la distribucin conjunta de T
1
, . . . , T
n
es la misma que la de
los estadsticos de orden correspondientes a n variables aleatorias independientes, todas con
distribucin uniforme en el intervalo (0, t).
4.6. Regla general de la probabilidad total
Sea X una variable aleatoria de esperanza nita y Y cualquier variable aleatoria. Entonces
sabemos que la esperanza condicional E[X | Y ] existe y, por el inciso iv de la proposicin
4.13, se tiene:
E[X] = E[E[X | Y ]]
Esta propiedad de la esperanza condicional resulta sumamente til en la solucin de muchos
problemas.
Obsrvese que, en el caso en que la variable aleatoria Y sea discreta, tal propiedad se expresa
de la siguiente manera:
E[X] =
P
y
E[X | Y = y] P [Y = y]
Frmula que generaliza la regla de la probabilidad total.
En el caso en que Y sea una variable aleatoria absolutamente continua, se tiene:
E[X] =
R

E[X | Y = y] f
Y
(y)dy
Frmula que tambin puede verse como una generalizacin, al caso continuo, de la regla de la
probabilidad total.
4.6. REGLA GENERAL DE LA PROBABILIDAD TOTAL 141
Con base en lo anterior, la relacin E [X] = E[E[X | Y ]] ser llamada en lo sucesivo la regla
general de la probabilidad total.
Ejemplo 4.40. Sea N una variable aleatoria con distribucin binomial de parmetros m y
q y supongamos que, para cada valor n de N, X es una variable aleatoria con distribucin
binomial de parmetros n y p. Encuentre E[X] y V ar(X).
Solucin
E[X] = E [E[X | N]] =
P
m
n=0
E[X | N = n] P [N = n]
=
P
m
n=0
npP [N = n] = pE[N] = mpq
E[X
2
] = E [E[X
2
| N]] =
P
m
n=0
E[X
2
| N = n] P [N = n]
=
P
m
n=0
[np(1 p) +n
2
p
2
] P [N = n]
= p(1 p)E [N] +p
2
E [N
2
] = p(1 p)mq +p
2
[mq(1 q) +m
2
q
2
]
As que:
V ar(X) = E(X
2
) [E(X)]
2
= p(1 p)mq +p
2
[mq(1 q) +m
2
q
2
] m
2
p
2
q
2
= p(1 p)mq +p
2
mq(1 q) = mpq(1 pq)
Ejemplo 4.41. Sea Y una variables aleatoria con distribucin exponencial de parmetro
y supongamos que, para cada valor y de Y , X es una variable aleatoria con distribucin
exponencial de parmetro
1
y
. Encuentre E[X] y V ar(X).
Solucin
E[X] = E [E[X | Y ]] =
R

0
E[X | Y = y] f
Y
(y)dy
=
R

0
yf
Y
(y)dy = E [Y ] =
1

.
E[X
2
] = E [E[X
2
| Y ]] =
R

0
E[X
2
| Y = y] f
Y
(y)dy
=
R

0
2y
2
f
Y
(y)dy = 2E [Y
2
] =
4

2
As que:
V ar(X) = E(X
2
) [E(X)]
2
=
4

2

1

2
=
3

2
Ejemplo 4.42. Una urna contiene 10 bolas rojas y 20 bolas negras. Se van seleccionando
bolas de la urna al azar, una a una y con reemplazo, hasta que se obtienen 4 bolas rojas en
forma consecutiva. Si X es el nmero de bolas seleccionadas hasta que se detiene el proceso,
encuentre E[X].
Solucin
Sea Y el nmero de elecciones que se realizan hasta obtener una bola negra por primera vez.
entonces:
P [Y = k] =

2
3

1
3

k1
si k N
0 en otro caso
Considerando ahora que si la primera bola negra se obtiene en alguna de las primeras 4
elecciones entonces se vuelve a la situacin del inicio, se tiene, para k N:
E[X | Y = k] =

k +E[X] si k {1, 2, 3, 4}
4 en otro caso
As que:
142 4. ESPERANZAS CONDICIONALES
E[X] =
P

k=1
E [X | Y = k] P [Y = k]
=
P
4
k=1
(k +E[X])
2
3

1
3

k1
+
P

k=5
4
2
3

1
3

k1
=
2
3
P
4
k=1
k

1
3

k1
+
2
3
E [X]
P
4
k=1

1
3

k1
+
8
3
P

k=5

1
3

k1
=
116
81
+
80
81
E [X] +
4
81
=
40
27
+
80
81
E[X]
Por lo tanto, E[X] = 120.
Ejemplo 4.43. Una urna contiene inicialmente a bolas azules y r bolas rojas. Se agregan
s bolas rojas a la urna e inmediatamente despus se seleccionan, al azar y sin reemplazo, s
bolas de la misma. Supongamos que este proceso se repite indenidamente y llamemos X
n
al nmero de bolas azules que quedan en la urna despus del paso n. Encuentre E [X
n
] para
cualquier n N.
Solucin
Despus del paso n, hay a+r bolas en la urna, de las cuales X
n
son azules. Al agregar s bolas
rojas, quedan en la urna a +r +s bolas, de las cuales X
n
son azules. Al tomar una muestra
sin reemplazo de s bolas de esta urna, la distribucin del nmero de bolas azules que salen en
la muestra es hipergeomtrica, de manera que su valor esperado est dado por
sX
n
a+r+s
. As que:
E[X
n+1
| X
n
] = X
n

sX
n
a+r+s
=
a+r
a+r+s
X
n
Por lo tanto, para n N, se tiene:
E[X
n+1
] = E[E(X
n+1
| X
n
)] =
a+r
a+r+s
E [X
n
]
As que:
E[X
n
] =

a+r
a+r+s

n1
E[X
1
] =

a+r
a+r+s

n1
a+r
a+r+s
a = a

a+r
a+r+s

n
Ejemplo 4.44. Supongamos que el nmero de personas que entran a un elevador, en la planta
baja de un edicio de N pisos, tiene una distribucin Poisson de parmetro . Supongamos,
adems, que cada persona que sube al elevador baja de l, al azar, en cualquiera de los N
pisos, independientemente de donde bajen las otras personas. Encuentre el nmero esperado
de paradas que hace el elevador hasta que bajan todas las personas.
Solucin
Sea Y el nmero de personas que suben al elevador en la planta baja y X el nmero de paradas
que hace el elevador hasta que bajan todas las personas y denamos las variables aleatorias
X
1
, X
2
, . . . , X
N
de la siguiente manera:
X
i
=

1 si el elevador para en el piso i
0 si el elevador no para en el piso i
Se tiene X =
P
N
i=1
X
i
y, para k {0, 1, . . .}:
E[X
i
| Y = k] = 1

1
1
N

k
As que:
E[X | Y = k] =
P
N
i=1
E[X
i
| Y = k] = N
h
1

1
1
N

k
i
Por lo tanto:
E[X] =
P

k=0
E [X | Y = k] P [Y = k] =
P

k=0
N
h
1

1
1
N

k
i
e

k
k!
4.6. REGLA GENERAL DE LA PROBABILIDAD TOTAL 143
= Ne

k=0

k
k!

P

k=0

k
(
1
1
N
)
k
k!

= Ne

h
e

e
(1
1
N
)
i
= N
h
1 e

N
i
Ejemplo 4.45. Sea Y
1
un nmero que se elige al azar en el intervalo (0, 1), Y
2
un nmero que
se elige al azar en el intervalo (1 Y
1
, 1), Y
3
un nmero que se elige al azar en el intervalo
(1 Y
2
, 1), etc. Encuentre E[Y
n
] para cualquier n N.
Solucin
Para n N, se tiene:
E[Y
n+1
] = E [E(Y
n+1
| Y
n
)] = E

1
1
2
Y
n

= 1
1
2
E[Y
n
]
Por lo tanto:
E[Y
n
] =
P
n
k=0
(1)
k 1
2
k
=
2
3

1 (1)
n+1 1
2
n+1

En el caso en que el vector aleatorio (X, Y ) sea discreto, la regla de la probabilidad total nos
permite escribir la relacin:
f
X
(x) =
P
y
f
X|Y
(x | y)f
Y
(y)
para cualquier x R
En el caso absolutamente continuo se tiene la relacin anloga, de acuerdo con la siguiente
proposicin:
Proposicin 4.46. Sea (X, Y ) un vector aleatorio absolutamente continuo, entonces:
f
X
(x) =
R

f
X|Y
(x | y)f
Y
(y)dy
paracualquier x R.
Demostracin.
P [X x] = E

I
[Xx]

=
R

I
[Xx]
| Y = y

f
Y
(y)dy
=
R

P [X x | Y = y] f
Y
(y)dy =
R

R
x

f
X|Y
(u | y)f
Y
(y)dudy
=
R
x

f
X|Y
(u | y)f
Y
(y)dydu
de lo cual se sigue el resultado.
Ejemplo 4.47. Sea N una variable aleatoria con distribucin binomial de parmetros m y
q y supongamos que, para cada valor n de N, X es una variable aleatoria con distribucin
binomial de parmetros n y p. Encuentre la funcin de densidad de X.
Solucin
Para k {0, . . . , m}, se tiene:
P [X = k] =
P
m
n=k
P [X = k | N = n] P [N = n]
=
P
m
n=k

n
k

p
k
(1 p)
nk

m
n

q
n
(1 q)
mn
=

m
k

(pq)
k
P
m
n=k
(
n
k
)(
m
n
)
(
M
k
)
[q(1 p)]
nk
(1 q)
mn
=

m
k

(pq)
k
P
mk
n=0
(
n+k
k
)(
m
n+k
)
(
M
k
)
[q(1 p)]
n
(1 q)
mkn
144 4. ESPERANZAS CONDICIONALES
=

m
k

(pq)
k
P
mk
n=0

mk
n

[q(1 p)]
n
(1 q)
mkn
=

m
k

(pq)
k
[q(1 p) + (1 q)]
mk
=

m
k

(pq)
k
[1 pq]
mk
As que, X tiene distribucin binomial de parmetros m y pq.
El resultado puede interpretarse de la siguiente manera:
Para evaluar N, se realizan m ensayos de Bernoulli independientes con probabilidad de xito q
en cada ensayo. El valor de X puede entonces: obtenerse de la siguiente manera: Comenzando
con el valor X = 0, para cada uno de los m ensayos, si hay xito, se realiza un ensayo de
Bernoulli, independiente de cualquier otro ensayo, con probabilidad de xito p. Si hay xito
en este ltimo ensayo, entonces el valor de X se incrementa en 1. En otras palabras, el valor
de X se incrementa en 1 nicamente cuando hay xito en ambos ensayos de Bernoulli, lo cual
ocurre con probabilidad pq. As, X cuenta el nmero de xitos en una sucesin de m ensayos
de Bernoulli independientes, en cada uno de los cuales la probabilidad de xito es igual a pq.
Ejemplo 4.48. Sea Y una variables aleatoria con distribucin exponencial de parmetro
y supongamos que, para cada valor y de Y , X es una variable aleatoria con distribucin
exponencial de parmetro y. Encuentre a) la funcin de densidad de X, b) la funcin de
densidad condicional de Y dado que X = x, para cada x R tal que f
X
(x) > 0, y c)
E[Y | X].
Solucin
a. Se tiene:
f
X|Y
(x | y) =

ye
xy
si x > 0 y y > 0
0 en otro caso
As que:
f
X
(x) =
R

0
f
X|Y
(x | y)f
Y
(y)dy =
R

0
ye
xy
e
y
dy si x > 0
0 en otro caso
=
R

0
ye
(+x)y
dy si x > 0
0 en otro caso
=


(+x)
2
si x > 0
0 en otro caso
b. Se tiene:
f
X,Y
(x, y) = f
X|Y
(x | y)f
Y
(y) =

ye
y(+x)
si x > 0 y y > 0
0 en otro caso
As que:
f
Y |X
(y | x) =
(
ye
y(+x)

(+x)
2
si x > 0 y y > 0
0 en otro caso
=

( +x)
2
ye
y(+x)
si x > 0 y y > 0
0 en otro caso
c. De acuerdo con el resultado en la parte b, si x R es tal que f
X
(x) > 0, entonces, dado que
X = x, Y tiene una distribucin gama de parmetros 2 y +x. As que, E[Y | X] =
2
+X
.
Ejemplo 4.49. Sea X un nmero que se elige al azar en el intervalo (0, 1) y Y un nmero
que se elige al azar en el intervalo (1 X, 1). Encuentre la funcin de densidad de Y .
Solucin
Se tiene:
4.6. REGLA GENERAL DE LA PROBABILIDAD TOTAL 145
f
Y |X
(y | x) =

1
x
si 0 < 1 x < y < 1
0 en otro caso
Por lo tanto:
f
Y
(y) =
R
1
0
f
Y |X
(y | x)f
X
(x)dx =
R
1
1y
1
x
dx si 0 < y < 1
0 en otro caso
=

ln(1 y) si 0 < y < 1
0 en otro caso
Ejemplo 4.50 (Procesos de ramicacin). Supongamos que una persona tiene un gen, el
cual se produjo por una mutacin de un gen que se transmite de generacin en generacin.
Esta persona tiene descendientes, cada uno de los cuales puede o no poseer el gen mutado.
Supongamos adems que, considerando nicamente las personas de la poblacin que posen
el gen mutado en un momento dado, el nmero de hijos, que posen el gen mutado, de cada
individuo de la poblacin es independiente del nmero de personas en la poblacin y del nmero
de hijos, que posen el gen mutado, de los otros individuos de la poblacin y est dado por una
variable aleatoria Z de esperanza nita tal que P [Z = 0] > 0 y P [Z = 0] + P [Z = 1] < 1.
Consideremos a los descendientes de la persona en consideracin por generaciones, siendo los
hijos la primera generacin, los nietos la segunda, etc. Para cada n N, sea X
n
el nmero
de individuos en la generacin n que posen el gen mutado. Vamos a encontrar E[X
n
] y
P [lm
n
X
n
= 0]. Este ltimo lmite es llamado la probabilidad de extincin del gen mutado.
Para k N, dado que X
n1
= k, X
n
se puede expresar como la suma de k variables aleatorias
independientes Z
1
, . . . , Z
k
cada una de las cuales tiene la misma distribucin que Z y que
tambin son independientes de X
n1
, as que:
E[X
n
] =
P

k=1
E[X
n
| X
n1
= k] P [X
n1
= k]
=
P

k=1
E
h
P
k
j=1
Z
j
| X
n1
= k
i
P [X
n1
= k]
=
P

k=1

P
k
j=1
E[Z
j
]

P [X
n1
= k]
=
P

k=1
(kE[Z]) P [X
n1
= k] = E [Z]
P

k=1
kP [X
n1
= k] = E[Z] E[X
n1
]
Por lo tanto, E [X
n
] = (E[Z])
n
.
Para la segunda parte, obsrvese que:
P [lm
n
X
n
= 0]
= P [{ : Existe N() tal que X
n
() = 0 para cualquier n N()}]
= P [{ : X
n
() = 0 para alguna n N}]
= P (
S

n=1
[X
n
= 0])
Adems la sucesin de eventos [X
n
= 0] es montona creciente, as que:
P (
S

n=1
[X
n
= 0]) = lm
n
P [X
n
= 0]
Por lo tanto:
P [lm
n
X
n
= 0] = lm
n
P [X
n
= 0]
Sea la funcin generadora de probabilidades de Z. Entonces es continua en el intervalo
[1, 1] y diferenciable en el intervalo (1, 1). Adems, como P [Z = 0] + P [Z = 1] < 1,
146 4. ESPERANZAS CONDICIONALES
entonces
0
(t) > 0 para cualquier t (0, 1), as que es estrictamente creciente en el intervalo
[0, 1].
Por otra parte:
E

t
X
n
| X
n1
= k

= E
h
t

k
j=1
Z
j
| X
n1
= k
i
= E
h
t

k
j=1
Z
j
i
=
Z
1
(t)
Z
2
(t)
Z
k
(t) = [(t)]
k
As que:

Xn
(t) = E

t
Xn

= E

t
Xn
| X
n1

= E

[(t)]
X
n1

=
X
n1
((t))
Por lo tanto:

X
n
(t) =

X
n1

(t) =

X
n2

(t)
= =

X
1

(n1)

(t) =
(n)
(t)
Sea p
n
= P [X
n
= 0] =
X
n
(0) =
(n)
(0), entonces:
p
n+1
=
(n+1)
(0) = (
(n)
(0)) = (p
n
)
La sucesin (p
n
) es montona creciente pues p
1
= P [X
1
= 0] = (0) y p
2
= (p
1
) > (0) =
p
1
. Adems, si p
n
> p
n1
, entonces p
n+1
= (p
n
) > (p
n1
) = p
n
.
Sea p = lm
n
p
n
, entonces p = (p).
Sea r 0 tal que r = (r), entonces p
n
=
(n)
(0)
(n)
(r) = r, as que p r. Por lo tanto,
p es la ms pequea solucin, en el intervalo [0, 1], de la ecuacin r = (r).
Como (1) = 1 y (0) = P [Z = 0] > 0, r = 1 es solucin de r = (r) y r = 0 no lo
es. Analicemos ahora la funcin para determinar en que casos existe alguna solucin en el
intervalo (0, 1). Se tiene:
(t) = E

t
Z

=
P

k=0
t
k
P [Z = k]

0
(t) = E

Zt
Z1

=
P

k=1
kt
k1
P [Z = k]

00
(t) = E

Z(Z 1)t
Z2

=
P

k=2
k(k 1)t
k2
P [Z = k]

0
es continua y diferenciable en el intervalo (1, 1). Adems, como P [Z = 0]+P [Z = 1] < 1,
entonces
00
(t) > 0 para cualquier t (0, 1), as que
0
es estrictamente creciente en el
intervalo [0, 1).
Sea f(t) = t (t). f es entonces continua en el intervalo [1, 1] y diferenciable en el
intervalo (1, 1). Por otra parte, f
0
(t) = 1
0
(t). As que f
0
es continua y estrictamente
decreciente en el intervalo [0, 1). Adems:
f
0
(0) = 1
0
(0) = 1 P [Z = 1] > 0.
Por lo tanto se tienen los siguientes dos casos:
a) Si E[Z] = lm
t1

0
(t) > 1, entonces lm
t1
f
0
(t) < 0, as que, por el teorema del
valor intermedio, existe exactamente un punto t
0
(0, 1) tal que f
0
(t
0
) = 0. Como f
00
(t) =

00
(t) < 0 para cualquier t (0, 1), f, restringida al intervalo [0, 1], alcanza su valor mximo
en t
0
y como f(1) = 0, entonces f(t
0
) > 0. Adems, f(0) = (0) = P [Z = 0] < 0, as
que, por el teorema del valor intermedio, existe r (0, 1) tal que f(r) = 0, es decir (r) = r.
Por lo tanto, en este caso se tiene:
p = lm
n
P [X
n
= 0] (0, 1)
4.6. REGLA GENERAL DE LA PROBABILIDAD TOTAL 147
A continuacin se ilustran las grcas de f y de en este caso.
-0.1
-0.05
0
0.05
0.1
0.15
0.2 0.4 0.6 0.8 1
t
f
0
0.2
0.4
0.6
0.8
1
0.2 0.4 0.6 0.8 1
p

b) Si E[Z] = lm
t1

0
(t) 1, entonces lm
t1
f
0
(t) 0, as que f
0
(t) > 0 para cualquier
t [0, 1), de manera que f es estrictamente creciente en el intervalo [0, 1]. Por lo tanto
f(t) < 0 para cualquier t [0, 1), ya que f(1) = 0. De manera que no existe r (0, 1) tal que
f(r) = 0. Por lo tanto, en este caso, se tiene:
p = lm
n
P [X
n
= 0] = 1
A continuacin se ilustran las grcas de f y de en este caso.
-0.3
-0.2
-0.1
0
0.2 0.4 0.6 0.8 1
t
f
0
0.2
0.4
0.6
0.8
1
0.2 0.4 0.6 0.8 1
p

Ejemplo 4.51 (Funcin generadora de la suma de un nmero aleatorio de sumandos). Sea


Z
1
, Z
2
, . . . una sucesin de variables aleatorias independientes e idnticamente distribuidas con
funcin generadora de momentos comn y X, Y una pareja de variables aleatorias tales que
X toma nicamente valores enteros no negativos, es independiente de Z
1
, Z
2
, . . ., y, para cada
valor k de X, Y =
P
k
j=1
Z
j
. Encuentre la funcin generadora de Y .
Solucin
E

t
Y
| X = k

= E
h
t

k
j=1
Z
j
| X = k
i
= E
h
t

k
j=1
Z
j
i
=
Z
1
(t)
Z
k
(t) = [(t)]
k
As que:
148 4. ESPERANZAS CONDICIONALES

Y
(t) = E

t
Y

= E

t
Y
| X

= E

[(t)]
X

=
X
((t))
4.7. Distribuciones condicionales en el caso mixto
Sea X es una variable aleatoria discreta y Y una variable aleatoria absolutamente continua.
Para cualquier pareja (x, y) R
2
, denamos la funcin f
X|Y
(x | y) = h(y), en donde h(Y )
es una versin de P [X = x | Y ]. Esta funcin ser llamada la funcin de densidad condi-
cional de X dado que Y = y.
Obsrvese que si P [X = x] = 0, entonces una versin de P [X = x | Y ] es la variable aleato-
ria idnticamente cero, as que, en este caso, se puede tomar h idnticamente cero, lo cual
asumiremos en lo que sigue.
Proposicin 4.52. Para cualquier x R, se tiene:
P [X = x] =
R

f
X|Y
(x | y)f
Y
(y)dy
Demostracin
P [X = x] = E [P [X = x | Y ]] =
R

f
X|Y
(x | y)f
Y
(y)dy
Proposicin 4.53. Para cualesquiera x, a, b R, con a < b, se tiene:
P [X = x, a < Y < b] =
R
b
a
f
X|Y
(x | y)f
Y
(y)dy
Demostracin
P [X = x, a < Y < b | Y ] = E

I
[X=x]
I
(a,b)
(Y ) | Y

= I
(a,b)
(Y )E

I
[X=x]
| Y

= I
(a,b)
(Y )P [X = x | Y ]
Por lo tanto:
P [X = x, a < Y < b] = E

I
(a,b)
(Y )P [X = x | Y ]

=
R

I
(a,b)
(y)P [X = x | Y = y] f
Y
(y)dy =
R
b
a
P [X = x | Y = y] f
Y
(y)dy
=
R
b
a
f
X|Y
(x | y)f
Y
(y)dy
Denamos:
f
Y |X
(y | x) =
(
f
X|Y
(x|y)f
Y
(y)
P[X=x]
si P [X = x] > 0
0 en otro caso
Por la proposicin 4.52, si P [X = x] > 0, la funcin y 7 f
Y |X
(y | x) es una funcin de
densidad. Adems, por la proposicin 4.53, se tiene:
P [a < Y < b | X = x] =
R
b
a
f
Y |X
(y | x)dy
Resulta entonces natural denir a la funcin y 7f
Y |X
(y | x) como la funcin de densidad
condicional de Y dado que X = x y a la distribucin que dene como la distribucin
condicional de Y dado que X = x.
Obsrvese que se tiene f
Y |X
(y | x)f
X
(x) = f
X|Y
(x | y)f
Y
(y) para cualquier pareja (x, y) R
2
.
Se puede entonces denir f
X,Y
(x, y) = f
X|Y
(x | y)f
Y
(y) para cualquier pareja (x, y) R
2
.
4.7. DISTRIBUCIONES CONDICIONALES EN EL CASO MIXTO 149
Por la proposicin 4.53 se tiene P [X = x, a < Y < b] =
R
b
a
f
X,Y
(x, y)dy. De manera que tiene
sentido denir a la funcin f
X,Y
como la funcin de densidad conjunta de la pareja
(X, Y).
Obsrvese que la relacin que dene a la funcin f
Y |X
puede verse como una frmula de Bayes.
Mediante ella se puede obtener la distribucin condicional de Y , dado que X = x, a partir
de la distribucin condicional de X dado que Y = y. Esto no es casual pues, en un caso
particular, esta frmula est implcita en un resultado de Thomas Bayes, el cual motiva que el
mtodo que consiste en calcular una probabilidad condicional P(A | B) a partir de P(B | A)
se conozca como la regla de Bayes. ste en realidad no demostr la regla para el caso de dos
eventos A y B, la cual estaba ya implcita, por lo menos, en el trabajo previo de Abraham de
Moivre. La aportacin de Bayes es en realidad ms signicativa pues se reere a un problema
de distribuciones mixtas. El resultado original de Bayes se trata en el siguiente ejemplo:
Ejemplo 4.54. En el ao 1763 se public un artculo de Thomas Bayes
1
en el cual se plantea
y resuelve el siguiente problema:
Dado el nmero de veces en el cual un evento desconocido ha ocurrido y fallado,
encontrar la probabilidad (chance) de que su probabilidad de ocurrencia en un
ensayo est comprendida entre dos valores dados.
Para resolver este problema, Bayes consider un plano ABCD, el cual est hecho de tal
manera que si una bola es lanzada sobre l, entonces: habr la misma probabilidad de que
permanezca en cualquiera de dos partes iguales del plano y necesariamente permanecer sobre
ste.
Una bola W es lanzada primero y, a travs del punto en donde cae, se traza una recta paralela
a AD, la cual corta al segmento AB en el punto s.
C D
A s B
Despus de lanzar la bola W, se lanza una bola O n veces sobre el plano. En cada lanzamiento
se dir que el evento M ocurre si la bola O cae en el rectngulo sA.
Bayes mostr que cuando n est dado, antes de que la bola W sea lanzada, lo cual determina
la probabilidad de ocurrencia del evento M, la probabilidad de que el evento M ocurra k veces
en los n ensayos es la misma para cualquier k. Argumentaba tambin que el evento cuya
probabilidad de ocurrencia se quiere estimar tiene la misma propiedad pues, antes de disponer
de informacin sobre el nmero de veces que ocurre en n ensayos, no hay razn para pensar
1
An essay towards solving a problem in the doctrine of chances, Philos. Trans. Roy. Soc. London, Ser.
A, 53, 1763. Reproducido en Biometrika 45, 1958.
150 4. ESPERANZAS CONDICIONALES
que, en un cierto nmero de ensayos, debera ocurrir algn nmero de veces en lugar de
otro. Con base en esto concluy que el problema planteado originalmente se puede resolver
encontrando la probabilidad de ocurrencia del evento M sabiendo que ste ocurre k veces en
los n ensayos. Si llamamos p a la probabilidad de ocurrencia del evento M, X al nmero
de ocurrencias del evento M en los n ensayos y 0 < a < b < 1, entonces Bayes lleg a los
siguientes resultados:
P(X = k | p = y) =

n
k

y
k
(1 y)
nk
P(X = k, a < p < b) =
R
b
a
P(B | p = y)dy =
R
b
a

n
k

y
k
(1 y)
nk
dy
P(X = k) =
R
1
0
P(X = k | p = y)dy =
R
1
0

n
k

y
k
(1 y)
nk
dy
P [a < p < b | X = k] =
P(X=k,a<p<b)
P(X=k)
=
_
b
a
(
n
k
)
y
k
(1y)
nk
dy
_
1
0
(
n
k
)
y
k
(1y)
nk
dy
En lenguaje moderno, lo que hizo Bayes fue resolver un problema de distribuciones condi-
cionales. Si p es la probabilidad de ocurrencia de un evento al realizar un cierto experimento
aleatorio y X es el nmero de veces en los cuales el evento ocurre al repetir n veces el ex-
perimento, Bayes se plante el problema de encontrar la distribucin condicional de p dado
que X = k, asumiendo que p es una cantidad que originalmente se selecciona al azar en el
intervalo (0, 1).
Conociendo el valor de p, X tiene una distribucin binomial de parmetros n y p. De manera
que el problema de Bayes equivale al siguiente:
Sea Y una variable aleatoria con distribucin uniforme en el intervalo (0, 1) y supongamos que,
para cada valor y de Y , X es una variable aleatoria con distribucin binomial de parmetros
n y p = y. Encontrar la distribucin condicional de Y dado que X = k, para k {0, . . . , n}.
Este problema, de acuerdo con los resultados demostrados arriba, se resuelve de la siguiente
manera:
Dados y (0, 1) y k {0, . . . , n} , se tiene:
f
X|Y
(k | y) = P [X = k | Y = y] =

n
k

y
k
(1 y)
nk
Por lo tanto:
P [X = k] =
R

f
X|Y
(k | y)f
Y
(y)dy =
R
1
0

n
k

y
k
(1 y)
nk
dy
f
Y |X
(y | k) =
f
X|Y
(k|y)f
Y
(y)
P[X=k]
=
(
n
k
)
y
k
(1y)
nk
_
1
0
(
n
k
)
y
k
(1y)
nk
dy
Es decir, dado que X = k, Y tiene distribucin beta de parmetros k + 1 y n k + 1.
As que, si 0 < a < b < 1, se tiene:
P [a < Y < b | X = k] =
R
b
a
f
Y |X
(y | k)dy =
_
b
a
(
n
k
)
y
k
(1y)
nk
dy
_
1
0
(
n
k
)
y
k
(1y)
nk
dy
De esta manera tenemos lo que se puede llamar el teorema de Bayes:
Cuando lo nico que se conoce de un evento A es que ha ocurrido k veces y fallado
n k en n ensayos, entonces su probabilidad de ocurrencia puede considerarse
como seleccionada de una poblacin Y con distribucin beta de parmetros k +1
y n k +1.
4.7. DISTRIBUCIONES CONDICIONALES EN EL CASO MIXTO 151
Obsrvese que, efectivamente, como lo arm Bayes, antes de conocer el valor de p, la proba-
bilidad de que el evento M ocurra k veces en los n ensayos, es decir P [X = k], es la misma
para cualquier k. Especicamente, se tiene:
P [X = k] =
R
1
0

n
k

y
k
(1 y)
nk
dy =

n
k

B(k + 1, n k + 1)
=

n
k

(k+1)(nk+1)
(n+2)
=

n
k

k!(nk)!
(n+1)!
=
1
n+1
Este ltimo resultado equivale a decir que si Y es una variable aleatoria con distribucin
uniforme en el intervalo [0, 1] y, dado que Y = y, X tiene distribucin binomial con parmetros
n y p = y, entonces X tiene distribucin uniforme en el conjunto {0, . . . , n}.
Ejemplo 4.55. Supongamos que el nmero de accidentes que tiene una persona en un ao
tiene una distribucin Poisson de parmetro Y , de tal manera que, para cada y > 0, el
porcentaje de personas para las cuales Y > y es igual a e
y
, en donde es una constante
positiva. Si X es el nmero de accidentes en un ao de una persona seleccionada al azar,
encuentre a) la distribucin de X, b) E [X], c) la distribucin condicional de Y dado que
X = x, para x {0, 1, . . .}, y d) E [Y | X].
Solucin
a. Para x {0, 1, . . .}, se tiene:
P [X = x] =
R

P [X = x | Y = y] f
Y
(y)dy =
R

0
e
y
y
x
x!
e
y
dy
=

x!
R

0
y
x
e
(+1)y
dy =

(+1)
x+1
R

0
(+1)
x+1
y
x
e
(+1)y
x!
dy =

(+1)
x+1
=


+1

1
+1

x
Por lo tanto, X tiene una distribucin geomtrica de parmetro p =

+1
.
b. E[X] =
R

E[X | Y = y] f
Y
(y)dy =
R

0
ye
y
dy =
1

c. Para x {0, 1, . . .} y y > 0, se tiene:


f
Y |X
(y | x) =
f
X|Y
(x|y)f
Y
(y)
f
X
(x)
=
e
y
y
x
x!
e
y
(

+1
)(
1
+1
)
x =
(+1)
x+1
y
x
e
(+1)y
x!
d. De acuerdo con el resultado en la parte c, si x {0, 1, . . .}, entonces, dado que X = x, Y
tiene distribucin gama de parmetros x + 1 y + 1. As que, E[Y | X] =
X+1
+1
.
Ejemplo 4.56. Supongamos que se tienen N especies animales, de tal manera que el nmero
de individuos de la especie i que son atrapados en una determinada trampa tiene una distribu-
cin Poisson de parmetro Y
i
. Supongamos adems que Y
1
, . . . , Y
N
son variables aleatorias
independientes, todas ellas con distribucin gama de parmetros y . Encuentre el nmero
esperado de especies que se encuentren representadas en la trampa con al menos un individuo.
Solucin
Sea X
i
el nmero de individuos de la especie i que se encuentren en la trampa, Z
k
el nmero
de especies que se encuentren representadas en la trampa con k individuos y Z el nmero de
especies que se encuentren representadas en la trampa con al menos un individuo. Denamos
adems, para i {1, . . . , N} y k {0, 1, . . .}:
Z
i
k
=
1 si X
i
= k
0 en otro caso
Se tiene entonces:
152 4. ESPERANZAS CONDICIONALES
E[Z
i
k
| Y
i
= y] = P [X
i
= k | Y
i
= y] =
1
k!
y
k
e
y
As que:
E[Z
i
k
] =
1
k!
R

0
y
k
e
y

y
1
e
y
()
dy =

k!()
R

0
y
k+1
e
y(1+)
dy
=

k!()
1
(1+)
k+
R

0
t
k+1
e
t
dy =

k!()
(k+)
(1+)
k+
=
(k+)
k!()


1+

1
1+

k
Adems, Z
k
= Z
1
k
+Z
2
k
+ +Z
N
k
, as que:
E[Z
k
] = N
(k+)
k!()


1+

1
1+

k
Finalmente, Z =
P

k=1
Z
k
, as que:
E[Z] =
P

k=1
E[Z
k
] = N
P

k=1
(k+)
k!()


1+

1
1+

k
Pero los trminos
(k+)
k!()


1+

1
1+

k
corresponden a los de una distribucin binomial nega-
tiva de parmetros y p =

1+
, Por lo tanto:
E[Z] = N


+1

Ejemplo 4.57. Supongamos que un cierto evento ocurre en los tiempos aleatorios T
1
, T
2
, . . .,
de tal manera que si, para t 0, X
t
es el nmero de veces que ocurre el evento hasta el
tiempo t, entonces la familia de variables aleatorias {X
t
}
t0
forma un proceso de Poisson de
parmetro . Vamos a encontrar la distribucin conjunta de T
1
, . . . , T
n
, dado que X
t
= n, en
donde t > 0 y n R.
Recordemos que:
f
T
1
,...,T
n
(t
1
, . . . , t
n
) =


n
e
tn
si 0 < t
1
< < t
n
0 en otro caso
=
n
e
tn
I
{0<y
1
<<yn}
(t
1
, , t
n
)
Sean 0 < t
1
< < t
n
, eotonces:
F
T
1
,...,T
n
|X
t
(t
1
, . . . , t
n
| n) =
1
P[X
t
=n]
P [T
1
t
1
, . . . , T
n
t
n
, X
t
= n]
=
1
P[X
t
=n]
P [T
1
t
1
, . . . , T
n
t
n
, T
n
t, T
n+1
> t]
=
1
P[X
t
=n]
R

R
{x
1
t
1
, ,xntn}
R

t

n+1
e
x
n+1
I
{0<y
1
<<y
n+1
}
(x
1
, . . . , x
n
, t)dx
n+1
dx
1
=
n!

n
t
n
e
t
R

R
{x
1
t
1
, ,x
n
t
n
}
I
{0<y
1
<<y
n+1
}
(x
1
, , x
n
, t)
R

t

n+1
e
x
n+1
dx
n+1
dx
1
=
n!

n
t
n
e
t

n
e
t
R

R
{x
1
t
1
, ,x
n
t
n
}
I
{0<y
1
<<y
n+1
}
(x
1
, , x
n
, t)dx
n
dx
1
=
R

R
{x
1
t
1
, ,x
n
t
n
}
I
{0<y
1
<<y
n+1
}
(x
1
, , x
n
, t)
n!
t
n
dx
n
dx
1
As que:
f
T
1
,...,T
n
|X
t
(t
1
, . . . , t
n
| n) = I
{0<y
1
<<y
n+1
}
(t
1
, , t
n
, t)
n!
t
n
=

n!
t
n
si 0 < t
1
< < t
n
< t
0 en otro caso
Por lo tanto, dado que X
t
= n, la distribucin conjunta de T
1
, . . . , T
n
es la misma que la de
los estadsticos de orden correspondientes a n variables aleatorias independientes, todas con
distribucin uniforme en el intervalo (0, t).
EJERCICIOS 153
EJERCICIOS
Ejercicio 4.1. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el conjunto {1, 2, . . . , 2N}, en donde N es un entero mayor que 1. Encuentre a)
E[X | X > 2Y ] y b) E [X | X +Y > 4].
Ejercicio 4.2. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre a) E[X | X > 2Y ] y b) E[X | X < 2Y ].
Ejercicio 4.3. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro = 2. Encuentre a) E[X | X > 2Y + 1] y b) E[X | X > 2Y 1].
Ejercicio 4.4. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre a) E [X | Y > 2X] y b) E[X | X +Y > 1].
Ejercicio 4.5. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (1, 1). Encuentre a) E [X | X < Y
2
] y b) E [Y | X < Y
2
].
Ejercicio 4.6. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

1
N
2
(N+1)
(x +y) si x, y {1, . . . , N}
0 en otro caso
Encuentre E [X | Y ].
Ejercicio 4.7. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

6
N(N
2
1)
(y x) si x < y y x, y {1, . . . , N}
0 en otro caso
Encuentre a) E [X | Y ] y b) E [Y | X].
Ejercicio 4.8. Se eligen, al azar y sin reemplazo, dos tarjetas de una urna que contiene N
tarjetas numeradas del 1 al N, en donde N es un entero mayor que 1. Sean X y Y el menor y
mayor, respectivamente, de los nmeros de las tarjetas seleccionadas. Encuentre a) E[X | Y ]
y b) E[Y | X].
Ejercicio 4.9. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el conjunto {1, . . . , N}. Encuentre a) E[X | Y X] y b) E[Y | Y X].
Ejercicio 4.10. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
geomtrica de parmetro p. Encuentre E [X | mn(X, Y )].
Ejercicio 4.11. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el conjunto {1, . . . , N}. Encuentre E[X | max(X, Y )].
Ejercicio 4.12. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el conjunto {1, . . . , N}. Encuentre a) E [mn(X, Y ) | Y ] y b) E[m ax(X, Y ) | Y ].
Ejercicio 4.13. Demuestre i, ii y iii de la proposicin 4.13.
Ejercicio 4.14. Sea X una variable aleatoria de esperanza nita y Y cualquier variable
aleatoria. Demuestre que |E[X | Y ]| E[|X| | Y ].
154 ESPERANZAS CONDICIONALES
Ejercicio 4.15. Sean X
1
, . . . , X
n
n variables aleatorias independientes, idnticamente dis-
tribuidas y de esperanza nita. Demuestre que E
h
X
k
|
P
n
j=1
X
j
i
=
1
n
P
n
j=1
X
j
para cualquier
k {1, . . . , n}.
Ejercicio 4.16. Sean X y Y dos variables aleatorias de esperanza y varianza nitas. De-
muestre que Cov(X, E[Y | X]) = Cov(X, Y ).
Ejercicio 4.17. Sean X y Y dos variables aleatorias de esperanza nita tales que E[Y | X] =
E[Y ]. Asumiendo que XY tiene esperanza nita, demuestre que Cov(X, Y ) = 0.
Ejercicio 4.18. Sean X, Y y Z tres variables aleatorias tales que X tiene esperanza nita y Y
est acotada. Demuestre que a) E[Y | Z] est acotada y b) E[Y E(X | Z)] = E[XE(Y | Z)].
Ejercicio 4.19. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Sea Z = X +Y y denamos:
h(z) =
(
R

x
f
X,Z
(x,z)
f
Z
(z)
si f
Z
(z) > 0
0 en otro caso
Demuestre que h(Z) es una versin de la esperanza condicional E [X | Z].
Ejercicio 4.20. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
8
(y
2
x
2
)e
y
si y x y, 0 < y <
0 en otro caso
Encuentre a) E[X | Y ] y b) E[Y | X].
Ejercicio 4.21. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =

1
8
ye
y
si 0 < x < y
1
8
y
2
e
y
si y < x < 0
0 en otro caso
Encuentre: a) E[X | Y ] y b) E[Y | X].
Ejercicio 4.22. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f
X,Y
(x, y) =

2
11
(4 x y) si 0 < x < 1, 0 < y < x + 2
0 en otro caso
Encuentre E[(X +Y )
2
| Y ].
Ejercicio 4.23. Sean X y Y dos variables aleatorias independientes, con funciones de den-
sidad dadas por:
f
X
(x) =

1
2
e
x
si x > 0
1
2
e
x
si x 0
0 en otro caso
f
Y
(y) =

1
2
e
y
si y > 0
1
2
e
y
si y 0
0 en otro caso
respectivamente, en donde y son constantes positivas. Encuentre E[(X +Y )
3
| Y ].
Ejercicio 4.24. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
EJERCICIOS 155
f(x, y) =

1
y
e

x
y
e
y
si x > 0, y > 0
0 en otro caso
Encuentre E

e
(X+Y )
| Y

.
Ejercicio 4.25. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =


2
e
x
si 0 < y < x
0 en otro caso
Encuentre a) E [X
2
| Y ] y b) E[X | Y
2
].
Ejercicio 4.26. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (1, 1). Encuentre a) E [XY | X] y b) E[X | XY ].
Ejercicio 4.27. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre a) E

Y |
X
Y

y b) E

X
Y
| Y

.
Ejercicio 4.28. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =


2
e
y
si 0 < x < y
0 en otro caso
Encuentre E [X +Y | Y X].
Ejercicio 4.29. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por:
f(x, y) =


2
e
y
si 0 < x < y
0 en otro caso
Encuentre E [m ax(X, Y ) | Y ].
Ejercicio 4.30. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
gama, X de parmetros y , Y de parmetros y . Encuentre E

X +Y |
X
X+Y

.
Ejercicio 4.31. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre E[XY | X +Y ].
Ejercicio 4.32. Sea X una variable aleatoria con distribucin exponencial de parmetro
= 1, t > 0, U = X t y V = X t. Encuentre E[X | U] y E[X | V ].
Ejercicio 4.33. Sean X y Y las coordenadas de un punto que se elige al azar en el interior
del crculo de radio 1 y centro en el origen. Encuentre E[X | Y ].
Ejercicio 4.34. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta
dada por:
f
X,Y
(x, y) =

1
N
2
(N+1)
(x +y) si x, y {1, . . . , N}
0 en otro caso
Para y {1, . . . , N}, encuentre la funcin de densidad condicional de X dado que Y = y.
Ejercicio 4.35. Sea (X, Y ) un vector aleatorio discreto con funcin de densidad conjunta
dada por:
156 ESPERANZAS CONDICIONALES
f
X,Y
(x, y) =

6
N(N
2
1)
(y x) si x < y y x, y {1, . . . , N}
0 en otro caso
a) Para y {2, . . . , N}, encuentre la funcin de densidad condicional de X dado que Y = y
y b) para x {1, . . . , N 1}, encuentre la funcin de densidad condicional de Y dado que
X = x.
Ejercicio 4.36. Se eligen, al azar y sin reemplazo, dos tarjetas de una urna que contiene
N tarjetas numeradas del 1 al N, en donde N es un entero mayor que 1. Sean X y Y el
menor y mayor, respectivamente, de los nmeros de las tarjetas seleccionadas. Encuentre la
funcin de densidad condicional de a) X dado que Y = y, para y {2, . . . , N} y b) Y dado
que X = x, para x {1, . . . , N 1}.
Ejercicio 4.37. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el conjunto {1, . . . , N}. Para x, y {1, . . . , N}, encuentre la funcin de densidad
condicional de a) m ax(X, Y ) dado que Y = y y b) mn(X, Y ) dado que X = x.
Ejercicio 4.38. Consideremos una sucesin de ensayos de Bernoulli independientes en cada
uno de los cuales la probabilidad de xito es igual a p y, para k N, sea X
k
el nmero de
ensayo en el cual ocurre el k-simo xito. Encuentre la funcin de densidad condicional de
X
1
dado que X
2
= n, para n N.
Ejercicio 4.39. Sean X y Y dos variables aleatorias independientes, ambas con distribu-
cin Poisson, X de parmetro
1
y Y de parmetro
2
. Encuentre e identique la densidad
condicional de X dado que X +Y = z, para z {0, 1, . . .}.
Ejercicio 4.40. Sea (N
1
, . . . , N
r
) un vector aleatorio con distribucin multinomial de parme-
tros n, p
1
, . . . , p
r
. a) Encuentre la distribucin de N
j
dado que N
i
= s, para i, j {1, . . . , r},
i 6= j y s {0, . . . , n}. b) Utilice el resultado de la parte a para calcular Cov(N
i
, N
j
).
Ejercicio 4.41. Un experimento aleatorio consiste en seleccionar al azar un punto en el
interior del tringulo de vrtices (0, 0), (2, 0) y (1, 2). Sean X y Y la abscisa y ordenada,
respectivamente, del punto seleccionado. Encuentre la distribucin condicional de Y dada X.
Ejercicio 4.42. Sean X
1
, X
2
, X
3
tres variables aleatorias independientes, las 3 con distribu-
cin uniforme en el intervalo (0, 1) y sean X
(1)
, X
(2)
, X
(3)
los estadsticos de orden corres-
pondientes a X
1
, X
2
, X
3
. Encuentre a) la funcin de densidad condicional de X
(3)
dado que
X
(1)
= x
1
, para x
1
(0, 1) y b) E

X
(3)
| X
(1)

.
Ejercicio 4.43. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vector
de esperanzas (0, 0), vector de varianzas (1, 1) y coeciente de correlacin
1
2
. Encuentre a) la
funcin de densidad conjunta de U = X + 2Y y V = 2X Y y b) E[U | V ].
Ejercicio 4.44. Sean X y Y dos variables aleatorias, ambas con distribucin normal es-
tndar, tales que la distribucin conjunta de X y Y es normal bivariada con coeciente de
correlacin =
1
3
. Encuentre P [1 < Y < 1 | X = 1].
Ejercicio 4.45. Sean X, Y y Z tres variables aleatorias independientes, todas con distribu-
cin normal estndar. Encuentre E[2X +Y +Z | X +Y Z] y E[(2X +Y +Z)
2
| X +Y Z].
Ejercicio 4.46. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Para z (0, 2), encuentre la distribucin condicional de X
dado que X +Y = z.
EJERCICIOS 157
Ejercicio 4.47. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
normal estndar. Encuentre la distribucin condicional de X dado que X + Y = z, para
z R.
Ejercicio 4.48. Sean X y Y dos variables aleatorias con funcin de densidad conjunta dada
por f
X,Y
(x, y) = 8xy si 0 < x < y < 1. Encuentre a) E[X | Y ], b) la funcin de densidad
condicional de X dado que Y X = z para cualquier z R tal que f
Y X
(z) > 0 y c)
E

X | Y X <
1
4

.
Ejercicio 4.49. Sean X y Y dos variables aleatorias con funcin de densidad conjunta
dada por f(x, y) = 6x si 0 < x < y < 1. Encuentre a) E[X | Y ], b) E [X | Y X], c)
E

X | Y X <
1
4

y d) E

Y e
XY
| Y

.
Ejercicio 4.50. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . Encuentre a) la distribucin condicional de Y dada Y X y b)
E[Y | Y X].
Ejercicio 4.51. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre las distribuciones condicionales de X y Y dado que
Y X = z, para 1 < z < 1.
Ejercicio 4.52. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vector
de esperanzas (0, 0), vector de varianzas (1, 1) y coeciente de correlacin
1
2
. Encuentre e
identique la funcin de densidad condicional de X dado que Y X = z para cualquier
z R.
Ejercicio 4.53. Sea (X, Y ) un vector aleatorio con distribucin normal bivariada con vector
de esperanzas (0, 0), vector de varianzas (1, 4) y coeciente de correlacin
1
4
. a) Encuentre la
funcin de densidad conjunta de la pareja X, Y 4X. b) Encuentre e identique la funcin
de densidad de X dado que Y 4X = z para cualquier z R.
Ejercicio 4.54. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1). Encuentre a) la funcin de densidad condicional de X + Y
dado que Y X = v, para v (1, 1) y b) E[X +Y | Y X].
Ejercicio 4.55. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
uniforme en el intervalo (0, 1) y sea Z = max(X, Y ). Encuentre a) la distribucin condicional
de Z dado que Y = y, para y (0, 1) y utilcela para calcular E(Z | Y ).
Ejercicio 4.56. Sean X y Y dos variables aleatorias independientes, ambas con distribucin
exponencial de parmetro . a) Encuentre las funciones de distribucin condicionales de
mn(X, Y ) y m ax(X, Y ) dado que Y = y, para y > 0. b) Utilice los resultados de la parte a
para calcular E[mn(X, Y ) | Y ] y E[m ax(X, Y ) | Y ].
Ejercicio 4.57. Utilice la conclusin del ejemplo 4.39 para interpretar el resultado del ejer-
cicio 2.19.
Ejercicio 4.58. Supongamos que un cierto evento ocurre en los tiempos aleatorios T
1
, T
2
, . . .,
de tal manera que las variables aleatorias Y
1
= T
1
, Y
2
= T
2
T
1
, Y
3
= T
3
T
2
, . . . son
independientes y, para t > 0 y n N, la distribucin conjunta de T
1
, . . . , T
n
, dado que
T
n+1
= t, es la misma que la de los estadsticos de orden correspondientes a n variables
158 ESPERANZAS CONDICIONALES
aleatorias independientes, todas con distribucin uniforme en el intervalo (0, t). Asumiendo
que T
1
, T
2
, . . . son absolutamente continuas y que sus funciones de densidad son diferenciables,
demuestre que Y
1
, Y
2
, . . . tienen distribucin exponencial con parmetro comn.
Ejercicio 4.59. Sea Y una variable aleatoria con distribucin Poisson de parmetro y
supongamos que para cada valor n de Y , X es una variable aleatoria con distribucin binomial
de parmetros n y p. Encuentre a) la distribucin de X y b) la distribucin condicional de Y
dado que X = x, para x {0, 1, . . .}.
Ejercicio 4.60. Supongamos que se enva una seal aleatoria X desde un lugar A de tal
manera que su distribucin es N(,
2
). Supongamos adems que, cuando X = x, el valor
Y , que se recibe en un lugar B, tiene una distribucin N(x, a
2
), en donde a es una constante
distinta de cero. a) Encuentre E(Y ), V ar(Y ) y Cov(X, Y ). b) Demuestre que la distribucin
conjunta de la pareja X, Y es normal bivariada. c) Encuentre la funcin de densidad de Y .
d) Dado que Y = y, cul es el mejor estimador de X en el sentido de la media cuadrtica?
Ejercicio 4.61. Sea X una variable aleatoria con distribucin uniforme een el intervalo
(0, 1) y supongamos que, para cada valor x de X, Y es una variable aleatoria con distribucin
normal de parmetros = + x y
2
, en donde , y son constantes. a) Encuentre
E(Y ), V ar(Y ) y la funcin de densidad conjunta de la pareja X, Y .
Ejercicio 4.62. Un minero est atrapado en una mina que tiene 3 tneles. El primero lo
lleva a la salida despus de media hora, el segundo lo regresa al mismo lugar despus de 1
hora y el tercero tambin lo regresa al mismo lugar despus de 2 horas. Supongamos que, en
cada ocasin, el minero escoge el primero, segundo y tercer tnel con probabilidades 0.2, 0.5 y
0.3, respectivamente. Cul es la esperanza del tiempo que lleva al minero salir de la mina?
Ejercicio 4.63. Una rata de laboratorio est encerrada en un lugar que contiene N salidas.
Para 1 k N 1, la salida nmero k conduce a la rata al mismo lugar despus de k
minutos, mientras que la salida nmero N lleva a un camino que conduce a la rata a la
verdadera salida despus N minutos. Supongamos que la rata escoge siempre al azar una
de las N salidas. Cul es el nmero esperado de minutos que le lleva a la rata llegar a la
verdadera salida?
Ejercicio 4.64. Una urna contiene bolas rojas y negras de tal manera que la proporcin de
bolas rojas que contiene es igual a p. Se van seleccionando bolas de la urna al azar, una a una
y con reemplazo, hasta que se obtienen r bolas rojas en forma consecutiva. Si X es el nmero
de bolas que se seleccionan hasta que se detiene el proceso, encuentre E[X].
Ejercicio 4.65. Sea X
1
un nmero que se elige al azar en el intervalo (0, 1), X
2
un nmero
que se elige al azar en el intervalo (0, X
1
), X
3
un nmero que se elige al azar en el intervalo
(0, X
2
), etc. Encuentre a) E [X
n
] para cualquier n N.
Ejercicio 4.66. Una urna contiene una bola roja y una bola negra. Se elige al azar una bola
de la urna y se reemplaza agregando una bola del mismo color que la seleccionada. Si este
proceso se repite indenidamente y llamamos X
n
a la proporcin de bolas rojas en la urna
despus de la n-sima eleccin, encuentre E[X
n
] para cualquier n N.
Ejercicio 4.67. Una urna contiene inicialmente r bolas Rojas y s bolas Negras. Se agregan
a la urna 1 bola Roja y 2 Negras e inmediatamente despus se seleccionan, al azar y sin
EJERCICIOS 159
reemplazo, 3 bolas de la misma. Supongamos que este proceso se repite indenidamente y
llamemos X
n
al nmero de bolas Rojas que quedan en la urna despus del paso n. Encuentre
E[X
n
] para cualquier n N.
Ejercicio 4.68. Una persona est jugando un juego de azar en el cual gana con probabilidad
p, de tal manera que p >
1
2
. La estrategia que sigue consiste en apostar en cada juego la
fraccin 2p 1 de su fortuna en ese momento. Supongamos que la fortuna inicial del jugador
es x y llamemos X
n
a su fortuna despus de n juegos. Encuentre E[X
n
] para cualquier n N.
Ejercicio 4.69. Una urna contiene inicialmente a bolas azules y r bolas rojas. Se selecciona
al azar una bola de la urna; si es roja, se regresa, si no, se reemplaza por una roja. Supongamos
que este proceso se repite indenidamente y llamemos X
n
al nmero de bolas rojas que quedan
en la urna despus del paso n. Encuentre E[X
n
] para cualquier n N.
Ejercicio 4.70. Una moneda se elige al azar de una coleccin de monedas, de tal manera que
la probabilidad p de obtener cara puede considerarse como seleccionada al azar en el intervalo
(0, 1). Si la moneda se lanza dos veces en forma consecutiva, encuentre la probabilidad de que
a) en el primer lanzamiento se obtenga cara y b) se obtenga cara en ambos lanzamientos.
Ejercicio 4.71. Supongamos que el nmero esperado de accidentes por semana que hay en
una fbrica es igual a 5. Supongamos tambin que el nmero de trabajadores afectados en
un accidente particular es una variable aleatoria, independiente del nmero de accidentes, de
esperanza 2.5. Encuentre el nmero esperado de trabajadores afectados por algn accidente
en una semana. Argumente claramente su respuesta utilizando distribuciones condicionales.
Se podra asegurar la misma respuesta si el nmero de trabajadores afectados en un accidente
particular no fuera independiente del nmero de accidentes? En caso armativo, demustrelo;
en caso contrario, exhiba un contraejemplo.
Ejercicio 4.72. Sea X un nmero que se elige al azar en el intervalo (0, 1) y Y un nmero
que se elige al azar en el intervalo (0, X). Encuentre la funcin de densidad Y .
Ejercicio 4.73. Supongamos que un cierto evento ocurre en los tiempos aleatorios T
1
, T
2
, . . .,
de tal manera que si, para t 0, X
t
es el nmero de veces que ocurre el evento hasta el
tiempo t, entonces la familia de variables aleatorias {X
t
}
t0
forma un proceso de Poisson de
parmetro . Encuentre la distribucin del nmero de eventos que ocurren en el intervalo
de tiempo [0, T], en donde a) T es una variable aleatoria con distribucin exponencial de
parmetro . b) T es una variable aleatoria con distribucin uniforme en el intervalo [0, a].
Ejercicio 4.74. Sea Y una variable aleatoria con distribucin beta de parmetros y y
supongamos que para cada valor y de Y , X es una variable aleatoria con distribucin binomial
de parmetros n y p = y. Encuentre a) la distribucin de X, b) E [X] y V ar(X) y c) la
distribucin condicional de Y dado que X = x, para x {0, . . . , n}.
Nota: La distribucin que se obtiene para X es conocida como la distribucin de Polya.
Ejercicio 4.75. Sea Y una variable aleatoria con uniforme en el intervalo (0, 1) y suponga-
mos que, para cada valor y de Y , X es una variable aleatoria con distribucin geomtrica de
parmetro y. a) Encuentre E[X]. b) Para x {0, 1, . . .}, encuentre e identique la distribu-
cin condicional de Y dado que X = x. c) Encuentre E[(X +Y )
2
| X].
160 ESPERANZAS CONDICIONALES
Ejercicio 4.76. Sea Y una variable aleatoria con distribucin beta de parmetros y
y supongamos que, para cada valor y de Y , X es una variable aleatoria con distribucin
geomtrica de parmetro y. Encuentre: a) la distribucin de X, b) E[X], c) la distribucin
de Y dado que X = x, para x {0, 1, . . .} y d) E [Y | X].
Ejercicio 4.77. Sea Y una variable aleatoria con distribucin beta de parmetros y y
supongamos que, para cada valor y de Y , X es una variable aleatoria con distribucin binomial
negativa de parmetros r y y. a) Encuentre E[X]. b) Encuentre e identique la distribucin
condicional de Y dado que X = x, para x {0, 1, . . .}. c) Para = 1, = 1 y r = 2,
encuentre E [(X +Y )
2
| X].
Ejercicio 4.78. Sea Y una variable aleatoria con distribucin uniforme en el intervalo (0, 1)
y supongamos que para cada valor y de Y , X es una variable aleatoria con distribucin ge-
omtrica de parmetro y. Encuentre: a) la distribucin de X, b) E [X], c) la distribucin de
Y dado que X = k, para k {0, 1, . . .} y d) E[Y | X].
Ejercicio 4.79. Sea Y una variable aleatoria con distribucin gama de parmetros y y
supongamos que, para cada valor y de Y , X es una variable aleatoria con distribucin Poisson
de parmetro y. Encuentre a) la distribucin de X, b) E[X], c) la distribucin condicional
de Y dado que X = x, para x {0, 1, . . .} y d) E [Y | X].
Ejercicio 4.80. Considerando la misma situacin que en el ejemplo 4.55, a) demuestre que
dado que la persona seleccionada tuvo j accidentes en el ltimo ao, la distribucin del nmero
de accidentes en el presente ao tiene una distribucin binomial negativa. Cul es la proba-
bilidad de que una persona, seleccionada al azar, tenga exactamente 2 accidentes en un ao
dado que b) en el ao anterior no tuvo accidentes, c) en el ao anterior tuvo 1 accidente.
Ejercicio 4.81. Cada una de N bolas se coloca al azar en alguna de r cajas, en donde N es
una variable aleatoria con distribucin Poisson de parmetro . Demuestre que el nmero de
cajas que quedan vacas tiene distribucin binomial.
Parte 2
CONVERGENCIA
CAPTULO 5
TEOREMAS LMITE
Todo uye, nada permanece ni persiste nunca lo mismo.
Herclito
Se sabe que el Clculo de Probabilidades tiene como
soporte esencialmente un nico teorema, la ley de los
grandes nmeros. Se puede decir que la teora tiene como
nico objetivo el demostrar ese teorema y algunos otros
que se le relacionan.
Paul Pierre Lvy
El surgimiento del Clculo de Probabilidades, como disciplina matemtica independiente, tiene
como base las soluciones que, durante el periodo que va del ao 1654 al ao 1657, dieron Blaise
Pascal, Pierre de Fermat y Christiaan Huygens a varios problemas, los cuales se analizan en el
captulo refsurcalpro de este volumen. Pero, si bien los trabajos de Pascal, Fermat y Huygens
permitieron el desarrollo de mtodos generales para resolver problemas de probabilidad, stos
se limitaban a un tipo muy particular, relacionados con juegos de azar, los cuales no eran
sucientes para darle un lugar dentro de las matemticas a la Teora de la Probabilidad.
El gran impulso para el desarrollo de una Teora de la Probabilidad, que le hara ganar
un lugar dentro de las matemticas, proviene de los llamados teoremas lmite, los cuales se
reeren al comportamiento a largo plazo de sucesiones de variables aleatorias. El primero de
estos resultados, que para algunos autores marca verdaderamente el inicio de la historia de
la Teora de la Probabilidad, se debe a Jacques Bernoulli, quien dedic 20 aos de su vida a
la bsqueda de una prueba matemtica de la relacin que existe entre la probabilidad de un
evento y la frecuencia relativa con la que ste ocurre en una serie grande de repeticiones del
correspondiente experimento aleatorio. El resultado, conocido como teorema de Bernoulli, se
public en el ao 1718, cinco aos despus de la muerte de su autor.
Puede decirse que, a partir de la publicacin del teorema de Bernoulli, el motor de desarrollo
de la Teora de la Probabilidad fue la bsqueda de resultados que permitieran mejorar y
generalizar ese teorema. Vendran despus los teoremas de de Moivre y de Poisson, relativos
a la aproximacin de una distribucin binomial mediante una distribucin normal y una
distribucin Poisson, respectivamente, los cuales fueron publicados en los aos 1730 y 1800,
respectivamente.
163
164 5. TEOREMAS LMITE
Este proceso continuara desarrollndose y recibira un gran impulso, entre 1870 y 1900, con
los trabajos de la llamada escuela rusa, representada por Pafnuty Lvovich Chebyshev, Andrei
Andreyevich Markov y Aleksandr Mikhailovich Lyapunov, entre otros, los cuales conduciran
a la forma general que se dio a los teoremas lmite, entre 1900 y 1930, con la formulacin de
las leyes de los grandes nmeros y el teorema del lmite central, tanto en su forma clsica,
relativa a la convergencia a la distribucin normal, como en su forma moderna, relativa a la
convergencia a cualquier otro tipo de distribucin, sobresaliendo en este periodo los trabajos
de Aleksandr Yakovlevich Khintchine, Andrey Nikolaevich Kolmogorov, J. W. Lindeberg,
William Feller y Paul Pierre Lvy, entre otros.
Como puede verse, fueron ms de 200 aos de historia de la Teora de la Probabilidad guiada
por el estudio de los teoremas lmite.
5.1. Diferentes tipos de convergencia
Definicin 5.1 (Convergencia en probabilidad). Se dice que una sucesin {X
n
} de varia-
bles aleatorias converge en probabilidad a la variable aleatoria X si lm
n
P [|X
n
X| > ] =
0 para cualquier > 0. En este caso se escribir X
n
P
X.
Obviamente si una sucesin {X
n
} converge en probabilidad a X, entonces cualquier subsuce-
sin de {X
n
} tambin converge en probabilidad a X.
Proposicin 5.2. Sea {X
n
} una sucesin de variables aleatorias tal que X
n
P
X y X
n
P

Y , entonces P [X = Y ] = 1.
Demostracin
Como |X Y | |X
n
X| +|X
n
Y |, entonces:
[|X Y | > ] [|X
n
X| +|X
n
Y | > ]
Adems, para cualquier > 0, se tiene:
[|X
n
X| +|X
n
Y | > ]

|X
n
X| >

2

|X
n
Y | >

2

Por lo tanto:
P [|X Y | > ] P

|X
n
X| >

2

+P

|X
n
Y | >

2

As que, tomando lmites, se obtiene P [|X Y | > ] = 0 para cualquier > 0.


Finalmente, [|X Y | > 0] =
S

n=1

|X Y | >
1
n

, as que:
P [|X Y | > 0]
P

n=1
P

|X Y | >
1
n

= 0
Proposicin 5.3. Sea c una constante y {X
n
} una sucesin de variables aleatorias tal que
X
n
P
X, entonces cX
n
P
cX.
Demostracin
lm
n
P [|cX
n
cX| > ] = lm
n
P
h
|X
n
X| >

|c|
i
= 0
Proposicin 5.4. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que X
n
P

X y Y
n
P
Y , entonces X
n
+Y
n
P
X +Y .
5.1. DIFERENTES TIPOS DE CONVERGENCIA 165
Demostracin
Como |X
n
X +Y
n
Y | |X
n
X| +|Y
n
Y |, se tiene:
[|X
n
X +Y
n
Y | > ]

|X
n
X| >

2

|Y
n
Y | >

2

As que:
lm
n
P [|X
n
+Y
n
X Y | > ]
lm
n
P

|X
n
X| >

2

+ lm
n
P

|Y
n
Y | >

2

= 0
Proposicin 5.5. Sea {X
n
} una sucesin de variables aleatorias tal que X
n
P
X, entonces
X
2
n
P
X
2
.
Demostracin
Como
P

k=0
P [k |X| < k + 1] = 1, entonces dada > 0 existe M tal que:
P [|X| > M] P [|X| M] =
P

k=M
P [k |X| < k + 1] <

2
Tambin, como X
n
P
X, existe N tal que, si n N, entonces:
P [|X
n
X| > M] <

2
Adems, |X
n
+X| |X
n
X| + 2 |X|, as que:
[|X
n
+X| > 4M] [|X
n
X| > 2M] [|X| > M]
Por lo tanto, para n N, se tiene:
P [|X
n
+X| > 4M] [|X
n
X| > 2M] +P [|X| > M] <
As que, dada > 0:
P [|X
2
n
X
2
| > ] = P [|(X
n
+X)(X
n
X)| > ]
= P [|(X
n
+X)(X
n
X)| > , |X
n
+X| 4M]
+P [|(X
n
+X)(X
n
X)| > , |X
n
+X| > 4M]
P [|(X
n
+X)(X
n
X)| > , 0 < |X
n
+X| 4M]
+P [|(X
n
+X)(X
n
X)| > , |X
n
+X| > 4M]
= P

|X
n
X| >

4M
, 0 < |X
n
+X| 4M

+P [|(X
n
+X)(X
n
X)| > , |X
n
+X| > 4M]
P

|X
n
X| >

4M

+P [|X
n
+X| > 4M]
< P

|X
n
X| >

4M

+
De manera que tomando lmites, se obtiene:
lmsup
n
P [|X
2
n
X
2
| > ] para cualquier > 0.
Por lo tanto, lm
n
P [|X
2
n
X
2
| > ] = 0.
Corolario 5.6. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que X
n
P
X
y Y
n
P
Y , entonces X
n
Y
n
P
XY .
Demostracin
Como X
n
Y
n
=
1
4
[(X
n
+Y
n
)
2
(X
n
Y
n
)
2
], entonces:
X
n
Y
n
P

1
4
[(X +Y )
2
(X Y )
2
] = XY
166 5. TEOREMAS LMITE
Ejemplo 5.7. Sea = (0, 1] y P la medida de Lebesgue sobre , es decir, la medida de
probabilidad sobre el intervalo (0, 1] que asigna a cada intervalo su longitud. Para cada n N,
denamos X
n
= I
(0,
1
n
)
, es decir:
X
n
() =

1 si <
1
n
0 en otro caso
Dada > 0, se tiene:
P [|X
n
| > ] = P [X
n
> ] =

1
n
si < 1
0 en otro caso
As que, en cualquier caso, lm
n
P [|X
n
| > ] = 0. Por lo tanto, X
n
P
0.
Ejemplo 5.8. Sea = (0, 1] y P la medida de Lebesgue sobre . Para cada n N, denamos:
X
n
=

I
(0,
1
n
]
si n es impar
I
(
1
n
,1]
si n es par
Dada > 0 y n impar, se tiene:
P [|X
n
| > ] = P [X
n
> ] =

1
n
si < 1
0 en otro caso
As que X
2n+1
P
0.
Por otro lado, dada > 0 y n par, se tiene:
P [|X
n
1| > ] =

1
n
si < 1
0 en otro caso
As que X
2n
P
1.
Por lo tanto, la sucesin {X
n
} no converge en probabilidad.
En los dos ejemplos anteriores, la convergencia o no convergencia en probabilidad coincide con
la convergencia o no convergencia de las variables aleatorias X
n
vistas como funciones. Sin
embargo ste no es siempre el caso. La convergencia en probabilidad signica que es pequea
la probabilidad de que |X
n
X| sea grande, pero la sucesin de funciones X
n
pudiera ni
siquiera ser convergente, como se muestra en el siguiente ejemplo:
Ejemplo 5.9. Sea = (0, 1] y P la medida de Lebesgue sobre . Para i N y j {1, . . . , i},
denamos Y
i,j
= I
(
j1
i
,
j
i
]
y ordenemos la familia de variables aleatorias {Y
i,j
}, primero de
acuerdo al primer subndice i y despus, jando el subndice i, de acuerdo al subndice j. De
esta forma, se obtiene la sucesin X
1
= Y
11
, X
2
= Y
21
, X
3
= Y
22
, X
4
= Y
31
, X
5
= Y
32
,
X
6
= Y
33
, . . .. En general, si
i(i1)
2
< n
i(i+1)
2
y n =
i(i1)
2
+j, entonces X
n
= Y
ij
.
Evidentemente, la sucesin de funciones {X
n
} no converge para ningn (0, 1], sin em-
bargo, P [X
ij
= 1] =
1
i
y P [X
ij
= 0] = 1
1
i
, as que lm
n
P [|X
n
| > ] = 0 para cualquier
> 0. Por lo tanto, X
n
P
0.
Definicin 5.10 (Convergencia en distribucin). Se dice que una sucesin {X
n
} de
variables aleatorias converge en distribucin a la variable aleatoria X si lm
n
F
Xn
(x) =
F
X
(x) para cualquier nmero real x en el cual F
X
es continua. En este caso se escribir
X
n
D
X.
5.1. DIFERENTES TIPOS DE CONVERGENCIA 167
Obviamente si una sucesin {X
n
} converge en distribucin a X, entonces cualquier subsucesin
de {X
n
} tambin converge en distribucin a X.
Proposicin 5.11. Sea {X
n
} una sucesin de variables aleatorias tal que X
n
D
X y X
n
D

Y , entonces F
X
= F
Y
.
Demostracin
De la denicin de convergencia en distribucin se sigue inmediatamente que F
X
(z) = F
Y
(z)
para cualquier nmero real z tal que F
X
y F
Y
son continuas en z. Pero como el conjunto
de discontinuidades de F
X
y de F
Y
es a lo ms numerable, entonces el conjunto de nmeros
reales z para los cuales tanto F
X
como F
Y
son continuas en z es denso en R. El resultado se
sigue entonces de la continuidad por la derecha de F
X
y F
Y
.
Tambin se tienen los siguientes dos resultados, cuya demostracin se deja como ejercicio.
Proposicin 5.12. Sea c una constante y {X
n
} una sucesin de variables aleatorias tal que
X
n
D
X, entonces cX
n
D
cX.
Proposicin 5.13. Sea c una constante y {X
n
} una sucesin de variables aleatorias tal que
X
n
D
X, entonces X
n
+c
D
X +c.
Ejemplo 5.14. Sea {X
n
} la sucesin del ejemplo 5.7, entonces X
n
D
0.
Ejemplo 5.15. Sea {X
n
} la sucesin del ejemplo 5.8, entonces {X
n
} no converge en distribu-
cin.
Ejemplo 5.16. Sea {X
n
} la sucesin del ejemplo 5.9, entonces X
n
D
0.
Ejemplo 5.17. El teorema de de Moivre Laplace constituye un ejemplo bsico de convergencia
en distribucin. Este resultado establece, en particular, que si a R y, para cada n R, X
n
es una variable aleatoria con distribucin binomial de parmetros n y p (0, 1). Entonces:
lm
n
P
h
X
n
np

npq
> a
i
=
1

2
R

a
e

1
2
x
2
dx.
Es decir, X
n
D
X, en donde X es una variable aleatoria con distribucin normal estndar.
Ejemplo 5.18. El teorema de Poisson constituye otro ejemplo bsico de convergencia en
distribucin. Este resultado establece que si, para cada n R, X
n
es una variable aleatoria
con distribucin binomial de parmetros n y p (0, 1) de tal manera que = np es constante,
entonces, para cualquier k {0, 1, . . .}, se tiene:
lm
n
P [X
n
= k] =

k
e

k!
Por lo tanto, para cualquier x 0, se tiene:
lm
n
P [X
n
x] =
P
[[x]]
k=0

k
e

k!
en donde [[x]] denota a la parte entera de x.
Es decir, X
n
D
X, en donde X es una variable aleatoria con distribucin Poisson de
parmetro .
168 5. TEOREMAS LMITE
Definicin 5.19 (Convergencia casi segura). Se dice que una sucesin {X
n
} de variables
aleatorias converge casi seguramente a la variable aleatoria X si P [lm
n
X
n
= X] = 1. En
este caso se escribir X
n
c.s.
X.
Obviamente si una sucesin {X
n
} converge casi seguramente a X, entonces cualquier subsuce-
sin de {X
n
} tambin converge casi seguramente a X.
La demostracin de la siguiente proposicin es inmediata y las tres que le siguen se siguen
inmediatamente de los resultados anlogos para sucesiones de nmeros reales.
Proposicin 5.20. Sea {X
n
} una sucesin de variables aleatorias tales que X
n
c.s.
X y
X
n
c.s.
X, entonces P [X = Y ] = 1.
Proposicin 5.21. Sea c una constante y {X
n
} una sucesin de variables aleatorias tal que
X
n
c.s.
X, entonces cX
n
c.s.
cX.
Proposicin 5.22. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que:
X
n
c.s.
X y Y
n
c.s.
Y , entonces X
n
+Y
n
c.s.
X +Y .
Proposicin 5.23. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que X
n
c.s.

X y Y
n
c.s.
Y , entonces X
n
Y
n
c.s.
XY .
Ejemplo 5.24. Sea {X
n
} la sucesin del ejemplo 5.7, entonces X
n
c.s.
0.
Ejemplo 5.25. Sea {X
n
} la sucesin del ejemplo 5.8, entonces {X
n
} no converge casi segu-
ramente.
Ejemplo 5.26. Sea {X
n
} la sucesin del ejemplo 5.9, entonces {X
n
} no converge casi segu-
ramente.
5.2. Relacin entre modos de convergencia
Proposicin 5.27. Sea {X
n
} una sucesin de variables aleatorias tal que X
n
P
X, entonces
X
n
D
X.
Demostracin
Para > 0, n N y t R, se tiene:
F
X
(t ) = P [X t ]
= P [X t , |X X
n
| > ] +P [X t , |X X
n
| ]
= P [X t , |X X
n
| > ] +P [X t , X X
n
X +]
P [|X X
n
| > ] +P [X
n
t] = P [|X X
n
| > ] +F
X
n
(t)
F
X
n
(t) = P [X
n
t] = P [X
n
t, |X X
n
| > ] +P [X
n
t, |X X
n
| ]
= P [X
n
t, |X X
n
| > ] +P [X
n
t, X
n
X X
n
+]
P [|X X
n
| > ] +P [X t +] = P [|X X
n
| > ] +F
X
(t +)
As que, para cualquier > 0, n N y t R, se tiene:
F
X
(t ) P [|X X
n
| > ] F
X
n
(t) F
X
(t +) +P [|X X
n
| > ]
Tomando lmites cuando n y utilizando el hecho de que X
n
P
X, se obtiene:
5.2. RELACIN ENTRE MODOS DE CONVERGENCIA 169
F
X
(t ) lminf
n
F
X
n
(t) lmsup
n
F
X
n
(t) F
X
(t +)
Ahora, si t es un punto de continuidad de F
X
, entonces, tomando lmites cuando 0, se
obtiene:
F
X
(t) lminf
n
F
X
n
(t) lmsup
n
F
X
n
(t) F
X
(t)
As que lm
n
F
Xn
(t) = F
X
(t).
El ejemplo siguiente muestra que el inverso de la proposicin 5.27 no es vlido en general.
Ejemplo 5.28. Sea X una variable aleatoria con distribucin normal estndar y, para cada
n N, denamos:
X
n
=

X si n es impar
X si n es par
Entonces F
X
n
(x) = F
X
(x) para cualquier x R, as que X
n
D
X. Sin embargo, |X
2n
X| =
2 |X| para cualquier n N, as que P [|X
2n
X| > ] = P

|X| >

2

para cualquier > 0. Por


lo tanto lm
n
P [|X
2n
X| > ] = P

|X| >

2

> 0, as que la sucesin {X


n
} no converge
a X en probabilidad. De hecho, la sucesin {X
n
} no converge en probabilidad a ninguna
variable aleatoria pues X
2n+1
X en probabilidad, as que si X
n
Y en probabilidad,
entonces P [X = Y ] = 1, as que se debera tener X
n
X en probabilidad, lo cual es falso.
Se tiene el siguiente resultado parcial:
Proposicin 5.29. Sea {X
n
} una sucesin de variables aleatorias tal que X
n
D
0, entonces
X
n
P
0.
Demostracin
La hiptesis nos dice que:
lm
n
F
X
n
(x) =

0 si x < 0
1 si x > 0
Adems, para > 0:
P [|X
n
| > ] = P [X
n
> ] +P [X
n
< ] P [X
n
> ] +P [X
n
]
= 1 F
Xn
() +F
Xn
()
As que, lm
n
P [|X
n
| > ] = 0.
Corolario 5.30. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que:
X
n
D
0 y Y
n
D
0, entonces X
n
+Y
n
D
0.
Corolario 5.31. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que X
n
D
0
y Y
n
D
0, entonces X
n
Y
n
D
0.
Proposicin 5.32. Sea {X
n
} una sucesin de variables aleatorias tal que X
n
c.s.
X, entonces
X
n
P
X.
170 5. TEOREMAS LMITE
Demostracin
Como P [lm
n
X
n
= 0] = 1, existe un conjunto
0
de probabilidad 0 tal que si
c
0
entonces lm
n
X
n
() = 0. As que, dado
c
0
y > 0, existe N tal que |X
n
()|
para cualquier n N, esto signica que
T

n=N
{ : |X
n
()| }.
Dicho de otra forma, si
c
0
, entonces, dada cualquier > 0,
T

n=m
{ : |X
n
()| }
para alguna m, lo cual a su vez signica que
S

m=1
[
T

n=m
{ : |X
n
()| }]. As
que:

c
0

S

m=1
[
T

n=m
{ : |X
n
()| }]
Por lo tanto:
P (
S

m=1
[
T

n=m
{ : |X
n
()| }]) = 1
Sea B
m
() =
T

n=m
{ : |X
m
()| }, entonces la sucesin de eventos B
1
(), B
2
(), . . .
es montona creciente, as que:
lm
m
P [B
m
()] = P (
S

m=1
B
m
()) = 1
De lo cual se sigue, lm
m
P [B
c
m
()] = 0.
Pero B
c
m
() =
S

n=m
{ : |X
m
()| > }, as que [|X
m
| > ] B
c
m
(). Por lo tanto:
lm
m
P [|X
m
| > ] lm
m
P [B
c
m
()] = 0.
El inverso de la proposicin 5.32 no es vlido en general. Para un ejemplo, considrese la
sucesin {X
n
} del ejemplo 5.9, la cual converge en probabilidad, pero no converge casi segu-
ramente.
5.3. Lema de Borel-Cantelli y convergencia casi segura
Proposicin 5.33. Sea {X
n
} una sucesin de variables aleatorias, entonces X
n
c.s.
0 si y
slo si:
P [{ : |X
n
()| > para una innidad de valores de n}] = 0
para cualquier > 0.
Demostracin
Supongamos primero que X
n
c.s.
0 y, para cada > 0, sea:
A() = { : |X
n
()| > para una innidad de valores de n}
Como P [lm
n
X
n
= 0] = 1, existe un conjunto
0
de probabilidad 1 tal que si
0
entonces lm
n
X
n
() = 0. As que, dado
0
y > 0, existe N tal que |X
n
()| < para
cualquier n N. Por lo tanto, si A(), entonces
c
0
, as que P [A()] P [
c
0
] = 0.
Inversamente, supongamos que P [{ : |X
n
()| > para una innidad de valores de n}] =
0 para cualquier > 0 y para cada r N, sea:
B
r
=

: |X
n
()| >
1
r
para una innidad de valores de n

Se tiene P(B
r
) = 0 para cualquier r N y la sucesin de eventos B
c
1
, B
c
2
, . . . es montona
decreciente, as que:
P (
T

r=1
B
c
r
) = lm
r
P(B
c
r
) = 1
Pero, B
c
r
=

: Existe N() tal que |X
n
()|
1
r
para cualquier n N()

. De ma-
nera que si
T

r=1
B
c
r
, entonces para cualquier r N existe N() tal que |X
n
()|
1
r
5.4. FUNCIONES GENERADORAS Y CONVERGENCIA EN DISTRIBUCIN 171
para cualquier n N(). En particular, dada > 0 sea r N tal que
1
r
< y N() tal
que |X
n
()|
1
r
para cualquier n N(), entonces |X
n
()| < para cualquier n N(),
lo cual signica que lm
n
X
n
() = 0. Es decir,
T

r=1
B
c
r
[lm
n
X
n
= 0] y entonces
P [lm
n
X
n
= 0] P (
T

r=1
B
c
r
) = 1.
Corolario 5.34. Sea {X
n
} una sucesin de variables aleatorias y X otra variable aleatoria,
entonces X
n
c.s.
X si y slo si:
P [{ : |X
n
() X()| > para una innidad de valores de n}] = 0
para cualquier > 0.
Proposicin 5.35 (Lema de Borel-Cantelli). Sea A
1
, A
2
, . . . una sucesin de eventos tales
que
P

n=1
P (A
n
) < , entonces:
P [{ : A
n
para una innidad de valores de n}] = 0.
Demostracin
Sea A = { : A
n
para una innidad de valores de n}.
Para cada m N, sea B
m
=
S

n=m
A
n
. Entonces la sucesin de eventos B
m
es montona
decreciente y A =
T

m=1
B
m
, as que:
P(A) = P [
T

m=1
B
m
] = lm
m
P [
S

n=m
A
n
] lm
m
P

n=m
P(A
n
) = 0
Corolario 5.36. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias tales que
P

n=1
P [|X
n
| > ] < para cualquier > 0. Entonces X
n
c.s.
0.
Demostracin
Sea A() = { : |X
n
()| > para una innidad de valores de n}.
Por la proposicin 5.35, P [A()] = 0 para cualquier > 0. As que el resultado se sigue
aplicando la proposicin 5.33.
Corolario 5.37. Sean X, X
1
, X
2
, . . . variables aleatorias tales que
P

n=1
P [|X
n
X| > ] <
para cualquier > 0. Entonces X
n
c.s.
X.
5.4. Funciones generadoras y convergencia en distribucin
Teorema 5.38. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias que admiten como posi-
bles valores nicamente enteros no negativos y sean
1
,
2
, . . . sus correspondientes funciones
generadoras de probabilidades, entonces el lmite lm
n
P [X
n
= k] existe para cualquier
k {0, 1, . . .} si y slo si el lmite lm
n

n
(t) existe para cualquier t (0, 1). Adems, en
ese caso, si f(k) = lm
n
P [X
n
= k] y (t) = lm
n

n
(t), entonces (t) =
P

k=0
f(k)t
k
.
Demostracin
Supongamos primero que lm
n
P [X
n
= k] existe para cualquier k {0, 1, . . .}. Para k
{0, 1, . . .}, n N y t (0, 1), denamos f(k) = lm
n
P [X
n
= k], f
n
(k) = P [X
n
= k] y
(t) =
P

k=0
f(k)t
k
. Obsrvese que como 0 f(k) 1 para cualquier k, est bien denida.
Fijemos t (0, 1) y sea r N. Se tiene entonces:
|
n
(t) (t)| =

k=0
[f
n
(k) f(k)] t
k

k=0
|f
n
(k) f(k)| t
k
172 5. TEOREMAS LMITE
=
P
r1
k=0
|f
n
(k) f(k)| t
k
+
P

k=r
|f
n
(k) f(k)| t
k

P
r1
k=0
|f
n
(k) f(k)| t
k
+
P

k=r
t
k
Como la serie
P

k=1
t
k
es convergente, dada > 0 existe r N tal que
P

k=r
t
k
<

2
.
Ahora, como lm
n
f
n
(k) = f(k) para cualquier k {0, 1, . . .}, entonces existe N N tal
que |f
n
(k) f(k)| <

2r
para cualquier k {0, . . . , r 1} y n N.
Por lo tanto, para n N, se tiene:
|
n
(t) (t)|
P
r1
k=0
|f
n
(k) f(k)| t
k
+
P

k=r
t
k
<

2r
P
r1
k=0
|f
n
(k) f(k)| +

2

As que:
lm
n

n
(t) = (t)
lo cual demuestra la primera parte.
Supongamos ahora que lm
n

n
(t) existe para cualquier t (0, 1). Para t (0, 1), k
{0, 1, . . .} y n N, denamos f
n
(k) = P [X
n
= k],
(0)
n
=
n
y
(k+1)
n
(t) =

(k)
n
(t)fn(k)
t
Vamos a demostrar, por induccin, que, para cualquier k {0, 1, . . .}, se tienen las siguientes
dos propiedades:
(i)
(k)
n
(t) = f
n
(k) +
P

j=k+1
f
n
(j)t
jk
para cualquier t (0, 1) y n N.
(ii) lm
n

(k)
n
(t) existe para cualquier t (0, 1) y la funcin
(k)
= lm
n

(k)
n
es no
decreciente en el intervalo (0, 1).
(iii) lm
n
f
n
(k) = lm
t0+

(k)
(t)
Para k = 0, se tiene:

(0)
n
(t) =
n
(t) =
P

k=0
f
n
(k)t
k
= f
n
(0) +
P

k=1
f
n
(k)t
k
Adems, por hiptesis, lm
n

(0)
n
(t) = lm
n

n
(t) existe para cualquier t (0, 1) y,
como, para cualquier n N,
n
es una funcin no decreciente en el intervalo (0, 1), entonces
la funcin
(0)
= lm
n

(k)
n
tambin lo es.
Ahora bien, para cualquier t (0, 1) y n N, se tiene:

(0)
n
(t) =
n
(t) =
P

j=0
f
n
(j)t
j
= f
n
(0) +
P

j=1
f
n
(j)t
j
As que:

n
(t) f
n
(0) =
n
(t)
P

k=1
f
n
(k)t
k

n
(t)
P

k=1
t
k
=
n
(t)
t
1t
De manera que, tomando lmites cuando n tiende a , se obtiene:
(t) lmsup
n
f
n
(0) lmnf
n
f
n
(0) (t)
t
1t
Finalmente, tomando lmites cuando t tiende a 0 por la derecha:
lm
t0+
(t) lmsup
n
f
n
(0) lminf
n
f
n
(0) lm
t0+
(t)
As que, lm
n
f
n
(0) = lm
t0+
(t).
Supongamos ahora que se cumplen las propiedades i, ii y iii para k = m, en donde m
{0, 1, . . .}, entonces:

(m+1)
n
(t) =

(m)
n
(t)f
n
(m)
t
=
fn(m)+

j=m+1
fn(j)t
jm
fn(m)
t
=

j=m+1
fn(j)t
jm
t
= f
n
(m+ 1) +
P

j=m+2
f
n
(j)t
j(m+1)
Como lm
n

(m)
n
(t) existe para cualquier t (0, 1) y lm
n
f
n
(m) existe, entonces:
5.5. LEY DBIL DE LOS GRANDES NMEROS 173
lm
n

(m+1)
n
(t) = lm
n

(m)
n
(t)fn(m)
t
existe para cualquier t (0, 1).
Por la propiedad i, la funcin
(m+1)
n
es no decreciente en el intervalo (0, 1), as que la funcin

(m+1)
= lm
n

(m+1)
n
tambin lo es.
Ahora bien, para cualquier t (0, 1), k {0, 1, . . .} y n N, se tiene:

(m+1)
n
(t) = f
n
(m+ 1) +
P

j=m+2
f
n
(j)t
j(m+1)
As que:

(m+1)
n
(t) f
n
(m+ 1) =
(m+1)
n
(t)
P

j=m+2
f
n
(j)t
j(m+1)

(m+1)
n
(t)
P

j=m+2
t
j(m+1)
=
(m+1)
n
(t)
t
1t
De manera que, tomando lmites cuando n tiende a , se obtiene:

(m+1)
(t) lmsup
n
f
n
(m+ 1) lmnf
n
f
n
(m+ 1)
(m+1)
(t)
t
1t
Finalmente, tomando lmites cuando t tiende a 0 por la derecha:
lm
t0+

(m+1)
(t) lmsup
n
f
n
(m+ 1) lminf
n
f
n
(m+ 1) lm
t0+

(m+1)
(t)
As que, lm
n
f
n
(m+ 1) = lm
t0+

(m+1)
(t).
Corolario 5.39. Sean X, X
1
, X
2
, . . . variables aleatorias que admiten como posibles valores
nicamente enteros no negativos y sean ,
1
,
2
, . . . sus correspondientes funciones genera-
doras de probabilidades, entonces X
n
D
X si y slo si (t) = lm
n

n
(t) para cualquier
t (0, 1).
Demostracin
Supongamos que X
n
D
X , entonces lm
n
P [X
n
= k] = P [X = k] para cualquier k
{0, 1, . . .}, as que, por el teorema 5.38, lm
n

n
(t) existe para cualquier t (0, 1) y si
(t) = lm
n

n
(t), entonces (t) =
P

k=0
P [X = k] t
k
= (t).
Supongamos ahora que (t) = lm
n

n
(t) para cualquier t (0, 1), entonces, por el teorema
5.38, lm
n
P [X
n
= k] existe para cualquier k {0, 1, . . .} y si f(k) = lm
n
P [X
n
= k],
entonces
P

k=0
P [X = k] t
k
= (t) =
P

k=0
f(k)t
k
. As que lm
n
P [X
n
= k] = f(k) =
P [X = k].
La demostracin del siguiente resultado requiere de resultados no expuestos en este libro, de
manera que nicamente se enuncia. Puede consultarse una demostracin en Billingsley, P.,
Probability and Measure, John Wiley, 1979.
Teorema 5.40. Sean X, X
1
, X
2
, . . . variables aleatorias y supongamos que sus correspon-
dientes funciones generadoras de momentos, M, M
1
, M
2
, . . ., estn denidas en una vecindad
comn de 0. Entonces X
n
D
X si y slo si M(t) = lm
n
M
n
(t) en una vecindad de 0.
5.5. Ley dbil de los grandes nmeros
La ley dbil de los grandes nmeros tiene su origen en el teorema de Bernoulli, publicado en
el ao 1713, el cual establece que si E es un experimento aleatorio y A un evento relativo a
ese experimento, de probabilidad igual a p, y consideramos un nuevo experimento aleatorio
174 5. TEOREMAS LMITE
consistente en la repeticin indenida del experimento E, de tal manera que cada repeticin
es independiente de las otras, entonces, llamando X
n
al nmero de veces que ocurre el evento
A en las primeras n repeticiones del experimento, se tiene
X
n
n
P
p.
El teorema de Bernoulli equivale a decir que si X
1
, X
2
, . . . es una sucesin de variables aleato-
rias independientes, todas con distribucin Bernoulli de parmetro p, entonces
X
1
+X
2
++X
n
n
P
p.
La forma general de este resultado se debe al matemtico sovitico Pafnuty Lvovich Chebyshev,
quien en el ao 1867 demostr el siguiente resultado:
Proposicin 5.41 (Chebyshev). Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, in-
dependientes e idnticamente distribuidas, de varianza nita. Entonces,
X
1
+...+X
n
n
P
, en
donde es la esperanza comn de X
1
, X
2
, . . ..
Demostracin
Para cada n N, sea Y
n
=
X
1
++Xn
n
. Entonces Y
n
es una variable aleatoria de varianza nita
y esperanza . De manera que, por la desigualdad de Chebyshev, se tiene:
P [|Y
n
| > ]
1

2
V ar [Y
n
] =

2
n
2
en donde
2
es la varianza comn de X
1
, X
2
, . . .. Tomando lmites cuando n se tiene
entonces el resultado.
El teorema de Bernoulli admite una generalizacin en otro sentido: Sea X
1
, X
2
, . . . una suce-
sin de variables aleatorias independientes, todas con distribucin Bernoulli, pero no necesa-
riamente idnticamente distribuidas, entonces
1
n
P
n
j=1
X
j

1
n
P
n
j=1
p
j
P
0, en donde p
j
es
el parmetro de X
j
. Este resultado se debe a Simon Denis Poisson, quien lo demostr en
el ao 1800 y lo bautiz como la ley dbil de los grandes nmeros. La forma general de este
resultado se debe al matemtico sovitico Andrei Andreyevich Markov, quien en el ao 1880
demostr el siguiente resultado:
Proposicin 5.42 (Markov). Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, indepen-
dientes de varianza nita tales que lm
n
1
n
2
P
n
j=1

2
j
= 0. Entonces:
1
n
P
n
j=1
X
j

1
n
P
n
j=1

j
P
0
en donde
j
es la esperanza X
j
.
Demostracin
Para cada n N, sea Y
n
=
X
1
++X
n
n
. Entonces Y
n
es una variable aleatoria de varianza nita
y esperanza . De manera que, por la desigualdad de Chebyshev, se tiene:
P
h

Y
n

1
n
P
n
j=1

>
i

1
n
2

2
P
n
j=1

2
j
Tomando lmites cuando n se tiene entonces el resultado.
Ejemplo 5.43. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, con fun-
ciones de densidad f
1
, f
2
, . . ., respectivamente, dadas por:
f
n
(x) =
(
1
2
si x
n
n
1
4
, n
1
4
o
0 en otro caso
5.5. LEY DBIL DE LOS GRANDES NMEROS 175
Para n N, se tiene
n
= 0 y
2
n
=

n, as que:
lm
n
1
n
2
P
n
j=1

2
j
= lm
n
1
n
2
P
n
j=1

j lm
n
1
n

n = lm
n
1

n
= 0
Por lo tanto, con base en la proposicin 5.42, se concluye:
1
n
P
n
j=1
X
j
P
0
Ejemplo 5.44. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, con fun-
ciones de densidad f
1
, f
2
, . . ., respectivamente, dadas por:
f
n
(x) =

1
2
si x {n, n}
0 en otro caso
Para n N, se tiene
n
= 0 y
2
n
= n
2
, as que:
lm
n
1
n
2
P
n
j=1

2
j
= lm
n
1
n
2
P
n
j=1
j
2
= lm
n
(n+1)(2n+1)
6n
=
Por lo tanto, no se cumple la condicin de Markov, la cual permitira concluir
1
n
P
n
j=1
X
j
P

0.
Obsrvese que se tiene:
1
n
X
n
=
1
n
P
n
j=1
X
j

1
n
P
n1
j=1
X
j
=
1
n
P
n
j=1
X
j

n1
n
1
n1
P
n1
j=1
X
j
As que si se tuviera
1
n
P
n
j=1
X
j
P
0, entonces se tendra
1
n
X
n
P
0. Pero

1
n
X
n

= 1 con
probabilidad 1.
El resultado de Aleksandr Yakovlevich Khintchine, el cual se demuestra ms adelante, muestra
que la condicin de la proposicin 5.42 no es necesaria para la validez de la ley dbil.
Lema 5.45. Si f : [0, ) 7R es una funcin decreciente y no negativa tal que
R

0
f(x)dx <
y (a
n
) una sucesin montona creciente de nmeros reales positivos tal que lm
n
a
n
= ,
entonces lm
n
a
n
f(a
n
) = 0.
Demostracin
La sucesin (s
n
), en donde s
n
=
P
{kN:ka
n
}
f(k), es montona no decreciente y se tiene:
s
n
=
P
{kN:ka
n
}
R
k
k1
f(k)dx
P
{kN:ka
n
}
R
k
k1
f(x)dx
R
a
n
0
f(x)dx
R

0
f(x)dx.
As que (s
n
) converge y es, por lo tanto, una sucesin de Cauchy.
Entonces, dada > 0 existe un nmero natural M tal que si n m M entonces s
n
s
m
<

2
,
es decir
P
{kN:a
m
<ka
n
}
f(k) <

2
.
Sea ahora N tal que a
n
> 2(a
M
+ 1) para cualquier n > N, se tiene entonces, para n > N,
a
n
2(a
M
+ 1) > 0 y (a
n
a
M
1)f(a
n
)
P
{kN:a
M
<ka
n
}
f(k) <

2
. As que:
a
n
f(a
n
) < 2(a
n
a
M
1)f(a
n
) <
lo cual prueba el resultado.
Proposicin 5.46. Si X es una variable aleatoria de esperanza nita y (a
n
) una sucesin
montona creciente de nmeros reales positivos tal que lm
n
a
n
= , entonces:
lm
n
a
n
P [X > a
n
] = lm
n
a
n
P [X < a
n
] = 0
Demostracin
Como X tiene esperanza nita, se tiene:
176 5. TEOREMAS LMITE
R

0
P [X > x] dx =
R

0
[1 F
X
(x)] dx <
y:
R

0
P [X < x] dx
R

0
P [X x] dx =
R

0
F
X
(x) <
Adems, las funciones x 7 P [X > x] y x 7 P [X < x] son no negativas y decrecientes en
el intervalo [0, ).
El resultado se sigue entonces del lema 5.45.
Lema 5.47. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, independientes e idntica-
mente distribuidas, de esperanza nita y (a
n
) una sucesin montona creciente de nmeros
reales positivos tal que lm
n
a
n
= . Para n, k N, denamos:
Y
n
k
=

X
k
si |X
k
| a
n
0 en otro caso
.
Entonces, jando n, las variables aleatorias Y
n
1
, Y
n
2
, . . . tienen la misma distribucin. Adems,si

n
es la esperanza comn de Y
n
1
, Y
n
2
, . . ., entonces lm
n

n
= .
Demostracin
F
Y
n
k
(x) = P [Y
n
k
x] = P [Y
n
k
x, |X
k
| a
n
] +P [Y
n
k
x, |X
k
| > a
n
]
= P [X
k
x, |X
k
| a
n
] +P [Y
n
k
x, |X
k
| > a
n
]
=

0 si x < a
n
P [a
n
X
k
x] si a
n
x < 0
P [a
n
X
k
x] +P [|X
k
| > a
n
] si 0 x a
n
1 si x > a
n
=

0 si x < a
n
P [a
n
X
k
x] si a
n
x < 0
P [X
k
x] +P [X
k
> a
n
] si 0 x a
n
1 si x > a
n
=

0 si x < a
n
F
X
k
(x) P [X
k
< a
n
] si a
n
x < 0
F
X
k
(x) +P [X
k
> a
n
] si 0 x a
n
1 si x > a
n
De manera que, jando n, las variables aleatorias Y
n
1
, Y
n
2
, . . . tienen la misma distribucin.
Adems:

n
= E [Y
n
1
] =
R

1 F
Y
n
1
(x)

dx
R

0
F
Y
n
1
(x)dx
=
R
an
0

1 F
Y
n
1
(x)

dx
R
an
0
F
Y
n
1
(x)dx
=
R
a
n
0
[1 F
X
1
(x) P [X
1
> a
n
]] dx
R
a
n
0
[F
X
1
(x) P [X
1
< a
n
]] dx
=
R
a
n
0
[1 F
X
1
(x)] dx a
n
P [X
1
> a
n
]
R
a
n
0
F
X
1
(x)dx +a
n
P [X
1
< a
n
]
=
R
a
n
0
[1 F
X
1
(x)] dx
R
a
n
0
F
X
1
(x)dx +a
n
P [X
1
< a
n
] a
n
P [X
1
> a
n
]
As que, utilizando la proposicin 5.46, lm
n

n
= E[X
1
] = .
El siguiente resultado fue demostrado por Aleksandr Yakovlevich Khintchine en el ao 1928:
5.5. LEY DBIL DE LOS GRANDES NMEROS 177
Proposicin 5.48 (Khintchine). Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, inde-
pendientes e idnticamente distribuidas, de esperanza nita . Entonces,
X
1
++X
n
n
P
.
Demostracin
Sea es el valor comn de E [|X
1
|], E [|X
2
|] , . . .. Si = 0, el resultado es trivial. Supongamos
entonces que > 0.
Dada > 0, denamos, para n, k N:
a
n
=

2
8
n y Y
n
k
=

X
k
si |X
k
| a
n
0 en otro caso
Por el lema 5.47, jando n, las variables aleatorias Y
n
1
, Y
n
2
, . . . tienen la misma distribucin y
si
n
es la esperanza comn de Y
n
1
, Y
n
2
, . . ., entonces lm
n

n
= .
Por otra parte, para cualesquiera n, k N, se tiene (Y
n
k
)
2
a
2
n
, as que Y
n
k
tiene varianza
nita.
Adems, |Y
n
k
| |X
k
| y |Y
n
k
| a
n
, as que, si
2
n
es la varianza comn de Y
n
1
, Y
n
2
, . . ., se tiene:

2
n
E

(Y
n
k
)
2

E[a
n
|X
k
|] = a
n
E[|X
k
|] =

2
8
nE[|X
k
|] =
n
2
8
.
Ahora bien, como lm
n

n
= y lm
n
a
n
P [X
1
> a
n
] = 0, existe N tal que |
n
| <

2
y a
n
P [X
1
> a
n
] <

2
2
para cualquier n > N.
Entonces, para n > N, se tiene:
P

X
1
++Xn
n

>

P
h

Y
n
1
++Y
n
n
n

>
i
+P [Y
n
k
6= X
k
para alguna k n]
P
h

Y
n
1
++Y
n
n
n

n

>

2
i
+P [Y
n
k
6= X
k
para alguna k n]
Pero, por la desigualdad de Chebyshev, se tiene:
P
h

Y
n
1
++Y
n
n
n

n

>

2
i

4
2
n
n
2


2
.
Adems:
P [Y
n
k
6= X
k
para alguna k n]
P
n
k=1
P [Y
n
k
6= X
k
]
=
P
n
k=1
P [|X
k
| > a
n
] = nP [X
1
> a
n
]
=
n
a
n
a
n
P [X
1
> a
n
] =
1

a
n
P [X
1
> a
n
] <

2
As que:
P

X
1
++Xn
n

>


2
+

2
= ,
lo cual prueba el resultado.
El mtodo utilizado por Khintchine en la proposicin anterior es conocido como el mtodo
de truncacin. Fue introducido por Markov en el ao 1913 con relacin a un teorema de
Aleksandr Mikhailovich Lyapunov, el cual generaliza el teorema de de Moivre.
Ejemplo 5.49. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes con funcin
de densidad comn f dada por:
f(x) =

c
x
3
si x N
0 en otro caso
178 5. TEOREMAS LMITE
Se tiene =
P

k=1
c
k
2
< , as que: por el teorema de Khintchine,
X
1
++Xn
n
P
.
Obsrvese que se tiene
2
=
P

k=1
c
k

P

k=1
c
k
2
= .
5.5.1. Interpretacin de la Esperanza. La ley dbil de los grandes nmeros permite
recuperar la interpretacin de la esperanza de una variable aleatoria como el promedio de los
valores que toma sta cuando el experimento aleatorio se repite muchas veces.
Ejemplo 5.50. Supongamos que se participa en un juego en el cual la ganancia esperada es
de pesos, entonces, por la ley dbil de los grandes nmeros, dada cualquier > 0:
lm
n
P

X
1
++X
n
n

= 1
Esto signica que dada > 0, existe N tal que P

X
1
++X
n
n

> 1 para cualquier


n N, lo cual equivale a decir que, para cualquier n N:
P [n( ) X
1
+ +X
n
n( +)] > 1
Tomemos, por ejemplo, = 1, = 0.01 y = 0.01. Entonces existe N tal que, para cualquier
n N, se tiene:
P [0.99n X
1
+ +X
n
1.01n] > 0.99
En particular:
P [X
1
+ +X
n
0.99n] > 0.99
P [X
1
+ +X
n
> 1.01n] < 0.01
El resultado que obtuvimos en el captulo 5 con relacin a la obra Hamlet de Shakespeare, el
cual puede parecer sorprendente, puede ahora entenderse un poco mejor. Ah consideramos
la obra Hamlet de Shakespeare, el conjunto C de caracteres tipogrcos que ah se utilizan y
el nmero total T de caracteres fsicamente distintos que se utilizan en la obra. Suponiendo
entonces que una persona escribe una secuencia de T caracteres, cada uno seleccionado al azar
del conjunto C, la probabilidad de que esa secuencia de T caracteres coincida exactamente con
la obra de Shakespeare resulta ser igual a p =

1
m

T
, en donde m es el nmero de elementos
que hay en C. Suponiendo ahora que el experimento consistente en escribir una secuencia de
T caracteres, cada uno seleccionado al azar del conjunto C, se repite indenidamente, siendo
cada repeticin independiente de las dems y deniendo como xito, en cada repeticin de
este experimento, al hecho de obtener una secuencia de T caracteres que coincida exactamente
con la obra de Shakespeare, tenemos entonces una sucesin de ensayos de Bernoulli, indepen-
dientes, en cada uno de los cuales la probabilidad de xito es igual a p. Demostramos entonces
que la probabilidad de que en algn momento una de las secuencias de T caracteres coincida
exactamente con la obra de Shakespeare es igual a 1. Podemos preguntarnos ahora cuntas
secuencias de T caracteres tendran que escribirse, en promedio, hasta llegar a obtener en
algn momento la obra de Shakespeare. La respuesta es la esperanza de la variable aleatoria
Y denida como es el nmero de repeticiones del experimento que se tienen que realizar hasta
obtener por primera vez xito en la mencionada sucesin de ensayos de Bernoulli. Como Y 1
tiene distribucin geomtrica, se tiene E[Y ] = 1 +
1p
p
=
1
p
= m
T
.
Sin embargo, cabe comentar que el resultado no demuestra la validez de tal interpretacin
prctica. En primer lugar porque la ley dbil establece nicamente que la probabilidad de
que el promedio
X
1
+...+Xn
n
diera de la esperanza en una cantidad grande es pequea, lo
cual no signica que, necesariamente, en una repeticin particular del experimento aleatorio
5.5. LEY DBIL DE LOS GRANDES NMEROS 179
correspondiente, el promedio de los valores de la variable aleatoria se acercar cada vez ms
a . Ni siquiera signica que, realizando muchas secuencias de repeticiones del experimento
aleatorio, los casos en que el promedio de los valores de la variable aleatoria no se acerquen
cada vez ms a sern raros, a menos que integremos la interpretacin frecuencial de la
probabilidad, la cual no queda demostrada tampoco por la ley dbil. En otras palabras, la
ley dbil de los grandes nmeros es un resultado puramente terico, el cual se obtiene a partir
de las propiedades del modelo matemtico que hemos considerado hasta este momento. Su
interpretacin prctica requiere de consideraciones adicionales que no estn contenidas dentro
del modelo terico. Sin embargo, hay algo, en conexin con esta discusin, que s se deriva de
la ley dbil y es el hecho de que, si bien el resultado no demuestra la validez de la interpretacin
frecuencial de la probabilidad, s muestra que el modelo probabilstico que hemos desarrollado
es perfectamente compatible con tal interpretacin.
Por otra parte, incluso como resultado terico, debe de tenerse cuidado en la interpretacin
de lo que dice la ley dbil pues se establece nicamente que, cuando m es grande, hay una
probabilidad cercana a 1 de que el valor absoluto de la diferencia
X
1
++X
n
n
sea menor
que un nmero positivo jo de antemano. Esto no debe interpretarse en el sentido de que,
cuando n es grande, la suma X
1
+ + X
n
y la cantidad n dieran en muy poco con una
probabilidad muy grande.
Esta idea queda ms clara en el contexto de los juegos justos. Supongamos para esto que X
representa la ganancia que se recibe al participar en un juego. La suma X
1
+ X
n
representa
entonces la ganancia acumulada en n juego, mientras que la cantidad n representa el pago
total que se debe hacer por participar en los n juegos de tal manera que cada uno de ellos
sea justo. Puede esperarse que la ganancia acumulada ser aproximadamente igual al pago
total? La respuesta es, no necesariamente, lo cual se ilustra en el siguiente ejemplo:
Ejemplo 5.51. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, todas con
funcin de densidad dada por:
f(x) =

1
j(j+1)2
j
si x = 2
j
con j N
1
P

j=1
1
j(j+1)2
j
si x = 0
0 en otro caso
Se tiene E[X
j
] =
P

j=1
1
j(j+1)
= 1. De manera que, por la proposicin 5.48, para cualquier
> 0, se tiene:
lm
n
P

S
n
n
1

>

= 0
en donde S
n
=
P
n
k=1
X
k
.
De aqu se sigue que:
lm
n
P [|S
n
n| n] = 1
lo cual nos dice que cuando n es grande, con probabilidad muy cercana a 1, la ganancia en
este juego se encuentra localizada en el intervalo [n, n]. Como puede verse, debido a que
dicho intervalo es muy grande, esa relacin no nos da una idea clara sobre el valor de S
n
.
Se puede dar una mayor precisin en cuanto a la localizacin de S
n
. Para esto, denamos,
para cada nmero natural n 2, a
n
=
n
log
2
n
y, para k N:
Y
n
k
=

X
k
si |X
k
| a
n
0 en otro caso
180 5. TEOREMAS LMITE
Siguiendo la demostracin de la proposicin 5.48, se tiene que, jando n, las variables aleato-
rias Y
n
1
, Y
n
2
, . . . tienen la misma distribucin y su varianza es nita. Adems:
E[Y
n
k
] =
P
{jN:2
j
a
n
}
2
j
P [X
k
= 2
j
] =
P
{jN:2
j
a
n
}
1
j(j+1)
V ar(Y
n
k
) E

(Y
n
k
)
2

=
P
{jN:2
j
a
n
}
2
2j
P [X
k
= 2
j
]
=
P
{jN:2
j
a
n
}
2
j
j(j+1)

P
{jN:2
j
a
n
}
2
j
j
2
=
P
{jN:jlog
2
a
n
}
2
j
j
2
Vamos a requerir de una cota superior adecuada para esta ltima sumatoria. Para obtenerla,
sea z
n
=
n
2
2
n
P
n
k=1
2
k
k
2
, entonces:
z
n+1
=
(n+1)
2
2
n
+1
P
n+1
k=1
2
k
k
2
=
(n+1)
2
2
n
+1
P
n
k=1
2
k
k
2
+ 1 =
(n+1)
2
2
n
+1
2
n
n
2
z
n
+ 1
=
1
2

1 +
1
n

2
z
n
+ 1
Supongamos z
n+1
z
n
, entonces:
z
n+2
=
1
2

1 +
1
n

2
z
n+1
+ 1
1
2

1 +
1
n

2
z
n
+ 1 = z
n+1
Adems, z
5
=
5
2
2
5
P
5
k=1
2
k
k
2
=
347
72
, z
4
=
4
2
2
4
P
4
k=1
2
k
k
2
=
352
72
. De manera que z
5
< z
4
.
Por lo tanto, por el principio de induccin matemtica, z
n+1
z
n
para cualquier n 4.
As que la sucesin (z
n
)
n4
es montona decreciente y como es no negativa, converge.
Aunque no se requiere tener el valor de lm
n
z
n
, se puede obtener fcilmente. En efecto,
sea z = lm
n
z
n
, entonces, como z
n+1
=
1
2

1 +
1
n

2
z
n
+1, tomando lmites cuando n ,
se obtiene z =
1
2
z + 1, de lo cual resulta z = 2.
Como la sucesin (z
n
)
n4
converge, est acotada. Sea M una cota superior de (z
n
)
n1
, se
tiene entonces:
z
n
=
n
2
2
n
P
n
k=1
2
k
k
2
M
para cualquier n N.
Por lo tanto:
P
n
k=1
2
k
k
2

M2
n
n
2
para cualquier n N.
Sea k
n
es el ms grande entero k tal que 2
k
a
n
, es decir, 2
kn
a
n
y k
n
+ 1 > log
2
a
n
.
Entonces, tomando n sucientemente grande de tal manera que log
2
a
n
2, se tiene:
P
{jN:jlog
2
an}
2
j
j
2
=
P
kn
j=1
2
j
j
2

M2
k
n
k
2
n

Ma
n
(log
2
an1)
2

Ma
n
(
1
2
log
2
an)
2
=
4Ma
n
(log
2
an)
2
.
As que:
V ar(Y
n
k
)
P
{jN:jlog
2
a
n
}
2
j
j
2

Aan
(log
2
a
n
)
2
en donde A = 4M.
Sea ahora b
n
=
P
n
k=1
E[Y
n
k
] = n
P
{
kN:2
k
a
n}
1
k(k+1)
.
Obsrvese que lm
n
a
n
= , pero como lm
n
a
n
n
= lm
n
1
log
2
n
= 0, a
n
crece mucho ms
lento que n. Adems, se tiene lm
n
P
{
kN:2
k
a
n}
1
k(k+1)
=
P

k=1
1
k(k+1)
= 1. De manera
que, cuando n es grande, b
n
n.
El siguiente resultado localiza entonces de manera ms precisa el valor de S
n
:
lm
n
P [|S
n
b
n
| a
n
] = 1
Demostremos la validez de esta ltima relacin. Se tiene:
5.5. LEY DBIL DE LOS GRANDES NMEROS 181
P [|S
n
b
n
| > a
n
]
P [|
P
n
k=1
E[Y
n
k
] b
n
| > a
n
] +P [Y
n
k
6= X
k
para alguna k n]
Pero, por la desigualdad de Chebyshev y tomando n sucientemente grande de tal manera que
log
2
a
n
2, se tiene:
P [|
P
n
k=1
E[Y
n
k
] b
n
| > a
n
]
1

2
a
2
n
P
n
k=1
V ar(Y
n
k
)
=
n

2
a
2
n
V ar(Y
n
1
)
n

2
a
2
n
Aan
(log
2
a
n
)
2
=
An

2
a
n
(log
2
a
n
)
2
Adems:
P [Y
n
k
6= X
k
para alguna k n]
P
n
k=1
P [Y
n
k
6= X
k
]
=
P
n
k=1
P [|X
k
| > a
n
] = nP [X
1
> a
n
]
= n
P
{
kN:2
k
>a
n}
1
k(k+1)2
k
n
P
{kN:k>log
2
a
n
}
1
k
2
2
k

n
(log
2
a
n
)
2
P
{kN:k>log
2
a
n
}
1
2
k

2n
a
n
(log
2
a
n
)
2
As que:
P [|S
n
b
n
| > a
n
]
An

2
a
n
(log
2
a
n
)
2
+
2n
a
n
(log
2
a
n
)
2
=
Bn
a
n
(log
2
a
n
)
2
=
B
log
2
an
en donde B es una constante.
Por lo tanto:
lm
n
P [|S
n
b
n
| > a
n
] = 0
lo cual prueba el resultado.
Ahora bien:
b
n
= n
P
{kN:2
k
an}
1
k(k+1)
= n

1
1
k
k
+1

en donde, como antes, k


n
es el ms grande entero k tal que 2
k
a
n
. Es decir, se tiene
k
n
log
2
a
n
y k
n
+ 1 > log
2
a
n
.
En particular:
k
n
+ 1 1 + log
2
a
n
= 1 + log
2
n log
2
log
2
n < log
2
n
Por otra parte, como lm
n
log
2
n
log
2
log
2
n
= 0, dada > 0, existe N tal que si n > N, entonces
log
2
n < log
2
log
2
n.
De esta manera, si = 1
1
1+
, existe N tal que si n > N, entonces:
k
n
+ 1 > log
2
a
n
= log
2
n log
2
log
2
n > log
2
n log
2
n = (1 ) log
2
n =
log
2
n
1+
Por lo tanto:
lm
n
P
h
S
n
n (1 )
n
log
2
n
i
= lm
n
P
h
S
n
n a
n

n
log
2
n
i
lm
n
P
h
S
n
n a
n

n
k
n
+1
i
= P
h
S
n
n +
n
k
n
+1
a
n
i
P
h

S
n
n +
n
k
n
+1

a
n
i
= lm
n
P [|S
n
b
n
| a
n
] = 1.
lm
n
P
h
S
n
n (1 + 2)
n
log
2
n
i
= lm
n
P
h
S
n
n a
n

n(1+)
log
2
n
i
lm
n
P
h
S
n
n a
n

n
kn+1
i
= P
h
S
n
n +
n
kn+1
a
n
i
182 5. TEOREMAS LMITE
P
h

S
n
n +
n
k
n
+1

a
n
i
= lm
n
P [|S
n
b
n
| a
n
] = 1
As que:
lm
n
P
h
(1 + 2)
n
log
2
n
S
n
n (1 )
n
log
2
n
i
= 1
lo cual muestra que, con una probabilidad muy cercana a 1, la ganancia acumulada S
n
ser
considerablemente menor al pago total n, tendiendo a ser la diferencia innitamente grande.
Obsrvese que este resultado no contradice la ley dbil pues, a pesar de que la diferencia S
n
n
pueda hacerse innitamente grande, la diferencia
Sn
n
n se mantiene pequea. En efecto, se
tiene:
lm
n
P
h

(1+2)
log
2
n

Sn
n
1
(1)
log
2
n
i
= 1
y la longitud del intervalo
h

(1+2)
log
2
n
,
(1)
log
2
n
i
tiende a 0 cuando n tiende a .
5.6. Ley fuerte de los grandes nmeros
Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, independientes e idnticamente distribuidas,
de varianza nita y esperanza comn . La ley dbil de los grandes nmeros establece que
X
1
++Xn
n
P
. En el ao 1930 Andrey Nikolaevich Kolmogorov mostr que este resultado
puede mejorarse demostrando que la convergencia a se da no slo en probabilidad sino
tambin con probabilidad 1, la cual, como ya vimos, es un tipo de convergencia ms fuerte.
Como vimos antes, la demostracin de que la sucesin Y
n
=
X
1
++X
n
n
converge a en probabi-
lidad est basada en la desigualdad de Chebyshev, de la cual se obtiene que P [|Y
n
| > ]
K
n
, en donde K es una constante. De la proposicin 5.36 puede verse, que para demostrar que la
sucesin Y
n
converge a con probabilidad 1 bastara con demostrar que
P

n=1
P [|Y
n
| > ] <
para cualquier > 0. Para probar esto no basta con aplicar la desigualdad de Chebyshev
puesta sta nicamente establece que P [|Y
n
| > ]
K
n
y la serie
P

n=1
1
n
no es convergente.
El resultado de Kolmogorov tiene su origen en el teorema de Borel, publicado en el ao 1909,
el cual se enuncia y demuestra a continuacin:
Proposicin 5.52 (Teorema de Borel). Sea E un experimento aleatorio y A un evento relativo
a ese experimento, de probabilidad igual a p. Consideremos un nuevo experimento aleatorio
consistente en la repeticin indenida del experimento E, de tal manera que cada repeticin es
independiente de las otras. Sea X
n
el nmero de veces que ocurre el evento A en las primeras
n repeticiones del experimento, entonces
Xn
n
c.s.
p.
Demostracin
Sabemos que X
n
tiene distribucin binomial de parmetros n y p. As que:
E[X
n
] = np
E[X
2
n
] = np +n(n 1)p
2
E[X
3
n
] = np + 3n(n 1)p
2
+n(n 1)(n 2)p
3
E[X
4
n
] = np + 7n(n 1)p
2
+ 6n(n 1)(n 2)p
3
+n(n 1)(n 2)(n 3)p
4
Por lo tanto:
E
h

Xn
n
p

4
i
=
E
[
X
4
n]
n
4
4
E
[
X
3
n]
n
3
p + 6
E
[
X
2
n]
n
2
p
2
4
E[X
n
]
n
p
3
+p
4
5.6. LEY FUERTE DE LOS GRANDES NMEROS 183
=
1
n
3
p (1 p) [3np(1 p) 6p(1 p) + 1] <
1
4n
3

3n
4
+n

<
1
n
2
Sabemos adems que si X es cualquier variable aleatoria y cualquier nmero real positivo,
entonces P [|X| ]
1

E [|X|], as que:
P

X
n
n
p

>

E
_
(
X
n
p)
4
_

4
<
1
n
2

4
La serie
P

n=1
P

Xn
n
p

>

es entonces convergente para cualquier > 0. As que, por el


corolario 5.36,
X
n
n
p
c.s.
0, es decir,
X
n
n
c.s.
p.
El teorema de Borel equivale a decir que si X
1
, X
2
, . . . es una sucesin de variables aleatorias
independientes, todas con distribucin Bernoulli de parmetro p, entonces
X
1
++X
n
n
c.s.
p.
Rajchman mostr, en el ao 1932, que la convergencia con probabilidad 1 se puede establecer
demostrndola primero para una subsucesin, como se expone a continuacin:
Proposicin 5.53 (Rajchman). Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, inde-
pendientes e idnticamente distribuidas, de varianza nita. Entonces, para cualquier > 0,
se tiene:
X
1
++Xn
n
c.s.

en donde es la esperanza comn de X


1
, X
2
, . . ..
Demostracin
Para cada n N, sea S
n
=
P
n
k=1
(X
k
) y Y
n
=
Sn
n
. Entonces Y
n
es una variable aleatoria
de varianza nita y esperanza 0. De manera que, por la desigualdad de Chebyshev, se tiene:
P [|Y
n
| > ]
1

2
E[Y
2
n
] =

2
n
2
en donde
2
es la varianza comn de X
1
, X
2
, . . ..
As que,
P

n=1
P [|Y
n
2| > ]
P

n=1

2
n
2

2
< .
Por lo tanto, por la proposicin 5.36:
P [lm
n
Y
n
2 = 0] = 1
Sea ahora Z
n
= max
{k:n
2
k<(n+1)
2
}
|S
k
S
n
2|. Entonces:
Z
2
n
= max
{k:n
2
k<(n+1)
2
}
|S
k
S
n
2|
2

P
(n+1)
2
1
k=n
2
|S
k
S
n
2|
2
As que:
E

|S
k
S
n
2|
2

= E

P
k
j=n
2
+1
(X
k
)

=
P
k
j=n
2
+1
E[(X
k
)
2
]

P
(n+1)
2
1
j=n
2
+1
E[(X
k
)
2
] = 2n
2
Por lo tanto:
E[Z
2
n
]
P
(n+1)
2
1
k=n
2
E

|S
k
S
n
2|
2

(2n + 1)2n
2
6n
2

2
De manera que, por la desigualdad de Chebyshev, se tiene:
P

Zn
n
2

>

2
E
h
Z
2
n
n
4
i

6n
2

2
n
4

2
=
6
2
n
2

2
As que,
P

n=1
P

Z
n
n
2

>

n=1
6
2
n
2

2
< .
Por lo tanto, por la proposicin 5.36:
P

lm
n
Zn
n
2
= 0

= 1
184 5. TEOREMAS LMITE
Sea A =
n


: lm
n
Z
n
()
n
2
= 0
o
y B =
n


: lm
n
Y
n
2() = 0
o
.
Se tiene P(A B) = 1 P(A
c
B
c
) 1 P(A
c
) P(B
c
) = 1.
Adems, si A B, dada > 0 existe N() N tal que
Zn()
n
2
<

2
y |Y
n
2()| <

2
para
cualquier n N().
Ahora bien, para n N y n
2
k < (n + 1)
2
:
|Y
k
| =
|S
k
|
k

|S
n
2|
n
2
+
|S
k
S
n
2|
n
2
= |Y
n
2| +
|S
k
S
n
2|
n
2
|Y
n
2| +
Z
n
n
2
As que, si AB y k [N()]
2
, entonces n
2
k < (n + 1)
2
para alguna n N(). Por
lo tanto:
|Y
k
()| |Y
n
2()| +
Z
n
()
n
2
<
As que lm
k
Y
k
() = 0.
Por lo tanto:
P

lm
n
X
1
++X
n
n
=

= P [lm
k
Y
k
= 0] P(A B) = 1
El mtodo de Kolmogorov para probar la convergencia con probabilidad 1 de la sucesin
Y
n
=
X
1
+...+Xn
n
es distinto y previo al de Rajchman y tiene adems la virtud de ser ms
general. Su demostracin est basada en una desigualdad ms general que la de Chebyshev y
que l mismo demuestra, por lo cual es llamada la desigualdad de Kolmogorov. Aqu daremos
una versin ligeramente modicada de la demostracin original.
Proposicin 5.54 (Desigualdad de Kolmogorov). Sean X
1
, . . . , X
n
n variables aleatorias
independientes de varianza nita y cualquier nmero real positivo, entonces:
P

m ax
1jn
|S
j
E [S
j
]| >

2
V ar [S
n
],
en donde, para j {1, . . . , n}, S
j
=
P
j
i=1
X
i
.
Demostracin
Supongamos primero que E[X
k
] = 0 para cualquier k {1, . . . , n}. Entonces tambin se
tiene E [S
k
] = 0 para cualquier k {1, . . . , n}.
Sea A =

: m ax
1kn
|S
k
()| >

y, para k {1, . . . , n}:


A
k
=

A : m ax
1jk1
|S
j
()| , |S
k
()| >

en donde m ax
1j0
|S
j
()| 0.
Entonces, los eventos A
1
, . . . , A
n
son mutuamente excluyentes y A =
S
n
k=1
A
k
. As que:
E[S
2
n
I
A
] = E[S
2
n
P
n
k=1
I
A
k
] =
P
n
k=1
E[S
2
n
I
A
k
] =
P
n
k=1
E

(S
k
+S
n
S
k
)
2
I
A
k

=
P
n
k=1
E

S
2
k
+ 2S
k
(S
n
S
k
) + (S
n
S
k
)
2

I
A
k

=
P
n
k=1
E[S
2
k
I
A
k
] + 2
P
n
k=1
E[S
k
(S
n
S
k
) I
A
k
] +
P
n
k=1
E

(S
n
S
k
)
2
I
A
k

Pero, por la proposicin 1.26 y el corolario 2.40, S


k
I
A
k
y S
n
S
k
son independientes y tienen
esperanza nita, de manera que, por la proposicin 2.41, se tiene:
5.6. LEY FUERTE DE LOS GRANDES NMEROS 185
E[S
k
I
A
k
(S
n
S
k
)] = E [S
k
I
A
k
] E[S
n
S
k
] = E[S
k
I
A
k
] E[S
n
S
k
] = 0
Por lo tanto:
V ar [S
n
] = E[S
2
n
] E[S
2
n
I
A
] =
P
n
k=1
E[S
2
k
I
A
k
] +
P
n
k=1
E

(S
n
S
k
)
2
I
A
k

P
n
k=1
E [S
2
k
I
A
k
]
P
n
k=1

2
E[I
A
k
] =
2
P
n
k=1
P(A
k
) =
2
P(A)
=
2
P

m ax
1jn
|S
j
E[S
j
]| >

de lo cual se sigue el resultado.


Para el caso general, sea Y
k
= X
k
E[X
k
] para k {1, . . . , n}. Entonces, las variables
aleatorias Y
1
, . . . , Y
n
son independientes, tienen varianza nita,
P
j
i=1
Y
i
=
P
j
i=1
(X
i
E[X
i
])
y E[Y
j
] = 0 para cualquier j {1, . . . , n}. De manera que si es cualquier nmero real
positivo y S
j
=
P
j
i=1
X
i
para cualquier j {1, . . . , n}, entonces:
P

m ax
1jn
|S
j
E[S
j
]| >

= P

m ax
1jn

P
j
i=1
Y
i

>

2
V ar
h
P
j
i=1
Y
i
i
=
1

2
V ar [S
n
]
Proposicin 5.55 (Kolmogorov). Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, in-
dependientes, de varianza nita, esperanza nula y tales que
P

n=1

2
n
n
2
< , en donde
2
n
es la
varianza de X
n
. Entonces:
X
1
++Xn
n
c.s.

Demostracin
Para cada n N sea S
n
=
P
n
k=1
X
k
y, para cada > 0, sea:
A

=
n
:

Sn()
n

> para una innidad de valores de n


o
Por la proposicin 5.33, para probar el resultado basta con demostrar que P(A

) = 0 para
cualquier > 0. Para esto denamos:
B
n,
=
n
:

S
k
()
k

> para alguna k N tal que 2


n1
< k 2
n
o
Evidentemente se tiene:
A

= { : B
n,
para una innidad de valores de n}
de manera que, por el lema de Borel-Cantelli, para probar que P(A

) = 0 para cualquier
> 0, basta con demostrar que
P

n=1
P(B
n,
) < para cualquier > 0. Pero, utilizando la
desigualdad de Kolmogorov, se tiene:
P(B
n,
) = P

m ax
2
n1
<k2
n

S
k
k

>

= P

m ax
2
n1
<k2
n
|S
k
| > k

max
2
n1
<k2
n
|S
k
| > 2
n1

m ax
1k2
n
|S
k
| > 2
n1

2
2
2n2
V ar [S
2
n] =
4

2
2
2n
P
2
n
k=1

2
k
As que:
P

n=1
P(B
n,
)
4

2
P

n=1
1
2
2n
P
2
n
k=1

2
k
=
4

2
P

k=1

2
k
P
{nN:k2
n
}
1
2
2n
Sea ahora n
0
el ms pequeo nmero natural tal que k 2
n
0
, entonces:
P
{nN:k2
n
}
1
2
2n
=
P

n=n
0
1
2
2n
=
4
2
2n
0

4
k
2
186 5. TEOREMAS LMITE
As que:
P

k=1

2
k
P
{nN:k2
n
}
1
2
2n
4
P

k=1

2
k
k
2
<
Por lo tanto:
P

n=1
P(B
n,
)
4

2
P

k=1

2
k
P
{nN:k2
n
}
1
2
2n
<
Corolario 5.56. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, independientes, de
varianza nita y tales que
P

n=1

2
n
n
2
< , en donde
2
n
es la varianza de X
n
. Entonces:
P

lm
n
1
n
P
n
k=1
(X
k
E[X
k
]) = 0

= 1
Ejemplo 5.57. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, con fun-
ciones de densidad f
1
, f
2
, . . ., respectivamente, dadas por:
f
n
(x) =
(
1
2
si x
n
n
1
4
, n
1
4
o
0 en otro caso
Para n N, se tiene
n
= 0 y
2
n
=

n, as que:
P

n=1

2
n
n
2
=
P

n=1
1
n
3
2
<
Por lo tanto, con base en la proposicin 5.55, se concluye:
1
n
P
n
j=1
X
j
c.s.
0
Para el caso en que las variables aleatorias X
1
, X
2
, . . . sean idnticamente distribuidas se
cumple la ley fuerte con la nica condicin de que la esperanza comn de X
1
, X
2
, . . . sea
nita. La demostracin de este resultado se debe tambin a Kolmogorov y el mtodo de
demostracin es el de truncacin, el cual fue utilizado en la demostracin de la ley dbil. Se
requieren adems algunos resultados previos, los cuales se exponen a continuacin:
Lema 5.58. Sea X una variable aleatoria cualquiera, entonces X tiene esperanza nita si y
slo si la serie
P

n=1
P [|X| n] converge.
Demostracin
Se tiene:
E[|X|] =
R

1 F
|X|
(x)

dx =
R

0
P [|X| > x] dx =
P

n=1
R
n
n1
P [|X| > x] dx
Pero:
P

n=1
R
n
n1
P [|X| > x] dx
P

n=1
R
n
n1
P [|X| n] dx =
P

n=1
P [|X| n]
P

n=1
R
n
n1
P [|X| > x] dx
P

n=0
R
n+1
n
P [|X| n] dx
=
R
1
0
P [|X| 0] dx +
P

n=1
R
n+1
n
P [|X| n] dx = 1 +
P

n=1
P [|X| n]
De manera que:
P

n=1
P [|X| n] E[|X|] 1 +
P

n=1
P [|X| n]
de lo cual se sigue el resultado.
Lema 5.59. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, independientes e idntica-
mente distribuidas de esperanza nita . Para n N, denamos:
Y
n
=

X
n
si |X
n
| n
0 en otro caso
5.6. LEY FUERTE DE LOS GRANDES NMEROS 187
Entonces:
(i) lm
n
E [Y
n
] = .
(ii) Y
n
tiene varianza nita para cualquier n N.
(iii)
P

n=1

2
n
n
2
< , en donde
2
n
es la varianza de Y
n
.
(iv) P [{ : existe N() tal que Y
n
() = X
n
() para cualquier n N()}] = 1.
Demostracin
i. Se tiene:
F
Y n
(x) =

0 si x < n
P [n X
n
x] si n x < 0
P [|X
n
| > n] +P [n X
n
x] si 0 x n
1 si x > n
=

0 si x < n
P [n X
n
x] si n x < 0
1 P [x < X
n
n] si 0 x n
1 si x > n
As que:
E[Y
n
] =
R

0
[1 F
Y n
(x)] dx
R
n
0
F
Y n
(x)dx
=
R
n
0
P [x < X
n
n] dx
R
n
0
P [n X
n
x] dx
=
R
n
0
P [x < X
1
n] dx
R
n
0
P [n X
1
x] dx
=
R
n
0
[1 F
X
1
(x)] dx
R
n
0
P [X
1
> n] dx
R
n
0
F
X
1
(x)dx. +
R
n
0
P [X
1
< n] dx
=
R
n
0
[1 F
X
1
(x)] dx
R
n
0
F
X
1
(x)dx nP [X
1
> n] +nP [X
1
< n]
Por lo tanto, utilizando la proposicin 5.46, lm
n
E [Y
n
] = E[X
1
] = .
ii. Para cualquier n N, se tiene |Y
n
| n, as que Y
n
tiene varianza nita.
iii.
P

n=1

2
n
n
2

P

n=1
1
n
2
E[Y
2
n
] =
P

n=1
1
n
2
E

X
2
n
I
[|X
n
|n]

=
P

n=1
1
n
2
P
n
j=1
E

X
2
n
I
[j1<|X
n
|j]

= E

X
2
1
I
[j1<|X
1
|j]

+
1
2
2

X
2
1
I
[j1<|X
1
|j]

+E

X
2
2
I
[j1<|X
2
|j]

+. . .
= E

X
2
1
I
[j1<|X
1
|j]

1 +
1
2
2
+

+E

X
2
2
I
[j1<|X
2
|j]

1
2
2
+
1
3
2
+

+
=
P

j=1
E

X
2
j
I
[j1<|X
j
|j]
P

n=j
1
n
2
Pero, para cualquier j {2, 3, . . .}, se tiene:
P

n=j
1
n
2

R

j1
1
x
2
=
1
j1

2
j
Adems,
P

n=1
1
n
2
= 1 +
P

n=2
1
n
2
2
As que,
P

n=j
1
n
2

2
j
para cualquier j N.
Adems, tomando en cuenta que X
1
, X
2
, . . . tienen la misma distribucin:
E

X
2
j
I
[j1<|X
j
|j]

jE

|X
j
| I
[j1<|X
j
|j]

= jE

|X
1
| I
[j1<|X
1
|j]

Por lo tanto:
P

j=1
E

X
2
j
I
[j1<|X
j
|j]
P

n=j
1
n
2

P

j=1
jE

|X
1
| I
[j1<|X
1
|j]

4
j
= 4
P

j=1
E

|X
1
| I
[j1<|X
1
|j]

188 5. TEOREMAS LMITE


Sea ahora Z
n
=
P
n
j=1
|X
1
| I
[j1<|X
1
|j]
, entonces la sucesin de variables aleatorias Z
1
, Z
2
, . . .
es montona no decreciente y lm
n
Z
n
() = |X
1
()| para cualquier , as que por el
corolario 9.40 del primer volumen de este libro:
P

j=1
E

|X
1
| I
[j1<|X
1
|j]

= lm
n
E[Z
n
] = E[|X
1
|] <
de lo cual se sigue
P

n=1

2
n
n
2
< .
iv. P [Y
n
6= X
n
] = P [|X
n
| > n] = P [|X
1
| > n]
De manera que, utilizando el lema 5.58:
P

n=1
P [Y
n
6= X
n
] =
P

n=1
P [|X
1
| > n]
P

n=1
P [|X
1
| n] < .
As que, por el lema de Borel-Cantelli, si:
A = { : Y
n
() 6= X
n
() para una innidad de valores de n}
entonces P(A) = 0.
Sea ahora:
B = { : existe N() talque Y
n
() = X
n
() para cualquier n N()}
Entonces, B A
c
, as que, P(B) P(A) = 1.
Corolario 5.60. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, independientes e idn-
ticamente distribuidas de esperanza nita. Para n N, denamos:
Y
n
=

X
n
si |X
n
| n
0 en otro caso
.
Entonces:
P

: lm
n
1
n
P
n
k=1
[X
k
() Y
k
()] = 0

1
Demostracin
Por la parte iv del lema 5.59, si:
B = { : existe N() talque Y
n
() = X
n
() para cualquier n N()}
entonces P(B) = 1.
Pero si B, entonces existe N() tal que X
n
() Y
n
() = 0 para cualquier n N(), as
que:
lm
n
1
n
P
n
k=1
[X
k
() Y
k
()] = 0
Lema 5.61. Sea (x
n
) una sucesin convergente de nmeros reales y sea x = lm
n
x
n
.
Entonces la sucesin z
n
=
1
n
P
n
k=1
x
k
es convergente y lm
n
z
n
= x.
Demostracin
Sea M > 0 tal que |x x
n
| M para cualquier n N.
Dada > 0, sea m N tal que |x x
n
| <

2
para cualquier n m.
Entonces, para n > m ax

m,
2mM

, se tiene:
|z
n
x| =

1
n
P
n
k=1
x
k
x

1
n
P
n
k=1
(x
k
x)

1
n
P
n
k=1
|x
k
x|
=
1
n
P
m
k=1
|x
k
x| +
1
n
P
n
k=m+1
|x
k
x|

mM
n
+
(nm)
2n


2
+

2
=
5.7. TEOREMA DE POISSON 189
lo cual signica que lm
n
z
n
= x.
Proposicin 5.62 (Kolmogorov). Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, in-
dependientes e idnticamente distribuidas, de esperanza nita . Entonces, para cualquier
> 0, se tiene:
P

lm
n
X
1
++Xn
n
=

= 1
Demostracin
Para cada n N, sea:
Y
n
=

X
n
si |X
n
| n
0 en otro caso
Por el lema 5.59, las variables aleatorias Y
1
, Y
2
, . . . tienen esperanza nita, lm
n
E[Y
n
] =
y
P

n=1

2
n
n
2
< , en donde
2
n
es la varianza de Y
n
. De manera que, por el lema 5.61 y el
corolario 5.56, se tiene:
lm
1
n
P
n
k=1
E[Y
k
] =
P

: lm
n
1
n
P
n
k=1
(Y
k
() E[Y
k
]) = 0

= 1
de lo cual se obtiene:
P

: lm
n
1
n
P
n
k=1
Y
k
() =

= 1
Adems, por el corolario 5.60:
P

: lm
n
1
n
P
n
k=1
[X
k
() Y
k
()] = 0

= 1
de lo cual se obtiene el resultado.
5.7. Teorema de Poisson
El siguiente teorema generaliza el teorema de Poisson, el cual establece que si, para cada
n R, X
n
es una variable aleatoria con distribucin binomial de parmetros n y p (0, 1) de
tal manera que = np es constante, entonces, para cualquier k {0, 1, . . .}, se tiene:
lm
n
P [X
n
= k] =

k
e

k!
Teorema 5.63. Para cada n N, consideremos n ensayos de Bernoulli independientes,
X
n1
, . . . , X
nn
, tales que la probabilidad de xito en el k-simo ensayo es p
nk
y supongamos
(i) lm
n
P
n
k=1
p
nk
= > 0
(ii) lm
n
P
n
k=1
p
2
nk
= 0
Denamos Z
n
=
P
n
k=1
X
nk
, entonces, para cualquier k {0, 1, . . .}, se tiene:
lm
n
P [Z
n
= k] =

k
e

k!
Demostracin
Para cualquier r R, se tiene:

Zn
(t) = [1 p
n1
(1 t)] [1 p
n2
(1 t)] [1 p
n2
(1 t)]
As que:
ln
Z
n
(t) = ln [1 p
n1
(1 t)] + ln [1 p
n2
(1 t)] + + ln [1 p
nn
(1 t)]
190 5. TEOREMAS LMITE
Pero, ln(1 x) = x +o(x), as que, dada > 0, existe > 0 tal que si 0 < x < entonces
|o(x)| < x.
Adems, dada > 0, existe N tal que si n N entonces
P
n
k=1
p
2
nk
<
2
y, por lo tanto,
p
nk
< para k {1, . . . , n}.
Por lo tanto, si n N y t (0, 1), entonces:
ln[1 p
nk
(1 t)] = p
nk
(1 t) +e
nk
en donde |e
nk
| < (1 t)p
nk
< p
nk
.
Se tiene entonces:
ln
Z
n
(t) = (1 t)
P
n
k=1
p
nk
+
P
n
k=1
e
nk
y:
|
P
n
k=1
e
nk
|
P
n
k=1
|e
nk
| <
P
n
k=1
p
nk
As que, para cualquier > 0, se tiene:
lmsup
n
|
P
n
k=1
e
nk
| lm
n
P
n
k=1
p
nk
=
Por lo tanto:
lm
n
P
n
k=1
e
nk
= 0
Y entonces:
lm
n
ln
Z
n
(t) = (1 t) lm
n
P
n
k=1
p
nk
= (1 t)
de lo cual se concluye:
lm
n

Z
n
(t) = e
(1t)
La condicin lm
n
P
n
k=1
p
2
nk
= 0 equivale a lm
n
m ax {p
nk
: k {1, . . . , n}} = 0, as que
el resultado obtenido puede interpretarse diciendo que una variable aleatoria cuyo valor sea
igual al nmero de veces que ocurre un cierto evento en un nmero grande de experimentos
independientes de manera que la probabilidad de tal evento sea uniformemente pequea, se
distribuye aproximadamente como una variable aleatoria tipo Poisson. Variables aleatorias de
este tipo son por ejemplo las que nos dan el nmero de accidentes que tienen los individuos de
una poblacin (se supone aqu que la probabilidad de que un individuo tenga un accidente es
pequea, pudiendo ser diferentes estas probabilidades para diferentes individuos), o tambin
las que nos dan el nmero de llamadas telefnicas que llegan a una ocina en una jornada
de trabajo (se supone aqu, por ejemplo, que la probabilidad de que llegue una llamada en
cada lapso de tres minutos es pequea), o tambin la que nos da el nmero de personas que
solicitan un servicio en una jornada de trabajo suponiendo que la probabilidad de que una
persona solicite el servicio en un determinado lapso de tiempo es pequea.
5.8. Teorema del lmite central
El teorema del lmite central tiene su origen en el teorema de de Moivre, publicado en el ao
1733, el cual establece que si x R y, para cada n R, X
n
es una variable aleatoria con
distribucin binomial de parmetros n y p (0, 1), entonces:
lm
n
P
h
Xnnp

npq
x
i
=
1

2
R
x

1
2
x
2
dx
5.8. TEOREMA DEL LMITE CENTRAL 191
El teorema de de Moivre equivale a decir que si X
1
, X
2
, . . . es una sucesin de variables
aleatorias independientes, todas con distribucin Bernoulli de parmetro p, entonces:
lm
n
P
h
X
1
++X
n
np

npq
x
i
=
1

2
R
x

1
2
x
2
dx
La forma general de este resultado se debe a los trabajos de la llamada escuela rusa, en
particular a Chebyshev, Markov y sobre todo a Lyapunov, quien en el ao 1900 demostr que si
X
1
, X
2
, . . . es una sucesin de variables aleatorias independientes e idnticamente distribuidas,
con tercer momento nito, entonces:
lm
n
P
h
a <
X
1
++Xnn

n
< b
i
=
1

2
R
b
a
e

1
2
y
2
dy
en donde y
2
son la esperanza y varianza comn, respectivamente, de X
1
, X
2
, . . ..
Ms tarde, en 1922, Lindeberg demostr que si X
1
, X
2
, . . . es una sucesin de variables aleato-
rias independientes de varianza nita (no necesariamente idnticamente distribuidas) y tales
que:
lm
n
P
n
k=1
1
s
2
n
E

(X
k

k
)
2
I
[|X
k

k
|>s
n
]

= 0
para cualquier > 0, en donde s
2
n
=
2
1
+
2
2
+ +
2
n
y
k
y
2
k
son la esperanza y varianza,
respectivamente, de X
k
, entonces:
lm
n
P

a <
X
1
++X
n
(
1
++
n
)

2
1
++
2
n
< b

=
1

2
R
b
a
e

1
2
y
2
dy
Obsrvese que la condicin de Lindeberg se cumple en particular cuando las variables aleato-
rias X
1
, X
2
, . . . son idnticamente distribuidas. En efecto, en ese caso, si X es una variable
aleatoria con la misma distribucin comn de X
1
, X
2
, . . . y y
2
son la esperanza y varianza,
respectivamente, de X, entonces:
lm
n
P
n
k=1
1
s
2
n
E

(X
k

k
)
2
I
[|X
k

k
|>s
n
]

= lm
n
P
n
k=1
1
n
2
E
h
(X )
2
I
[
|X|>

n
]
i
=
1

2
lm
n
E
h
(X )
2
I
[
|X|>

n
]
i
=
1

2
lm
n
E
h
(X )
2
(X )
2
I
[
|X|

n
]
i
=
1

2
lm
n

2
E
h
(X )
2
I
[|X|

n]
i
= 1
1

2
lm
n
E
h
(X )
2
I
[|X|

n]
i
Pero la sucesin de variables aleatorias (no negativas) Y
n
= (X )
2
I
[
|X|

n
]
es montona
creciente y su limite es (X )
2
, as que:
lm
n
E
h
(X )
2
I
[
|X|

n
]
i
= E

(X )
2

=
2
Por lo tanto:
lm
n
P
n
k=1
1
s
2
n
E

(X
k

k
)
2
I
[|X
k

k
|>sn]

= 1
1

2
lm
n
E
h
(X )
2
I
[
|X|

n
]
i
= 0
192 5. TEOREMAS LMITE
A continuacin damos una demostracin directa de este corolario del resultado de Lindeberg
para el caso en que la funcin generadora de momentos de X existe en una vecindad de 0.
Proposicin 5.64 (Teorema del lmite central). Sea X
1
, X
2
, . . . una sucesin de variables
aleatorias, independientes e idnticamente distribuidas de varianza nita. Entonces:
lm
n
P
h
X
1
++Xnn

n
x
i
=
1

2
R
x

1
2
y
2
dy
en donde y
2
son la esperanza y varianza comn, respectivamente, de X
1
, X
2
, . . ..
Demostracin
Asumiremos que la funcin generadora de momentos de X
i
existe en una vecindad de 0. Sea
Z
n
=
X
1
+...+Xnn

n
y la funcin generadora de momentos comn de X
1
, X
2
, . . ., entonces:
M
Z
n
(t) = E[e
tZ
n
] = E[e
t

n
(X
1
+X
2
++Xnn)
] =
h
(
t

n
)
i
n
exp
n

nt

n
o
As que:
lnM
Z
n
(t) = nln (
t

n
)
nt

n
= n
h
ln(
t

n
)
t

n
i
Por lo tanto, utilizando la regla de lHpital, se tiene:
lm
n
ln M
Z
n
(t) =
t
2
lm
n

1
(
t

n
)

0
(
t

n
)

= 2

t
2

2
lm
n

1
(
t

n
)

00
(
t

n
)
1

2
(
t

n
)
h

0
(
t

n
)
i
2

= 2

t
2

00
(0) [
0
(0)]
2

= 2

t
2

2
=
1
2
t
2
De lo cual se concluye:
lm
n
M
Z
n
(t) = e
1
2
t
2
As que, por el teorema 5.40, Z
n
converge en distribucin a una variable aleatoria con funcin
generadora de momentos dada por M(t) = e
1
2
t
2
, es decir, a una variable aleatoria X con
distribucin normal estndar. Esto signica que:
lm
n
P
h
X
1
++X
n
n

n
x
i
=
1

2
R
x

1
2
y
2
dy
Ejemplo 5.65. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, independientes e idnti-
camente distribuidas de varianza nita y denamos S
n
=
P
n
k=1
X
k
, entonces:
P

S
n

S
n


S
n

2
R
1
1
e

1
2
x
2
dx = 0.6827
P

S
n

S
n

2
Sn

2
R
2
2
e

1
2
x
2
dx = 0.9545
P

S
n

S
n

3
Sn

2
R
3
3
e

1
2
x
2
dx = 0.9973
As que, la desviacin estndar de S
n
nos da una idea de que tanto se separa S
n
de su valor
esperado.
Ejemplo 5.66. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, todas con
distribucin exponencial de parmetro = 1. Encuentre el ms pequeo valor de n tal que
P

1
n
P
n
k=1
X
k
1

0.01

0.9.
Utilizando el teorema del lmite central, se tiene:
5.9. CONVERGENCIA DE SERIES ALEATORIAS 193
P

1
n
P
n
k=1
X
k
1

0.01

= P [|
P
n
k=1
X
k
n| 0.01n]
= P
h

X
1
++Xnn

0.01

n
i

2
R
0.01

n
0.01

n
e

1
2
y
2
dy 0.9
As que, 0.01

n = 1.645, es decir, n (1.645)


2
(10, 000) = 27, 060.
Ejemplo 5.67. 50 nmeros seleccionados aleatoriamente se redondean al entero ms cercano
y despus se suman. Suponiendo que los errores de redondeo estn uniformemente distribuidos
en el intervalo (0.5, 0.5), encuentre la probabilidad de que la suma que se obtiene diera del
valor exacto en ms de 3 unidades.
Solucin
Sean a
1
, . . . , a
50
los 50 nmeros que se redondean y sean X
1
, . . . , X
50
los respectivos errores
de redondeo. Se tiene entonces:
E[X
i
] = 0, V ar [X
i
] =
1
12
P

P
50
i=1
(a
i
+X
i
)
P
50
i=1
a
i

> 3

= P

P
50
i=1
X
i

> 3

= P

50
i=1
X
i

50
12

>
3

50
12

= P

50
i=1
X
i

50
12

> 1.4697

2
R

1.4697
e

1
2
y
2
dy = 0.14164
Ejemplo 5.68. Aplique el teorema del lmite central a una sucesin de variables aleatorias
independientes, todas con distribucin Poisson con el mismo parmetro, para demostrar que:
lm
n
e
n
P
n
k=0
n
k
k!
=
1
2
Solucin
Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, todas con distribucin
Poisson de parmetro = 1. Entonces S
n
= X
1
+ + X
n
tiene distribucin Poisson de
parmetro n, as que:
P [S
n
n] = e
n
P
n
k=0
n
k
k!
Por otra parte, por el teorema del lmite central, se tiene:
lm
n
P [S
n
n] = lm
n
P
h
Snn

n
0
i
= lm
n
P
h
S
n

Sn

S
n
0
i
=
1

2
R
0

1
2
x
2
dx =
1
2
As que:
lm
n
e
n
P
n
k=0
n
k
k!
=
1
2
5.9. Convergencia de series aleatorias
Teorema 5.69. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias, independientes, de va-
rianza nita y tales que las series
P

n=1

n
y
P

n=1

2
n
convergen, en donde
n
y
2
n
son la
esperanza y la varianza de X
n
respectivamente. Entonces, con probabilidad 1, la serie
P

n=1
X
n
converge.
Demostracin
Sea Z
n
=
P
n
j=1
X
j

P
n
j=1

j
, entonces, por la desigualdad de Kolmogorov, para cualquier
> 0 y k, r N, se tiene:
194 5. TEOREMAS LMITE
P

m ax
k<nk+r
|Z
n
Z
k
| >

= P

m ax
k<nk+r

P
n
j=k+1
X
j

P
n
j=k+1

>

2
P
k+r
j=k+1

2
j

1

2
P

j=k+1

2
j
As que:
P

sup
n>k
|Z
n
Z
k
| >

2
P

j=k+1

2
j
Por lo tanto:
lm
k
P
T

n=k+1
[|Z
n
Z
k
| ]

= lm
k
P

sup
n>k
|Z
n
Z
k
|

= 1 lm
k
P

sup
n>k
|Z
n
Z
k
| >

1 lm
k
1

2
P

j=k+1

2
j
= 1
Para cada r N, sea B
k,r
=
T

n=k

|Z
n
Z
k
|
1
r

, entonces, por lo demostrado arriba, se


tiene lm
k
P [B
k,r
] = 1.
Sean ahora B
r
=
S

k=1
B
k,r
y B =
T

r=1
B
r
.
Si B, entonces B
r
para cualquier r N, de manera que, para cualquier r N, existe
k N tal que |Z
n
() Z
k
()|
1
r
para cualquier n k.
Por otra parte, dada > 0 existe r N tal que
1
r
<

2
, as que, si A, existe k N tal que
|Z
n
() Z
k
()|
1
r
<

2
para cualquier n k. De manera que, para cualesquiera n, m k,
se tiene:
|Z
n
() Z
m
()| |Z
n
() Z
k
()| +|Z
m
() Z
k
()| <
Por lo tanto, si B, la sucesin (Z
n
()) es de Cauchy, as que converge.
Ahora bien, jando r, la sucesin B
k,r
es montona creciente, as que:
P(B
r
) = lm
k
P(B
k,r
) = 1
Adems, la sucesin B
r
es montona decreciente, as que:
P(B) = lm
r
P(B
r
) = 1
Ejemplo 5.70. Sea (c
n
) una sucesin de nmeros reales y (X
n
) una sucesin de variables
aleatorias independientes, todas con funcin de densidad f dada por:
f(x) =

1
2
si x {1, 1}
0 en otro caso
Consideremos la serie
P

n=1
c
n
X
n
.
Deniendo Y
n
= c
n
X
n
, se tiene
Yn
= 0 y
2
Yn
= c
2
n
, as que si la serie
P

n=1
c
2
n
es convergente,
entonces, con probabilidad 1, la serie
P

n=1
c
n
X
n
converge.
Ejemplo 5.71. Sea (c
n
) una sucesin de nmeros reales positivos y (X
n
) una sucesin de
variables aleatorias independientes, todas con distribucin Bernoulli de parmetro p =
1
2
.
Consideremos la serie
P

n=1
c
n
X
n
.
Deniendo Y
n
= c
n
X
n
, se tiene
Y
n
=
1
2
c
n
y
2
Y
n
=
1
4
c
2
n
, as que si la serie
P

n=1
c
n
converge,
entonces, con probabilidad 1, la serie
P

n=1
c
n
X
n
converge. Este resultado no dice nada que
EJERCICIOS 195
no se sepa de antemano pues si la serie
P

n=1
c
n
converge, entonces eliminando cualquier
coleccin de c
n
s, la serie que se forma sigue siendo convergente.
Supongamos ahora que la serie
P

n=1
c
n
no es convergente y consideremos la serie
P

n=1

c
n
X
n

1
2
c
n

. Deniendo Y
n
= c
n
X
n

1
2
c
n
, se tiene
Y
n
= 0 y
2
Yn
=
1
4
c
2
n
, as que
si la serie
P

n=1
c
2
n
converge, entonces, con probabilidad 1, la serie
P

n=1

c
n
X
n

1
2
c
n

con-
verge.
Este resultado implica, en particular, que la serie
P

n=1
c
n
X
n
no es convergente, pues si lo
fuera, la serie
P

n=1
c
n
tambin sera convergente.
Se concluye entonces que, si la serie
P

n=1
c
2
n
es convergente, la serie
P

n=1
c
n
X
n
es conver-
gente con probabilidad 1 si y slo si la serie
P

n=1
c
n
converge.
EJERCICIOS
Ejercicio 5.1. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que X
n
P
X
y lm
n
E [(X
n
Y
n
)
2
] = 0. Demuestre que Y
n
P
X.
Ejercicio 5.2. Sea = (0, 1] y P la medida de Lebesgue. Denamos X : R por
X() = y, para cada n N, X
n
=
P
n
k=1
k
n
I
(
k1
n
,
k
n
]
. Demuestre directamente que X
n
converge a X en probabilidad y casi seguramente.
Ejercicio 5.3. Sean {X
n
} y {Y
n
} dos sucesiones de variables aleatorias tales que X
n
D
X
y Y
n
D
0. Demuestre que X
n
+Y
n
D
X.
Ejercicio 5.4. Sea X una variable aleatoria con distribucin uniforme en el intervalo (0, 1)
y, para cada n N, X
n
una variable aleatoria con distribucin uniforme en el conjunto

1
n
,
2
n
, ,
n
n

. a) Demuestre directamente que X


n
converge a X en distribucin. b) Demuestre
que la sucesin de funciones generadoras M
X
n
converge a M
X
.
Ejercicio 5.5. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes tales que
E[X
i
] = 0 para toda i y lm
n
1
n
2
P
n
i=1

2
i
= 0, en donde
2
i
denota la varianza de X
i
.
Demuestre que:
lm
n
P

X
1
++X
n
n

>

= 0
para cualquier > 0.
Ejercicio 5.6. Sea Y
1
, Y
2
, . . . una sucesin de variables aleatorias independientes, todas con
distribucin Bernoulli. Utilice el resultado del ejercicio 5.5 para demostrar que:
lm
n
P

Y
1
++Y
n
n

p
1
++pn
n

= 1
para cualquier > 0, en donde p
i
denota el parmetro de la distribucin de Y
i
.
Ejercicio 5.7. Sea X
1
, X
2
, . . . una sucesin de variables aleatorias independientes, con fun-
ciones de densidad f
1
, f
2
, . . ., respectivamente, dadas por:
f
n
(x) =

1
2
n+1
si x {2
n
, 2
n
}
1
1
2
n
si x = 0
0 en otro caso
196 TEOREMAS LMITE
Demuestre que la sucesin X
1
, X
2
, . . . no satisface la condicin de Markov, pero
1
n
P
n
j=1
X
j
P

0.
Sugerencia: Utilice el mtodo de truncacin.
Ejercicio 5.8. Suponga que el cambio diario en el precio de una accin de una compaa,
en el mercado de valores, es una variable aleatoria con esperanza 0 y varianza
2
. Es decir,
si, para cualquier n N, Y
n
es el precio de la accin en el da n, entonces Y
n
= Y
n1
+ X
n
,
en donde X
1
, X
2
, . . . son variables aleatorias independientes, idnticamente distribuidas, con
esperanza 0 y varianza
2
. Consideremos una accin cuyo precio el da de hoy es de 100 y
para la cual
2
= 1 , qu se puede decir acerca de la probabilidad de que en cada uno de los
siguientes 10 das el precio de la accin permanecer entre 95 y 105?
Ejercicio 5.9. Para cada n N, consideremos n variables aleatorias independientes, X
n
1
, . . . ,
X
nn
, todas con distribucin geomtrica de parmetros p
n1
, . . . , p
nn
, respectivamente, y supon-
gamos:
lm
n
P
n
k=1
1p
nk
p
nk
= > 0
lm
n
P
n
k=1

1p
nk
p
nk

2
= 0
Deniendo Z
n
=
P
n
k=1
X
nk
, demuestre que, para cualquier k {0, 1, . . .}, se tiene:
lm
n
P [Z
n
= k] =

k
e

k!
Ejercicio 5.10. Consideremos un experimento aleatorio consistente en lanzar un dado 100
veces y denamos X
i
como el resultado del i-simo lanzamiento. Encuentre una estimacin
de P
Q
100
i=1
X
i
a
100

.
Ejercicio 5.11. Sean X
1
, . . . , X
20
20 variables aleatorias independientes, todas con distribu-
cin Poisson de parmetro = 1. a) Obtenga una cota superior para P
P
20
i=1
X
i
> 15

. b)
Utilice el teorema del lmite central para estimar P
P
20
i=1
X
i
> 15

.
Ejercicio 5.12. Sean X
1
, . . . , X
100
100 variables aleatorias independientes, todas con dis-
tribucin uniforme en el intervalo (1, 1). Estime la probabilidad:
P [30 X
2
1
+ +X
2
100
35]
Ejercicio 5.13. Sean X
1
, . . . , X
n
n variables aleatorias independientes, todas con distribucin
exponencial de parmetro y sea la funcin de distribucin de una variable aleatoria con
distribucin normal estndar. Utilice el teorema del lmite central para expresar la funcin de
distribucin de Z = X
2
1
+. . . +X
2
n
en trminos de .
Ejercicio 5.14. Suponga que el peso W (en unidades de 1000 libras) que un cierto puente
puede soportar, sin sufrir daos estructurales, es una variable aleatoria con distribucin nor-
mal de esperanza 400 y desviacin estndar 40. Suponga adems que el peso X (en unidades
de 1000 libras) de un automvil es una variable aleatoria con esperanza 3 y desviacin estn-
dar .3. Cuntos automviles tendran que estar sobre el puente para que la probabilidad de
que sufra daos estructurales exceda 0.1?
Ejercicio 5.15. Se tienen 100 componentes, los cuales se utilizan en secuencia, es decir,
primero se utiliza el componente 1; al fallar ste se utiliza el componente 2; al fallar ste
ltimo se utiliza el componente 3 y as sucesivamente. Estime la probabilidad de que el tiempo
EJERCICIOS 197
total de vida de los 100 componentes exceda 1200 suponiendo que, para cada i {1, . . . , 100},
el tiempo de vida del componente i tiene distribucin a) uniforme en el intervalo (0, 20 +
i
5
),
b) exponencial de parmetro
i
= 10 +
i
10
.
Ejercicio 5.16. Se tienen 60 componentes, los cuales se utilizan en secuencia, es decir,
primero se utiliza el componente 1; al fallar ste se utiliza el componente 2; al fallar ste ltimo
se utiliza el componente 3 y as sucesivamente. Supongamos que, para cada i {1, . . . , 60},
el tiempo de vida del componente i tiene una distribucin uniforme en el intervalo (0, 20 +i).
Estime la probabilidad de que el tiempo total de vida de los 60 componentes no exceda 1400.
Ejercicio 5.17. Sea X una variable aleatoria con distribucin gama de parmetros = 50 y
= 5. Utilice el teorema del lmite central para estimar P [9 X 12].
Ejercicio 5.18. Sea X una variable aleatoria con distribucin gama de parmetros = 50
y = 5. Utilice el teorema del lmite central y la desigualdad de Chebyshev para estimar
P [|X 10| 2].
Ejercicio 5.19. Una emisora de radio funciona con una batera, la cual tiene un tiempo de
vida distribuido exponencialmente y con esperanza de 1 mes. Cuando una batera se acaba,
inmediatamente es sustituida por otra de las mismas caractersticas. Encuentre el nmero
mnimo de bateras que se requieren para que, con probabilidad mayor o igual a 0.99, la emisora
funcione ininterrumpidamente por lo menos durante un ao.
Ejercicio 5.20. Aplique el teorema del lmite central a una sucesin de variables aleeatorias
independientes, todas con distribucin Poisson con el mismo parmetro, para demostrar que
lm
n
e
n
P
2n
k=0
n
k
k!
= 1.
Ejercicio 5.21. Sea (c
n
) una sucesin de nmeros reales y (X
n
) una sucesin de variables
aleatorias independientes, todas con funcin de densidad f dada por:
f(x) =

p si x = 1
1 p si x = 1
0 en otro caso
en donde 0 < p < 1.
Demuestre que si la serie
P

n=1
c
2
n
es convergente, entonces la serie
P

n=1
c
n
X
n
converge con
probabilidad 1.
Ejercicio 5.22. Sea (c
n
) una sucesin de nmeros reales positivos tal que la serie
P

n=1
c
2
n
es
convergente y (X
n
) una sucesin de variables aleatorias independientes, todas con distribucin
Bernoulli de parmetro p. Demuestre que la serie
P

n=1
c
n
X
n
es convergente con probabilidad
1 si y slo si la serie
P

n=1
c
n
converge.
Ejercicio 5.23. Sea
1
,
2
, . . . una sucesin de variables aleatorias independientes cada una
de las cuales puede tomar nicamente los valores 0 y 1, cada uno de ellos con probabilidad
1
2
.
Demuestre que la variable aleatoria X =
P

k=1

k
2
k
tiene distribucin uniforme en el intervalo
(0, 1).
Parte 3
HISTORIA
CAPTULO 6
SURGIMIENTO DEL CLCULO DE PROBABILIDADES
Le 29 aot 1654
Monsieur,
Nos coups fourrs continuent toujours, et je suis aussi
bien que vous dans ladmiration de quoi nos penses
sajustent si exactement, quil me semble quelles aient
pris une mme route et fait un mme chemin: vos
derniers traits du Triangle Arithmtique et de son ap-
plication, en sont une preuve authentique; et si mon cal-
cul ne me trompe, votre onzime consquence courait la
poste de Paris Toulouse, pendant que ma proposition
des nombres gurs, qui en eet est la mme, allait de
Toulouse Paris. Je nai garde de faillir, tandis que
je rencontrerai de cette sorte; et je suis persuad que le
vraie moyen pour sempcher de faillir est celui de con-
courir avec vous. Mais si jen disais davantage, la chose
tiendrait du compliment, et nous avons banni cet ennemi
des conversations douces et aises.
Carta de Fermat a Pascal
El surgimiento del Clculo de Probabilidades, como disciplina matemtica independiente,
tiene como base las soluciones que, durante el periodo que va del ao 1654 al ao 1657, dieron
Blaise Pascal, Pierre de Fermat y Christiaan Huygens a varios problemas, entre los cuales
destacan los siguientes:
Problema 1 (Problema de la divisin de apuestas). Cmo deben repartirse las apuestas
en un juego que se interrumpe? Por ejemplo, suponiendo que dos jugadores, A y B, apuestan
32 pesos cada uno en un juego que consiste de partidas consecutivas, en cada una de las cuales
cada jugador tiene la misma posibilidad de ganarla y quien la gane acumula un punto, de
tal manera que el juego es ganado por quien obtenga primero cuatro puntos, cmo deben de
repartirse las apuestas en caso de que el juego se interrumpa cuando el jugador A ha ganado
dos puntos y B un punto?
Problema 2. Cuntas veces se necesita lanzar un dado para que sea ms favorable obtener
por lo menos un 6?
Problema 3. Cuntas veces se necesita lanzar un par de dados para que sea ms favorable
obtener por lo menos un par de seises?
201
202 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
Problema 4. Cuntos dados se requieren lanzar para que sea ms favorable obtener por lo
menos dos seises?
Problema 5. Dos jugadores, P y Q, juegan a lanzar alternadamente un par de dados. El
juego comienza lanzando P el par de dados, con la condicin de que si obtiene una suma
igual a 6 gana el juego, en caso contrario el juego continua lanzando Q el par de dados, con
la condicin de que si obtiene una suma igual a 7 gana el juego, en caso contrario el juego
continua lanzando P el par de dados bajo las condiciones iniciales. Cules son las respectivas
probabilidades que cada jugador tiene de ganar el juego?
Problema 6 (Problema de la ruina del jugador). Dos jugadores, A y B, los cuales posen
12 chas cada uno, juegan a lanzar sucesivamente tres dados, establecindose que A dar una
cha a B cada vez que se obtenga una suma igual a 11, mientras que B dar una cha a A
cada vez que se obtenga una suma igual a 14. Si el ganador del juego es el primero que llegue
a poseer las 24 chas, cules son las respectivas probabilidades que cada jugador tiene de
ganar el juego?
Sin embargo, debe sealarse que no son Pascal, Fermat y Huygens los primeros en resolver
problemas de probabilidad. De hecho, el anlisis de sus soluciones a los problemas planteados
muestra que la idea de calcular una probabilidad como un cociente entre casos favorables y
casos totales era ya conocida en el medio cientco. Previamente a su trabajo se tena ya
estudiado el nmero de maneras en que puede resultar el lanzamiento de dos o tres dados y
se haban resuelto algunos problemas simples relacionados con este resultado. Tambin era
ya aceptado en la poca de Pascal, Fermat y Huygens que existe una relacin entre el nmero
de casos que favorecen la ocurrencia de un evento y la frecuencia con que ste se observa. De
hecho, previo al trabajo de Pascal, Fermat y Huygens, exista ya un estudio sistemtico sobre
el Clculo de Probabilidades, el cual fue realizado por Girolamo Cardano en el ao 1526 en
un libro titulado Liber de Ludo Aleae, cuya primer publicacin apareci en el ao 1663.
Uno de los objetivos en este captulo ser el tratar de ubicar correctamente la contribucin de
Pascal-Fermat-Huygens en la Teora de la Probabilidad, pues si bien es cierto que no son ellos
los primeros en plantear y resolver correctamente problemas de probabilidad, si es su trabajo
el que mayor inuencia tuvo en el desarrollo posterior del Clculo de Probabilidades.
6.1. Algunos resultados particulares
Una de las caractersticas de un experimento aleatorio es su posibilidad de diferentes resul-
tados. En este sentido, aquellos problemas en donde se trate de determinar las diferentes
posibilidades de ocurrencia de un experimento aleatorio pueden considerarse ya como proble-
mas de probabilidad.
Los primeros problemas de este tipo que se plantearon se reeren a lanzamientos de dados.
Dado un cierto nmero de dados, se trataba de encontrar las diferentes formas en que pueden
caer. El planteamiento de este problema se remonta al siglo X, sin embargo, el primer clculo
correcto conocido se ubica en el siglo XIII, este clculo se reere al caso de 3 dados y se
encuentra contenido en un poema titulado De Vetula y escrito por Richard de Fournival
(1200-1250). Ah se arma que 3 dados pueden caer en un total de 216 caminos. Resulta
interesante observar que este nmero no se obtiene ah como el producto 6
3
, sino considerando
primero los 56 posibles casos no ordenados que se obtienen de la suma 6 + 30 + 20, cuyos
6.1. ALGUNOS RESULTADOS PARTICULARES 203
trminos corresponden al caso de 3 nmeros iguales, de dos iguales y uno distinto y de 3
distintos respectivamente; nalmente se obtiene 216 = (6)(1) + (30)(3) + (20)(6).
La primera referencia conocida a una relacin entre las diferentes posibilidades de ocurrencia
de un evento y la frecuencia con que ste se observa se encuentra en los comentarios a una
publicacin de La Divina Comedia que en el ao 1477 hace Benvenuto dImola. Dice ah:
Concerniente a estos lanzamientos (de dados) debe observarse que los dados son cuadrados
y cualquier cara puede caer, as que un nmero que pueda aparecer en ms caminos debe
ocurrir ms frecuentemente, como en el siguiente ejemplo: con tres dados, tres es el ms
pequeo nmero que puede obtenerse y solo se obtiene con tres ases; cuatro puede obtenerse
slo en un camino, con un dos y dos ases.
Como puede verse, en la cita hay 3 elementos, primero se hace referencia a la simetra de los
dados, lo cual justica la equiprobabilidad de cada cara; en seguida se da la relacin entre
el nmero de formas en que una cierta suma puede obtenerse y la frecuencia con que sta
se observa; nalmente se encuentra el nmero de caminos en que se puede obtener la suma
3 y la suma 4. DImola considera, errneamente, slo los casos no ordenados cuando que si
cada cara de un dado representa un resultado equiprobable, la frecuencia de ocurrencia de
determinado evento depende del total de casos ordenados que lo producen.
La misma referencia a la relacin que hay entre el nmero de caminos en que puede obtenerse
una cierta suma al lanzar 3 dados y la frecuencia con que esta suma se observa se encuentra
tambin en un trabajo escrito por Galileo Galilei alrededor del ao 1620, siendo su publicacin
hasta el ao 1718 ([4]). En ese trabajo Galileo se propuso esclarecer una confusin que exista
al establecer la relacin entre el nmero de caminos en que se obtiene una cierta suma al lanzar
3 dados y la frecuencia con que sta se obtiene. Se preguntaba concretamente por qu si 9,
10, 11 y 12 pueden obtenerse en igual nmero de caminos
1
, los jugadores de dados, con base
en numerosas observaciones, consideraban 10 y 11 ms ventajosos que 9 y 12. Obsrvese que
al comparar el nmero de caminos en que se obtiene cada suma, consideraba slo los casos
no ordenados. La confusin la aclaraba Galileo haciendo ver que, de los caminos sealados,
aquellos en los que hay 3 nmeros iguales se obtienen de una sola manera, aquellos en los que
hay 2 nmeros iguales y uno distinto se obtienen de 3 maneras y aquellos en los que hay 3
nmeros distintos se obtienen de 6 maneras; as que, en realidad, 10 y 11 pueden obtenerse
de 27 maneras distintas, mientras que 9 y 12 solo pueden hacerlo de 25 maneras distintas. En
otras palabras, Galileo haca ver que la relacin entre la frecuencia de las diferentes sumas
debe establecerse en base a los casos ordenados y no en base a los no ordenados como se
pensaba.
En otro trabajo, Galileo hizo un estudio cualitativo de los errores que se cometen en las
mediciones astronmicas, considerando que estos errores son inherentes al proceso de medicin,
es decir, considerando al proceso de medicin como un fenmeno aleatorio. Este trabajo
adquiri ms tarde, ya en la poca de aplicaciones del Clculo de Probabilidades, una gran
importancia.
1
9 : (6, 2, 1), (5, 3, 1), (5, 2, 2), (4, 4, 1), (4, 3, 2), (3, 3, 3)
10 : (6, 3, 1), (6, 2, 2), (5, 4, 1), (5, 3, 2), (4, 4, 2), (4, 3, 3)
11 : (6, 4, 1), (6, 3, 2), (5, 3, 3), (5, 4, 2), (5, 5, 1), (4, 4, 3)
12 : (6, 5, 1), (6, 4, 2), (6, 3, 3), (5, 5, 2)(5, 4, 3)(4, 4, 4)
204 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
Terminaremos esta parte con la formulacin de un problema, el cual adquirira una gran
importancia en el trabajo de Pascal-Fermat-Huygens; nos referimos al llamado problema de la
divisin de apuestas, el cual se encontraba planteado muchos aos antes del trabajo de Pascal-
Fermat-Huygens. En el libro titulado Summa de Arithmetica, Geometria, Proportioniti et
Proportionalit, escrito por Luca Paccioli en 1487 y publicado en 1494, este problema se
encuentra formulado como sigue:
Dos personas juegan de manera que se requiere un total de 60 puntos para ganar, siendo el
premio de 22 ducados. Por alguna circunstancia, cuando uno tiene 50 puntos y el otro 30, no
pueden continuar el juego. Qu parte del premio le corresponde a cada uno?.
Paccioli consideraba que la parte que corresponde a cada uno debe ser proporcional a los
puntos que lleva ganados; en este caso, la reparticin debe hacerse en la proporcin de 5 : 3,
es decir, al que lleva 50 puntos le corresponden
5
8
(22) y al otro
3
8
(22).
Paccioli consider tambin el mismo problema para el caso de 3 jugadores, siendo anloga la
solucin que daba.
Obsrvese que la solucin que dio Paccioli deja ver que no estaba considerando lo azaroso del
juego pues para la reparticin slo considera los puntos ganados por cada uno, cuando que
realmente lo que debe contar para la reparticin son los puntos que le faltan a cada uno y las
posibilidades de obtenerlos antes que el otro.
6.2. El Trabajo de Girolamo Cardano
El primer estudio sistemtico de problemas de probabilidad se debe a Girolamo Cardano
([2]). En su trabajo, Cardano realiz un estudio de problemas relacionados con lanzamientos
de dados.
En su libro, Cardano trat el problema de determinar el nmero de posibilidades en el lanza-
miento de 2 y 3 dados, obteniendo 36 y 216 respectivamente. Dio adems las siguientes tablas
en las cuales se expresa el nmero de caminos en que una cierta suma puede obtenerse con 2
y 3 dados, respectivamente.
Caso de dos dados:

2 12
1

3 11
2

4 10
3

5 9
4

6 8
5

7
6

Caso de tres dados:

3 18
1

4 17
3

5 16
6

6 15
10

7 14
15

8 13
21

9 12
25

10 11
27

As, por ejemplo, de la primera tabla puede verse que, con dos dados, una suma 6 o una suma
8 puede obtenerse en 5 caminos, de la segunda tabla puede verse que, con 3 dados, una suma
9 o una suma 12 puede obtenerse en 25 caminos.
Aunque en un lenguaje distinto al que se us ms tarde en el Clculo de Probabilidades,
Cardano plante y resolvi, a la manera clsica, problemas de probabilidad. Un ejemplo es el
siguiente:
6.2. EL TRABAJO DE GIROLAMO CARDANO 205
Considerando el lanzamiento de dos dados, estableci que por lo menos un as se obtiene de
11 maneras; lo mismo puede decirse de por lo menos un dos y as sucesivamente. Agregaba
que, sin embargo, un as o un dos no se obtiene de 22 maneras, pues hay 11 maneras en que
se obtiene por lo menos un as y 9 ms en que se obtiene por lo menos un dos, as que en total
son 20 maneras de obtener por lo menos un as o por lo menos un dos. Continuaba diciendo
que si se agrega ahora el 3, habr 7 maneras ms y as sucesivamente, en el siguiente paso
habr que sumar 5 maneras ms, luego 3 y por ltimo 1.
Deca entonces que si alguien dijera, quiero un as un dos o un tres, se sabe que hay 27 caminos
favorables y como el circuito (i.e. todas las posibilidades) es de 36, los caminos en que no se
obtiene ninguno de estos nmeros son 9; las posibilidades son entonces de 3 a 1.
Con este razonamiento Cardano lleg de hecho a la llamada denicin clsica de probabilidad
estableciendo las posibilidades de obtener un determinado resultado en funcin del nmero de
posibles maneras en que ese resultado puede obtenerse..
Ms an, a partir del resultado anterior, Cardano estableci lo que es un juego justo dndole
una interpretacin frecuencial a la proporcin de las posibilidades. Dice que en cuatro lanza-
mientos de un par de dados, si la fortuna fuera igual, un as, un dos o un tres caern 3 veces
y solo una vez no caer ninguno de ellos, entonces si el jugador que quiere un as, un dos o
un tres ganara 3 ducados y el otro 1, en los 4 lanzamientos ganan lo mismo, pues el primero
gana una vez y el segundo tres veces.
Estableci entonces una regla general para determinar la apuesta que debe hacer cada jugador
de manera que se juegue en igualdad de circunstancias. Segn esta regla, las apuestas deben
estar en la misma proporcin que las posibilidades que cada uno tiene de ganar.
Aparentemente Cardano no dio la correcta interpretacin frecuencial de las posibilidades pues
no considera en lo anterior un numero grande de lanzamientos; sin embargo, el tomar 4
lanzamientos parece ser solo una simplicacin para facilitar el razonamiento, pues ya antes,
en otra parte de su trabajo, dice que los clculos (de las diferentes posibilidades) son conjeturas
que dan solo una aproximacin, pero que en el caso de muchos circuitos (i.e. en el caso de
muchos lanzamientos) lo que sucede es muy cercano a la conjetura.
Ntese que, segn esto ltimo, Cardano no solo estableci que mientras ms posibilidades
haya de obtener cierta suma ms frecuente ser sta, sino que adems arma que la conjetura
es muy cercana a la frecuencia cuando el nmero de lanzamientos es muy grande.
De lo anterior vemos entonces que Cardano parece ser el primero en dar las bases para una
formulacin de la denicin clsica de probabilidad y el primero en dar una interpretacin
frecuencial completa a la proporcin de posibilidades de ocurrencia de un evento y en denir
a partir de esta interpretacin lo que se entiende por un juego justo. Todo esto, claro est, no
para un experimento aleatorio general, sino para el caso particular de lanzamiento de dados.
Pero, como veremos en lo que resta de este captulo, parece ser que el trabajo de Cardano no
tuvo ninguna inuencia en el desarrollo del Clculo de Probabilidades.
El trabajo de Cardano contiene otras consideraciones, algunas de ellas errneas, aunque en-
cerrando tambin ideas importantes. Deca, por ejemplo, en una serie de 3 lanzamientos de
un dado, hay 91 caminos favorables para al menos un as; entonces, si alguien quiere un as en
cada una de dos series de 3 lanzamientos de un dado, multiplicando 91 91 y 125 125 se
206 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
obtiene 8281 y 15625, respectivamente, as que las posibilidades son aproximadamente de 2 a
1.
El razonamiento de Cardano en este problema parece correcto, tiene dos experimentos inde-
pendientes cada uno de los cuales consiste en el lanzamiento de 3 dados, entonces los casos
favorables a la ocurrencia de un as en cada una de las dos series se obtiene multiplicando
91 91; el mismo razonamiento nos da los casos desfavorables, solo que Cardano comete un
error en este clculo pues l toma como casos desfavorables solo aquellos en que no obtiene
as en la primera serie y tampoco obtiene as en la segunda serie, cuando que, adems de esos,
tambin son desfavorables aquellos en que no se obtiene as en la primera y s en la segunda y
aquellos en que se obtiene un as en la primera y no se obtiene as en la segunda; resultando en
total 125 125 + 2 91 125 = 38375 casos desfavorables; es decir que las posibilidades de
obtener un as en cada una de dos series de 3 lanzamientos de un dado son de 8281 a 38375,
es decir, aproximadamente de 2 a 9.
En otro libro, titulado Practica Arithmeticae Generalis, publicado en 1539, Cardano con-
sider el problema de la divisin de apuestas. Ah hizo ver el error de Paccioli al no tomar en
cuenta los juegos que faltan por ganar a cada jugador.
6.3. El trabajo de Pascal-Fermat-Huygens
Pascal y Fermat entraron en la escena del Clculo de Probabilidades cuando en el ao 1654
Antoine Gombaud de Mr, conocido como el chevalier de Mr, plante a Pascal dos proble-
mas; uno relativo a lanzamientos de dados y el problema de la divisin de apuestas. Pascal
resolvi esos problemas y, siendo muy amigo de Fermat, le envi los problemas con sus solu-
ciones, sin darle a conocer sus mtodos. Fermat respondi a Pascal con su propia solucin
a cada uno de los dos problemas planteados, coincidiendo stas con las soluciones que haba
encontrado Pascal. Con esto se iniciara una serie de reexiones de Pascal y Fermat acerca de
estos problemas, las cuales estn contenidas en la correspondencia que sostuvieron durante el
ao 1654 ([3]).
Desafortunadamente, no toda esa correspondencia logr conocerse; en particular, hasta la
fecha se desconoce el mtodo que cada uno sigui para resolver el problema relativo a lan-
zamientos de dados. Excepto por un artculo escrito por Pascal, titulado Trait du triangle
Arithmtique ([6]), en el cual desarrolla su mtodo de solucin al problema de la divisin
de apuestas, Pascal y Fermat no dieron a conocer sus mtodos de solucin a los diferentes
problemas que se plantearon. Sin embargo, era sabido que ambos haban resuelto un nuevo
tipo de problemas y se conocan tambin los problemas con sus soluciones.
Christiaan Huygens, de origen holands, entr en escena cuando en el ao 1655 visit Francia
y se enter de los problemas que Pascal y Fermat haban resuelto. Huygens se aboc entonces
a la solucin de stos desarrollando un mtodo propio, pues, como ya dijimos, los mtodos de
Pascal y Fermat eran desconocidos. Huygens public el resultado de sus investigaciones en el
ao 1657 en un libro titulado De ratiociniis in Ludo Aleae ([59]). Este trabajo, ignorado por
un tiempo, tendra despus una gran inuencia en el desarrollo del Clculo de Probabilidades.
En esta seccin vamos a analizar tanto el trabajo de Pascal- Fermat como el de Huygens,
basndonos para el primero en la correspondencia que se conserva y en el tratado sobre el
Tringulo Aritmtico de Pascal; para el segundo en el libro de Huygens.
6.3. EL TRABAJO DE PASCAL-FERMAT-HUYGENS 207
Para el anlisis de estos trabajos no seguiremos estrictamente el orden cronolgico pues parece
ms conveniente tratar por separado cada uno de los problemas.
6.3.1. Problema de la divisin de apuestas. El problema de la divisin de apuestas o
problema de las partidas, como lo llamaba Pascal, es el problema 1. Como ya hemos visto,
el planteamiento de este problema era ya conocido desde antes, incluso era ya identicado
como un problema en donde interviene al azar; pero, hasta antes de Pascal-Fermat, nadie
haba encontrado una solucin correcta a este problema.
Comenzaremos analizando el mtodo usado por Fermat para resolver este problema. ste se
puede descomponer en tres pasos:
1o. Determinar el nmero mximo de partidas que deberan jugarse a partir de la situacin
dada para que el juego se termine.
Por ejemplo, en el problema planteado, al jugador P le faltan dos partidas para ganar y al
jugador Q le faltan tres partidas. Entonces, a lo ms en 4 partidas adicionales se acaba el
juego pues no se acaba en las 3 siguientes cuando de stas P gana una y Q gana dos; pero
estando en esta situacin, el juego se decide en la siguiente partida.
2o. Suponiendo que se juega el nmero de partidas encontrado en el primer paso, determinar
todos los posibles resultados.
En el ejemplo considerado, se requiere determinar todos los posibles resultados de 4 partidas.
Si denotamos por la letra a el que P gane una partida y por la letra b el que gane Q, los
posibles resultados en 4 partidas son los siguientes:
(a, a, a, a), (a, a, a, b), (a, a, b, a), (a, b, a, a), (b, a, a, a)
(a, a, b, b), (a, b, a, b), (a, b, b, a), (b, a, a, b), (b, a, b, a), (b, b, a, a)
(a, b, b, b), (b, a, b, b), (b, b, a, b), (b, b, b, a), (b, b, b, b)
en donde, por ejemplo, (b, b, a, b) signica que P gana solo la tercera partida y Q las otras 3.
Resultan en total 2
4
= 16 posibles resultados.
3o. De todos los posibles resultados encontrados en el segundo paso, determinar el nmero
de aquellos que hacen ganar al primer jugador y el nmero de aquellos que hacen ganar al
segundo. La proporcin de las apuestas que corresponde a cada uno debe ser entonces igual
a la proporcin de estos nmeros.
En el ejemplo considerado, hay 11 posibles resultados que hacen ganar al jugador P, a
saber, (a, a, a, a), (a, a, a, b), (a, a, b, a), (a, b, a, a), (b, a, a, a), (a, a, b, b), (a, b, a, b), (a, b, b, a),
(b, a, a, b), (b, a, b, a), (b, b, a, a). Los 5 restantes hacen ganar al jugador Q. Por lo tanto, las
apuestas se las deben repartir en la proporcin 11 : 5.
El mtodo de Fermat recibi dos objeciones. La primera de ellas fue hecha por Roberval,
amigo de Pascal y segn parece el nico que conoci los mtodos usados por Pascal y Fermat.
Con relacin el ejemplo que hemos considerado, deca Roberval que no es necesario que se
jueguen las 4 partidas pues el juego puede terminarse antes, as que la hiptesis de que se
jueguen las 4 partidas es cticia y deba demostrarse que no es falsa. A esta objecin de
Roberval respondi Pascal diciendo que la hiptesis es solo una convencin que no afecta el
resultado pues si alguno gana el juego en menos de 4 partidas los resultados de las partidas
siguientes no afectan porque el otro jugador no podr llegar a completar los puntos que le
faltan para ganar.
208 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
La segunda objecin la hizo Pascal a raz de que Fermat armaba que su mtodo era vlido
no slo para el caso de dos jugadores sino para cualquier nmero de ellos. Pascal negaba esta
armacin pues en el caso de 3 jugadores, por ejemplo, la hiptesis cticia de extender el
juego hasta cierto nmero de partidas causa problemas: Si por ejemplo al primer jugador le
falta una partida, al segundo dos y al tercero tambin dos, entonces el juego se acaba en a
lo ms 3 partidas, pero algunos de los posibles resultados de 3 partidas son favorables a dos
de los jugadores, por ejemplo, con la misma notacin usada para el caso de dos jugadores, el
resultado (a, b, b) es favorable tanto al primer jugador como al segundo.
La respuesta que dio Fermat a las dos objeciones planteadas en de singular importancia,
en ella Fermat hizo explcita por primera vez la condicin necesaria para poder aplicar la
denicin clsica de probabilidad, es decir, la hiptesis de equiprobabilidad
2
. Adems, en la
misma respuesta, Fermat introdujo implcitamente la regla de la suma para el caso de eventos
mutuamente excluyentes.
Deca Fermat que la ccin de extender el juego hasta un cierto nmero de partidas no sirve
ms que para facilitar la regla y para hacer todos los azares iguales. Por ejemplo, en el
caso planteado por Pascal de los 3 jugadores, en donde al primero le falta una partida para
ganar, al segundo dos y al tercero dos, deca Fermat que de los 3
3
= 27 posibles resultados
de 3 partidas, las que son favorables a uno de los jugadores son solo aquellas que lo hacen
ganar antes que al otro; de esta manera un posible resultado como (a, b, b) ya no es ambiguo.
Haciendo esta consideracin encontr que la reparticin de las apuestas debe ser en la propor-
cin 17 : 5 : 5. Y, para que no hubiera objecin, dio la siguiente solucin, en la cual ya no hay
nada cticio y muestra que, efectivamente, la hiptesis de extender el juego sirve para hacer
todos los azares iguales (i.e. equiprobables).
El primer jugador puede ganar en una partida o en dos o en tres. Para ganar en una partida
tiene
1
3
de los azares, para ganar en dos partidas (exactamente) puede hacerlo de dos maneras,
as que tiene
2
9
de los azares, para ganar en tres partidas (exactamente) puede hacerlo de dos
maneras, as que tiene
2
27
de los azares. La suma de los azares que hacen ganar al primer
jugador es entonces
1
3
+
2
9
+
2
27
, lo que hace
17
27
. As, haca ver Fermat que la extensin cticia
a un cierto nmero de partidas no es otra cosa que la reduccin de las diversas fracciones a
un mismo denominador.
El razonamiento de Fermat puede escribirse de la siguiente manera: Consideremos los eventos
siguientes:
A: el primer jugador gana el juego.
A
1
: el primer jugador gana la siguiente partida.
A
2
: Alguno de los otros dos jugadores gana la siguiente partida y la que sigue a sta la gana
el primer jugador.
A
3
: en las siguientes dos partidas, cada uno de los otros dos jugadores gana una y la siguiente
la gana el primer jugador.
Entonces A = A
1
S
A
2
S
A
3
y, como los eventos A
1
, A
2
y A
3
son mutuamente excluyentes, se
tiene P(A) = P(A
1
) +P(A
2
) +P(A
3
).
2
Implcitamente, esto es lo que hace ver Galileo en el problema particular que se planteaba con relacin
al lanzamiento de 3 dados.
6.3. EL TRABAJO DE PASCAL-FERMAT-HUYGENS 209
De esta manera, se ve que lo que hizo Fermat fue introducir implcitamente la regla de la
suma para eventos mutuamente excluyentes.
Cuando Pascal conoci el mtodo usado por Fermat en el problema de las partidas coment que
este mtodo es el primero que le vino a la mente para solucionar este problema pero que, como
el trabajo con las combinaciones es excesivo, busc una abreviacin, encontrando propiamente
otro mtodo. Este comentario parece importante pues deja ver que era conocido y aceptado
que para resolver problemas de azar poda recurrirse a contar las distintas posibilidades y de
ah las que son favorables al evento deseado.
Pasemos entonces al mtodo utilizado por Pascal en el problema de las partidas. Tomemos
el mismo caso de dos jugadores que ya consideramos, en el que al primero, P, le faltan dos
partidas para ganar y al segundo, Q, tres. Para encontrar la forma en que deben repartirse
las apuestas si el juego se detiene en estas condiciones, Pascal sigui un mtodo recursivo. En
el caso que estamos considerado comenzaba por establecer la forma de la reparticin cuando
al primer jugador le falta una partida para ganar y al segundo dos. Supongamos que el total
de las apuestas es 64, entonces, en la situacin dada, al jugar la siguiente partida hay dos
posibilidades, la primera es que P la gane, en cuyo caso gana el juego y por lo tanto toda la
apuesta, la segunda es que Q la gane en cuyo caso P y Q quedan en igualdad de condiciones
y debe entonces tocar a cada uno la mitad de las apuestas, es decir 32. Entonces en un caso
a P le tocan 64 y en otro 32, as que, cualquiera que sea el caso, P tiene asegurado 32 y los
otros 32 de las apuestas pueden corresponder a P o a Q con un azar igual; por lo tanto, de
esos 32 la mitad debe ser para P y la otra para Q. Es decir, cuando a P le falta un punto y a
Q dos, a P le corresponde 32 + 26 = 48 y a Q 16.
A partir de este caso, Pascal pasaba a otro en el que a P le falta un punto y a Q tres. En esta
situacin, si se juega la siguiente partida, P puede ganar toda apuesta o bien 48 por el primer
caso. Por lo tanto a P le corresponde 48 +
1
2
(16) = 56 y a Q 8.
En seguida poda pasar al caso en que a P le faltan dos puntos y a Q tres. En esta situacin,
si se juega la siguiente partida, P puede quedar faltndole un punto y tres a Q, en cuyo caso
le corresponde 56 por el segundo caso; o bien, si Q gana esta partida, quedan en igualdad
de circunstancias y toca a cada uno 32. Entonces P tiene asegurados 32 y puede ganar
56 32 = 24 con un azar igual que Q; as que entonces a P le corresponde 32 +
1
2
(24) = 44 y
a Q 8 +
1
2
(24) = 20.
La proporcin 44 : 20 encontrada por Pascal es, efectivamente, la misma que la proporcin
11 : 5 encontrada con el mtodo de Fermat.
Pascal no se contentaba con encontrar la solucin a un problema particular, su bsqueda fue
siempre en el sentido de encontrar reglas generales que le permitieran encontrar soluciones
en una diversidad de situaciones. Para ejemplicar esto observemos primero que, siguiendo
el mtodo de Pascal, se obtienen los siguientes resultados: Cuando a P le falta 1 punto y a
Q 4 puntos, a P le corresponde 60 de la apuesta; cuando a P le faltan 2 puntos y a Q 4,
a P le corresponde 52 de la apuesta y, nalmente, cuando a P le faltan 3 puntos y a Q 4,
a P le corresponde 42 de la apuesta. Entonces, deca Pascal, cuando P ha ganado 1 punto
y Q ninguno, le tocan a P 42, es decir P tiene derecho a 10 de la apuesta de Q; en otras
palabras, el valor, sobre la apuesta del contrario, de la primera partida es 10; cuando P ha
ganado 2 puntos y Q ninguno, le tocan a P 52, es decir P tiene derecho a 20 de la apuesta de
Q; restndole a esta cantidad el valor de la primera partida resulta que el valor de la segunda
210 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
partida es 10. De la misma manera se determina que el valor de la tercera partida es 8 y el
de la cuarta 4. Pascal entonces observa que dado cualquier nmero N, cuando se juega a N
partidas, el valor de la primera partida es igual al de la segunda y el valor de la ltima partida
es igual a la mitad del valor de la ltima partida cuando se juega a N 1 puntos; as, si la
apuesta de cada uno es 32, cuando se juega a un punto el valor de la ltima partida es 32;
cuando es a 2, 16; cuando es a 3, 8; etc.
Pascal fundament y ampli las bases de su mtodo en su tratado sobre el tringulo aritmtico.
Ah, dice Pascal que su mtodo est basado en los siguientes dos principios:
1o. Si uno de los jugadores se encuentre en una situacin tal que, independientemente de que
gane o pierda, una suma le debe pertenecer sin que al azar pueda quitrsela, entonces no debe
repartirla, sino tomarla entera, ya que la reparticin debe ser proporcional al azar y como no
hay azar de perderla, debe retirar todo sin repartirlo.
2o. Si dos jugadores se encuentran en una situacin tal que, si uno gana le pertenecer una
cierta suma y si pierde, sta pertenecer al otro; si el juego es de puro azar y hay tantos azares
para uno como para el otro y quieren retirarse sin jugar y tomar lo que legtimamente les
pertenece, entonces deben partir la suma que est al azar por la mitad y tomar cada uno una
parte.
De estos dos principios, Pascal obtiene dos corolarios, que son esencialmente el mismo y puede
darse de la siguiente forma:
Corolario 6.1. Si dos jugadores juegan un juego de puro azar con la condicin de que si
el primero gana se le dar una cierta suma A y si pierde se le dar una suma B. Entonces,
si quieren retirarse sin jugar y tomar cada uno lo que les pertenece, el primero debe tomar
1
2
(A+B).
Los dos principios son intuitivamente evidentes, no as el Corolario, aunque ste se obtenga en
forma inmediata de los principios. Este corolario encierra un concepto de gran importancia en
la teora de la Probabilidad, el de Esperanza, En un juego de azar, este concepto corresponde
precisamente a lo que debe recibir un jugador en caso de que decida no jugar el juego, lo cual
puede entonces interpretarse como una estimacin, hecha antes de realizar el juego, de lo que
recibir el jugador.
Aplicando repetidamente el Corolario, Pascal poda resolver el problema de las partidas en
cualquier circunstancia. Pero Pascal hizo an ms, pues encontr que hay una relacin entre
las soluciones al problema de las partidas y el tringulo aritmtico. Esta relacin es la que
estudiamos en el captulo 3 del primer volumen de este libro y que demostramos utilizando
bsicamente el mtodo de Fermat. Es interesante la demostracin que hizo Pascal de esta
relacin pues no se basa en el mtodo de Fermat sino en una aplicacin directa de su corolario.
El mtodo de Pascal es esencialmente el mismo que utiliza ms tarde Huygens para resolver
tanto el problema de las partidas como el problema de los dados, solo que, como veremos, el
mtodo de Huygens, a pesar de sus limitaciones, es ms general que el de Pascal. Pasemos a
analizar este mtodo.
Para Huygens, el tipo de problemas planteados eran de gran importancia, pues consideraba
que su estudio era la base de una nueva materia.
Huygens comienza su trabajo diciendo que, si bien en los juegos de azar los resultados son
inciertos, la posibilidad que un jugador tiene de ganar o de perder tiene sin embargo un valor
6.3. EL TRABAJO DE PASCAL-FERMAT-HUYGENS 211
determinado. Para encontrar este valor, Huygens parta de una hiptesis en la cual introduce
el concepto de juego justo. Esta hiptesis se enuncia como sigue:
Hiptesis 6.2. En un juego, la posibilidad que se tiene de ganar alguna cosa tiene un valor
tal que si se pose este valor se puede uno procurar la misma posibilidad en un juego justo.
Por un juego justo, Huygens entenda un juego entre un nmero cualquiera de jugadores en el
cual, o bien todos los jugadores tienen la misma posibilidad de ganar cierta cantidad, o bien
cada uno de los jugadores tiene igual nmero de posibilidades de ganar cierta cantidad que de
perderla.
La hiptesis entonces signica lo siguiente: supongamos que un jugador P participa en un
juego en el que puede recibir cantidades A
1
, . . . , A
n
, dependiendo del resultado del juego;
supongamos, para facilitar el razonamiento, que todas esas cantidades son positivas, es decir,
el jugador P gana siempre alguna cantidad cualquiera que sea el resultado, lo que vara es
el monto de la cantidad. Este juego es, desde luego, favorable al jugador P pues no arriesga
nada. Se quiere estimar, antes de realizar el juego, el valor x que recibe P. Este valor x puede
interpretarse, como ya vimos en el mtodo de Pascal, como lo que pertenece a P en caso de que
decida no jugar el juego; entonces podemos decir tambin que para P el juego tiene un valor x.
Esto signica que si, para jugar el juego, P paga una cantidad x, entonces el juego no ser ni
favorable ni desfavorable para P, ni tampoco para el que le paga a P, es decir, el juego ser un
juego justo. La hiptesis de Huygens es entonces intuitivamente evidente, dice simplemente
que el valor de un juego para una persona que participa en l es tal que si esa persona paga
ese valor por jugar el juego, entonces el juego no es favorable a ninguno de los jugadores, es
decir, es un juego justo. Incluso la hiptesis puede tomarse como una denicin del valor de
un juego en trminos de un juego justo; la denicin se interpretara, intuitivamente, diciendo
que el valor de un juego as denido es una estimacin, realizada antes de jugar el juego, de
lo que la persona recibir.
De su hiptesis, Huygens dedujo tres proposiciones, las cuales seran las nicas que usara
para resolver todos los problemas que se plante. Estas son las siguientes:
Proposicin 6.3. Tener iguales posibilidades de obtener a o b me vale
a+b
2
Proposicin 6.4. Tener iguales posibilidades de obtener a, b o c me vale
a+b+c
3
Proposicin 6.5. Tener r posibilidades de obtener a y s posibilidades de obtener b, las
posibilidades siendo equivalentes, me vale
ra+sb
r+s
Como puede verse, la proposicin 6.3 es exactamente el Corolario de Pascal; mientras que las
proposiciones 6.4 y 6.5 generalizan la proposicin 6.3, con la nmero 2 Huygens resuelve el
problema de las partidas para el caso de 3 jugadores. Ntese que Huygens especica en la
proposicin 6.5 que las posibilidades deben ser equivalentes (i. e. equiprobables).
Para ilustrar el mtodo de demostracin de estas proposiciones se expone a continuacin la
de la nmero 3:
Sea x el valor del juego y consideremos un nuevo juego denido de la siguiente manera: juego
contra otras dos personas teniendo cada una las mismas posibilidades de ganar y apostando
x cada una, conviniendo adems con la primera que si gana ella me da una cantidad b y si yo
gano le doy una cantidad b y con la segunda que si gana ella me da una cantidad c y si yo
212 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
gano le doy una cantidad c. Evidentemente, este nuevo juego as denido es un juego justo.
En este nuevo juego, si gano recibo 3xb c, si gana la primera persona recibo b y si gana la
segunda recibo c; es decir, tengo iguales posibilidades de obtener 3x b c, b o c. Haciendo
entonces 3x b c = a el nuevo juego resulta equivalente al que tenamos originalmente y
obtenemos x =
a+b+c
3
.
Haciendo uso de sus proposiciones, Huygens resolvi el problema de las partidas para algunos
casos particulares. Cuando se trata de dos jugadores utiliz la proposicin 6.3 siguiendo esen-
cialmente el mismo mtodo que Pascal, es decir, para llegar a una cierta situacin comenzaba
por considerar otras situaciones ms simples. Cuando se trata de 3 jugadores Huygens us la
proposicin 6.4, sta no aparece en el trabajo de Pascal, sin embargo l arma que su mtodo
sirve tambin para el caso de 3 jugadores, lo cual no es evidente si no se tiene una proposicin
del tipo de la 6.4. Intntese por ejemplo resolver el caso ms simple de 3 jugadores usando
el mtodo de Pascal, es decir, supongamos que 3 personas estn jugando a cierto nmero de
partidas y que a la primera le falta una partida para ganar, una tambin a la segunda y dos
a la tercera. Utilizando la proposicin 6.4 diramos:
Si el juego contina y la siguiente partida es ganada por la primera persona, entonces a esta le
toca toda la apuesta, llammosla A y a las otras no les toca nada; si es la segunda persona la
que la gana, entonces a sta le toca A y a las otras nada; nalmente, si es la tercera persona
las que la gana entonces quedan en igualdad de circunstancias, tocndole a cada una
1
3
A. Por
lo tanto, si el juego se detiene en las condiciones dadas inicialmente, a la primera persona
le corresponde, por la proposicin 6.4,
A+0+
1
3
A
3
=
4
9
A; a la segunda lo mismo y a la tercera
0+0+
1
3
A
3
=
1
9
A.
La proposicin 6.5 se puede utilizar para resolver el problema de las partidas en el caso en
que cada jugador tenga distintas posibilidades de ganar cada partida, sin embargo Huygens
no hizo esta aplicacin. Tambin la proposicin 6.5 es inmediatamente generalizable al caso
de cualquier nmero n de cantidades a
1
, . . . , a
n
con posibilidades iguales a r
1
, . . . , r
n
, respec-
tivamente, en cuyo caso el valor del juego resultara
r
1
a
1
++r
n
a
n
r
1
++r
n
; esta generalizacin tampoco
la hizo Huygens.
Observemos por ltimo que el mtodo de Huygens y, por lo tanto, el de Pascal involucran im-
plcitamente el concepto de Esperanza Condicional y, con ste, el de Probabilidad Condicional.
Consideremos por ejemplo un juego a cuatro puntos que se detiene cuando P ha ganado dos
puntos y Q uno. Nos preguntamos entonces por la proporcin de las apuestas que corresponde
a P, o bien, partiendo de la situacin dada, por el valor del juego para P.
Sea a el total de las apuestas y x el valor del juego para P partiendo de la situacin dada.
Si supiramos cuantas posibilidades tienen P y Q de ganar, partiendo de la situacin dada,
obtendramos fcilmente lo que le corresponde a cada uno, pues si r es el primer nmero y s
el segundo, entonces, por la proposicin 6.5, al jugador P le corresponde
ra
r+s
y al jugador Q
sa
r+s
. Es decir, el valor del juego para P es x =
ra
r+s
.
Como r y s no se conocen, lo que hacemos es, partiendo de la situacin dada, suponer que se
juega la siguiente partida, entonces llamando x
1
al valor del juego para P cuando P gana la
siguiente partida y x
2
su valor cuando Q gana la siguiente partida, usando la proposicin 1,
obtenemos x =
x
1
+x
2
2
.
Utilizando la terminologa moderna, estamos considerando los eventos:
6.3. EL TRABAJO DE PASCAL-FERMAT-HUYGENS 213
A
1
: El jugador P gana la siguiente partida.
B
1
: El jugador Q gana la siguiente partida.
Entonces, x es el valor del juego para P (i.e. el valor que espera recibir P ), mientras que x
1
y x
2
son los valores del juego para P condicionados a la ocurrencia de A
1
y B
1
respectivamente (i.e.
esperanzas condicionales). De manera que si llamamos X a lo que recibe P en este juego, la
frmula x =
x
1
+x
2
2
puede escribirse en la forma E[X] = E [X | A
1
] P(A
1
) +E [X | B
1
] P(B
1
),
la cual podramos llamar la regla de la probabilidad total para esperanzas.
La frmula en trminos de esperanzas puede escribirse en trminos de probabilidades. En
efecto, si llamamos r
1
a las posibilidades que P tiene de ganar el juego cuando A
1
ocurre y
s
1
a las posibilidades de Q, entonces x
1
=
r
1
a
r
1
+s
1
. Pero si llamamos A al evento consistente en
que P gane el juego, el cociente
r
1
r
1
+s
1
es precisamente la probabilidad condicional de A dada
la ocurrencia de A
1
, es decir x
1
= aP(A | A
1
). De la misma manera, se tiene x
2
= aP(A | B
1
)
y x = aP(A). Por lo tanto la frmula E[X] = E[X | A
1
] P(A
1
) + E[X | B
1
] P(B
1
) puede
escribirse en la forma aP(A) = aP(A | A
1
)P(A
1
) + aP(A | B
1
)P(B
1
) o, lo que es lo mismo,
P(A) = P(A | A
1
)P(A
1
)+P(A | B
1
)P(B
1
), que no es otra cosa que la regla de la probabilidad
total. Ntese que esta regla se obtiene aqu sin necesidad de usar la regla del producto, la
cual, por otro lado, tambin puede obtenerse siguiendo el mtodo de Huygens.
Los dferentes mtodos utilizados por Fermat-Pascal-Huygens para resolver el problema de las
partidas encierran, como hemos visto, varios conceptos y resultados importantes en la teora de
la Probabilidad. Est ah el concepto de probabilidad a la manera clsica como un cociente de
casos favorables y total de casos, hacindose ver que el total de casos deben ser equiprobables;
est tambin el concepto de esperanza y junto con ste el de juego justo; estn asimismo los
conceptos de esperanza y de probabilidad condicional, as como la regla de la suma para el
caso de eventos mutuamente excluyentes y la regla de la probabilidad total.
Estas consideraciones pueden servir para ubicar el trabajo de Pascal-Fermat-Huygens, pues en
conjunto encierran una gran riqueza, de hecho todas las bases para el desarrollo del Clculo de
Probabilidades csico, incluyendo su parte terica. No son ellos, claro est, los que abstraen
los conceptos y resultados anteriores de los problemas particulares que tratan, pero s son estos
problemas los que servirn de base para la sistematizacin que ms tarde realizar Jacques
Bernoulli por un lado y Abraham de Moivre por el otro.
Con relacin al problema de las partidas, tanto Pascal como Fermat y Huygens hicieron
aportaciones. Parece ser que las mayores pertenecen a Fermat y a Huygens, pues es de las
consideraciones que ellos hacen que se pueden abstraer los conceptos y resultados mencionados
ms arriba.
6.3.2. Problemas con dados. En la correspondencia entre Pascal y Fermat se hace
referencia a dos problemas de dados propuestos por de Mer, stos son los problemas 2 y 3.
Pascal y Fermat dieron mayor atencin al problema de las partidas que a estos dos problemas;
sin embargo, veremos que las consideraciones que de ellos se derivan encierran tanta o ms
riqueza que el problema de las partidas.
Los mtodos que usaron Pascal y Fermat para resolver estos dos problemas son, como ya
dijimos, desconocidos; lo que es cierto es que no estn basados en una aplicacin directa de
la denicin clsica de probabilidad, excepto quiz el usado para el problema 1. Este fue
resuelto no slo por Pascal y Fermat sino por Roberval y el mismo de Mr, lo cual podra
214 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
indicarnos que para su solucin fue usado el mtodo, aparentemente aceptado y usado en esa
poca, consistente en determinar todas las posibilidades en los lanzamientos y de ah aquellas
que son favorables al evento deseado. El conocimiento de todas las posibles formas en que
pueden caer cualquier nmero de dados, problema que estaba ya resuelto, facilitaba esta tarea
pues ya solo era necesario encontrar de ah los casos favorables al evento en consideracin. En
el caso del problema 2 la solucin es n = 4, as que comenzando por el caso n = 1 el proceso
para llegar a la solucin no resulta ni muy largo ni muy complejo, en cambio, la respuesta
n = 25 para el problema 3 hace que ese mismo proceso se alargue y se complique.
Pascal y Fermat encontraron las soluciones correctas a los dos problemas anteriores. Por cierto
que el resultado sorprenda a de Mr pues deca que si con un dado, en cual tiene 6 caras,
se requieren 4 lanzamientos para obtener un determinado valor, por qu con dos dados, los
cuales tienen 36 caras, y dado que 4 es a 6 como 24 es a 36, no se requieren 24 lanzamientos
para obtener un determinado valor.
El nico problema con dados que fue resuelto en la correspondencia que se conoce entre Pascal
y Fermat es uno que resuelve Fermat en una carta a Pascal a propsito de un problema que
este ltimo le haba planteado.
Problema 7. Si se trata de obtener por lo menos un 6 en ocho lanzamientos de un dado y se
ha jugado ya 3 veces sin obtenerlo y el contrario propone que no se haga el 4o. lanzamiento
(pero si los siguientes), Cunto le pertenece al que est tirando por dejar de hacerlo?
Antes de resolver este problema, Fermat dio el siguiente argumento: Si trato de hacer un 6
en ocho lanzamientos de un dado y, despus que el dinero est en juego, convenimos en que
no har el primer lanzamiento, entonces es necesario, por mi principio, que saque del juego
un sexto del total. Si despus de eso, convenimos en que no har el segundo lanzamiento,
entonces debo sacar un sexto de lo restante que es
5
36
del total; y si despus de eso convenimos
en que no har el tercer lanzamiento, entonces debo sacar un sexto de lo restante, que es
25
216
del total; si todava se conviene en que no haga el cuarto lanzamiento debo sacar un sexto de
lo restante, que es
125
1296
del total.
Pero, agregaba Fermat, en el problema planteado, como no se obtuvo nada en las 3 primeras
tiradas, la suma total todava est en juego, de manera que si se conviene que no se haga el
4o. lanzamiento, el que tira debe tomar como indemnizacin un sexto del total.
Se desconoce a que principio se reere Fermat en su argumentacin; es posible que se reera a
uno segn el cual, si todos los azares son iguales (i.e. equiprobables) y hay r casos favorables
para obtener cierta cantidad x de un total de r + s casos, entonces lo que corresponde al
jugador antes de realizarse el juego es
r
r+s
x. Como puede verse, este principio es un caso
particular de la proposicin 3 de Huygens, aunque su demostracin puede darse siguiendo las
ideas de Fermat dadas en su solucin al problema de las partidas, ah l divide las apuestas
en la misma proporcin que los casos favorables a cada jugador, de ah se sigue que si r son
los favorables al primero y s al segundo, entonces al primero corresponde
r
r+s
de las apuestas
y al segundo
s
r+s
de las apuestas.
Aplicando este principio en cada paso de su argumento se obtiene la solucin que l da.
Obsrvese que lo que queda despus de sacar la primera cantidad es
5
6
del total, lo que queda
despus de sacar la segunda es
25
36
del total, despus de sacar la tercera
125
216
del total y sta es
6.3. EL TRABAJO DE PASCAL-FERMAT-HUYGENS 215
la forma en que Fermat escribe estas cantidades. La regla de aqu es evidente: lo que queda
despus de sacar la ensima cantidad es

5
6

n
.
Del argumento de Fermat puede inferirse que su mtodo de solucin al problema 2 de dados
es el mismo que us ah; es decir, si en n lanzamientos, el primero vale
1
6
del total, el segundo
1
6
de lo que resta y as sucesivamente, entonces el valor de todos los lanzamientos juntos es
1
6
+
1
6
5
6
+
1
6
25
36
+
1
6
125
216
+ del total.
El problema se reduce a encontrar entonces un nmero n para el cual la suma anterior sea ya
mayor que
1
2
. Haciendo paso a paso esta suma se obtiene que ya la suma de los 4 primeros
trminos es mayor que
1
2
. No se sabe si Fermat sigui este procedimiento para encontrar n = 4
o si encontr la expresin general de la suma para cualquier n, sta es fcil de obtener pues
la suma es una progresin:
1
6
+
1
6

5
6

+ +
1
6

5
6

n1
= 1

5
6

n
El problema se reduce entonces a encontrar el ms pequeo n para el cual

5
6

n
<
1
2
.
Obsrvese que en el mtodo de Fermat est implcita la regla de la suma para eventos mutua-
mente excluyentes pues el j-simo trmino de la suma
1
6
+
1
6

5
6

+ +
1
6

5
6

n1
corresponde
a la probabilidad de obtener el primer seis exactamente en el j-simo lanzamiento.
Huygens prest mayor atencin a los problemas con dados. En su libro se encuentran resueltos
los problemas 2 y 3 y algunos otros que planteamos a continuacin:
El estudio de problemas con dados lo comenz Huygens haciendo ver que con un dado se
pueden obtener 6 resultados diferentes, todos igualmente posibles porque se supone que el dado
tiene la forma de un cubo perfecto. Como puede verse, aqu est la idea de equiprobabilidad.
En seguida haca ver que con dos dados se pueden obtener 6 6 = 36 resultados diferentes,
tambin todos igualmente posibles; con tres dados se tienen 366 = 216 y as sucesivamente.
Por ltimo, encontr el nmero de resultados, de entre todos los posibles, con los cuales se
obtiene cada una de las diferentes sumas que pueden obtenerse con dos y tres dados.
Despus de estas consideraciones pasaba ya a la solucin de los diferentes problemas. Su
mtodo de solucin es esencialmente el mismo que us para el problema de las partidas,
basado en sus 3 proposiciones.
Para resolver el problema 2, deca Huygens: El jugador que acepta obtener un 6 con un solo
lanzamiento tiene 1 posibilidad de ganar y 5 de perder, as que, llamando A a la apuesta,
tiene 1 posibilidad de obtener A y 5 de no obtener nada, lo que le vale
1
6
A por la proposicin
6.5. El jugador que acepta obtener un 6 en dos lanzamientos tiene 1 posibilidad de obtenerlo
en el primer lanzamiento y 5 de no obtenerlo; si lo obtiene en el primer lanzamiento, gana A,
si no lo obtiene, todava puede hacerlo en el segundo lanzamiento, lo cual le vale
1
6
A por la
primera parte de la demostracin; por lo tanto, al comienzo tiene 1 posibilidad de obtener A y
5 de obtener
1
6
A, lo cual le vale
A+5(
1
6
A)
6
=
11
36
A por la proposicin 6.5. En los pasos siguientes
el razonamiento es similar: con tres lanzamientos, si obtiene 6 en el primero gana A, si no
lo obtiene tiene derecho a
11
36
A por el segundo paso; por lo tanto, al comienzo le corresponde
A+5
(
11
36
A
)
6
=
91
216
por la proposicin 6.5. Con 4 lanzamientos se obtiene
671
1296
, es decir, ms de la
mitad de A.
El mtodo de solucin consiste entonces, como en el problema de la divisin de apuestas, en
ir del caso ms simple al ms complejo con un procedimiento recursivo. En este problema
216 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
el mtodo de Huygens es tambin esencialmente un mtodo basado en probabilidades condi-
cionales. Utilizando la terminologa moderna y planteado en trminos de probabilidades, el
mtodo es esencialmente el siguiente:
Consideremos los siguientes eventos:
A
n
: Se obtiene por lo menos un 6 en n lanzamientos.
B
1
: Se obtiene 6 en el primer lanzamiento.
Entonces:
P(A
n
) = P(A
n
| B
1
)P(B
1
) +P(A
n
|

B
1
)P(

B
1
) =
1
6
+
5
6
P(A
n
|

B
1
)
=
1
6
+
5
6
P(A
n1
) =
1
6
+
5
6

1
6
+
5
6
P(A
n2
)

=
1
6
+
1
6

5
6

5
6

2
P(A
n2
)
=
1
6
+
1
6

5
6

5
6

1
6
+
5
6
P(A
n3
)

=
1
6
+
1
6

5
6

+
1
6

5
6

2
+

5
6

3
P(A
n3
)
= =
1
6
+
1
6

5
6

+
1
6

5
6

2
+ +
1
6

5
6

n1
Expresin que coincide con la que se puede encontrar con el mtodo de Fermat.
Obsrvese, en particular, que en el mtodo de solucin est implcita la regla de la probabilidad
total. El mtodo est basado, como en el caso del problema de las partidas, directamente
en el concepto de esperanza y de juego justo. Es decir, Huygens no calcula directamente
probabilidades sino lo que el jugador espera recibir en cada lanzamiento, donde lo que espera
recibir est denido en funcin de un juego justo.
Para resolver el problema 3 Huygens sigue el mismo mtodo que utiliza para el problema 2,
sin embargo la solucin n = 25 lo hace relativamente largo, Huygens encontr sin embargo
una manera de simplicarlo. Deca Huygens:
El que juega a un solo lanzamiento (de dos dados) tiene 1 posibilidad de ganar A y 35
posibilidades de no ganar nada, as que le corresponde
1
36
A. El que juega a dos lanzamientos
tiene 1 posibilidad de ganar A y 35 posibilidades de obtener
1
36
A (por el primer paso), lo
que le vale
A+35(
1
36
A)
36
=
71
1296
A. El que juega a cuatro lanzamientos, gana A si obtiene par
de seises en los primeros dos lanzamientos, si no lo obtiene gana, por el segundo paso,
71
1296
A;
pero, tambin por el segundo paso, hay 71 posibilidades de obtener par de seises en los dos
primeros lanzamientos y 1296 71 = 1225 posibilidades de no obtenerlo; por lo tanto, en 4
lanzamientos le corresponde
71A+1225
(
71
1296
A
)
1296
, es decir
178991
1679616
A.
De aqu calculaba lo que le corresponde en 8 lanzamientos, luego en 16 lanzamientos y, usando
estos dos casos, encuentre lo que le corresponde en 24 lanzamientos. Finalmente encontr
la solucin correcta, es decir que el que juega a 24 lanzamientos tiene todava una ligera
desventaja y que se puede aceptar la partida con ventaja jugando a 25 lanzamientos por lo
menos.
La simplicacin que haca Huygens est basada en la siguiente consideracin:
Tomemos el caso del que juega a obtener par de seises en 2 lanzamientos, entonces llamando x
a lo que corresponde el jugador en este caso y A
1
al evento consistente en obtener par de seises
en el primer lanzamiento, ya hemos visto que Huygens calculaba x de la siguiente manera:
x = x
1
P(A
1
) +x
2
P(

A
1
)
6.3. EL TRABAJO DE PASCAL-FERMAT-HUYGENS 217
en donde x
1
es lo que gana cuando ocurre A
1
y x
2
lo que gana cuando no ocurre A
1
.
Lo que se obtiene como valor de x es una fraccin
r
s
multiplicada por la apuesta A. Lo
que deca Huygens es que la fraccin es un cociente de resultados favorables entre total de
resultados, es decir, es una probabilidad. Efectivamente, hemos visto que llamando B al evento
consistente en obtener par de seises en dos lanzamientos, podemos escribir x = AP(B). Es
decir, en el razonamiento de Huygens est implcita la idea de que sus proposiciones 6.3,
6.4 y 6.5 pueden expresarse no solo en trminos de esperanzas sino tambin en trminos de
probabilidades. En otras palabras, dentro del concepto de Esperanza que deni Huygens est
contenido implcitamente el concepto clsico de probabilidad. En otras palabras, de aqu se
refuerza la idea que hemos dado ya en el sentido de que dentro del concepto de esperanza que
deni Huygens est contenido implcitamente el concepto clsico de probabilidad. La ltima
idea de Huygens expresa lo siguiente: si B es un evento y con la ocurrencia de B un jugador
recibe una cantidad A y con la no ocurrencia de B no recibe nada, entonces, llamando x a lo
que corresponde al jugador al inicio del juego, se tiene x = AP(B), e inversamente, si lo que
se conoce es x entonces
x
A
= P(B).
En este problema, al igual que en el anterior, se puede encontrar una expresin simple para
lo que corresponde a un jugador que acepta la obtencin de par de seises en n lanzamientos
de un par de dados, llamando x
n
a esa cantidad, se obtendra x
n
=

1

35
36

A, en donde
A es el total de las apuestas.
Este mismo resultado puede obtenerse de una manera ms simple utilizando el mismo mtodo
de Huygens considerando lo que lo que corresponde al contrario en lugar de lo que corresponde
al jugador. Este clculo es como sigue:
En un lanzamiento, el contrario tiene 35 posibilidades de obtener A y 1 posibilidad de no
obtener nada; le corresponde entonces
35
36
A. En dos lanzamientos tiene 1 posibilidad de no
obtener nada (si el jugador obtiene par de seises en el primer lanzamiento) y 35 posibilidades
de obtener
35
36
A por el primer paso; le corresponde entonces
35
(
35
36
A
)
36
=

35
36

2
A. Con el mismo
razonamiento se encuentre entonces que en 3 lanzamientos le corresponde

35
36

3
A; en 4 lan-
zamientos

35
36

4
A y as sucesivamente; es decir, en n lanzamientos le corresponde

35
36

n
A.
Por lo tanto, al jugador que trata de obtener par de seises en n lanzamientos le corresponde
A

35
36

n
A.
Este hecho muestra que no siempre la solucin ms simple es la primera que se ocurre e incluso
puede no ser evidente; Fermat por ejemplo tampoco encontr esta forma simple de la solucin
al problema planteado, aun cuando l calculaba probabilidades en casos anlogos usando la
denicin clsica de probabilidad; en este caso, de (36)
n
posibles resultados equiprobables hay
(35)
n
desfavorables y resulta entonces inmediato que un juego a n lanzamientos, en el que se
trate de obtener par de seises, vale

1

35
36

A. Lo inmediato o simple de una solucin a


un problema requiere pues, a veces, de ensayos de solucin y de maduracin de determinados
conceptos.
Si se analizan las soluciones de Huygens y de Fermat a los problemas con dados, se ver
que stas tienen implcito el uso de la independencia de los lanzamientos. Sin embargo, la
independencia de experimentos o, ms generalmente, de eventos, es un concepto que se claric
hasta ms tarde. Los problemas con dados jugaron un papel importante en este proceso pues
ilustraban el concepto ampliamente. Huygens mismo considera otro problema con dados, el
218 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
cual, al ser generalizado por Jacques Bernoulli , adquirira una importancia singular en la
Teora de la Probabilidad, nos referimos al problema 4, el cual es equivalente a encontrar en
cuntos lanzamientos de un dado se puede contar con obtener dos veces un 6 (por lo menos).
La solucin a este problema usando el mtodo de Huygens es simple, aunque algo laboriosa
pues se requiere encontrar primero lo que vale el juego para el caso de 2 lanzamientos, luego
para el caso de 3, 4, 5, ..., etc., hasta el momento en que el juego ya resulte favorable, se
encuentre que se puede jugar con ventaja a obtener 2 series (por lo menos) con un dado en 10
lanzamientos.
Con relacin a este problema, Jacques Bernoulli ms tarde encontrara las probabilidades tipo
binomial ([1]); de manera especca, encontrara que la probabilidad de obtener exactamente
k seises en n lanzamientos de un dado es

n
k

1
6

5
6

nk
. Este resultado es de fundamental
importancia en su trabajo pues con l se puede calcular la probabilidad de obtener una fre-
cuencia de seises igual a
k
n
en n lanzamientos de un dado y de aqu encontrar una relacin
entre la frecuencia de ocurrencia de un evento y su probabilidad, para obtener lo que se llama
el Teorema de Bernoulli.
As, las soluciones de Fermat y Huygens a los problemas con dados que se plantearon contienen
implcitamente los mismos conceptos y resultados que los contenidos en las soluciones al
problema de las partidas; pero, adems, la posibilidad de repetir los lanzamientos ilustra un
concepto tambin de importancia, el de independencia y, por otra parte, el problema 4 que
plantea Huygens dara origen a un tipo de probabilidades de gran importancia en la Teora
de la Probabilidad, las de tipo binomial.
Huygens resolvi en su libro algunos otros problemas, entre los que destaca el problema 5.
La importancia de ese problema radica en que se reere a un experimento el cual admite
una innidad de posibles resultados, rebasando el marco de la misma denicin clsica de
probabilidad. La solucin de Huygens es como sigue:
Sea x el valor del juego para Q y a el total de las apuestas. El valor del juego para P es
entonces a x. Sea adems y el valor del juego para Q cuando sea su turno de lanzar los
dados. Al iniciarse el juego, Q tiene 5 posibilidades de obtener 0 y 31 posibilidades de obtener
y, por lo tanto, x =
31
36
y. Por otra parte, cada vez que Q tenga el turno para lanzar los dados,
tiene 6 posibilidades de obtener a y 30 de obtener x, por lo tanto, y =
6a+30x
36
. Resolviendo
el sistema de ecuaciones se obtiene x =
31
61
a, de manera que los valores del juego para P y Q,
respectivamente, estn en la proporcin 30 : 31.
Nuevamente, la solucin de Huygens contiene implcitamente el uso de probabilidades condi-
cionales. La solucin moderna podra plantearse deniendo los siguientes eventos:
C: El juego es ganado por el jugador Q.
A
1
: Se obtiene xito en el primer lanzamiento.
B
1
: Se obtiene fracaso en el primer lanzamiento.
A
2
: Se obtiene xito en el segundo lanzamiento.
B
2
: Se obtiene fracaso en el segundo lanzamiento.
para los cuales se tiene:
P(C) = P(C | A
1
)P(A
1
) +P(C | B
1
)P(B
1
) = P(C | B
1
)P(B
1
) =
31
36
P(C | B
1
)
=
31
36
[P(C | B
1
A
2
)P(A
2
) +P(C | B
1
B
2
)P(B
2
)]
6.3. EL TRABAJO DE PASCAL-FERMAT-HUYGENS 219
=
31
36
[P(A
2
) +P(C)P(B
2
)] =
31
36

6
36
+
30
36
P(C)

As que P(C) =
31
61
.
O, de manera equivalente, deniendo los eventos:
C: El juego es ganado por el jugador Q.
A
1
: Se obtiene xito en el primer lanzamiento.
E: Se obtiene fracaso en el primer lanzamiento y xito en el segundo.
F: Se obtiene fracaso en los primeros dos lanzamientos.
para los cuales se tiene:
P(C) = P(C | A
1
)P(A
1
) +P(C | E)P(E) +P(C | F)P(F)
= P(E) +P(C)P(F) =
31
36
6
36
+
31
36
30
36
P(C)
El libro de Huygens termina con el planteamiento de algunos problemas, entre los cuales
destaca el problema 6
3
.
6.3.3. Ubicacin del trabajo de Pascal-Fermat-Huygens. Hemos visto que no son
los trabajos de Pascal-Fermat o el de Huygens los primeros que se reeren al clculo de
probabilidades. Ya antes se haban dado soluciones a algunos problemas particulares e incluso
exista ya el trabajo de Girolamo Cardano, el cual contena un tratamiento ms o menos
sistemtico de problemas con dados. Parece claro que ese trabajo previo que exista haba
hecho surgir ya la denicin clsica de probabilidad, aunque no como una denicin general
sino solo como un mtodo para resolver determinado tipo de problemas y todava con una
limitacin en el sentido de que no se haba hecho explcita la necesidad de tener resultados
equiprobables para aplicarlo.
El trabajo de Cardano puede considerarse como una sntesis de lo que haba antes de Pascal,
Fermat y Huygens en lo que se reere al Clculo de Probabilidades. Se encuentre en ese
trabajo el uso correcto de la denicin clsica de probabilidad, una interpretacin frecuencial
de sta y la idea de un juego justo; contiene adems, aunque usada errneamente, la idea
que est detrs de la regla del producto para el caso de experimentos independientes. Los
problemas con dados que trata Cardano son, sin embargo, muy simples; tanto que en ellos
la aplicacin de la denicin clsica es inmediata y no generan, por lo tanto, mtodos que
puedan convertirse despus en una base terica del Clculo de Probabilidades. Este hecho
justica tal vez la indiferencia posterior que hubo hacia el trabajo de Cardano.
Echando una vista al trabajo de Cardano y al de Pascal-Fermat-Huygens podemos ver que
los problemas que se plantearon los segundos son de una complejidad superior a los que se
plante Cardano. As, por ejemplo, en el problema de las partidas, aun teniendo a la mano
la denicin clsica de probabilidad, no resulta evidente la manera de aplicarla; recurdese
que incluso Pascal pens que resultaba muy complejo resolver el problema por este mtodo
y busc entonces otro. En los problemas con dados, si bien estaba ya resuelto el problema
de determinar el nmero de formas en que pueden caer n dados, no era tampoco evidente el
determinar de ah el nmero de casos favorables a determinado evento.
La complejidad de los problemas que atacaron Pascal, Fermat y Huygens exiga contar no solo
con la denicin clsica de probabilidad sino adems con mtodos o reglas que permitieran
3
Este problema fue propuesto por Pascal a Fermat.
220 6. SURGIMIENTO DEL CLCULO DE PROBABILIDADES
simplicar los problemas; la creacin implcita de estas reglas o mtodos es uno de los mritos
del trabajo de Pascal-Fermat-Huygens.
Como hemos visto, las soluciones que dieron a los problemas que se plantearon contienen,
implcitamente, prcticamente toda la Teora del Clculo de Probabilidades clsico. La ab-
straccin de esta teora vendra posteriormente pero teniendo como base el trabajo de Pascal-
Fermat-Huygens.
Todos los trabajos posteriores sobre el Clculo de Probabilidades tendran como base el de
Pascal-Fermat-Huygens; Cardano no sera ni siquiera mencionado por los diversos autores.
Particularmente importante result el trabajo de Huygens, en parte por ser el nico que
qued por escrito y en parte por contener algunos conceptos ms elaborados que en el trabajo
de Pascal-Fermat; aunque hay que tener presente que por ejemplo Fermat es quien hace
explcita la necesidad de la equiprobabilidad y quien con mayor claridad expresa la idea de
descomposicin de un evento en eventos ms simples.
Tambin no se puede dejar de sealar que los mtodos usados por Pascal y Fermat tienen
el mrito de mostrar al Anlisis Combinatorio como una herramienta de gran utilidad en los
problemas de probabilidad; hecho que ms tarde sera sistematizado por Jacques Bernoulli.
Siguiendo este camino fructicara ms el Clculo de Probabilidades pues el mtodo de Huy-
gens, si bien poda generar (y de hecho gener) resultados generales, en casi todos los problemas
su uso resultaba sumamente complejo y sta era su limitacin.
Resumiendo, podemos decir que si bien Pascal, Fermat y Huygens no son los primeros en
resolver problemas de probabilidad, si es su trabajo de una mayor riqueza y el que inuenciara
totalmente todos los trabajos posteriores. La indiferencia total hacia los trabajos anteriores
al de Pascal-Fermat-Huygens parece de cualquier manera sumamente injusta pues fue en esos
trabajos donde se fue generando la denicin clsica de probabilidad. De manera que, si
bien todava a un nivel rudimentario, estos trabajos previos no pueden dejar de considerarse
como una etapa en el desarrollo del Clculo de Probabilidades y, en particular, el trabajo de
Cardano como una sntesis de esa etapa.
Referencias
[1] Bernoulli, J., LArt de Conjecturer, L.G.F. Vastel, G. Le Roy, Caen, 1801. Traduccin de Ars Conjectandi,
Basileae, 1713.
[2] Cardano, G., Liber de ludo aleae, 1564. Publicado en Opera Imnia, Vol. 1, 1663. Traduccin al ingls en
The book on games on chance, Holt, Rinehart and Winston, New York, 1961.
[3] Fermat, P. & Pascal, B., Correspondance - 1654, Oeuvres de Pascal, t. III, p. 369-430.
[4] Galileo, G., Sopra le scoperte dei dadi, 1620 aprox. Publicado en Opera Omnia con el ttulo Considerazione
sopra il giuco dei dadi, 1718. Traduccin al ingls en David, F. N., Games, goods and gambling - The
origins and history of probability and statistical ideas from the earliest times to the Newtonian era, Grin,
London, 1962.
[5] Huygens, C., Du calcul dans les jeux de hasard, Oeuvres Compltes de Christiaan Huygens, Vol. XIV,
Martinus Nijho, 1920. Traduccin de De Ratiociniis in Aleae Ludo, 1657.
[6] Pascal, B., Trait du triangle arithmtique - 1654, Oeuvres Compltes, Gallimard, 1964.
221
CAPTULO 7
SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD
MODERNA
Si de un proceso real abstraemos sus aspectos esenciales,
dejamos un residuo que debemos considerar aleatorio...
Podra pensarse que cuando el residuo aleatorio, para
una formulacin dada de un fenmeno, es tan grande
que no se puede despreciar, entonces el nico modo posi-
ble de proceder sera describir el fenmeno con mayor
aproximacin... Afortunadamente, nuestras exigencias
prcticas son generalmente muy diferentes; solamente
necesitamos estimar el efecto total ejercido por los fac-
tores aleatorios para un largo intervalo de tiempo o para
un gran nmero de repeticiones del proceso en estudio...
Ejemplos en que el efecto de un gran nmero de fac-
tores aleatorios conduce a leyes estadsticas completa-
mente bien denidas, se podran multiplicar fcilmente.
Uno de los ms conocidos y al mismo tiempo ms fasci-
nante, en vista de la amplitud de sus aplicaciones, es la
Teora Cintica de los Gases, la cual muestra como la
inuencia conjunta de colisiones aleatorias de molculas
da lugar a leyes precisas que gobiernan la presin de un
gas sobre una pared, la difusin de un gas en el seno de
otro, etc.
Andrey Nikolaevich Kolmogorov
En el ao 1933, Andrey Nikolaevich Kolmogorov public un artculo ([63]) en el cual estableci
la formulacin de la Teora de la Probabilidad que prevalece hasta nuestros das. En ese
artculo, Kolmogorov formul que el modelo matemtico de un fenmeno probabilstico est
dado por una terna (, =, P), en donde es un conjunto, = una lgebra de subconjuntos
de y P una medida de probabilidad denida sobre =. En este captulo se analizar el
proceso que condujo a dicha formulacin.
Para comprensin de los elementos que intervienen en el modelo de Kolmogorov, as como
para la exposicin de la manera en que surge, se requieren las siguientes deniciones:
Definicin 7.1 (lgebra de subconjuntos). Sea un conjunto. Se dice que una familia
A de subconjuntos de es un lgebra si se satisfacen las siguientes condiciones:
223
224 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
(i) A.
(ii) Si A A, entonces A
c
A.
(iii) Si A
1
, . . . , A
n
es cualquier familia nita de elementos de A, entonces
n
S
k=1
A
k
A.
Definicin 7.2 (-lgebra de subconjuntos). Sea un conjunto. Se dice que una familia
A de subconjuntos de es una -lgebra si es un lgebra y dada cualquier familia innita
numerable de elementos de A, A
1
, A
2
, . . ., entonces

S
k=1
A
k
A.
Definicin 7.3 (Conjuntos ajenos por parejas). Dada una familia de conjuntos (A

,
se dice que stos son ajenos por parejas si A

= para , y 6= .
Obsrvese que como un lgebra es cerrada bajo uniones y complementos, tambin lo es bajo
intersecciones y diferencias, de manera que para demostrar que un lgebra A es una -lgebra
basta con probar que si A
1
, A
2
, . . . es cualquier coleccin numerable de elementos de A, ajenos
por parejas, entonces

S
k=1
A
k
A.
Definicin 7.4 (Propiedad de la aditividad nita). Sea un conjunto y A un lgebra
de subconjuntos de . Se dice que una funcin no negativa P, denida sobre A, es nita-
mente aditiva (o que tiene la propiedad de la aditividad nita) si dada cualquier familia nita,
A
1
, . . . , A
n
, de elementos de A, ajenos por parejas, entonces:
P(
n
S
k=1
A
k
) =
P
n
k=1
P(A
k
)
Definicin 7.5 (Propiedad de la aditividad numerable). Sea un conjunto y A un
lgebra de subconjuntos de . Se dice que una funcin no negativa P, denida sobre A, es
-aditiva (o que tiene la propiedad de la aditividad numerable) si es nitamente aditiva y dada
cualquier familia innita numerable, A
1
, A
2
, . . ., de elementos de A, ajenos por parejas, tales
que
S

n=1
A
n
A, entonces
P(

S
k=1
A
k
) =
P

k=1
P(A
k
)
Definicin 7.6 (Medidas de probabilidad). Sea un conjunto y A una -lgebra de
subconjuntos de . Se dice que una funcin no negativa P, denida sobre A, es una medida
de probabilidad si es -aditiva y P() = 1.
En el modelo de Kolmogorov se identica a una funcin de probabilidad con una medida en el
sentido del Anlisis Matemtico, concepto que surgi y se desarroll en los primeros 30 aos
del siglo XX. Sin embargo, tal identicacin no surgi de manera automtica como algo gene-
ral aplicable a cualquier experimento aleatorio sino que requiri de un proceso, que llev varios
aos, en el cual se mostr que es una alternativa adecuada. En el centro de este proceso se en-
cuentra el planteamiento de problemas en donde se trata de calcular probabilidades de eventos
cuya ocurrencia o no ocurrencia depende de una innidad de observaciones y la aceptacin
de la aditividad numerable como una propiedad general de la funcin de probabilidad, la cual
permite atacar ese tipo de problemas.
Con el nacimiento de la Teora de la Medida de Borel-Lebesgue, durante 1898-1902, se comen-
zaron a identicar funciones de probabilidad con medidas pero nicamente en cierto tipo de
7.1. EL CLCULO DE PROBABILIDADES CLSICO 225
modelos probabilsticos, aquellos que caan dentro de un esquema geomtrico. Incluso cuando
ya se haba iniciado el desarrollo de una teora general de la medida, alrededor del ao 1915,
no se dio mecnicamente la identicacin de una funcin de probabilidad cualquiera con una
medida, siendo la no aceptacin de la -aditividad uno de los impedimentos. No fue sino
hasta la publicacin del trabajo de Kolmogorov cuando la -aditividad comenz a ser amplia-
mente aceptada, siendo varios los factores que inuyeron para tal aceptacin. Por un lado, la
Teora de la Medida se haba desarrollado con suciente generalidad, permitiendo as denir
medidas en cualquier conjunto. Por otro lado, se haba ampliado el marco de aplicabilidad
de la -aditividad hasta abarcar problemas bsicos de la Teora de la Probabilidad como son
los teoremas lmite para sucesiones de variables aleatorias independientes. Pero el elemento
central consisti en el hecho de que se mostr que la -aditividad permite la construccin
de modelos matemticos en problemas que involucran a una innidad de variables aleato-
rias, siendo los trabajos de Hugo Dyonizy Steinhaus ([96]) y Norbert Wiener ([102], [103],
[104], [105], [106], [107], [108]) los que abrieron el camino en esta direccin, hasta llegar al
resultado general de Kolmogorov, quien demostr que, aceptando la -aditividad en el caso
de un nmero nito de variables aleatorias, siempre es posible extenderla al caso de una fa-
milia arbitraria, mostrando as la consistencia del tratamiento matemtico de los fenmenos
probabilsticos asumiendo que la probabilidad es una medida.
Un aspecto importante a resaltar consiste en que, al analizar el proceso que conduce al modelo
de Kolmogorov, puede verse que la aditividad numerable surge como una herramienta
matemtica, la cual permite extender, de manera nica, una funcin de probabi-
lidad denida para una cierta familia de eventos a una familia mucho ms amplia.
Por otra parte, debe de observarse que, en general, la -aditividad no es una consecuencia de la
aditividad nita. Consideremos, por ejemplo, el lgebra Aformada por los subconjuntos de los
nmeros naturales que son nitos o de complemento nito y denamos la funcin P : A 7[0, 1]
por P(A) = 0 si A es nito y P(A) = 1 si A
c
es nito. Tal funcin es nitamente aditiva pero
no -aditiva. Ms an, se puede mostrar ([90]) que P puede extenderse (no de manera nica)
a una funcin nitamente aditiva denida sobre la familia de todos los subconjuntos de los
nmeros naturales. Tal extensin, la cual est denida sobre una -lgebra, resulta entonces
ser nitamente aditiva, pero no -aditiva.
Debe mencionarse tambin que no es Kolmogorov el primero en plantear un modelo matemtico
en donde es aceptada la -aditividad como una propiedad general de cualquier funcin de pro-
babilidad. El planteamiento ms completo en este sentido, previo al trabajo de Kolmogorov,
se debe a Paul Pierre Lvy, quien en su libro Calcul des Probabilits, publicado en 1925
([74], [75]), da incluso un mtodo para denir funciones -aditivas en espacios de dimensin
innita. Sin embargo, el mtodo de Lvy no era lo sucientemente general como para abarcar
cualquier fenmeno probabilstico.
7.1. El Clculo de Probabilidades clsico
A principios del siglo XX la Teora de la Probabilidad gozaba ya de una gran popularidad.
Por un lado, los trabajos de Pierre Simon Laplace ([67], [68], [69], [70], [71] ), eran ya
ampliamente conocidos en el medio cientco. En particular, en su Teora Analtica de las
Probabilidades, Laplace logr sistematizar los mtodos para calcular probabilidades. Por otro
lado, la escuela de San Petersburgo, formada, entre otros, por Pafnuty Lvovich Chebyshev,
226 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
Andrei Andreyevich Markov y Aleksandr Mikhailovich Lyapunov, haba hecho aportaciones
claves ([34], [35], [36], [80], [81], [82], [83], [84], [78] y [79]), las cuales conduciran a la forma
general de la Ley Dbil de los Grandes Nmeros y del Teorema del Lmite Central. Finalmente,
adems de las aplicaciones al estudio de datos estadsticos, la Teora de la Probabilidad estaba
siendo aplicada en la solucin de problemas importantes de la Fsica, como son los referentes
a la Mecnica Estadstica, con los trabajos de A. Krnig, Rudolf Julius Emmanuel Clausius,
James Clerk Maxwell, Ludwig Boltzmann y Josiah Willard Gibbs ([64], [31], [32], [33], [85],
[86], [5], [6], [7], [8], [9], [10], [11], [52])
1
.
Sin embargo, los fundamentos matemticos de la Teora de la Probabilidad no eran satis-
factorios. De hecho, la Probabilidad no era considerada como parte de la Matemtica. Sus
conceptos y mtodos eran especcos para las aplicaciones y no formaban parte de una es-
tructura abstracta general. La misma denicin de probabilidad, la cual estaba basada en
el concepto de equiprobabilidad, resultaba insatisfactoria pues no en todos los fenmenos
aleatorios resulta evidente qu resultados pueden considerarse como equiprobables.
Como muestra de la visin que se tena sobre la probabilidad a principios de este siglo basta
citar el artculo de David Hilbert ([58]) presentado en el dcimo Congreso Internacional de
Matemticas, realizado en el ao 1900, en donde arm: pienso que en cualquier lugar en
donde se presenten ideas matemticas, sea en Filosofa, sea en Geometra, sea en Fsica, se
plantea el problema de la discusin de los principios fundamentales, base de esas ideas, y del
establecimiento de un sistema simple y completo de axiomas; y ms adelante contina: Las
investigaciones sobre los principios fundamentales de la geometra nos conducen a plantear este
problema: Tratar con base en ese modelo las ramas de la Fsica donde las Matemticas juegan
actualmente un papel preponderante; esas ramas de la ciencia son, antes que cualesquiera
otras, el Clculo de Probabilidades y la Mecnica.
Una buena referencia para conocer el estado de la Teora de la Probabilidad a principios del
siglo XX es el libro de Jules Henri Poincar ([88]).
Lo primero que resalta en el libro de Poincar es su primera frase: No se puede dar una
denicin satisfactoria de la probabilidad. En seguida enuncia la ahora llamada denicin
clsica de probabilidad: la probabilidad de un evento es el cociente de los casos favorables
a un evento y el nmero total de casos posibles, aclarando mediante algunos ejemplos que
se debe agregar a dicha denicin la condicin de que todos los casos sean igualmente pro-
bables. Comenta entonces que la denicin completa de la probabilidad es una especie de
peticin de principio: cmo reconocer que todos los casos son igualmente probables? Aqu,
una denicin matemtica no es posible; deberemos, en cada aplicacin, hacer convenciones,
decir que consideramos tal y tal caso como igualmente probables. Esas convenciones no son
completamente arbitrarias, pero escapan al espritu del matemtico que no tendr ms que
examinarlas, una vez que son admitidas. As, todo problema de probabilidad ofrece dos pe-
riodos de estudio: el primero, metafsico por as decirlo, el cual legitima tal o cual convencin;
el segundo, matemtico, que aplica a esas convenciones las reglas del clculo.
Para Poincar, el Clculo de Probabilidades estaba basado en dos teoremas: el de probabili-
dades totales y el de probabilidades compuestas, los cuales no son otra cosa que las reglas de
la suma y del producto para dos eventos A y B:
1
Una muy buena exposicin analtica sobre la utilizacin de la Teora de la Probabilidad en la Fsica
Estadstica, as como en la Mecnica Cuntica, puede verse en [101].
7.1. EL CLCULO DE PROBABILIDADES CLSICO 227
P(A B) = P(A) +P(B) P(A B)
P(A B) = P(A)P(B|A) = P(B)P(A|B)
Poincar haca la demostracin de estos teoremas aplicando la denicin clsica de probabili-
dad, asumiendo, en particular, que el total de casos posibles es nito.
Utilizando estas reglas y la denicin de probabilidad de un evento, Poincar resolvi una
buena cantidad de problemas, algunos del tipo de los que uno encuentra actualmente en
los textos introductorios a la Teora de la Probabilidad, otros ms complicados, pero cuyas
soluciones estn basadas en los mismos mtodos.
Consideraba Poincar que hay tres tipos de problemas en la Teora de la Probabilidad. Dentro
de la primera categora estn aquellos en los cuales el nmero de casos posibles es nito y
no sobrepasa ciertos lmites, en cuyo caso, deca, se trata, en general, de juegos de azar y de
problemas simples de Clculo Combinatorio. Dentro de la segunda categora estn aquellos en
los cuales el nmero de casos posibles es nito pero se hace muy grande, en cuyo caso se tiene
nicamente una expresin aproximada de la probabilidad mediante la Ley de los Grandes
Nmeros, el Teorema de Bernoulli, etc. Finalmente, dentro de la tercera categora estn
aquellos en los cuales el nmero de casos posibles es innito, en cuyo caso las probabilidades
relativas a una cantidad x estn determinadas por una funcin , de una o varias variables, de
tal manera que la probabilidad de que x.pertenezca a una regin A est dada por
R
A
(x)dx.
Siguiendo a Poincar, dicha funcin deber darse al inicio del problema mediante una
convencin especial y ser, en general, una funcin continua. Los problemas que caen dentro
de esta categora los llamaba Poincar de probabilidades continuas.
Como puede verse, el tratamiento de los problemas que consideraba Poincar en los cuales el
nmero de posibles resultados es innito obedece a un esquema geomtrico, considerndose
en esta categora problemas como el de la aguja de Buon y la paradoja de Bertrand.
Debe mencionarse sin embargo que implcitamente estaba presente una clase de problemas
en los cuales el nmero de casos posibles es innito sin ser de probabilidades continuas. Por
ejemplo Poincar consider el problema de los 3 jugadores:
Problema 1. Tres jugadores, P, Q y R, juegan partidas por parejas en cada una de las cuales
la probabilidad que cada jugador tiene de ganar es
1
2
; quien gane una partida juega con el otro
jugador hasta que uno de los jugadores gane dos partidas consecutivas, ganando entonces el
juego. Suponiendo que comienzan jugando P contra Q, encontrar las probabilidades que cada
uno tiene de ganar el juego.
Poincar resolvi este problema aplicando las reglas de la suma y del producto, las cuales haba
demostrado para el caso en que el nmero de posibles resultados es nito. El razonamiento es
el siguiente:
Sean A, B, C los eventos consistentes en que P, Q y R ganen el juego respectivamente. Sean
adems x, y, z las probabilidades condicionales, dado que P gan la primera partida, de que
P, Q y R ganen el juego respectivamente. Entonces, aplicando la regla de la probabilidad
total, se obtiene:
x =
1
2
+
1
2
y, y =
1
2
z, z =
1
2
x
Por lo tanto: x =
4
7
, y =
1
7
, z =
2
7
.
Finalmente, aplicando nuevamente la regla de la probabilidad total, se tiene:
228 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
P(A) = P(B) =
1
2
x +
1
2
y =
5
14
P(C) =
1
2
z +
1
2
z =
4
14
Tambin consider Poincar el problema de la ruina del jugador:
Problema 2. Dos personas A y B juegan partidas en cada una de las cuales la primera
tiene una probabilidad p de ganarla y una probabilidad 1 p de perderla. Inicialmente A y B
tienen m y n chas respectivamente y despus de cada partida el perdedor entrega una cha
al vencedor. Si el juego se termina en el momento en que uno de los dos jugadores quede
arruinado, calcular la probabilidad de que ste sea A y la probabilidad de que sea B el que lo
haga.
Nuevamente aplicando las reglas de la suma y del producto, Poincar resolvi este problema
de la siguiente manera:
Sea (k) la probabilidad de que B termine arruinado comenzando con k chas, entonces
aplicando la regla de la probabilidad total, se obtiene:
(k) = p(k 1) + (1 p)(k + 1)
Esta es una ecuacin en diferencias nitas, con las condiciones iniciales (0) = 1, (s) = 0,
en donde s = m+n.
Resolviendo esta ecuacin, se encuentra el valor siguiente para :
(k) =
(
sk
s
si p =
1
2

s
1
s
en otro caso
en donde =
p
1p
.
La utilizacin de reglas demostradas para el caso en que el nmero de posibles resultados es
nito a problemas en donde el nmero de posibles resultados es innito no es algo novedoso en
el libro de Poincar, as se haca desde muy al principio del Clculo de Probabilidades, siendo
Christiaan Huygens el primero en hacer un razonamiento de este tipo al plantear y resolver el
siguiente problema ([59]):
Problema 3. Dos jugadores, P y Q, juegan a lanzar alternadamente un par de dados. El
juego comienza lanzando P el par de dados, con la condicin de que si obtiene una suma
igual a 6 gana el juego, en caso contrario el juego continua lanzando Q el par de dados, con
la condicin de que si obtiene una suma igual a 7 gana el juego, en caso contrario el juego
continua lanzando P el par de dados bajo las condiciones iniciales. Cules son las respectivas
probabilidades que cada jugador tiene de ganar el juego?
El razonamiento de Huygens para resolver este problema era esencialmente
2
el siguiente:
Denamos los siguientes eventos:
A: El juego es ganado por P.
B: El juego es ganado por Q.
A
1
: P obtiene una suma igual a 6 en su primer lanzamiento.
E: P fracasa en su primer lanzamiento y Q obtiene una suma igual a 7 en su primer lanza-
miento.
2
Huygens no considera probabilidades sino esperanzas
7.1. EL CLCULO DE PROBABILIDADES CLSICO 229
F: Tanto P como Q fracasan en su primer intento.
Entonces:
P(A) = P(A | A
1
)P(A
1
) +P(A | E)P(E) +P(A | F)P(F)
= P(A
1
) +P(A)P(F) =
5
36
+
31
36
30
36
P(A)
P(B) = P(B | A
1
)P(A
1
) +P(B | E)P(E) +P(B | F)P(F)
= P(E) +P(B)P(F) =
31
36
6
36
+
31
36
30
36
P(B)
As que, P(A) =
30
61
y P(B) =
31
61
.
Ms tarde, Jacques Bernoulli ([1]) resolvera este problema estableciendo una progresin geo-
mtrica para la Esperanza que cada jugador tiene sobre lo que se gana en el juego. En trminos
de probabilidades, el resultado de Bernoulli puede escribirse como sigue:
En cada lanzamiento del par de dados, diremos que hay xito si el jugador que los est lan-
zando gana el juego en ese lanzamiento. Un posible resultado para este experimento aleatorio
puede ser representado entonces por una sucesin nita, (F, . . . , F, S), compuesta de fracasos
consecutivos seguidos de un xito, o por una sucesin innita, (F, F, . . .), compuesta exclusiva-
mente de fracasos. Denotemos por
n
al resultado (F, . . . , F, S), compuesto de n 1 fracasos
seguidos de un xito y por p(
n
) a la probabilidad de ocurrencia de
n
. Se tiene entonces:
p(
2k
) = (1 p
1
)
k
(1 p
2
)
k1
p
2
si n = 2k para algn nmero natural k
p(
2k1
) = (1 p
1
)
k1
(1 p
2
)
k1
p
1
si n = 2k 1 para algn nmero natural k
en donde p
1
, p
2
son las probabilidades de obtener 6 y 7, respectivamente, al lanzar un par de
dados.
Ahora bien, considerando que P gana cuando ocurre
n
para algn n impar, mientras que Q
gana cuando ocurre
n
para algn n par, se tiene:
P(A) =
P

k=1
p(
2k1
) =
P

k=1
(
31
36
)
k1
(
30
36
)
k1 5
36
=
30
61
P(B) =
P

k=1
p(
2k
) =
P

k=1
(
31
36
)
k
(
30
36
)
k1 6
36
=
31
61
Bernoulli estaba estableciendo entonces que la probabilidad de que un jugador gane el juego es
igual a la suma de las probabilidades de que gane en cada uno de los posibles turnos que tiene,
los cuales son una innidad. En otras palabras, est implcita en el resultado la propiedad de
la aditividad numerable de la funcin de probabilidad.
Bernoulli haca ver la limitacin que tiene el mtodo de Huygens, el cual puede aplicarse
nicamente cuando un juego consiste de una sucesin continua de tiradas y despus de cierto
nmero de ellas reaparece la misma situacin que se tena al comenzar el juego, en cuyo caso,
dice Bernoulli, es recomendable usarlo. Haca entonces hincapi en que su mtodo puede
aplicarse an en el caso en que cada vez se encuentren suertes nuevas hasta el innito. Para
ejemplicar, plante los siguientes problemas:
Problema 4. A y B juegan con dos dados y el primero que obtenga la suma 7 ganar el
juego. Calcular la probabilidad que cada uno tiene en el juego con cada una de las siguientes
condiciones en el orden de las tiradas:
A tira una vez, B una vez, A dos veces, B una vez, A tres veces, B una vez, etc.
A tira una vez, B una vez, A una vez, B dos veces, A una vez, B tres veces, etc.
A tira una vez, B una vez, A dos veces, B dos veces, A tres veces, B tres veces, etc.
230 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
A tira una vez, B dos veces, A tres veces, B cuatro veces, A cinco veces, B seis veces, etc.
Bernoulli resolvi estos problemas aplicando su mtodo, con el cual obtena una serie para
la probabilidad que cada jugador tiene de ganar el juego en cada una de las situaciones
planteadas.
El mtodo de Bernoulli fue retomado un poco ms adelante, en el ao 1718, por Abraham
de Moivre en su libro ([44]), sin embargo, aunque aparentemente era conocido, no se utiliz
durante el resto del siglo XVIII y todo el XIX, de manera que la propiedad de la aditividad
numerable de la funcin de probabilidad qued relegada en la sistematizacin de Laplace, la
cual perdur hasta principios del siglo XX.
El poco inters que atrajo el mtodo de Bernoulli puede no haber sido circunstancial, sino que
parece obedecer a la concepcin de la probabilidad que est implcita en su formulacin clsica,
la cual est basada en la equiprobabilidad de los diferentes resultados de un experimento
aleatorio, cuyo nmero debe entonces ser nito. De manera que los problemas en donde
se realizan repeticiones indenidas de experimentos aleatorios nicamente pueden tratarse
mediante aproximaciones a travs de sus correspondientes lmites. Los problemas considerados
arriba, en donde el nmero de casos posibles es innito sin ser de probabilidades continuas,
caen dentro de esta categora de problemas, que no rebasan el marco clsico. En efecto, la
solucin de Bernoulli al problema planteado por Huygens, por ejemplo, puede plantearse como
una distribucin lmite considerando las probabilidades que cada jugador tiene de ganar en
los primeros 2n lanzamientos y haciendo tender luego n a . Si llamamos P
n
(A) y P
n
(B) a
estas probabilidades se obtiene, utilizando la notacin mencionada ms arriba:
P
n
(A) =
P
n
k=1
p(
2k1
) =
P
n
k=1
(
31
36
)
k1
(
30
36
)
k1 5
36
=
30
61

1 (
31
36
)
n
(
30
36
)
n

P
n
(B) =
P
n
k=1
p(
2k
) =
P
n
k=1
(
31
36
)
k
(
30
36
)
k1 6
36
=
31
61

1 (
31
36
)
n
(
30
36
)
n

Veremos ms adelante que efectivamente, incluso todava en los 20s del siglo pasado se daba
esta interpretacin a la solucin de Bernoulli.
El marco clsico fue rebasado en el momento en que se plantearon y resolvieron
problemas relativos a eventos cuya ocurrencia no slo dependiera de una innidad
de ensayos sino que, adems, sus probabilidades no pudieran ser vistas como una
distribucin lmite cuando el nmero de ensayos tiende a . Problemas de este
tipo son los que plante Flix douard Justin mile Borel en un artculo publicado en el ao
1909, abriendo as el camino hacia el abandono de la formulacin clsica de la Teora de la
Probabilidad.
7.2. Las probabilidades numerables de mile Borel
Borel puso el dedo en la llaga sobre el problema de la aditividad numerable de la funcin de
probabilidad. En su artculo Les probabilits dnombrables et leurs applications arithm-
tiques, publicado en el ao 1909 ([16]), deca Borel:
Se distinguen generalmente, en los problemas de probabilidad, dos categoras principales,
dependiendo de que el nmero de casos posibles sea nito o innito: la primera categora
constituye lo que se llama las probabilidades discontinuas, o probabilidades en el dominio
del discontinuo, mientras que la segunda categora comprende las probabilidades continuas o
probabilidades geomtricas. Tal clasicacin aparece como incompleta cuando se consideran los
7.2. LAS PROBABILIDADES NUMERABLES DE MILE BOREL 231
resultados de la Teora de Conjuntos; entre la potencia de los conjuntos nitos y la potencia
del continuo se encuentra la potencia de los conjuntos numerables; me propongo mostrar
brevemente el inters respecto a las cuestiones de probabilidad en cuyo enunciado intervienen
tales conjuntos; las llamar, para abreviar, probabilidades numerables.
En seguida clasicaba Borel los problemas de probabilidades numerables en tres categoras:
los de primera categora son aquellos en los cuales el nmero de resultados de cada ensayo
es nito, pero el nmero de ensayos es innito numerable. En los problemas de segunda
categora, el nmero de resultados en cada ensayo constituye una innidad numerable, pero
el nmero de ensayos es nito. Finalmente, en los problemas de tercera categora, tanto el
nmero de resultados en cada ensayo como el nmero de ensayos constituyen una innidad
numerable.
Las ideas esenciales que aport Borel en su artculo estn contenidas en el anlisis que hace de
los problemas de primera categora. Por tal motivo, basta con examinar este caso. De igual
forma, es suciente con considerar el caso en que cada ensayo admite nicamente dos posibles
resultados, los cuales sern llamados xito y fracaso. Finalmente, aunque Borel no lo haca
explcito, se asume que los ensayos son independientes unos de otros.
Consideremos entonces una sucesin innita numerable de ensayos independientes y denote-
mos por p
n
a la probabilidad de xito en el ensayo n. El problema principal que atac Borel
en este caso consiste en determinar la probabilidad de que se obtenga xito una innidad de
veces. Para atacar este problema, Borel se plante primero el problema de determinar, para
cada k {0, 1, . . .}, la probabilidad de que se obtenga xito exactamente k veces en la sucesin
innita de ensayos. Denamos entonces los eventos:
A
k
: Se obtienen exactamente k xitos en la innidad de ensayos.
Como puede verse, la ocurrencia o no ocurrencia de los eventos A
k
depende de la innidad
de ensayos, de manera que sus probabilidades no pueden obtenerse de manera directa con las
reglas que se aplican en el caso nito.
En general, para encontrar la probabilidad de un evento, cuya ocurrencia o no ocurrencia
depende de la innidad de ensayos, Borel resolva el mismo problema pero asumiendo que el
nmero de ensayos es n, despus de lo cual haca tender n a innito. Para seguir este mtodo,
denamos, para cada k {0, 1, . . .} y n N, el evento:
A
n
k
: Se producen exactamente k xitos en los primeros n ensayos.
Para simplicar el anlisis asumiremos que 0 p
n
< 1 para cualquier n. Por otra parte, antes
de entrar propiamente a los clculos de Borel, conviene analizar las dos situaciones bajo las
cuales se realizan.
1er. caso: la serie
P

n=1
p
n
es convergente.
En este caso, por el teorema del valor medio, se tiene, para cada x [0, 1):
ln(1 x) =
x
1x
, en donde (0, 1)
En particular, para cada n N, se tiene:
ln(1 p
n
) =
pn
1
n
p
n
, en donde
n
(0, 1)
Pero, como lm
n
p
n
= 0, existe N N tal que p
n
<
1
2
para cualquier n N. As que, para
cualquier n N,
1
1npn
< 2 . Por lo tanto, ln(1 p
n
) > 2p
n
, es decir, 1 p
n
> e
2p
n
.
232 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
De manera que, si denimos a
n
=
Q
n
j=1
(1 p
j
), entonces a
n
> A
N
e
2

n
j=N
p
j
, en donde
A
N
=
Q
N1
j=1
(1 p
j
) > 0. As que:
lm
n
a
n
A
N
lm
n
e
2

n
j=N
p
j
= A
N
e
2

j=N
p
j
> 0
Adems, como tambin se tiene
1
1p
n
< 2 para cualquier n N, entonces
P

n=N
p
n
1p
n
<
2
P

n=N
p
n
, as que tambin la serie
P

n=1
p
n
1pn
es convergente.
Por otra parte, 1 +
p
n
1pn
=
1
1pn
para cualquier n, de manera que:
lm
n
Q
n
j=1
(1 +
p
j
1p
j
) = lm
n
Q
n
j=1
1
1p
j
=
1
lmnan
2o. caso: la serie
P

n=1
p
n
es divergente.
Nuevamente, por el teorema del valor medio, se tiene, para cada x [0, 1):
ln(1 x) =
x
1x
, en donde (0, 1)
De manera que, para cualquier x [0, 1), ln(1 x) x, es decir, 1 x e
x
.
En particular,
Q
n
j=1
(1 p
j
) < e

n
j=1
pn
, as que lm
n
Q
n
j=1
(1 p
j
) = 0.
Adems, como tambin se tiene
P

n=1
pn
1p
n
>
P

n=1
p
n
, entonces tambin la serie
P

n=1
pn
1p
n
es divergente.
En este caso, para simplicar an ms el anlisis asumiremos que existen nmeros reales r y
s tales que 0 < r < p
n
< s < 1 para cualquier n. Entonces:
nr
1r
(1 s)
n
<
Q
n
j=1
(1 p
j
)
P
n
j=1
p
j
1p
j
<
ns
1s
(1 r)
n
As que lm
n
Q
n
j=1
(1 p
j
)
P
n
j=1
p
j
1p
j
= 0.
En resumen, se tiene el siguiente resultado:
Lema 7.7. Sea {p
n
} una sucesin de nmeros reales en el intervalo [0, 1), supongamos que
existen nmeros reales r y s tales que 0 < r < p
n
< s < 1 para cualquier n N y, para cada
n N, denamos u
n
=
p
n
1p
n
.
(i) Si la serie
P

n=1
p
n
es convergente, entonces a = lm
n
Q
n
j=1
(1 p
j
) > 0, la serie
P

n=1
u
n
es convergente y lm
n
Q
n
j=1
(1 +u
j
) =
1
a
.
(ii) Si la serie
P

n=1
p
n
es divergente, entonces lm
n
Q
n
j=1
(1 p
j
) = 0, la serie
P

n=1
u
n
es divergente y lm
n
Q
n
j=1
(1 p
j
)
P
n
j=1
u
j
= 0.
Siguiendo a Borel, pasemos ahora a calcular las probabilidades de los eventos A
k
.
Para calcular P(A
0
) se requiere calcular primero P(A
n
0
) para cualquier n. Esto no representa
ninguna dicultad, como el mismo Borel lo mencionaba: los principios clsicos permiten
denir y calcular la probabilidad de que el caso favorable no se presente en los primeros n
ensayos. En efecto, P(A
n
0
) se obtiene inmediatamente aplicando el principio de las probabi-
lidades compuestas, obtenindose P(A
n
0
) =
Q
n
j=1
(1 p
j
).
En el caso en que la serie
P

n=1
p
n
es convergente, el producto
Q
n
j=1
(1p
j
) converge a un valor
a > 0 cuando n . Dice Borel que entonces se puede escribir P(A
0
) = a, presentando la
siguiente justicacin: se constata que, cuando n crece, no solamente esta probabilidad (la
de P(A
n
0
)) vara muy poco de una manera absoluta, sino que vara tambin muy poco de una
manera relativa, es decir que sus variaciones son una fraccin muy pequea de su valor. Se
puede entonces, habiendo asignado un valor a la precisin relativa que se dese alcanzar, estar
7.2. LAS PROBABILIDADES NUMERABLES DE MILE BOREL 233
seguro de que esta precisin se alcanza efectivamente al cabo de cierto nmero de ensayos,
quiz muy grande, pero asignable: el lmite que hemos efectuado no presenta entonces ninguna
dicultad y est completamente justicado.
En el caso en que la serie
P

n=1
p
n
es divergente, el producto
Q
n
j=1
(1 p
j
) converge a 0
cuando n . Deca Borel que tambin en este caso se puede escribir P(A
0
) = 0, pero
haciendo la siguiente aclaracin: hay, en efecto, una verdadera discontinuidad entre una
probabilidad innitamente pequea, es decir una probabilidad variable que tiende hacia cero,
y una probabilidad igual a 0. En efecto, por pequea que sea la probabilidad del caso favorable,
ste es posible; mientras que es imposible si la probabilidad es nula. Tales son al menos los
resultados clsicos en la teora de las probabilidades discontinuas; se sabe que no es lo mismo
en la teora de las probabilidades continuas: la probabilidad de que un nmero tomado al azar
sea racional es nula; eso no quiere decir que no haya nmeros racionales. As ser tambin
en la teora de las probabilidades numerables: probabilidad nula no deber ser considerada
como el equivalente de imposibilidad. Estando esto bien entendido, ya no hay inconveniente
para decir que, en el caso divergente, P(A
0
) es nula; pero no deber perderse de vista que
ese lenguaje no signica otra cosa que esto: la probabilidad para que el caso favorable no se
produzca tiende hacia cero cuando el nmero de ensayos aumenta indenidamente.
Este comentario de Borel deja ver que para l la probabilidad P(A
0
) en el caso divergente no
era una verdadera probabilidad, sino nicamente un lmite.
Para calcular P(A
1
) consideraba Borel los eventos:
C
j
: Se produce xito exclusivamente en el ensayo j.
Entonces:
P(C
j
) = (1 p
1
) (1 p
j1
)p
j
(1 p
j+1
) = u
j
Q

j=1
(1 p
j
)
De manera que, si la serie
P

n=1
p
n
es convergente, P(C
j
) = au
j
, mientras que si la serie
P

n=1
p
n
es divergente, entonces P(C
j
) = 0.
En el caso convergente, deca Borel que mediante una justicacin similar a la que hace para
escribir P(A
0
) = a, el principio de las probabilidades totales permite escribir:
P(A
1
) =
P

j=1
P(C
j
) = a
P

j=1
u
j
Obsrvese que la expresin P(A
1
) =
P

j=1
P(C
j
) expresa la propiedad de -aditividad.
Sin embargo, Borel no estaba asumiendo aqu su validez, sino que obtena la expresin
P(A
1
) = a
P

j=1
u
j
con otro mtodo. La justicacin la desarroll Borel nicamente para
el caso divergente, pero se puede aplicar en los dos casos. En efecto, denamos los eventos:
C
n
j
: En los primeros n ensayos, se produce xito exclusivamente en el ensayo j.
Entonces:
P(A
n
1
) =
P
n
j=1
P(C
n
j
) =
P
n
j=1
(1 p
1
) (1 p
j1
)p
j
(1 p
j+1
) (1 p
n
)
=
P
n
j=1
u
j
(1 p
1
) (1 p
n
) =
Q
n
j=1
(1 p
j
)
P
n
j=1
u
j
As que, como lm
n
P(A
n
1
) = lm
n
Q
n
j=1
(1 p
j
)
P
n
j=1
u
j
= a
P

j=1
u
j
> 0, entonces,
siguiendo a Borel, no existe dicultad para escribir:
P(A
1
) = lm
n
P(A
n
1
) = a
P

j=1
u
j
Consideraba Borel que la extensin de la ltima frmula al caso divergente requiere precaucin
pues el lmite lm
n
Q
n
j=1
(1 p
j
)
P
n
j=1
u
j
queda como un producto 0 , el cual est
234 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
indeterminado. Deca tambin que se puede analizar el problema considerando que P(C
j
) = 0
para cualquier j y entonces, tomando P(A
1
) =
P

j=1
P(C
j
), se concluira que P(A
1
) = 0.
Sin embargo, recordando que probabilidad nula no signica imposibilidad, agregaba que no
se puede concluir sin precaucin que P(A
1
) = 0.
Obsrvese que aqu Borel estaba diciendo, implicitamente, que la propiedad de -aditividad
podra no ser vlida.
Prefera entonces calcular P(A
n
1
) como hicimos antes en el caso convergente, obtenindose:
P(A
n
1
) =
Q
n
j=1
(1 p
j
)
P
n
j=1
u
j
De manera que:
P(A
1
) = lm
n
P(A
n
1
) = lm
n
Q
n
j=1
(1 p
j
)
P
n
j=1
u
j
= 0
De manera similar se encuentra que, en el caso convergente, P(A
2
) = a
P
{i,jN:i6=j}
u
i
u
j
,
mientras que en el caso divergente, P(A
2
) = 0.
En general se obtiene, para cualquier k N, P(A
k
) = a
P
{(j
1
,...,j
k
)C(k)}
u
j
1
u
j
k
en el caso
convergente y P(A
k
) = 0 en el caso divergente, en donde C(k) representa al conjunto de todas
las posibles combinaciones de k nmeros naturales.
Recurdese aqu que para Borel P(A
k
) = 0 signica nicamente que la probabilidad de que
se produzcan exactamente k xitos tiende hacia cero cuando el nmero de ensayos aumenta
indenidamente. Sin embargo, en lo que sigue trataba a P(A
0
) como una verdadera probabi-
lidad.
Para atacar el problema principal que se plante Borel, denamos el evento:
A

: Se obtiene xito una innidad de veces.


En el caso convergente, escribi Borel:
P(A

) = 1
P

k=0
P(A
k
) = 1 a(1 +
P
u
j
+
P
u
j
1
u
j
2
+ ) = 1 a(1 u
1
)(1 u
2
)
= 1 a
Q

j=1
(1 +u
j
) = 0
En el caso divergente, Borel se rehusaba a argumentar de la misma manera, en cuyo caso se
tendra P(A

) = 1
P

k=0
P(A
k
) = 1.
Borel estaba rechazando aqu la propiedad de -aditividad.
El razonamiento de Borel era el siguiente:
Siendo nula cada una de las probabilidades P(A
k
), se puede deducir que su suma tambin
lo es y que por consiguiente P(A

) es igual a la unidad. El resultado es exacto, pero el


razonamiento precedente carece de rigor por las razones ya indicadas. Por otra parte, es claro
que no se puede buscar aqu la probabilidad de que el caso favorable se produzca una innidad
de veces en n ensayos y enseguida hacer crecer n indenidamente; por lo tanto se razonar
como sigue: eligiendo un nmero jo m, se buscar la probabilidad de que el caso favorable
se produzca ms de m veces en n ensayos y se calcular el lmite hacia el cual tiende esta
probabilidad cuando n aumenta indenidamente; omito aqu el sencillo clculo, cuyo resultado
es el siguiente: este lmite es la unidad cualquiera que sea el nmero jo m; eso signica que
se puede apostar con ventaja una cantidad tan grande como se quiera contra 1 franco a que el
nmero de casos favorables ser superior a un nmero jo dado cualquiera m; es precisamente
la signicacin de este enunciado: la probabilidad P(A

) es igual a uno.
Para precisar el argumento de Borel, denamos los eventos:
7.2. LAS PROBABILIDADES NUMERABLES DE MILE BOREL 235
D
m
: Se producen ms de m xitos en la sucesin innita de ensayos.
D
n
m
: Se producen ms de m xitos en los primeros n ensayos.
Tanto en el caso convergente como en el divergente, se tiene:
P(D
n
m
) = 1 [P(A
n
0
) + +P(A
n
m
)]
As que:
P(D
m
) = lm
n
P(D
n
m
) = 1 [P(A
0
) + +P(A
m
)]
Por lo tanto:
P(A

) = lm
m
P(D
m
) =

0 si
P

j=1
p
j
<
1 si
P

j=1
p
j
=
Obsrvese que en el caso divergente se tiene P(D
m
) = lm
n
P(D
n
m
) = 1, de manera que
siendo consecuentes con el planteamiento de Borel, sta no es una verdadera probabilidad, sino
nicamente un lmite, sin embargo en la expresin P(A

) = lm
m
P(D
m
), Borel tomaba
P(D
m
) como una verdadera probabilidad, lo cual, limitndonos al tipo de argumentos que da
Borel, no es justicable de ninguna manera pues la probabilidad P(A

) no puede expresarse
como un lmite cuando el nmero de ensayos aumenta indenidamente.
En resumen, deniendo los eventos:
A
k
: Se obtienen exactamente k xitos en la innidad de ensayos.
A
n
k
: Se producen exactamente k xitos en los primeros n ensayos.
D
m
: Se producen ms de m xitos en la sucesin innita de ensayos.
D
n
m
: Se producen ms de m xitos en los primeros n ensayos.
A

: Se obtiene xito una innidad de veces.


Borel obtuvo los siguientes resultados:
P(A
k
) = lm
n
P(A
n
k
) =

a
P
{(j
1
,...,j
k
)C(k)}
u
j
1
u
j
k
si
P

j=1
p
j
<
0 si
P

j=1
p
j
=
P(D
m
) = lm
n
P(D
n
m
) = 1 [P(A
0
) + +P(A
m
)]
P(A

) = lm
m
P(D
m
) =

0 si
P

j=1
p
j
<
1 si
P

j=1
p
j
=
En realidad P(A
k
) (k {0, 1, . . .}), P(D
m
) (m N) y P(A

) se obtienen asumiendo una


propiedad de continuidad de la funcin de probabilidad. En efecto, supongamos que la funcin
de probabilidad tiene las siguientes propiedades:
(i) P(
S

n=1
B
n
) = lm
n
P(B
n
) para cualquier sucesin creciente de eventos {B
n
}.
(ii) P(
T

n=1
C
n
) = lm
n
P(C
n
) para cualquier sucesin decreciente de eventos {C
n
}.
Entonces, se tiene:
A
k
=
T

n=1
E
n
k
=
S

n=1
F
n
k
en donde E
n
k
=
S

m=n
A
m
k
y F
n
k
=
T

m=n
A
m
k
.
Ahora bien, jando k, la sucesin {E
n
k
} es decreciente, mientras que la sucesin {F
n
k
} es
creciente. As que:
P(A
k
) = lm
n
P(E
n
k
)
P(A
k
) = lm
n
P(F
n
k
)
236 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
Adems, P(E
n
k
) = P(
S

m=n
A
m
k
) P(A
n
k
) y P(F
n
k
) = P(
T

m=n
A
m
k
) P(A
n
k
) para cualquier
n N, as que:
P(A
k
) = lm
n
P(E
n
k
) lmsup
n
P(A
n
k
)
P(A
k
) = lm
n
P(F
n
k
) lmnf
n
P(A
n
k
)
Por lo tanto:
P(A
k
) lmnf
n
P(A
n
k
) lmsup
n
P(A
n
k
) P(A
k
)
As que la sucesin {P(A
n
k
)}
nN
es convergente y P(A
k
) = lm
n
P(A
n
k
).
Por otra parte:
D
m
=
S

n=1
D
n
m
A

=
T

m=1
D
m
Adems, la sucesin {D
m
} es decreciente, mientras que, jando m, la sucesin {D
n
m
} es
creciente. As que:
P(D
m
) = lm
n
P(D
n
m
)
P(A

) = lm
m
P(D
m
)
Obsrvese que las relaciones P(A
k
) = lm
n
P(A
n
k
) y P(D
m
) = lm
n
P(D
n
m
) dieren de
la relacin P(A

) = lm
m
P(D
m
) en un aspecto fundamentalmente importante. Las dos
primeras se reeren a la continuidad de la funcin de probabilidad cuando el nmero de ensayos
tiende a innito. En cambio, la ltima relacin se reere a la continuidad de la funcin de
probabilidad en el marco de la sucesin innita de ensayos. De manera que es bsicamente
sta la nica que rebasa el marco de la formulacin clsica de la Teora de la Probabilidad.
Los planteamientos de Borel dejan ver que para l la -aditividad no era una propiedad de
la funcin de probabilidad que pueda considerarse como vlida en general. Es posible que ya
desde la escritura de su artculo en 1909 Borel tuviera en mente el siguiente ejemplo, el cual
cita en su libro, Applications a lArithmtique et a la Thorie des Fonctions, publicado en
1926 ([18]) y en donde la -aditividad no se cumple: Supongamos, por ejemplo, que existe
una manera de elegir de entre la coleccin innita de nmeros enteros, uno de ellos al azar, de
manera que cada uno de ellos tenga la misma probabilidad, esta probabilidad deber entonces
ser nula, pero su suma debe ser igual a 1.
Por otra parte al asumir como vlidas las relaciones P(A
k
) = lm
n
P(A
n
k
) y P(D
m
) =
lm
n
P(D
n
m
) en el caso convergente y la relacin P(A

) = lm
m
P(D
m
) en los dos casos,
Borel estaba asumiendo implcitamente la validez de la propiedad de continuidad de la funcin
de probabilidad mencionada antes.
Ahora bien, actualmente es bien sabido (aunque an no lo era cuando Borel escribi su
artculo) que tal propiedad de continuidad es equivalente a la -aditividad. De manera que
los resultados de Borel asumen implcitamente que la funcin de probabilidad es una funcin
-aditiva, es decir, una medida. De esta forma, los resultados de Borel conducen al reencuen-
tro (paradjicamente rechazndola) con la propiedad de aditividad numerable de la funcin
de probabilidad.
Todava en su libro Principios y frmulas clsicas del Clculo de Probabilidades, publi-
cado en 1925 ([14]), el anlisis de Borel sobre los problemas de probabilidades numerables es
prcticamente el mismo que el realizado en su artculo de 1909, no aceptando la -aditividad
como una propiedad general de la funci de probabilidad. En ese libro incluso consider el
7.2. LAS PROBABILIDADES NUMERABLES DE MILE BOREL 237
problema de los tres jugadores (problema 1), resolvindolo primero con el mismo mtodo que
utiliz Poincar en su libro, es decir aplicando las reglas de la suma (principio de las proba-
bilidades totales) y del producto (principio de las probabilidades compuestas), obteniendo as
P(A) = P(B) =
5
14
y P(C) =
2
7
, en donde A, B y C son los eventos consistentes en que P, Q
y R ganen el juego respectivamente, en donde a su vez P, Q y R son los tres jugadores y se
supone que se inicia el juego compitiendo P contra Q. Aclara en seguida que las probabilidades
encontradas no son cocientes entre el nmero de casos favorables y nmero de casos posibles
sino sumas de progresiones geomtricas, las cuales obtiene de la siguiente manera:
Considerando nicamente las primeras 3n partidas, el jugador P nicamente puede ganar el
juego en las partidas de rango 2, 4, 5, 7, . . . , 3n 2, 3n 1, de manera que la probabilidad,
p
n
(A), de que P gane el juego en algunas de las primeras 3n partidas est dada por:
p
n
(A) =
1
2
2
+
1
2
4
+
1
2
5
+
1
2
7
+ +
1
2
3n2
+
1
2
3n1
=
1
4
+
3
2
5

1 +
1
2
3
+
1
2
6
+ +
1
2
3n6

=
1
4
+
3
2
5
1
1
2
3n3
1
1
2
3
=
5
14

6
7
1
2
3n
De la misma manera, la probabilidad, p
n
(B), de que Q gane el juego en algunas de las primeras
3n partidas est dada por la misma expresin, mientras que la probabilidad, p
n
(C), de que R
lo gane est dada por:
p
n
(C) = 2

1
2
3
+
1
2
6
+
1
2
9
+ +
1
2
3n

=
1
4

1 +
1
2
3
+
1
2
6
+ +
1
2
3n3

=
1
4
1
1
2
3n
1
1
2
3
=
2
7

2
7
1
2
3n
De manera que:
P(B) = P(A) = lm
n
p
n
(A) =
5
14
P(C) = lm
n
p
n
(C) =
2
7
Continuaba Borel diciendo que, de acuerdo a los clculos anteriores, la probabilidad q
n
de que
el juego no se termine en las primeras 3n partidas est dada por:
q
n
= 1 2p
n
(A) p
n
(C) =
12
7
1
2
3n
+
2
7
1
2
3n
=
1
2
3n1
,
as que la probabilidad q

de que el juego no se termine nunca, es nula.


Remarcaba entonces que decir que la probabilidad de que el juego no se detendr nunca es
nula expresa que
1
2
3n1
tiende hacia cero cuando n aumenta indenidamente.
Este comentario de Borel deja ver que, como en los problemas de probabilidades numerables,
P(A), P(B), P(C) y q

no son para l verdaderas probabilidades sino nicamente lmites.


En su formulacin moderna, los resultados de Borel se resumen en los siguientes dos lemas:
Lema 7.8 (Lema de Borel Cantelli-1a. parte). Sea A
1
, A
2
, . . . una sucesin de eventos
tales que
P

n=1
P (A
n
) < y sea A = { : A
n
para una innidad de valores de n},
entonces P(A) = 0.
Demostracin
Para cada m N, sea B
m
=
S

n=m
A
n
. Entonces la sucesin de eventos B
m
es montona
decreciente y A =
T

m=1
B
m
, as que:
P(A) = P [
T

m=1
B
m
] = lm
m
P [B
m
]
Pero, P(B
m
) = P(
S

n=m
A
n
)
P

n=m
P(A
n
).
Por lo tanto, P(A) lm
m
P

n=m
P(A
n
) = 0.
238 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
Lema 7.9 (Lema de Borel Cantelli-2a. parte). Sea A
1
, A
2
, . . . una sucesin de eventos
independientes tales que
P

n=1
P (A
n
) = y sea:
A = { : A
n
para una innidad de valores de n}
entonces P(A) = 1.
Demostracin
Para cada m N, sea B
m
=
T

n=m
A
c
n
. Entonces la sucesin de eventos B
m
es montona
creciente y A
c
=
S

m=1
B
m
, as que:
P(A
c
) = P [
S

m=1
B
m
] = lm
m
P [B
m
]
Pero, B
m

T
m+k
n=m
A
c
n
para cualquier k N, as que, P(B
m
)
Q
m+k
n=m
[1 P(A
n
)] para
cualquier k N. Por lo tanto:
P(B
m
) lm
k
Q
m+k
n=m
[1 P(A
n
)] = 0
Se concluye entonces que P(A) = 1 P(A
c
) = 1.
7.2.1. Teorema de Borel sobre los nmeros normales. El artculo de Borel caus
un gran impacto en su poca sobre todo por una aplicacin de sus resultados para deducir
una propiedad importante de los nmeros reales, la cual se expone en esta parte.
Si q es un nmero natural mayor que 1, llamemos una fraccin decimal de base q a una
expresin de la forma
P

j=1
b
j
q
j
, en donde cada b
j
es un entero no negativo menor que q.
Supongamos adems que:
(i) Cada nmero b
j
se elige de tal manera que la probabilidad de que tome cada uno de
los valores 0, . . . , q 1 es igual a
1
q
.
(ii) Las elecciones de los nmeros b
j
son independientes unas de otras.
Dado un nmero b {0, . . . , q 1} y una fraccin decimal x =
P

j=1
b
j
q
j
, se dene la frecuencia
de b en x hasta el rango n, f
n
(b), como el cociente que resulta de dividir el nmero de veces
que aparece b en los primeros n trminos de x entre n. Cuando lm
n
f
n
(b) existe, se dir
que la frecuencia total de b en x existe y que su valor es igual a ese lmite.
Se dice que la fraccin decimal x =
P

j=1
b
j
q
j
es simplemente normal con respecto a la base q
si dado cualquier nmero b {0, . . . , q 1}, la frecuencia total de b en x existe y su valor es
igual a
1
q
.
Borel demostr entonces que la probabilidad de que un nmero x =
P

j=1
b
j
q
j
sea simplemente
normal con respecto a la base q es igual a 1. Para la base q = 2, su demostracin es como
sigue:
La formacin de un nmero x =
P

j=1
b
j
2
j
se puede realizar efectuando una sucesin de ensayos
independientes en cada uno de los cuales la probabilidad de obtener xito es igual a la de
obtener fracaso, es decir
1
2
, de tal manera que cuando en el ensayo j se obtiene xito se dene
b
j
= 0, mientras que cuando se obtiene fracaso se dene b
j
= 1. Para cada n N, denamos:
S
n
: nmero de xitos hasta el ensayo n.
R
n
: nmero de fracasos hasta el ensayo n.
B
n
=
h

S
n

n
2

>

nlnn

2
i
7.3. SURGIMIENTO DE LA TEORA DE LA MEDIDA 239
Entonces, aplicando el teorema de de Moivre-Laplace, se puede demostrar que
P

n=1
P(B
n
) < .
Si B =
n

S
n

n
2

>

nlnn

2
para una innidad de valores de n
o
, entonces se tiene, por el re-
sultado de Borel, P(B) = 0.
3
Por lo tanto, con probabilidad 1,

S
n

n
2


nlnn

2
a partir de un cierto valor de n. As que,
a partir de ese valor, se tiene
n
2

nlnn

2
S
n

n
2
+

nlnn

2
y
n
2

nlnn

2
R
n

n
2
+

nlnn

2
, lo
cual implica:
n
2

nln n

2
n
2
+

nln n

S
n
R
n

n
2
+

nln n

2
n
2
.

nln n

2
Es decir:
1

2 ln n

n
1+

2 ln n

S
n
R
n

1+

2 ln n

n
1

2 ln n

n
As que, P
h
lm
n
S
n
R
n
= 1
i
= 1, lo cual implica el resultado.
7.3. Surgimiento de la Teora de la Medida
Con el objeto de ubicar el paralelismo que se da entre el desarrollo de la Teora de la Medida
y la Teora de la Probabilidad a principios del siglo XX, se expone a continuacin la manera
en que surge la Teora de la Medida.
7.3.1. La integral de Cauchy. Aunque los conceptos de contenido o de medida de un
conjunto pueden pensarse como una extensin de los conceptos de longitud, rea, volumen,
etc., en realidad, histricamente, surgen de la Teora de Integracin.
La denicin analtica de la integral de una funcin fue formulada por vez primera por
Augustin-Louis Cauchy en el ao 1823 ([30]). En ese trabajo, Cauchy deni el concepto
de continuidad bsicamente como se conoce actualmente:
Una funcin denida en un intervalo es continua si para cada x en el intervalo el valor numrico
de la diferencia f(x +) f(x) decrece indenidamente con .
Adems, formul la denicin analtica de la integral de una funcin continua, demostrando
su existencia:
Sea f una funcin continua en el intervalo [a, b], entonces las sumas:
S =
P
n
k=1
f(x
k1
) (x
k
x
k1
),
correspondientes a particiones P = {a = x
0
< < x
n
= b} tienden a un lmite cuando
los elementos x
k
x
k1
se hacen innitamente pequeos; a ese lmite se le llama la integral
denida de f y se le denota por
R
b
a
f(x)dx. Se obtiene el mismo lmite si se consideran sumas
de la forma S =
P
n
k=1
f [x
k1
+
k
(x
k
x
k1
)] (x
k
x
k1
), en donde 0
k
1.
Demostr adems que si f es una funcin continua y F(x) =
R
x
a
f(y)dy, entonces F
0
(x
0
) =
f(x
0
).
3
El argumento de Borel no es totalmente correcto pues para probar P(B) = 1, asume que los eventos B
n
son independientes, lo cual no es cierto en este caso. Sin embargo, se puede aplicar el lema 7.8, el cual no
requiere de la hiptesis de independencia.
240 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
La integral as denida es conocida actualmente como la integral de Riemann y no como
la integral de Cauchy. La razn de esto parece justa pues es el trabajo de Georg Friedrich
Bernhard Riemann, publicado en el ao 1867, el que da la pauta para desarrollar una Teora
de Integracin, la cual a su vez llevara ms tarde a una Teora del Contenido y nalmente a
la moderna Teora de la Medida.
En trabajos posteriores, Cauchy consider funciones discontinuas haciendo la aclaracin si-
guiente:
es necesario observar que las funciones discontinuas introducidas en el Clculo dejan de ser
continuas nicamente para algunos valores de las variables
Para este tipo de funciones discontinuas extendi el concepto de integral de la siguiente manera:
Si una funcin es continua en un intervalo [a, b], excepto en un punto c, en una vecindad del
cual f puede ser acotada o no, se puede denir la integral de f como el lmite:
lm
h0
Z
ch
a
f(x)dx +
Z
b
ch
f(x)dx

cuando ste existe.


Entre 1822 y 1825, Johann Peter Gustav Lejeune Dirichlet extendi el trabajo de Cauchy
considerando funciones que admiten un nmero nito de discontinuidades. Conjetur ms
adelante (1829) que los mtodos de Cauchy, incluyendo la existencia de la integral, se pueden
extender a todas las funciones que tengan la siguiente propiedad:
Suponiendo que f est denida en un intervalo [a, b], dadas dos cantidades arbitrarias u y v
en ese intervalo, es posible encontrar otras dos cantidades r y s entre u y v tales que la funcin
f es continua en el intervalo [r, s].
Es decir, utilizando la terminologa moderna, el conjunto de puntos en donde la funcin es
discontinua debe ser denso en ninguna parte.
En 1864, Rudolf Otto Sigismund Lipschitz ([77]) demostr la conjetura de Dirichlet. Para
esto daba por hecho que la condicin de Dirichlet implica que el conjunto de puntos de acu-
mulacin del conjunto de discontinuidades de f debe de ser nito. En otras palabras, asuma
que la condicin de Dirichlet implica que las discontinuidades de f se acumulan alrededor de
un nmero nito de puntos.
Si f es discontinua nicamente en un nmero nito de puntos y c es un punto en donde f es
discontinua, Lipschitz dena:
R
b
a
f(x)dx = lm
0
h
R
c
a
f(x)dx +
R
b
c+
f(x)dx
i
Si c es un punto de acumulacin del conjunto de discontinuidades de f, dena:
R
b
a
f(x)dx = lm
0
h
R
c
a
f(x)dx +
R
b
c+
f(x)dx
i
La identicacin que haca Lipschitz de los conjuntos densos en ninguna parte con los conjuntos
que tienen un nmero nito de puntos de acumulacin es errnea. En efecto, si un conjunto
no es denso en ninguna parte entonces existe un intervalo en el cual es denso y, por lo tanto,
todos los puntos de ese intervalo son puntos de acumulacin del conjunto, es decir, si un
conjunto no es denso en ninguna parte entonces el conjunto de sus puntos de acumulacin es
innito. Sin embargo, el inverso de este resultado no es vlido; en efecto, para cada n N,
7.3. SURGIMIENTO DE LA TEORA DE LA MEDIDA 241
consideremos una sucesin decreciente de puntos aislados del intervalo (
1
n
,
1
n1
) que converja
a x
n
=
1
n
. El conjunto as formado es denso en ninguna parte pero tiene una innidad de
puntos de acumulacin.
Durante un tiempo prevaleci esta idea errnea, segn la cual los conjuntos despreciables
para la Teora de la Integracin son los conjuntos densos en ninguna parte, los cuales a su vez,
tambin errneamente, eran identicados con aquellos cuyo conjunto de puntos de acumulacin
es nito.
Los trabajos sobre el concepto de integral previos al de Riemann muestran que lo que se
buscaba era extender la denicin de la integral a funciones tan discontinuas como fuera
posible. La denicin analtica de la integral no era la misma para las funciones continuas
que para las discontinuas.
7.3.2. La integral de Riemann. Georg Friedrich Bernhard Riemann, en un artculo,
elaborado en 1854 y publicado por Julius Wihelm Richard Dedekind en 1867 ([91]), cambi el
enfoque para atacar el problema de la integracin de funciones. Como lo mencionamos antes,
antes de l se trataba de extender la denicin de la integral a funciones que tuvieran tantas
discontinuidades como fuera posible. Para Riemann, la integral de cualquier funcin acotada
denida en un intervalo cerrado deba denirse esencialmente como lo hizo Cauchy para las
funciones continuas:
Consideremos una particin x
0
, . . . , x
n
del intervalo [a, b] y denamos
k
= x
k
x
k1
; si,
independientemente de como se elijan las cantidades
k
[0, 1], las sumas
P
n
k=1

k
f(x
k1
+

k
) tienden a un lmite cuando todas las cantidades
k
= x
k
x
k1
tienden a cero, a ese
lmite se le llama el valor de la integral denida
R
b
a
f(x)dx.
Aclaraba Riemann que cuando el lmite de tales sumas no existe entonces la notacin
R
b
a
f(x)dx
carece de signicado.
Una vez establecida la denicin, Riemann se plante el problema de caracterizar a aquellas
funciones para las cuales el lmite que dene la integral existe:
Busquemos ahora la extensin y el lmite de la denicin precedente y hagmonos esta
pregunta: En qu casos una funcin es susceptible de integracin?, en qu casos no lo es?
Estableci dos criterios, ambos basados en el concepto de oscilacin de una funcin en un
intervalo.
Definicin 7.10 (Oscilacin de una funcin en un intervalo). Sea f : [a, b] 7 R una
funcin acotada. La diferencia:
sup {f(x) : x [x
k1
, x
k
]} nf {f(x) : x [x
k1
, x
k
]}
es llamada la oscilacin de f en el intervalo [a, b].
Criterio R
1
Sea D
k
la oscilacin de f en el intervalo [x
k1
, x
k
], entonces
f es integrable si y slo si lm

k
0
X
k
D
k

k
= 0
Este criterio, conocido simplemente como el criterio de Riemann, se formula y demuestra
actualmente en casi cualquier libro de Anlisis Matemtico.
242 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
Criterio R
2
Dada > 0 y una particin P, sea (P, ) la suma de las longitudes de los subintervalos de
la particin en los cuales la oscilacin de la funcin es mayor que , entonces:
f es integrable si y slo si lm
kPk0
(P, ) = 0 > 0
en donde kPk es la norma de P.
Este criterio se sigue del criterio R
1
y las siguientes desigualdades:
(P, )
P
k
D
k

k
D(P, ) + (b a)
en donde D
k
es la oscilacin de f en el intervalo [x
k1
, x
k
] y D la oscilacin de f en el intervalo
[a, b].
El criterio R
2
permiti a Riemann dar un ejemplo de una funcin integrable con un conjunto
denso de discontinuidades:
Sea M =

1
2
,
3
2
, . . .

y, para x [0, ), denamos:


(x) =

0 si x M
x m(x) si x / M
en donde m(x) es el nmero entero ms cercano a x.
Riemann deni entonces la funcin f : [0, 1] 7R de la siguiente manera:
f(x) =
P

k=1
(kx)
k
2
Se puede demostrar que esta funcin es discontinua en todos los puntos x de la forma x =
m
2n
,
en donde m y n son dos nmeros naturales tales que m y 2n son primos entre s. Adems f
satisface el criterio R
2
de Riemann y, por lo tanto, es integrable.
7.3.3. De la Teora de Integracin a la Teora del Contenido. An despus de
conocerse el trabajo de Riemann se sigui pensando que si el conjunto de puntos de discon-
tinuidad de una funcin es denso en ninguna parte, entonces la funcin es integrable, es decir
se pensaba que la condicin de Dirichlet es ms restrictiva que la de Riemann.
Hermann Hankel, discpulo de Riemann, introdujo en 1870 ([53] ) el concepto de oscilacin
de una funcin en un punto y reformul el criterio de Riemann en los siguientes trminos:
Sea f : [a, b] 7 R una funcin acotada y x (a, b). Sea (I
n
) una sucesin de intervalos
cerrados encajados que contengan a x como punto interior y tales que I
n
= {x}; denotemos
por O
n
a la oscilacin de f en el intervalo I
n
; entonces el lmO
n
existe y es independiente de
la sucesin particular de intervalos encajados con las propiedades dadas antes. A ese lmite
se le llama la oscilacin de la funcin f en el punto x.
Demostr entonces, errneamente, que una funcin es integrable si y solo si para cualquier
> 0 el conjunto de puntos en donde la oscilacin de la funcin es mayor que es denso en
ninguna parte.
Durante varios aos prevaleci la bsqueda de la caracterizacin de las funciones integrables
con base en la pequeez topolgica del conjunto de sus discontinuidades y, en esta bsqueda,
se puede observar la confusin que exista respecto a los diferentes conceptos de pequeez que
podan denirse. Alrededor del ao 1873 tal confusin radicaba bsicamente en la idea de que
un conjunto es denso en ninguna parte si y slo si es de primera especie.
7.3. SURGIMIENTO DE LA TEORA DE LA MEDIDA 243
Si A R, se denota por A
(1)
al conjunto de puntos de acumulacin de A, por A
(2)
al conjunto
de puntos de acumulacin de A
(1)
, etc... Al conjunto A
(n)
se le llama el ensimo conjunto
derivado de A. Se dice que un conjunto A R es de primera especie si A
(n)
es nito para
alguna n.
En 1873 era ya bien conocido que un conjunto acotado de primera especie es denso en ninguna
parte: Si un conjunto es denso en algn intervalo, entonces el conjunto de sus puntos de
acumulacin tambin lo es; de manera que ese conjunto no puede ser de primera especie
Sin embargo, se pensaba que los conjuntos de primera especie agotaban las posibilidades de
los conjuntos densos en ninguna parte. La confusin termin cuando se inventaron mtodos
para construir conjuntos densos en ninguna parte.
Paul David Gustav du Bois-Reymond dio en 1880 un ejemplo de un conjunto denso en ninguna
parte que no es de primera especie:
Sea I
n
una sucesin de intervalos ajenos cuyos puntos extremos convergen al punto P.
En el interior de I
n
denamos un conjunto Q
n
de orden n y sea Q =
S
n
Q
n
.
Q es un conjunto denso en ninguna parte pues cada conjunto Q
n
lo es y stos se encuentran
en intervalos ajenos.
Por otra parte, P Q
(n)
para toda n, por lo tanto, Q no es de primera especie.
Otro mtodo de construccin de conjuntos densos en ninguna parte fue desarrollado de manera
independiente por Henry John Stephen Smith en 1875 ([93]), Vito Volterra en 1881 ([97], [98])
y Georg Ferdinand Ludwig Philipp Cantor durante el periodo 1879-1884 ([23], [24], [25], [26],
[27]). Este mtodo es el que se utiliza actualmente para denir el conjunto de Cantor, el cual
es un ejemplo de un conjunto denso en ninguna parte que no es de primera especie.
Denamos:
F
0
= [0, 1]
F
1
= [0,
1
3
] [
2
3
, 1]
F
2
= [0,
1
9
] [
2
9
,
1
3
] [
2
3
,
7
9
] [
8
9
, 1]
.
.
.
En general, si ya tenemos denido el conjunto F
n
, ste consta de una unin de 2
n
intervalos
cerrados ajenos. El conjunto F
n+1
se construye entonces partiendo cada uno de esos intervalos
en 3 intervalos de la misma longitud y eliminando el intervalo central abierto.
F = F
n
es llamado el conjunto de Cantor y tiene las siguientes propiedades:
Es un conjunto denso en ninguna parte.
F = F
(n)
para toda n, por lo tanto, no es de primera especie.
Durante este periodo emergi una nueva clase de conjuntos, los de contenido cero:
Definicin 7.11 (Conjuntos de contenido cero). Se dice que un conjunto tiene contenido
cero si, para cualquier > 0, existe una familia nita de intervalos abiertos que cubren al
conjunto y tales que la suma de sus longitudes es menor que .
Se pudo demostrar adems que esta nueva clase de conjuntos se ubica entre las otras dos que
hemos mencionado, es decir, todo conjunto acotado de primera especie tiene contenido cero y
a su vez todo conjunto de contenido cero es denso en ninguna parte.
244 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
Todo lo anterior permiti exhibir funciones no integrables cuyo conjunto de discontinuidades
sea denso en ninguna parte: La funcin indicadora de un conjunto denso en ninguna parte
que no tiene contenido cero tiene un conjunto de discontinuidades denso en ninguna parte,
pero no es integrable.
Por otro lado, Riemann haba mostrado la existencia de funciones cuyas discontinuidades
forman un conjunto denso pero que son integrables. Se poda concluir, nalmente, que no es
el tamao topolgico del conjunto de discontinuidades lo que determina que una
funcin sea o no sea integrable.
Es en ese momento cuando se pudo ya establecer con toda claridad la condicin para que una
funcin sea integrable. Axel Harnack demostr en 1881 que:
Una funcin es integrable si y solo si, para cualquier > 0, el conjunto de puntos
en donde la oscilacin de la funcin es mayor que tiene contenido cero.([54])
El concepto de contenido cero se convertira desde ese momento en uno clave para la Teora
de la Integracin.
En ese momento se tuvieron entonces las bases para desarrollar una Teora del Contenido,
lo cual fue llevado a cabo por Otto Stolz ([94]), Axel Harnack ([55], [56]), Giuseppe Peano
([87])y, sobre todo, Marie Ennemond Camille Jordan ([60]). Todo esto durante el periodo
que va de 1883 a 1892:
Sea A un conjunto acotado de nmeros reales y [a, b] un intervalo que lo contenga. Para cada
particin P del intervalo [a, b] sea

S(P, A) la suma de los subintervalos de P que contienen
puntos de A y S(P, A) la suma de los subintervalos de P contenidos en A. Se dene entonces el
contenido exterior de A, c
e
(A), y el contenido interior de A, c
i
(A) mediante las relaciones:
c
e
(A) =nf

S(P, A) : P es particin del intervalo [a, b]

c
i
(A) =nf {S(P, A) : P es particin del intervalo [a, b]}
Se dice entonces que A es Jordan-medible si c
e
(A) = c
i
(A) y, en este caso, a esta cantidad
comn se le llama el contenido de A y se le denota por c(A).
Evidentemente todo conjunto de contenido cero es Jordan-medible. Tambin todo intervalo
acotado es Jordan-medible y su contenido es igual a su longitud. Finalmente, se tiene la
siguiente propiedad:
Consideremos un intervalo [a, b], entonces la familia de subconjuntos de [a, b] que son Jordan-
medibles forman un lgebra de subconjuntos de [a, b]. Adems, la funcin que asocia a cada
conjunto Jordan-medible su contenido es nitamente aditiva.
7.3.4. Teora de la Medida de Borel. En 1894-1895, Flix douard Justin mile Borel
([12], [13]) dio las bases para un nuevo avance al introducir el concepto de medida cero:
Se dice que un conjunto tiene medida cero si para cualquier > 0 existe una coleccin
numerable de intervalos abiertos {I
n
} tales que la suma de sus longitudes es menor que .
Curiosamente, el concepto de medida cero no lo introdujo Borel con relacin a la Teora de
Integracin. Al introducir ese concepto, Borel estaba atacando un problema de continuacin
analtica de una funcin de variable compleja:
Considrese la funcin de variable compleja:
f(z) =
P

n=1
A
n
za
n
7.3. SURGIMIENTO DE LA TEORA DE LA MEDIDA 245
en donde A
1
, A
2
, . . . son nmeros complejos tales que la serie
P

n=1
|A
n
| converge y a
1
, a
2
, . . .
son puntos en el plano complejo que estn sobre una curva cerrada C formando un conjunto
denso en esa curva.
Se puede ver inmediatamente que si z / C entonces la serie
P

n=1
A
n
za
n
converge pues la
distancia de z a C es positiva. Consideremos dos puntos P y Q, el primero al interior de
la regin que forma C y el segundo al exterior de la misma; el problema que se plantea
Borel consiste entonces en encontrar un arco circular que una P con Q sobre el cual la serie
P

n=1
An
zan
converja absoluta y uniformemente. Esto llev a Borel a la necesidad de demostrar
que existen puntos z sobre C para los cuales la serie en consideracin converge.
Para simplicar el razonamiento, consideremos el mismo problema pero con funciones de
variable real.
Sea {a
1
, a
2
, . . .} un conjunto numerable y denso en el intervalo [a, b] y (A
n
)
n1
una sucesin de
nmeros reales. Para cada x [a, b] {a
1
, a
2
, . . .} consideremos la serie
P

n=1
A
n
xa
n
. Aparente-
mente tal serie no converge para ninguno de esos puntos x pues el conjunto {a
1
, a
2
, . . .} es
denso en [a, b] y entonces dado cualquier punto x [a, b] hay puntos a
n
tan cerca de x como
se quiera. Sin embargo, siguiendo a Borel, se puede mostrar que, asumiendo que la serie
P

n=1
p
|A
n
| converge, existe una innidad no numerable de puntos x [a, b] para los cuales
la serie converge. En efecto, para cada n N, sea u
n
=
p
|A
n
|. Sea ahora l la longitud del
intervalo [a, b] y N N tal que
P

n=N+1
u
n
<
l
2
. Para cada n > N sea I
n
un intervalo abierto
con centro en a
n
y radio u
n
. Se tiene entonces
P

n=N+1
l(I
n
) < l, en donde l(I
n
) es la longitud
del intervalo I
n
. Como los puntos a
1
, . . . , a
N
forman un conjunto nito, se pueden cubrir con
intervalos abiertos I
1
, I
2
, . . . , I
n
, respectivamente, de tal manera que
P

n=1
l(I
n
) < l. Si x no
pertenece a ninguno de los intervalos I
1
, I
2
, . . . entonces |x a
i
| > 0 para i {1, . . . , N} y
|x a
i
| u
i
para i {N + 1, N + 2, . . .}. Por lo tanto:
P

n=1

A
n
xan

=
P
N
n=1

A
n
xan

+
P

n=N+1

A
n
xan

P
N
n=1

A
n
xan

+
P

n=N+1
p
|A
n
| <
Lo nico que resta probar es que existe una innidad de puntos x [a, b] que no pertenecen
a ninguno de los intervalos I
1
, I
2
, . . .. Para esto, Borel demostr el resultado, ahora clsico,
que asegura que todo intervalo cerrado y acotado es compacto. De manera ms especca,
Borel demostr, bsicamente como se hace actualmente, que si un intervalo cerrado y acotado
es cubierto por una innidad numerable de intervalos abiertos, entonces existe una coleccin
nita de esos intervalos que tambin lo cubren. En base a este resultado, si los intervalos
I
1
, I
2
, . . . cubrieran al intervalo [a, b], necesariamente se tendra
P

n=1
l(I
n
) l, lo cual es una
contradiccin. Ms an, si nicamente hubiera una coleccin numerable de puntos x [a, b]
que no pertenecen a ninguno de los intervalos I
1
, I
2
, . . .., estos puntos podran ser cubiertos
por una nueva coleccin numerable de intervalos abiertos de tal manera que la suma de sus
longitudes, sumadas con las longitudes de los intervalos I
1
, I
2
, . . ., siga siendo menor que l, lo
cual no es posible.
Todava siguiendo a Borel, se puede decir an ms, pues cambiando l por una > 0 arbitraria
en el razonamiento anterior se muestra que el conjunto de puntos x [a, b] para los cuales la
serie
P

n=1
A
n
xa
n
no converge absolutamente pueden ser cubiertos por una coleccin numerable
de intervalos abiertos de tal manera que la suma de sus longitudes sea menor que . Es decir,
246 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
utilizando el concepto que introduce Borel, el conjunto de puntos x [a, b] para los cuales la
serie
P

n=1
An
xan
no converge absolutamente tiene medida cero.
Ms adelante, en un libro publicado en 1898 ([14]) , Borel retom el concepto de conjunto de
medida cero para desarrollar una Teora de la Medida. Para esto, inuenciado en parte por el
trabajo de Jules Joseph Drach, sigui el mtodo axiomtico. Para Borel la idea fundamental
consista en denir los elementos nuevos que se introducen con ayuda de sus propiedades
esenciales, es decir, aquellas que son estrictamente indispensables para los razonamientos que
siguen. En el caso de la medida, las propiedades esenciales que plante Borel son las siguientes:
(i) La medida de la unin de una coleccin numerable de conjuntos ajenos es igual a la
suma de sus medidas.
(ii) La medida de la diferencia de dos conjuntos de medida nita A y B, con A B, es
igual a la diferencia de sus medidas, m(B) m(A).
(iii) La medida de un conjunto nunca es negativa.
Llam entonces conjuntos medibles a todos aquellos conjuntos a los cuales se les pueda asignar
una medida en base a las propiedades mencionadas y tomando como punto de partida que la
medida de un intervalo es su longitud.
Borel no vio relacin entre su concepto de medida y el de integral. Ms an, aclaraba que el
problema que l estaba investigando era totalmente diferente del resuelto por Jordan. Adems,
consideraba la denicin que haca Jordan de los conjuntos medibles (con contenido) como
ms general que la que l daba pues, por ejemplo, con base en la denicin de Jordan, cualquier
subconjunto del conjunto de Cantor es medible, de manera que, teniendo el conjunto de Cantor
la misma cardinalidad que los nmeros reales, la familia de conjuntos Jordan medibles tiene
una cardinalidad mayor que la de los reales. Por otra parte, se puede mostrar que la familia de
conjuntos medibles que dene Borel tiene nicamente la cardinalidad de los nmeros reales.
7.3.5. Teora de la Medida de Lebesgue. El paso siguiente en el desarrollo de la
teora de la medida, as como el ltimo paso hacia la caracterizacin de las funciones Riemann-
integrables lo dio Henri Lon Lebesgue en 1902.
Para la caracterizacin de las funciones Riemann integrables, Lebesgue primero demostr una
forma ligeramente distinta del resultado de Harnack:
Si, dada > 0, B() denota al conjunto de puntos en donde la oscilacin de la
funcin f es mayor o igual que , entonces f es integrable si y slo si para cualquier
> 0, B() tiene contenido cero.
Mostr adems que, para cualquier > 0, B() es un conjunto cerrado, de manera que, siendo
acotado, es compacto.
Lebesgue observ entonces que si D es el conjunto de puntos en donde la funcin es discontinua,
se tiene D =
S

n=1
B(
1
n
). Entonces, si f es Riemann integrable, B(
1
n
) tiene contenido cero
para cualquier n N, as que D tiene medida cero. Por otra parte, si D tiene medida cero,
entonces B(
1
n
) tiene medida cero para cualquier n N, de manera que, siendo estos conjuntos
compactos, tambin tienen contenido cero; nalmente, dada > 0 arbitraria y n >
1

se tiene
B() B(
1
n
), as que B() tiene contenido cero. Se tiene as la siguiente caracterizacin de
las funciones Riemann integrables:
7.3. SURGIMIENTO DE LA TEORA DE LA MEDIDA 247
Una funcin acotada f : [a, b] 7R es Riemann integrable si y slo si el conjunto de
puntos en donde la funcin es discontinua tiene medida cero.
Lebesgue desarroll su Teora de la Medida en su tesis doctoral titulada Integrale, longueur,
aire ([72]). Ah, siguiendo a Borel, comenz plantendose lo que l llam el problema de
la medida, el cual consiste en denir una medida no negativa m sobre todos los conjuntos
acotados de nmeros reales de tal manera que se tengan las siguientes propiedades:
(i) m([0, 1]) = 1.
(ii) Si E es un conjunto acotado y a R, entonces m(E +a) = m(E).
(iii) Si E
1
, E
2
, . . . es una sucesin de conjuntos contenidos en un conjunto acotado y
ajenos por parejas, entonces m(

S
k=1
E
k
) =
P

k=1
m(E
k
).
Se puede ver fcilmente que las condiciones sobre la medida implican que la medida de un
intervalo acotado debe de ser igual a su longitud.
Consider entonces el problema de la medida limitndose a subconjuntos de un intervalo jo
I.
Si E es un subconjunto de I al cual se le asigna la medida m(E) e I
1
, I
2
, . . . es una coleccin
nita o innita numerable de intervalos ajenos tales que E U
n
I
n
, entonces se debe de tener
m(E)
P
n
l(I
n
), de manera que la cantidad:
nf {
P
n
l(I
n
) : I
1
, I
2
, . . . son intervalos ajenos y E U
n
I
n
}
es una cota superior para la medida de E. Deni entonces la medida exterior de E, m
e
(E),
como esa cantidad, es decir:
m
e
(E) =nf {
P
n
l(I
n
) : I
1
, I
2
, . . . son intervalos ajenos y E
S
n
I
n
}
En seguida deni la medida interior de E, m
i
(E), mediante la relacin
m
i
(E) = l(I) m
e
(E
c
)
Ahora bien, por la propiedad iii se debe de tener l(I) = m(E) + m(E
c
), es decir, m(E) =
l(I) m(E
c
). Pero se tiene m(E
c
) m
e
(E
c
), as que m(E) l(I) m
e
(E
c
). De esta forma
se obtiene que la cantidad l(I) m
e
(E
c
) es una cota inferior de m(E).
Todo lo anterior lo haca Lebesgue asumiendo que es posible asignarle una medida al conjunto
E. Sin embargo las deniciones de medida exterior e interior son independientes de esta
consideracin y pueden darse para cualquier conjunto. Mostr entonces que se tienen las
siguientes relaciones para cualquier subconjunto E de I:
c
i
(E) m
i
(E) m
e
(E) c
e
(E)
Adems, como se mostr arriba, de ser posible asignar una medida m(E) al conjunto E, se
debe de tener m
i
(E) m(E) m
e
(E). Por lo tanto, la medida asignada a E ser nica
cuando sus medidas interior y exterior coincidan.
Estas consideraciones condujeron a Lebesgue a su denicin de medibilidad:
Definicin 7.12 (Conjuntos medibles). Se dice que un conjunto acotado E es medible si
m
i
(E) = m
e
(E).
Aclaraba Lebesgue que es nicamente para estos conjuntos que se estudiar el problema de
la medida, declarando no saber siquiera si existen conjuntos que no sean medibles. Pero si
248 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
existen tales conjuntos, deca que el desarrollo posterior que l hace no es suciente para
armar ni que el problema de la medida es posible ni que es imposible para tales conjuntos.
Este comentario de Lebesgue es importante pues lo que l ha hecho es encontrar cotas ms
nas que las que da Jordan para la medida de un conjunto, lo cual automticamente ampla la
familia de conjuntos a los cuales se les puede asignar una medida de manera nica. En efecto,
la condicin c
i
(E) = c
e
(E) permite asignar a E una nica medida y esa condicin implica
m
i
(E) = m
e
(E). Pero se puede cumplir la condicin m
i
(E) = m
e
(E), lo cual permite asignar
una nica medida a E, sin que se tenga c
i
(E) = c
e
(E). Sin embargo, no se puede asegurar que
no sea posible asignarle una medida a conjuntos para los cuales m
i
(E) < m
e
(E). En caso de
que esto fuera posible, tal vez no sera de manera nica (de hecho se sabe actualmente que es
posible ampliar la familia de conjuntos medibles conservando las propiedades i y iii que pide
Lebesgue a la medida, pero tal extensin no es nica), o tal vez se puedan encontrar cotas
an ms nas que las que da Lebesgue para la medida de un conjunto y se pueda denir una
medida con propiedades adicionales a las que propone Lebesgue.
Mostr Lebesgue que se tienen las siguientes propiedades:
(i) Si E es medible entonces E
c
es medible.
(ii) Si A y B son medibles, entonces AB es medible.
(iii) Si E
1
, . . . , E
n
son conjuntos medibles, entonces
S
n
j=1
E
j
es medible.
(iv) Si E
1
, E
2
, . . . es una coleccin nita o innita numerable de subconjuntos de I, en-
tonces m
e
(
S
n
E
n
)
P
n
m
e
(E
n
).
Demostr adems que la familia de conjuntos medibles contenidos en un intervalo I forma una
-lgebra de subconjuntos de ese intervalo y que la medida m denida sobre esa -lgebra es
-aditiva.
Finalmente observ Lebesgue que, debido a la relacin c
i
(E) m
i
(E) m
e
(E) c
e
(E),
cualquier conjunto Jordan medible es tambin Lebesgue medible y, dado que los intervalos
son medibles y la familia de conjuntos medibles contenidos en un intervalo forma una -lgebra
de subconjuntos de ese intervalo, todo conjunto medible de acuerdo a la denicin de Borel
es tambin Lebesgue medible. De esta forma la Teora de la Medida de Lebesgue resulta ms
general tanto que la de Jordan como de la de Borel y las engloba a ambas.
El trabajo de Lebesgue sobre la Teora de la Medida se puede consultar en su libro [73], el
cual es una verdadera joya.
7.4. Identicacin de funciones de probabilidad con medidas
Inmediatamente despus del surgimiento de la Teora de la Medida de Lebesgue se dio una
relacin con la Teora de la Probabilidad. Esto se hizo en los problemas de probabilidades
geomtricas, en cuyo caso la probabilidad era considerada como una medida.
En 1904, Borel plante que la integral clsica (de Riemann) es insuciente para tratar algunos
problemas de probabilidad ([15]):
Si se sabe que un nmero x est comprendido entre 0 y 1, cul es la probabilidad de que x
sea un nmero racional?
Utilizando la integral de Riemann, el problema no tiene solucin.
Utilizando la integral de Lebesgue, la respuesta es 0.
7.4. IDENTIFICACIN DE FUNCIONES DE PROBABILIDAD CON MEDIDAS 249
En 1911, Sergi Natanovich Bernstein utiliz las diferentes formas de la aditividad numerable
para un problema de probabilidad geomtrica ([2]).
En el ao 1914 todava no se identicaba a cualquier funcin de probabilidad con una medida
pues ni siquiera estaba desarrollada la Teora General de la Medida en espacios abstractos.
En ese momento se contaba ya con la Teora de Integracin de Lebesgue y la correspondiente
Teora de la Medida en R
n
y eran entonces stas las nicas medidas que al normalizarlas
se consideraban probabilidades. Esto, es lo que hace Felix Hausdor en su libro, publicado
en 1914 ([57]). Ah consider que si A y B son dos conjuntos medibles de medida nita y
A B, entonces la medida de A dividida entre la medida de B puede considerarse como
la probabilidad de que un punto que se selecciona en el conjunto B pertenezca al conjunto
A. Tambin en ese libro Hausdor demostr el teorema de Borel sobre los nmeros normales
dentro del marco de la Teora de la Medida.
En el libro de Hausdor de 1914 se considera a la probabilidad como un ejemplo y una apli-
cacin de la Teora de la Medida. Hausdor no identicaba a una probabilidad con una medida,
pero mostr que una medida normalizada tiene todas las propiedades de una probabilidad.
El libro de Hausdor fue durante mucho tiempo la referencia estndar para la Teora de
Conjuntos; entonces la conexin entre Probabilidad y Teora de la Medida puede considerarse
como bien establecida en la literatura matemtica desde 1914.
Por otra parte, en 1913, Johann Radon haba ya desarrollado una Teora General de la Medida
en R
n
([89]) y en 1915, con base en el trabajo de Radon, Maurice Ren Frchet extendi la
Teora de la Medida a espacios abstractos, deniendo las funcionales aditivas ([49]). De esta
manera, en ese momento se puede decir que, aunque posteriormente todava se demostraran
algunos resultados importantes, ya se contaba con lo bsico de una teora general de la medida.
Por el lado de la Teora de la Probabilidad, se volvi cada vez ms frecuente asumir como
vlida ya sea la propiedad de -aditividad de la funcin de probabilidad o bien alguna de sus
formas equivalentes, sobre todo en la formulacin de resultados que generalizaban los teoremas
lmite.
En 1916, Francesco Paolo Cantelli ([20]), sin hacerlo explcito, asumi la -aditividad al
considerar P [|X m| > ] como una suma innita de probabilidades.
En 1917, el mismo Cantelli ([21]), consider que se puede asumir que la probabilidad de la
interseccin de una sucesin decreciente de eventos es el lmite de las probabilidades de cada
uno de ellos. Dice que esta propiedad responde al sentimiento de la probabilidad: Tale
assunto non pud portare ovviamente ad obbiezioni teoriche e risponde al sentimento de la
probabilit, empiricamente considerata, risveglia in noi. Concretamente, consideraba una
sucesin de eventos A
1
, A
2
, . . . y entonces deca que se puede asumir que:
P [
T

k=1
A
k
] = lm
n
P [
T
n
k=1
A
k
]
1 P [
T
n
k=1
A
k
] = P [(
T
n
k=1
A
k
)
c
] = P [
S
n
k=1
A
c
k
]
P
n
k=1
P [A
c
k
]
As que:
P [
T
n
k=1
A
k
] 1
P
n
k=1
P [A
c
k
]
Por lo tanto:
P [
T

k=1
A
k
] = lm
n
P [
T
n
k=1
A
k
] 1
P

k=1
P [A
c
k
]
250 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
En 1919, Guido Castelnuovo ([29]) plante la extensin de la denicin clsica de probabilidad
al caso de las probabilidades en el continuo (se refera a experimentos aleatorios cuyos posibles
resultados quedan representados por regiones en el plano o en el espacio tridimensional) me-
diante un paso al lmite, con el cual quedaban extendidas las reglas de la suma y del producto
al caso innito. Consideraba sin embargo que puesta la denicin en esta forma no se presta
a un tratamiento matemtico. Por tal motivo, la transformaba para obtener una funcin de
densidad, asociada a cada problema particular, mediante la cual se puede obtener cualquier
probabilidad como una integral de dicha funcin sobre una determinada regin.
Todo lo anterior condujo a que para el ao de 1925 algunos autores aceptaban ya a la -
aditividad como una propiedad general de la funcin de probabilidad y entonces consideraban
a la probabilidad como una medida. Esto queda claro en el libro de Paul Pierre Lvy, Calcul
des Probabilits, publicado en 1925, en donde, adems, se dene a la probabilidad en forma
axiomtica ([75]). Dice Lvy:
En el Clculo de Probabilidades, la teora matemtica tiene como meta el establecimiento
de ciertas relaciones entre las probabilidades de diferentes eventos y es independiente de las
consideraciones ms o menos delicadas por las cuales se determinan sus valores en las aplica-
ciones. Se requiere entonces darse los coecientes de probabilidad de ciertos eventos, elegidos
de tal manera que determinen perfectamente la ley de probabilidad; los otros se deducen.
Para Lvy, dado un experimento aleatorio, los eventos, a los cuales hay que asignar proba-
bilidades, son grupos de posibles resultados. Es decir, est ya ah parte de la formulacin
moderna en la cual los eventos son subconjuntos de un conjunto , llamado el espacio mues-
tral del experimento. Finalmente, al igual que otros autores, Lvy consideraba que los dos
principios fundamentales que debe satisfacer una funcin de probabilidad son el Principio de
las probabilidades totales y el Principio de la probabilidad compuesta, pero con la diferencia
de que Lvy extenda el principio de probabilidades totales al caso de una coleccin innita
numerable de eventos mutuamente excluyentes.
Lvy fue todava ms lejos en su formulacin axiomtica de la Teora de la Probabilidad en
un artculo titulado Les lois de probabilit dans les ensembles abstraits, publicado en el ao
de 1924, el cual se reprodujo al nal de su libro ([74]). Dice ah que una ley de probabilidad
ser naturalmente bien denida en un conjunto abstracto E si se conoce la probabilidad de
todo subconjunto de E. Esta probabilidad deber gozar de las propiedades siguientes:
a. A dos conjuntos V
1
y V
2
sin elementos comunes y al conjunto V constituido por su unin,
corresponden nmeros
1
,
2
y tales que =
1
+
2
.
b. Un enunciado anlogo es verdadero si se considera una innidad numerable de conjuntos
V
1
, V
2
, . . ., sin puntos comunes dos a dos.
c. Los valores de son siempre positivos o nulos y al conjunto E completo corresponde un
valor igual a la unidad.
Deca Lvy que, utilizando el lenguaje del Clculo Funcional, es una funcional aditiva en el
sentido de Frchet (es decir, una medida).
Agregaba despus que en la prctica se considera una ley de probabilidad como denida sin
que la probabilidad est denida para todos los subconjuntos de E. Cita para esto el caso
en que la probabilidad de un subconjunto del intervalo [0, 1] est dada por su medida de
Lebesgue, en cuyo caso la probabilidad nicamente est denida para los conjuntos medibles.
7.4. IDENTIFICACIN DE FUNCIONES DE PROBABILIDAD CON MEDIDAS 251
Como puede verse, Lvy formul aqu la Teora de la Probabilidad en su forma axiomtica
moderna. Por qu entonces se atribuye a Kolmogorov y no a Lvy esta formulacin? La
respuesta a esta pregunta la consideraremos ms adelante.
Mientras tanto, cabe mencionar que la -aditividad segua asumindose como vlida en la
formulacin de los teoremas lmite.
Para probar la Ley Fuerte de los Grandes Nmeros, Aleksandr Yakovlevich Khintchine ([61])
y Andrey Nikolaevich Kolmogorov ([62]) utilizaron la propiedad de -subaditividad de la
funcin de probabilidad, la cual es equivalente a la -aditividad. Adems, Kolmogorov utiliz
el hecho de que la unin numerable de eventos de probabilidad cero tiene tambin probabilidad
cero, la cual tambin es consecuencia de la -subaditividad.
Sin embargo, la polmica sobre la propiedad de aditividad de la funcin de probabilidad
continuaba. Resalta en esta polmica una serie de artculos que publicaron Maurice Ren
Frchet y Bruno de Finetti en el ao 1930 ([41], [42], [43], [50], [51]).
De Finetti consideraba que se llega a contradicciones cuando se admite la extensin del teo-
rema sobre las probabilidades totales al caso de una sucesin innita de eventos mutuamente
excluyentes. Como ejemplo consideraba una variable aleatoria X la cual nicamente puede
tomar valores en el conjunto innito {
1
,
2
, . . .} de tal forma que todos ellos son igualmente
probables. Los eventos [X =
i
] tienen entonces probabilidad cero, pero su unin tiene pro-
babilidad 1.
Frchet argumentaba que l ya haba sealado, en sus cursos y en una memoria que se encon-
traba en prensa, que efectivamente la extensin del teorema sobre las probabilidades totales
al caso de una sucesin innita de eventos no es una consecuencia inevitable de los principios
generales admitidos en las bases del Clculo de Probabilidades. Pero agregaba que de Finetti
nicamente haba visto una de las dos alternativas: si sus ejemplos tienen sentido, entonces
tal extensin no es posible. pero la otra alternativa es que si tal extensin es posible entonces
los ejemplos no tienen sentido. Frchet prefera entonces asumir que los ejemplos de de Fineti
no tienen sentido, en particular consideraba, con relacin al mencionado ejemplo de de Fineti,
que es imposible suponer que los posibles valores de X son igualmente probables. Continuaba
argumentando que la misma alternativa se presenta en la teora de la medida de Lebesgue,
en donde se tiene que restringir la familia de conjuntos a los cuales se les puede asignar una
medida pues no todos los conjuntos resultan ser medibles. De la misma manera, en el ejemplo
de de Fineti no es posible asignarle una probabilidad a los conjuntos [X =
i
] de tal manera
que todas ellas sean iguales.
De Fineti respondi con nuevas objeciones. Se preguntaba si los eventos que se tienen que
excluir de aquellos a los cuales se asigna una probabilidad no son tan interesantes como stos l-
timos. Para l Frchet nicamente evitaba formalmente la dicultad y se segua preguntando:
Es admisible excluir la concepcin de una innidad de eventos mutuamente excluyentes que
sean igualmente probables?
Frchet contraargument que las contradicciones a que hace referencia de Fineti son familiares
para todos aquellos al corriente en la teora de la medida. En cuanto al inters que pueden
tener los conjuntos no medibles responde que en realidad no se presentan en las aplicaciones.
En cuanto a la necesidad de excluir algunas medidas como posibles, consideraba, por ejemplo,
que se puede pensar en asignar una medida igual a 1 a toda la recta real, una medida igual
a
1
2
a toda semirecta, una medida igual a
1
3
a todos los conjuntos formados por la unin de
252 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
una sucesin innita de intervalos de longitud , de tal manera que cada par de ellos est
separado por un intervalo de longitud 2, etc. En ese caso, toda la recta real sera la unin de
una sucesin de intervalos consecutivos cuyas medidas tendran que ser nulas, de manera que
su suma no podra ser igual a 1. Por lo tanto, se debe de excluir la concepcin de medidas
iguales de esos intervalos o bien se deben de considerar como no medibles.
Resulta aqu claro que para Frchet la probabilidad era siempre una medida, an a costa
de tener que excluir algunos experimentos aleatorios que pueden ser denidos formalmente,
aunque tambin resultaba claro para l que sta es nicamente una alternativa que se puede
elegir, pero que no era aceptada por todos en ese momento. Esta posicin resulta todava
ms evidente al argumentar en contra de otra objecin que hace de Fineti en su segundo
artculo. Deca de Fineti que no se debe eludir una dicultad de principio mediante una
convencin y que una vez puesta la denicin de probabilidad, de una manera conforme a
nuestra intuicin, si esta denicin permite atribuir un valor a la probabilidad de uno de
los eventos clasicados como no probabilizables, no se tiene el derecho de excluir ese evento.
Frchet respondi entonces que la principal dicultad en el argumento de de Fineti reside en
el hecho de que, hasta ese momento, ninguna denicin de la probabilidad haba obtenido
una adhesin general. Agregaba que si se adopta el punto de vista axiomtico, la solucin es
inmediata y consiste en poner como postulado el principio de las probabilidades totales en su
forma completa (es decir, la propiedad de aditividad numerable). Citaba entonces que esto es
lo que hace Lvy en su libro, en donde, adems, justica esta convencin desde el punto de
vista concreto. Ms tarde, Frchet comentara en su libro, publicado en 1937:
En denitiva, para adoptar el principio completo de las probabilidades totales, nos con-
tentaremos con observar:
1o. Que es cmodo.
2o. Que cabe dentro de una teora no contradictoria.
3o. Que no est en contradiccin con la experiencia.
Para entender como es que con la formulacin de Kolmogorov, la cual es prcticamente la
misma que la de Lvy, la adhesin a la concepcin de la probabilidad como una medida fue casi
unnime, debemos ver cual es la idea prctica que se encuentra detrs de la identicacin de
una funcin de probabilidad con una medida. Esta identicacin permite extender el Clculo
de Probabilidades a una familia ms grande de eventos. Es decir, se trata de extender la
funcin de probabilidad a una familia de eventos tan grande como sea posible. Si
nicamente se pide la aditividad nita, la extensin puede hacerse de manera nica solamente
hasta una cierta familia de eventos; mientras que si se pide la aditividad la extensin puede
continuarse de manera nica para una familia ms grande. Esta es una de las ventajas de tener
la probabilidad como una medida. Sin embargo, la identicacin no puede ser automtica,
como de hecho no lo fue, pues antes de aceptarla debe darse solucin a un problema:
Mostrar que la identicacin con una medida siempre es factible.
En otras palabras, aunque ya se tena desarrollada una Tora de la Medida en espacios
abstractos, no poda hacerse una identicacin automtica de una funcin de
probabilidad con una medida mientras no se resolviera el problema de la existencia
de una medida asociada a cada problema de probabilidad.
7.5. CONSTRUCCIN DE MEDIDAS DE PROBABILIDAD EN ESPACIOS DE DIMENSIN INFINITA 253
Con relacin a este problema, recordemos que el estudio de los teoremas lmite haba puesto
en el centro de la atencin de los probabilistas a las variables aleatorias. El estudio de las
variables aleatorias condujo a Richard Von Mises a identicar, en el ao de 1919, una ley de
probabilidad con la funcin de distribucin ([99], [100]). Esta misma identicacin la hizo
Lvy en su libro, en donde, adems, identicaba a una funcin de distribucin con una medida
sobre R y a una funcin de distribucin conjunta con una medida sobre R
n
. De esta forma,
dada una sola variable aleatoria, se puede asociar a sta una medida sobre R,
dado un nmero nito de variables aleatorias, se puede asociar a esa familia una
medida sobre R
n
, para alguna n. Pero, cmo asociarle una medida a una familia
innita de variables aleatorias? Este problema lo atac tambin Lvy en su artculo ya
citado, mostrando como se puede lograr construir una medida en una situacin general, sin
embargo, su mtodo no result ser lo sucientemente general.
7.5. Construccin de medidas de probabilidad en espacios de dimensin innita
Si bien Constantin Carathodory, en 1914, dio un mtodo para construir medidas en R
n
va
una medida exterior y este mtodo puede extenderse al caso de medidas en espacios abstractos
([28]), la denicin de medidas en espacios de dimensin innita no es un problema que se
haya resuelto inmediatamente despus del trabajo de Frchet sobre la denicin general de
una medida.
Es P.J. Daniell quien entre 1918 y 1920 desarroll una Teora de Integracin en espacios de
dimensin innita ([37], [38], [39], [40]). Daniell no se bas para esto en el resultado de
Carathodory sino que desarroll su propio mtodo.
Bsicamente el mtodo de Carathodory para denir una medida consiste en partir de una
medida denida sobre un lgebra de subconjuntos de un conjunto dado y en extender
esta medida a una -lgebra que contiene a los conjuntos del lgebra de la que se parti. En
cambio, el mtodo de Daniel consiste en partir de una integral. denida para una cierta familia
de funciones y en extender esta integral a una familia sucientemente grande de funciones.
Los dos mtodos son equivalentes en el sentido de que una vez teniendo una medida se puede
denir una integral e inversamente, una vez teniendo una integral se puede denir una medida.
Algunos resultados parciales dentro del contexto de la Teora de la Probabilidad se encuentran
en los trabajos de Hugo Dyonizy Steinhaus ([96]) y de Norbert Wiener ([102], [103], [104],
[105], [106], [107], [108]).
En 1923, Steinhaus reformul el trabajo de Borel sobre los nmeros normales. Para esto
consider una sucesin indenida de ensayos de Bernoulli, en cada uno de los cuales la pro-
babilidad de xito es
1
2
, y las variables aleatorias, X
1
, X
2
, . . . , tales que:
X
j
=

1 si hay xito en el ensayo j
0 si no lo hay
El conjunto de posibles resultados del experimento aleatorio as denido consiste entonces del
conjunto de sucesiones de 0s y 1s, el cual se puede poner en correspondencia, excepto por un
conjunto numerable, con el intervalo [0, 1].
Deni la axiomtica para el juego de cara o cruz dndole a la funcin de probabilidad la
propiedad de -aditividad.
254 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
Mostr entonces que comenzando por asignar probabilidades a eventos que dependen nica-
mente de un nmero nito de ensayos, las propiedades que dio a la funcin de probabilidad
permiten denirla (extenderla) para todos los subconjuntos Lebesque-medibles y que la medida
que se obtiene es precisamente la medida de Lebesgue. Finalmente mostr que el resultado
de Borel se expresa diciendo que la medida del conjunto de nmeros normales es igual a 1.
Steinhaus consider tambin el problema de la convergencia de series aleatorias de la forma
P

n=1
c
n
, en donde cada c
n
es un nmero real y el signo de c
n
se elige al azar.
Su modelo nuevamente consiste en identicar una secuencia innita de signos como un punto
del intervalo [0, 1] y entonces nuevamente asumiendo que la funcin de probabilidad es aditiva,
mostr que la funcin de probabilidad es la medida de Lebesgue sobre los conjuntos Lebesgue-
medibles. Con base en esto demostr que la probabilidad de convergencia de una serie as
denida necesariamente es 0 1.
En 1924, Norbert. Wiener consider tambin el problema de la convergencia de series aleato-
rias, pero su mtodo es distinto al de Steinhaus.
Wiener trabajaba con funcionales lineales sobre espacios de funciones y segua el mtodo de
Daniell para extender tales funcionales:
Sea es el conjunto de todas las sucesiones posibles de signos. Si es una funcin denida
sobre cuyos valores dependen nicamente de los primeros n signos para alguna n, Wiener
deni I() como el promedio de los 2
n
valores que toma dependiendo de los primeros n
signos de la sucesin. Demostr entonces que esa funcional as denida satisface las propieda-
des del teorema de extensin de Daniell, de manera que dicha funcional se puede extender de
manera nica al conjunto de todas las funciones medibles.
Con el mismo mtodo, construy un modelo matemtico para el Movimiento Browniano,
para lo cual deni una medida de probabilidad aditiva sobre el espacio de las funciones
continuas. Es este trabajo el que marc la pauta para poder denir una medida asociada a
cualquier problema de probabilidad, lo cual sera desarrollado por Kolmogorov en 1933.
7.5.1. El modelo de Kolmogorov. El modelo que formul Kolmogorov es axiomtico,
lo cual se explica por el hecho de que a principios de este siglo el mtodo axiomtico haba
ganado un gran prestigio luego de las aportaciones de Nicolai Ivanovich Lobachevskii, Her-
mann Minkowski, etc., las cuales mostraban que es posible denir geometras no euclideanas
mediante diferentes sistemas axiomticos. Aportaciones como stas, as como la bsqueda del
rigor en la ciencia, haban llevado a plantear la necesidad de la axiomatizacin para todas
las ramas de la matemtica, as como aquellas ramas de la fsica en donde las matemticas
juegan un papel preponderante. Como muestra de este tipo de planteamientos basta citar el
artculo de David Hilbert presentado en el dcimo Congreso Internacional de Matemticas,
realizado en el ao 1900 ([58]), en donde arm: pienso que en cualquier lugar en donde se
presenten ideas matemticas, sea en Filosofa (Teora del Entendimiento), sea en Geometra,
sea en Fsica, se plantea el problema de la discusin de los principios fundamentales, base
de esas ideas, y del establecimiento de un sistema simple y completo de axiomas ... Cuando
se trata de plantear los principios fundamentales de una ciencia, se debe de establecer un
sistema de axiomas conteniendo una descripcin completa y exacta de las relaciones entre los
conceptos elementales de esta ciencia.
7.5. CONSTRUCCIN DE MEDIDAS DE PROBABILIDAD EN ESPACIOS DE DIMENSIN INFINITA 255
Con este tipo de ideas en mente, previamente al trabajo de Kolmogorov, hubo varios intentos
de axiomatizar la Teora de la Probabilidad. Entre otros se pueden citar los de Rudolf Laemmel
([65]), quien, aunque utilizaba la Teora de la Medida nicamente de manera rudimentaria, sus
axiomas incluyen la propiedad de la aditividad numerable, Ugo Broggi ([19]), quien planteaba
que la probabilidad es una funcin no negativa denida sobre los eventos, la cual tiene la
propiedad de la aditividad nita y es tal que el evento seguro tiene valor 1, armaba adems,
errneamente, que la propiedad de la aditividad numerable es consecuencia de los axiomas,
Sergi Natanovich Bernstein ([2] y [3]) y A. Lomnicki ([66]), sin embargo ninguna de ellas
result completamente convincente.
En 1922, Borel ([17]) formul ya la probabilidad desde un punto de vista axiomtico (curso
en la Facultad de Ciencias de Pars, publicado en 1924 como Principes et formules classiques
du Calcul des Probabilits), sin embargo no adopt la -aditividad como propiedad general
de la funcin de probabilidad. Deca Borel:
Consideraremos eventos, adjuntndole a esa palabra la nica cualidad de ser susceptibles de
producirse o de no producirse.
A cada evento se le asocia un nmero p entre 0 y 1 de tal manera que se satisfagan dos
propiedades fundamentales:
1. Principio de las probabilidades totales:
Dados n eventos mutuamente excluyentes, de probabilidades p
1
, . . . , p
n
, respectivamente, la
probabilidad de que se produzca alguno de ellos es p
1
+. . . +p
n
.
2. Principio de la probabilidad compuesta:
Si p
1
es la probabilidad de un evento E
1
y p
2
la probabilidad de un evento E
2
cuando E
1
se
ha producido, la probabilidad de que se produzca la sucesin E
1
E
2
es p
1
p
2
.
Paul Lvy en su libro ([75]) retom el punto de vista axiomtico de Borel, pero consideraba
ya la -aditividad como una propiedad general de la funcin de probabilidad.
Finalmente, A. N. Kolmogorov public su monografa ([63]), en la cual dice:
Despus de las publicaciones de las investigaciones de Lebesgue, las analogas entre medida
de un conjunto y probabilidad de un evento y entre la integral de una funcin y la esperanza
matemtica de una variable aleatoria se hicieron evidentes. Pero para que la Teora de la
Probabilidad pudiera basarse en tales analogas era todava necesario hacer las Teoras de la
Medida y de la Integracin independientes de los elementos geomtricos los cuales estaban en
el trasfondo con Lebesgue. Esto ha sido hecho por Frchet. Mientras que una concepcin de
la Teora de la Probabilidad basada sobre el punto de vista general citado antes se ha dado
durante algn tiempo entre ciertos matemticos, estaba faltando una exposicin completa de
todo el sistema, libre de extraas complicaciones.
En seguida Kolmogorov estableci los axiomas de la Teora de la Probabilidad, primero para
el caso en que nicamente entren en consideracin un nmero nito de eventos y despus para
el caso general, en donde, como ya lo mencionamos. Dice que el modelo matemtico de un
fenmeno probabilstico est dado por una terna (, =, P), en donde es un conjunto, = una
lgebra de subconjuntos y P una medida de probabilidad denida sobre =.
Partiendo de los axiomas, Kolmogorov logr entonces articular perfectamente los diferentes
conceptos de la Teora de la Probabilidad, como el de probabilidad condicional y la indepen-
dencia de eventos y de variables aleatorias. Mostr adems como los resultados fundamentales
256 7. SURGIMIENTO DE LA TEORA DE LA PROBABILIDAD MODERNA
de la Teora de la Probabilidad se articulan en el enfoque axiomtico, exponiendo, dentro de
este nuevo contexto, las leyes dbil y fuerte de los grandes nmeros.
En su monografa, Kolmogorov introdujo el concepto de Esperanza Condicional, con lo cual
mostr como el enfoque axiomtico basado en la Teora de la Medida aporta a la Teora de la
Probabilidad poderosas herramientas.
Finalmente Kolmogorov dio un mtodo general, adems de simple, para construir medidas
de probabilidad en espacios de dimensin innita. Este mtodo est basado en el resultado
que l llam el teorema fundamental y el cual establece que dada cualquier familia de
variables aleatorias, partiendo de sus distribuciones nito dimensionales, es posible construir
un espacio de probabilidad (, =, P) de tal manera que la medida P restringida a los eventos
que dependen nicamente de un nmero nito de las variables aleatorias dadas coincide con
la determinada por la distribucin nito-dimensional correspondiente.
Este resultado es de singular importancia pues muestra la consistencia de la idea de considerar
a la probabilidad como una medida y demuestra la existencia de una medida asociada a cada
problema de probabilidad.
Sin pretender restarle mrito al resultado de Kolmogorov, debe de mencionarse que ste no es
otra cosa que una reformulacin del resultado de Daniell relativo a la integracin en espacios
de dimensin innita y una generalizacin de la idea utilizada por Wiener para construir un
modelo probabilstico del Movimiento Browniano. La diferencia estriba en que Kolmogorov
no bas su resultado en el mtodo de Daniell para extender una funcional denida sobre un
espacio de funciones sino en el mtodo de Carathodory para extender una medida denida
sobre un lgebra de subconjuntos de un conjunto dado .
La reaccin que provoc la publicacin del trabajo de Kolmogorov puede ilustrarse con lo que
dijo Paul Lvy en el ao de 1970 ([76]). Dice ah, comentando su artculo de 1924 y publicado
al nal de su libro:
El objetivo principal de mi exposicin era el precisar la nocin de distribucin de una cierta
masa igual a la unidad en un cierto espacio E. Las leyes (de probabilidad) que pueden ser
denidas por una tal distribucin son las que yo considero como leyes verdaderas.
Mi idea directriz era que se puede dividir el espacio E en conjuntos e
i
, a los cuales se atribuyen
probabilidades
i
0 y tales que
P

i
= 1. Se divide en seguida cada e
i
en subconjuntos
e
i,j
, a los cuales se atribuyen probabilidades
ij
0 y de suma
i
, continuando este proceso
indenidamente.
Se llega as a una ley bien denida si cada cadena de elementos e
i
, e
i,j
, e
i,j,k
, . . ., tales que cada
uno es una parte del que le precede, conduce a un punto x E. Como se puede hacer la
imagen de esas operaciones sobre el intervalo [0, 1], se llega fcilmente al resultado siguiente:
No hay leyes verdaderas a menos que el conjunto E tenga la potencia del continuo.
Ms adelante comenta sobre la parte V de su artculo:
Creo que de cualquier manera hay un elemento positivo que se puede conservar de esa parte
V. Es la idea de que la ley denida por una particin poda ser prolongada para llegar a
una nocin ms general: una medida completamente aditiva, no negativa, denida en una
familia booleana B. Esta ley generalizada queda as denida por 3 elementos: el espacio E,
una familia booleana B de subconjuntos de E (con E B) y una funcin m completamente
aditiva, no negativa (con m(E) = 1 si se trata de probabilidades).
7.5. CONSTRUCCIN DE MEDIDAS DE PROBABILIDAD EN ESPACIOS DE DIMENSIN INFINITA 257
Esta tripleta es la base de la axiomtica de Kolmogorov, ahora adoptada por todos los prob-
abilistas. Cuando apareci, mi reaccin fue pensar: Yo lo saba, por qu no lo dije?. Me
qued durante mucho tiempo con esta idea. Pero recientemente he reexionado que en 1924
ciertamente no me haba dado cuenta de que esta idea permita denir leyes en espacios de una
potencia superior a la del continuo... Estaba yo, contrariamente a lo que haba credo durante
mucho tiempo, bastante lejos de haber visto bien toda la signicacin de la axiomtica de
Kolmogorov.
Como conclusin se puede decir que la aceptacin de la probabilidad como una medida,
despus del trabajo de Kolmogorov, obedece en primer lugar a que Kolmogorov
logr hacer una presentacin clara y convincente del enfoque axiomtico en la
Teora de la Probabilidad, articulando perfectamente los diferentes conceptos y
los resultados fundamentales y mostrando que ese enfoque daba a la Teora de
la Probabilidad poderosas herramientas. En segundo lugar, aunque de igual o
mayor importancia, el xito obedece a que Kolmogorov logr dar un mtodo
general para construir medidas de probabilidad en espacios de dimensin innita,
mostrando as la consistencia de la idea de considerar a la probabilidad como una
medida y demostrando la existencia de una medida asociada a cada problema de
probabilidad.
Referencias
[1] Bernoulli, J., LArt de Conjecturer, L.G.F. Vastel, G. Le Roy, Caen, 1801. Traduccin de Ars Con-
jectandi, Basileae, 1713.
[2] Bernstein, S. N., ber eine Anwendung der Mengenlehre auf ein aus der Theorie der skularen strungen
herrhrendes problem, Matematische Annalen, 71, p. 417-439, 1911.
[3] Bernstein, S. N., An essay on the axiomatic foundations of Probability Theory, Procedings of the Kharkov
Mathematical Association, Vol. 15, p. 209-274, 1917.
[4] Bernstein, S. N., Teoriya Veroyatnostci (Teora de la Probabilidad), 1927 (4th. ed. - 1946).
[5] Boltzmann, L., Ueber die mechanische Bedeutung des sweiten Hauptsatzes der Wrmetheorie, Wis-
senschaftliche Abhandlungen 1, 1866.
[6] Boltzmann, L., Studien ber das Gleichgewicht der lebendigen Kraft swischen bewegten materiellen
Punkten, Wissenschaftliche Abhandlungen 1, 1868.
[7] Boltzmann, L., Lectures on Gas Theory (1871), University of California Press, Berkeley, 1964.
[8] Boltzmann, L., Weitere Studien ber das wrmegleichgewicht unter Gasmoleklen, Wissenschaftliche
Abhandlungen 1, 1872.
[9] Boltzmann, L., On certain questions of the theorie of gases, Wissenschaftliche Abhandlungen 3, 1895.
[10] Boltzmann, L., Entgegnung auf die wrmetheoretischen Betrachtungen des Hrn. E. Zermelo, Wis-
senschaftliche Abhandlungen 3, 1896.
[11] Boltzmann, L., Vorlesungen ber Gastheorie, vols. 1 y 2, Barth, Leipzig, 1896-98.
[12] Borel, F. E. J. E., Sur quelques points de la Thorie des Fonctions, C. R. Acad. Sci., t. 118, p. 340-342,
1894. Oeuvres de mile Borel, Tome I, Centre National de la Recherche Scientique, p. 235-237, 1972.
[13] Borel, F. E. J. E., Sur quelques points de la Thorie des Fonctions, Thse doctoral, Ann. Ec. Norm.
Sup., 3em. srie, t. 12, p. 9-55, 1895. Oeuvres de mile Borel, Tome I, Centre National de la Recherche
Scientique, p. 239-285, 1972.
[14] Borel, F. E. J. E., Leons sur la Thorie des Fonctions, Gauthier-Villars, 1898.
[15] Borel, F. E. J. E., Remarques sur certains questions de Probabilit, Bull. Soc. Math. Fr., T. 32, p. 123-
128, 1904. Oeuvres de mile Borel, Tome II, Centre National de la Recherche Scientique, p. 985-990,
1972.
[16] Borel, F. E. J. E., Les probabilits dnombrables et leurs applications arithmtiques, Rendiconti del
Circolo Matematico di Palermo, T. 27, p. 247-270, 1909. Oeuvres de mile Borel, Tome II, Centre
National de la Recherche Scientique, p. 1055-1079, 1972.
[17] Borel, F. E. J. E., Trait du Calcul des Probabilits et de ses applications, tome I, fascicule 1, Principes
et formules classiques du Calcul des Probabilits, Gauthier-Villars, 1925. ltima edicin en 1947.
[18] Borel, F. E. J. E., Trait du Calcul des Probabilits et de ses applications, tome II, fascicule 1, Appli-
cations a lArithmtique et a la Thorie des Fonctions, Gauthier-Villars, 1926.
[19] Broggi, U., Die Axiome der Wahrscheinlichkeitsrechnung, Dissertation, Dieterichsche Universittsdruck-
erei, Gttingen, 1907.
[20] Cantelli, F. P., Sulla legge dei grandi numeri, Mem. Acad. Lincei, Vol. 11, Srie 5, p. 329-349, 1916.
[21] Cantelli, F. P., Sulla probabilit comme limite della frequenza, Rend. Acad. Lincei, Vol. 26, p. 39-45,
1917.
[22] Cantelli, F. P., Su due applicazioni di un teorema di G. Boole alla Statistica Matematica, Accademia dei
Lincei Roma, Classe di Scienze Fisiche, Matematiche e Naturali, Rendiconti, 26 (5), p. 295-302, 1917.
[23] Cantor, G. F. L. P., Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 1, Math. Ann., 15, p. 1-7,
1879.
259
260 REFERENCIAS
[24] Cantor, G. F. L. P., Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 2, Math. Ann., 17, p.
355-358, 1880.
[25] Cantor, G. F. L. P., Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 3, Math. Ann., 20, p.
113-121, 1882.
[26] Cantor, G. F. L. P., Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 4, Math. Ann., 21, p. 51-58
y 545-591, 1883.
[27] Cantor, G. F. L. P., Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 5, Math. Ann., 23, p.
453-488, 1884.
[28] Caratheodory, C., ber das lineare Mass von Punktmengen, Nachrichten von der Kniglichen Gesellchaft
der Wiss zu Gttingen, p. 404-426, 1914.
[29] Castelnuovo, G., Calcolo delle Probabilit, Nicola Zanichelli, Bologna, 1919 (2a. ed. - 1925).
[30] Cauchy, A. L., Rsume des leons donnes a lcole Royale Polytechnique sur le Calcul Innitsimal,
Imprimerie Royale, 1823.
[31] Clausius, R. J. E., Uber die Art der Bewegung, welche wir Wrme nennen, Annalen der Physik und
Chemie, 100, 1857.
[32] Clausius, R. J. E., Ueber die mittlere Lnge der Wege, welche bei der Molecularbewegung gasfrmiger
Krper von den einzelnen Moleclen zurckgelegt werden; nebst einigen anderen Bernerkungen ber die
mechanische Wrmetheorie, Annalen der Physik, 105, 1858.
[33] Clausius, R. J. E., On the second fundamental theorem of the mechanical theory of heat, Philosophical
Magazine, 35, 1868.
[34] Chebyshev, P. L., Des valeurs moyennes, Matematicheskii Sbornik, 127, p. 1-9, 1867, tambin publicado
en Liouvilles Journal de Mathmatiques Pures et Appliques, 88, p.177-184, 1867.
[35] Chebyshev, P. L., Dmonstration lmentaire dune proposition gnrale de la thorie des probabilits.
[36] Chebyshev, P. L., Sur deux thormes relatifs aux probabilits.
[37] Daniell, P. J., A general form of integral, Annals of Mathematics, Vol. 19, 1918.
[38] Daniell, P. J., Functions of limited variation in an innite number of dimensions, Annals of Mathematics,
serie II, Vol. 21, p. 30-38, 1920.
[39] Daniell, P. J., Further properties of the general integral, Annals of Mathematics, Serie II, Vol. 21, p.
203-220, 1920.
[40] Daniell, P. J., Integrals in an innite number of dimensions, Annals of Mathematics.
[41] de Finetti, B., Sui passaggi al limite nel Calcolo delle Probabilit, (Reale) Istituto Lombardo de Science
e Lettere, Rendiconti, Vol. 63, p. 155-166, 1930.
[42] de Finetti, B., A proposito dellestensione del teorema delle probabilit totali alle classi numerabili,
(Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 901-905, 1930.
[43] de Finetti, B., Ancora sullestensione alle classi numerabili del teorema delle probabilit totali , (Reale)
Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 1063-1069, 1930.
[44] de Moivre, A., The doctrine of chances, A. Millar, London, 1718 (third edition - 1756). Reimpreso por
Chelsea, New York, 1967.
[45] Dirichlet, J. P. G. L., 1829.
[46] Drach, J.
[47] du Bois-Reymond, P. D. G., ber die Integration der trigonometrischen Reihe, Math. Ann., 22, p.
260-268, 1883.
[48] du Bois Reymond, P., ber die Integration der Reihen, berlin Ak. Sber., p. 359-371, 1886.
[49] Frchet, M. R., Sur lintgrale dune fonctionnelle tendue un ensemble abstrait, Bull. Soc. Mat. de
France, 43, 1915.
[50] Frchet, M. R., Sur lextension du thorme des probabilits totales au cas dune suite innie
dvnements, (Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 899-900, Milano,
1930.
[51] Frchet, M. R., Sur lextension du thorme des probabilits totales au cas dune suite innie
dvnements (seconde note), (Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p.
1059-1062, 1930.
[52] Gibbs, J. W., Elementary Principles in Statistical Mechanics, 1902 Reimpreso por Dover, New York,
1962.
REFERENCIAS 261
[53] Hankel, H., Untersuchungen ber die unendlich oft oszillierenden und unstetigen Functionen, University
of Tbingen, 1870, reproducido en Math. Ann., 20, 1882.
[54] Harnack, A., Die elemente der Dierential und Integralrechnung, B. G. Teubner, Leipzig, 1881.
[55] Harnack, A., Lehrbuch der Dierential und Integralrechnung, 2 Vols., B. G. Teubner, Leipzig, 1884-1885.
[56] Harnack, A., ber den Inhalt von Punktmengen, Math. Ann. 25, p. 241-250, 1885.
[57] Hausdor, F., Grundzge der Mengenlehre, Chelsea Publishing Company, 1914.
[58] D. Hilbert, Sur les problmes futures des Mathmatiques, Comptes Rendus du Deuxime Congrs In-
ternational des mathematiciens, Paris, p. 58-114, 1900.
[59] Huygens, C., Du calcul dans les jeux de hasard, Oeuvres Compltes de Christiaan Huygens, Vol. XIV,
Martinus Nijho, 1920. Traduccin de De Ratiociniis in Aleae Ludo, 1657.
[60] Jordan, M. E. C., Cours dAnalyse de lcole Polytchnique, 3 Vols., Gauthier-Villars, 1882-1887. (Sec-
ond edition, 1893-1896; Third edition, 1909).
[61] Khintchine, A.Ya., Sur la loi forte des grands nombres, C. R. Ac. Sc. Paris, Vol. 186, p. 285-287, 1928.
[62] Kolmogorov, A. N., Sur la loi forte des grands nombres, C. R. Ac. Sc. Paris, Vol. 191, p. 910-912, 1930.
[63] Kolmogorov, A. N., Foundations of the Theory of Probability, Chelsea, 1950. Traduccin de Grundbe-
grie der Wahrscheinlichkeitsrechnung, Erg Mat. 2, No. 3, 1933.
[64] Krnig, A., Grundzge, einer Theorie der Gase, Annalen der Physic und Chemie, 99, 1856.
[65] Laemmel, R., Untersuchungen ber die Ermittlung der Wahrscheinlichkeiten, Dissertation, Zurich, 1904.
[66] Lomnicki, A., Nouveaux fondements du Calcul des Probabilits, Fundamenta Mathematicae, t. 4, p.
34-71, 1923.
[67] Laplace, P. S., Mmoire sur la probabilit des causes par les evenements, Mmoires de lAcadmie Royale
des Sciences de Paris (Savants trangers), Tome VI, p. 621, 1774. Oeuvres compltes de Laplace, Tome
huitime, Gauthier-Villars, 1891.
[68] Laplace, P. S., Mmoire sur les Probabilits, Mmoires de lAcadmie Royale des Sciences de Paris, 1778.
Oeuvres compltes de Laplace, Tome neuvime, Gauthier-Villars, 1893.
[69] Laplace, P. S., Thorie Analytique des Probabilits (1812), Livre I. Calcul des fonctions gnratrices,
Troisime edition, Courcier, Paris, 1820. Oeuvres compltes de Laplace, Tome septime, Gauthier-Villars,
1886.
[70] Laplace, P. S., Thorie Analytique des Probabilits (1812), Livre II. Thorie gnrale des probabilits,
Troisime edition, Courcier, Paris, 1820. Oeuvres compltes de Laplace, Tome septime, Gauthier-Villars,
1886.
[71] Laplace, P. S., Essai philosophique sur les Probabilits (1814), Gauthier-Villars, 1921.
[72] Lebesgue, H. L., Intgrale, longueur, aire, Thse doctoral, Ann. Math. Pur. Appl., 7 (3), p. 231-359,
1902.
[73] Lebesgue, H. L., Leons sur lintgration et la recherche des fonctions primitives, Gauthier-Villars, 1904.
[74] Lvy, P. P., Les lois de probabilit dans les ensembles abstraits, Revue de Mtaphysique et Morale, 1924.
Reproducido en Calcul des Probabilits, Gauthier Villars, 1925.
[75] Lvy, P. P., Calcul des Probabilits, Gauthier Villars, Paris, 1925.
[76] Lvy. P. P., Premiers travaux sur le Calcul des Probabilits, 1970, Oeuvres, Vol. III, 1976.
[77] Lipschitz, R. O. S., De explicatione per series trigonometricas instituenda functionum unius variabilis
arbitrariarum et praecipue earum, quae per variabilis spatium nitum valorum maximorum et minimo-
rum numerum habent innitum, disquisitio, Crelle, Jl. Math., 63, 1864, traduccin al francs en Acta
Math., 36, 1912.
[78] Lyapunov, A. M., Sur une proposition de la Thorie des Probabilits, Izv. Akad. Nauk., Ser. 5, 13, p.
359-386, 1900.
[79] Lyapunov, A. M., Nouvelle forme du thorme sur la limite des probabilits, Notes Acad. Sci. Phys.
Math. Sect., Ser. 8, 2, p. 1-24, 1901.
[80] Markov, A. A., The law of large numbers and the method of least squares, Izd. Fiz. Mat. Ob.va Pri
Kazan, Ser. 2, 8, p. 110-128, 1898.
[81] Markov, A. A., Sur les racines de lequation
e
x
2

m
e
x
2
x
m
= 0, Izv. Akad. Nauk., Ser. 5, 9, p. 435-446, 1898.
[82] Markov, A. A., Extensin de la ley de los grandes nmeros a variables dependientes, Notices (Izvestiya)
of the Physical Mathematical Society al Kazan University, Ser. 2, 15 (no.4), p. 155-156, 1907.
262 REFERENCIAS
[83] Markov, A. A., Teorema del Lmite Central para variables aleatorias dependientes, 1908, 1910, 1911,
1912.
[84] Markov, A. A., Ischislenie Veroyatnostei (El Clculo de Probabilidades), Moscow, 1913 (Cuarta edicin,
1924).
[85] Maxwell, J. C., On the dynamical theory of gases, 1867, Scientic Papers of James Clerk Maxwell, vol.
2.
[86] Maxwell, J. C., Does the progress of Physical Science tend to give any advantage to the opinion of
Necessity (or Determinism) over that of Contingency of Events and the fredom of the Will?, 1873, The
life of James Clerk Maxwell, 1882.
[87] Peano, G., Applicatione geometriche del Calcolo Innitesimale, Torino, 1887.
[88] Poincar, J. H., Calcul des Probabilits, Gauthier-Villars, Pars, 1896.
[89] Radon, J., Theorie u. Anwendungen der absolut additiven Mengenfunktionen, Sitzber der Math Natur-
wiss, Klasse der Kais, Akademie der Wiss, Wien, 1913.
[90] Bhaskara Rao, K.P.S. and Bhaskara Rao, M., Theory of Charges (A study of nitely additive measure),
Academic Press, 1983.
[91] Riemann, G. F. B., Sur la possibilit de reprsenter une fonction par une srie trigonomtrique, Mmoires
de la Societ Royale des Sciences de Gttingue, t. XIII, 1867, traduccin al francs reproducida en
Oeuvres Mathmatiques de Riemann, A. Blanchard, Paris, 1968.
[92] Sierpinski, W., Dmonstration lmentaire du thorme de M. Borel sur les nombres absolument normaux
et determination eective dun tel nombre, Bull. Soc. Math. France, t. 45, p. 125-132, 1917.
[93] Smith, H. J. S., On the integration of discontinuous functions, London Math. Soc. Proc., 6, 1875.
[94] Stolz, O., ber einen zu einer unendlichen Punktmenge gehrigen Grenzwerth, , Math. Ann., 23, p.
152-156, 1884.
[95] Stolz, O., Grundzge der Dierential und Integralrechnung, 3 Vols., B. G. Teubner, Leipzig, 1893-99.
[96] Steinhaus, H. D., Les probabilits dnombrables et leur rapport la Thorie de la Mesure, Fundamenta
Mathematicae, t. 4, p. 286-310, 1923.
[97] Volterra, V., Alcune osservazioni sulle funzioni punteggiate discontinue, Giorn. Mat., 19, p. 76-86, 1881.
[98] Volterra, V., Sui principii del Calcolo Integrale, Giorn. Mat., 19, p. 333-372, 1881.
[99] Von Mises, R., Grundlagen der Wahrscheinlichkeitsrechnung, Math. Zeitsch, Vol. 5, p. 52-99, 1919.
[100] Von Mises, R., Mathematical Theory of Probability and Statistics, 1919.
[101] Von Plato, J., Creating modern Probability, Cambridge University press, 1994.
[102] Wiener, N., The mean of a functional of arbitrary elements, Ann. of Math., (2) 22, p. 66-72, 1920.
[103] Wiener, N., The average of an analytic functional, Proc. Nat. Acad. Sci. U.S.A., Vol. 7, No. 9, p. 253-260,
1921.
[104] Wiener, N., The average of an analytic functional and the Brownian Movement, Proc. Nat. Acad. Sci.
U.S.A., Vol. 7, No. 10, p. 294-298, 1921.
[105] Wiener, N., Dierential space, J. Math. and Physics, 2, p. 131-174, 1923.
[106] Wiener, N., Note on the series
P

1
n

, Bull. Acad. Polon. Ser. A, 13, p. 83-90, 1923.


[107] Wiener, N., Un problme de probabilits dnombrables, Bull. Soc. Math. France 11, p. 569-578, 1924.
[108] Wiener, N., The average value of a functional, Proc. London Math. Soc., 22, p. 454-467, 1924.
Respuestas a los ejercicios
CAPTULO 1
1.1. a) S lo es.
b) No lo es.
1.2. F
X,Y
(x, y) =

1
4

xy
1
4
x
2
y
2
+x + 2y + 1

si 0 y <
1
2
x + 1 1
1
4

1
2
x
2
2y
2
+ 2x + 4y

si 0 <
1
2
x + 1 y < 1
1
4

1
2
x
2
+ 2x + 2

si 0 x < 2, 1 y
1
4
(2y
2
+ 4y + 2) si 0 y < 1, 2 x
1 si 2 x, 1 y
1.4. f
X,Y
(x, y) =

10!
x!y!(10xy)!
p
x
q
y
si x, y {0, . . . , 10} , x +y 10
0 en otro caso
1.5. a) X
1
+X
2
tiene distribucin binomial de parmetros n y p = p
1
+p
2
.
b) Dado que X
1
+X
2
= z, X
2
tiene distribucin binomial de parmetros z y p =
p
2
p
1
+p
2
.
1.6. f
X
1
,...,X
r
(x
1
, . . . , x
r
) =

(2r)!
x
1
!x
r
!

1
r

2r
si
P
r
k=1
x
k
= 2r, x
k
{0, . . . , 2r}
0 en otro caso
1.8. f
X
1
,X
2
,X
3
(n
1
, n
2
, n
3
) =

(
m
1
n
1
)(
m
2
n
2
)(
m
3
n
3
)
(
m
1
+m
2
+m
3
n
)
si n
1
+n
2
+n
3
= n, n
k
{0, . . . , m
k
}
0 en otro caso
1.9. a.
c
2
N
2
(N
2
+ 1)
b.
c
6
N
2
(N
2
1) (N
2
+ 1)
c.1
c
6
N
2
(N
2
+ 1)(N
2
+ 2)
1.10. 1 e
1
1.11. F
X,X
2(x, y) =

0 si y < 0
F
X
(x) F
X
(

y) si y x
2
F
X
(

y) F
X
(

y) si 0 y x
2
No existe una funcin de densidad conjunta.
1.12. No existe.
1.13. f
X
(x) =

c(N
2

P
k
j=1
j)x si k
2
< x (k + 1)
2
, x {1, . . . , N
2
} , k {0, 1, . . .} ,
0 en otro caso
f
Y
(y) =

cy
2
(y
2
+1)
2
si y {1, . . . , N}
cN
2
(N
2
+1)
2
si y {N + 1, . . . , N
2
}
0 en otro caso
263
264 RESPUESTAS A LOS EJERCICIOS
1.14. a. F
X,Y
(x, y) =

0 si x 0 y 0
2xy si 0 x 1, 0 y 1 x
1 (1 y)
2
(1 x)
2
si 0 x 1, 1 x y 1
1 (1 y)
2
si x 1, 0 y 1
1 (1 x)
2
si y 1, 0 x 1
1 si x 1, y 1
b. f
X
(x) =

2(1 x) si x (0, 1)
0 en otro caso
f
Y
(y) =

2(1 y) si y (0, 1)
0 en otro caso
1.15. f
X,Y
(x, y) =

1
4
si (x, y) pertenece al interior del rombo
0 en otro caso
f
X
(x) =

1
4
(x + 2) si x (2, 0]
1
4
(x + 2) si x (0, 2)
0 en otro caso
f
Y
(y) =

y + 1 si x (1, 0]
y + 1 si x (0, 1)
0 en otro caso
1.16. f
X
(x) =

1
4
x
3
si 0 < x < 2
0 en otro caso
f
Y
(y) =

1
4
y(4 y
2
) si 0 < y < 2
0 en otro caso
1.17. a.
1
2
b. f
X
(x) =

e
x
si x > 0
0 en otro caso
f
Y
(y) =


2
ye
y
si y > 0
0 en otro caso
1.18.
Q
n
k=2

2
3
|x
k
x
k1
| +
1
3
|1 (x
k
x
k1
)|

si x
1
= 1y x
2
, . . . , x
n
{0, 1}
0 en otro caso
1.19. S lo son.
1.20.
1
n+m+1
1.21. a.
p(1p)
3
1(1p)
4
b.
2p(1p)
2p
c. p(2 p) +
p(1p)
2
2p
1.22. 1 e
p
1.23.
1
2
2n

2n
n

RESPUESTAS A LOS EJERCICIOS 265


1.24. a.
N+2
2(N+1)
b.
1
N+1
1.25.
N1
4N
1.26. a.
1
N
(1 p)
3

1 (1 p)
N

+
1
N
h
1 (1 p)
N1
i
b.
1p
Np

1 (1 p)
N

1.27.
1
4
1.28. a. p(1 p)
2
e
p
b. e
p
1.29. 0.281874
1.30.
1
3
1.31. 1 ( + 1)e

1.32.
1
3
1.33.
4
9
1.34.
4
1

2
(2
1
+
3
)(2
2
+
3
)
1.35. a.
1
2
b.
2
3
c. 0.70833
1.36. 1
1
27
e

1
2

(6 + 20)
1
27
e
3
(9 + 7)
1.37. e

1
2
e
1
1.38.
1
4

1 2e
2
e
2

1.39.
17
18
1.40.

1
4

uv
[f(

u,

v) +f(

u,

v) +f(

u,

v) +f(

u,

v)] si u > 0, v > 0


0 en otro caso
1.41. a.
1
6
b. T tiene distribucin uniforme en el intervalo [0, 15].
1.42. a. 0.25441
b. 0
266 RESPUESTAS A LOS EJERCICIOS
CAPTULO 2
2.1. a. f
X+Y
(z) =

[[
z
2
]]+1
28
si z {0, . . . , 6}
[[
z
2
]]z+7
28
si z {7, 8, . . . , 12}
0 en otro caso
b. f
Y X
(z) =

7z
28
si z {0, . . . , 6}
0 en otro caso
2.2. a. f
X+Y
(z) =

1
380
(z 2) si z {4, 6, . . . , 20}
1
380
(z 1) si z {3, 5, . . . , 19}
1
380
(40 z) si z {22, 24, . . . , 38}
1
380
(41 z) si z {21, 23, . . . , 39}
0 en otro caso
b. f
Y X
(z) =

20z
190
si z {1, . . . , 19}
0 en otro caso
2.3.
1(1p)
x+1
2+(1p)
x
(p2)
2.4. a. f
X+Y
(z) =

z1
N
2
si z {2, . . . N}
2Nz+1
N
2
si z {N + 1, . . . , 2N}
0 en otro caso
b. f
mn(X,Y )
(z) =

2(Nz)+1
N
2
si z {1, . . . N}
0 en otro caso
c. f
max(X,Y )
(z) =

2z1
N
2
si z {1, . . . N}
0 en otro caso
d. f
Y X
(z) =

N|z|
N
2
si z {1 N, . . . , N 1}
0 en otro caso
e. f
|Y X|
(z) =

1
N
si z = 0
2(Nz)
N
2
si z {1, . . . N 1}
0 en otro caso
2.5. f
Z
(z) =

4z
3
n
2
(n+1)
2
si z {1, . . . n}
0 en otro caso
2.6. f
X
(x) =

2x1
144
si x {1, . . . , 12}
0 en otro caso
2.7. f
Z
(z) =

(1p)
z
N
[1 +p(N z)] si z {1, . . . , N}
p si z = 0
0 en otro caso
2.8. f
X+Y
(z) =

1
4
si z = 0
1
2N
+
z1
4N
2
si z {1, . . . N}
1
2N

z1
4N
2
si z {N + 1, . . . , 2N}
0 en otro caso
RESPUESTAS A LOS EJERCICIOS 267
2.11. 0.277124
2.12. a. X +Y tiene distribucin uniforme en el conjunto {1, . . . , 2N}.
b. X Y tiene distribucin uniforme en el conjunto {1 N, . . . , N}.
2.13. f
X+Y
(z) =

2z
3N
2
(N+1)
2
(z
2
1) si z {2, . . . , N}
2(2N+1z)
3N
2
(N+1)
2
(z
2
+z + 2zN 2N
2
2N) si z {N + 1, . . . , 2N}
0 en otro caso
2.14.

z
y

1
+
2

1
+
2

zy
Es decir, dado X +Y = z, X tiene distribucin binomial con parmetros n = z y p =

2

1
+
2
.
2.15.
(
m
y
)(
n
zy
)
(
n+m
z
)
Es decir, dado X +Y = z, Y tiene distribucin hipergeomtrica.
2.16.
1
6
2.17.
n
(n+1)(2n+1)
2.18.
2n
(n+1)(2n+1)
2.21. a. f
2X+Y
(z) =

z
2
si 0 < z < 1
1
2
si 1 z < 2
3z
2
si 2 z < 3
0 en otro caso
b. f
3XY
(z) =

1
3
(1 +z) si 1 < z < 0
1
3
si 0 z < 2
1
3
(3 z) si 2 z < 3
0 en otro caso
2.22. f
4Y 3X
(z) =

1
7
e
1
3
z
si z < 0
1
7
e

1
4
z
si z 0
2.23. 0.945431
2.25. 1245
2.26. 0.195586
2.27. X
2
+Y
2
tiene distribucin exponencial de parmetro =
1
2
.
2.28. f
X+Y
(z) =

1 e
z
si 0 < z < 1
e
z
(e

1) si z 1
0 en otro caso
2.29. f
|Y X|
(z) =

2(z+1)
(ba)
2
si 0 z < b a
0 en otro caso
268 RESPUESTAS A LOS EJERCICIOS
2.30. a. f
X+Y
(z) =

1
4
ze

1
2
z
si z > 0
0 en otro caso
b. f
max(X,Y )
(z) =

1
6
z
3
e
z
si z > 0
0 en otro caso
2.32. c =
1
4
f
Y X
(z) =

1
4
(3 z) si z (0, 2)
0 en otro caso
2.33. c =
2
11
f
X
(x) =

c(6
3
2
x
2
) si x (0, 1)
0 en otro caso
f
Y
(y) =

c(
7
2
y) si y (0, 2)
c(
27
2
9y +
3
2
y
2
) si y [2, 3)
0 en otro caso
f
2Y 3X
(z) =

c
72
(z + 3) (33 z) si z (3, 0)
c
8
(11 2z) si z [0, 3)
c
8
(4 z) (3z 4) si 3 z [3, 4)
0 en otro caso.
2.34. f
W
(w) =
1
|b|
R

f(x,
wax
b
)dx
2.35. f
U
(u) =

1
8
(u + 3) si u (3, 1)
1
4
si u [1, 1)
1
8
(3 u) si u [1, 3)
0 en otro caso
f
V
(v) =

1
8
(v + 3) si v (3, 1)
1
4
si v [1, 1)
1
8
(3 v) si v [1, 3)
0 en otro caso
2.36. f
V
(v) =
R

1
|x|
f(x,
v
x
)dx
2.37. f
XY
(z) =

1
3
e

z
si z < 0
1
6
e

z
si z > 0
0 si z = 0
2.38. f
XY
(z) =

ln z si z (0, 1)
0 en otro caso
2.39. f
XY
(z) =

1
2
ln(z) si z (1, 0)

1
2
ln z si z (0, 1)
0 en otro caso
P

1
4
< XY <
1
2

= 0.72157
2.40. Z tiene distribucin normal estndar.
RESPUESTAS A LOS EJERCICIOS 269
2.41. fY
X
(z) =

1
z
2
si z > 1
0 en otro caso
2.42. f
Z
(z) =

1
3z
2
si z > 1
2
3z
2
si z < 1
0 en otro caso
P

3 <
Y
X
< 2

=
11
18
2.43. fY
X
(z) =
1
2

1

|z|
e


|z|
e


|z|

para z 6= 0.
2.44. fY
X
(z) =

2
F
U

1
|z|

para z 6= 0, en donde F
U
es la funcin de distribucin de una
variable aleatoria con distribucin gama de parmetros + 1 y .
2.45. f
Z
(z) =

1
(
1
,
2
)
z

2
1
(1+z)

1
+
2
si z > 0
0 en otro caso
2.46. f
Z
(z) =
1

_
1

2
X
+
1

2
Y
z
2
_
2.47. f
U
(u) =

1
u
2
lnu si u > 1
0 en otro caso
f
V
(v) =

1 si v (0, 1)
0 en otro caso
2.52. mn(X, Y ) tiene distribucin exponencial con parmetro 2.
f
max(X,Y )
(z) =

2e
z
(1 e
z
) si z > 0
0 en otro caso
2.53. a) f
X+Y +Z
(w) =

w
2
2
si w (0, 1)
1
(w1)
2
2

(2w)
2
2
si w [1, 2)
(3w)
2
2
si w [2, 3)
0 en otro caso
b) f
X+Y Z
(w) =

1
2
(w + 1)
2
si w (1, 0)
1
1
2
w
2

1
2
(w 1)
2
si w [0, 1)
1
2
(2 w)
2
si w [1, 2)
0 en otro caso
2.54. a.Y tiene distribucin exponencial con parmetro n.
b. f
Z
(z) =

ne
z

1 e
z

n1
si z > 0
0 en otro caso
2.55.
5
8
2.57. N
t
tiene distribucin Poisson de parmetro t.
2.58. f alcanza su valor mximo en x =

1
1

1
+
2
2
.
270 RESPUESTAS A LOS EJERCICIOS
2.59. f
X+Y,Y X
(u, v) =

1
2

2
e
u
si u < v < u
0 en otro caso
P [X +Y 1, Y X 0] =
1
2

1 e

( + 1)

2.60. f
X+Y,Y X
(u, v) =

1
2

2
e

1
2
(u+v)
si 0 < v < u
0 en otro caso
P [X +Y 1, Y X 0] = 1 +e

2e

1
2

2.61. f
U,V
(u, v) =

1
2
(u
2
v
2
) si v 2 < u < v < 0 0 < v < u < v + 2
0 en otro caso
P

U < 1, V >
1
2

= 0.088542
2.66. f
U,V
(u, v) =


2
e
v
si 0 < u < 2v
0 en otro caso
2.68. F
U,V
(u
0
, v
0
) =

1
B(,)
R
u
0
1v
0
[u(1 u)]
1
du si 0 1 v
0
u
0
1
1
B(,)
R
1
1v
0
[u(1 u)]
1
du si 0 1 v
0
1 y u
0
1
1
B(,)
R
u
0
0
[u(1 u)]
1
du si 1 v
0
0 y 0 u
0
1
1 si 1 v
0
0 y u
0
1
0 en otro caso
No existe una funcin de densidad conjunta.
2.69. f
U,V
(u, v) =

u si uv < 1, u(1 v) < 1, 0 < u < 2, 0 < v < 1
0 en otro caso
U y V no son independientes.
2.70. f
U,V
(u, v) =
(
u
(1v)
2

2
e

u
1v
si u > 0 y 0 < v < 1
0 en otro caso
U y V no son independientes.
2.71. f
U,V
(u, v) =
(
1
2

u(vu)
e

v
2
si 0 < u < v
0 en otro caso
U y V no son independientes.
2.72. f
R,
(r, ) =

r

si 0 r < 1, 0 < 2
0 en otro caso
f
R
(r) =

2r si 0 r < 1
0 en otro caso
f

() =

1
2
si 0 < 2
0 en otro caso
R y son independientes.
2.73. f
R,
(r, ) =

r

si 0 r < 1, 0 < 2
0 en otro caso
f
R
(r) =

2r si 0 r < 1
0 en otro caso
RESPUESTAS A LOS EJERCICIOS 271
f

() =

1
2
si 0 < 2
0 en otro caso
R y son independientes.
2.74. f
U,V
(u, v) =

u
v
2
si u < v, 0 < u < 1
0 en otro caso
P

U >
1
2
, V < 2

=
5
16
2.75. f
U,V
(u, v) =

1
4u
si 0 < u < 1, u < v < u

1
4u
si 1 < u < 0, u < v < u
0 en otro caso
P

U <
1
2
, V <
1
2

= 0.71164
2.76. a. f
U,V
(u, v) =

2
uv
2
si 1 < u < v < u
2
0 en otro caso
b. P [2 < U < 4, V < 9] = 0.29718
c. f
U
(u) =

2(u1)
u
3
si u > 1
0 en otro caso
f
V
(v) =

1
v
2
lnv si v > 1
0 en otro caso
2.77. a. f
U,V
(u, v) =

1
2u
2
v
si 0 <
1
u
v u
0 en otro caso
b. P [U > 2, V < 3] = 0.67991
c. f
U
(u) =

1
u
2
lnu si u 1
0 en otro caso
f
V
(v) =

1
2
si 0 < v < 1
1
2v
2
si v 1
0 en otro caso
2.78. b. P [X +Y > Z] =
1
2
2.81. f
T
1
,T
2
(t
1
, t
2
) =

4
2
e
2(t
1
+t
2
)
si t
1
, t
2
(0, )
0 en otro caso
T
1
y T
2
son independientes y ambas tienen distribucin exponencial de parmetro 2.
2.82. f
T
1
,T
2
(t
1
, t
2
) =

4(1 t
2
) 2t
1
si t
1
, t
2
(0, 1) y t
1
+t
2
< 1
0 si t
1
+t
2
1
T
1
y T
2
no son independientes.
2.83. f
P
t
1
,...,P
tn
(x
1
, . . . , x
n
)
=
(

x
n
e
tn
t
x
1
1
(t
2
t
1
)
x
2
x
1
(tnt
n1
)
x
n
x
n1
x
1
!(x
2
x
1
)!(xnx
n1
)!
si x
1
, . . . , x
n
{0, 1, . . .} y x
1
x
2
. . . x
n
0 en otro caso
2.84. f
W
t
1
,...,W
t
n
(y
1
, . . . , y
n
)
=
1

(2)
n
t
1
(t
2
t
1
)(t
n
t
n1
)
exp
n

1
2
h
1
t
1
y
2
1
+
1
t
2
t
1
(y
2
y
1
)
2
+ +
1
t
n
t
n1
(y
n
y
n1
)
2
io
272 RESPUESTAS A LOS EJERCICIOS
2.85.
1
2
n+1
2.86. e

n(n1)
2
2.87.
k
n+1
2.88. a.
8
27
b.
91
216
c. 60(1
1
3

2
) minutos.
2.89.
5
36
2.90.
31
32
2.91. P

X
(1)
>
1
2
, X
(2)
< 2

= 0.19476
P

X
(2)
< 1, X
(3)
> 1

= 0.44099
2.92. P

X
(1)
>
1
2
, X
(2)
<
1
2

=
5
16
P

X
(2)
<
1
2
, X
(3)
>
1
2

=
27
64
2.93.
7
27
2.94. E [Z] =

0 si k {2, 3, . . .}
si k = 1
V ar(Z) =

k
k2
si k {3, 4, . . .}
si k = 2
2.95. E [Z] =

m
m2
si m {3, 4, . . .}
si m {1, 2}
V ar(Z) =
(
2m
2
(n+m2)
n(m2)
2
(m4)
si m {5, 6, . . .}
si m {3, 4}
2.96. E [Z] =

+
V ar(Z) =

(+)
2
(++1)
2.97.
287
40
2.98.
553
40
2.99. a. E [U] =
1
6N
(N + 1) (2N + 1)
b. E[V ] =
1
3N
(N
2
1)
2.101.
1
4
2.102. E[N] =
P

k=0
1
k!
= e
2.103. E[N] =
P

k=0
1
k!
= e
2.104. E[N] =
P

k=1
1
k+1
=
RESPUESTAS A LOS EJERCICIOS 273
2.105. a. E[m ax {X
1
, X
2
, . . . X
n
}] =
n
n+1
b. E[mn {X
1
, X
2
, . . . X
n
}] =
1
n+1
2.106.
137
9
2
2.107.
q
2

2
6
CAPTULO 3
3.1. E[X] = 1, E[Y ] = 2, V ar(X) = 13, V ar(Y ) = 5 y =
2

65
f
X,Y
(x, y) =
1
2

61
exp

1
2

5
61
(x 1)
2
+
13
61
(y + 2)
2

4
61
(x 1)(y + 2)

3.2. b. f(x, y) =

31
4
exp
n

1
2
h
2

x +
22
31

2
+ 3

x +
22
31

y
19
31

+ 5

y
19
31

2
io
c.
X
=
22
31
,
Y
=
19
31
,
2
x
=
20
31
,
2
Y
=
8
31
y =
3
20

10
3.3. U =

6
4
X

3
12
Y

6
8


3
24
V =
1

6
Y +
1
2

6
3.4. d. La distribucin conjunta de X, Y no es normal bivariada.
3.5. P [X 0, Y 0] =
1
4
+
1
2
arcsen
3.6. f
Y
(y) =
1

6
e

1
6
2
(y
1

2
)
2
3.7. f
Y
(y) =
1

42
e

1
42
(y6)
2
3.8. f
U,V
(u, v) =
1
5

3
exp
n

14
25
h
u
2
7
+
v
2
3

3
21
uv
io
3.9. a. A
1
=

3 1 1
1
1
2
0
6
5
2
2

b. B
1
=
1
128

25 62 25 21
75 70 75 65
80 160 240 80
35 10 35 55

c. C No es invertible.
d. D
1
=

0
1
2
0
1
2
0

1
2
1
1
2
0
1
2
0
1
2
0
1
2
0
1
2
0
1
2
1
1
2
0
1
2
0
1
2
1

3.10. P =

1
3

3
1
2

2
1
6

6
1
3

3
1
2

2
1
6

6
1
3

3 0
1
3

274 RESPUESTAS A LOS EJERCICIOS


3.11. a. F no es denida positiva.
b. F es denida positiva.
c. F es denida positiva.
d. F no es denida positiva.
3.12. a. Q es denida positiva.
B =
q
4+

5
110

p
33 11

5 +
p
23 3

5 4

10

22
4

10

22
p
33 + 11

5 +
p
103 45

5
!
b. Q no es denida positiva.
c. Q es denida positiva.
B

0.8621 0.3673 0.2633 0.2294


0.3673 1.1254 .5966 0.4926
0.2633 0.5966 1.3547 0.8599
0.2294 0.4926 0.8599 1.7220

3.13. a. A =

1
3

3
5
6

17
30

5
0 1
1
5

5
0 0
3
5

b. A =

1
2

10 3

5
1
6

15
37
6
0

5 0 2
0 0
1
3

15
1
3
0 0 0 1

c. A =

1
5

5
2
5
2
5

3
4
5

2
8
15

2
0 1 0

2
2
3

2
0 0

3

2
2
3

2
0 0 0

2
2
3

2
0 0 0 0

2

3.15. a. P =

1
2

2
1
6

6
1
6

3
1
2

1
2

2
1
6

6
1
6

3
1
2
0
1
3

6
1
6

3
1
2
0 0
1
2

3
1
2

b. B =
1
8

3 +

3 +

3 +

3 +

3 +

7 3

3 +

3 +

3 +

3 +

3 +

7 3

3 +

3 +

3 +

3 +

3 +

7 3

3 +

c. A =

6
4

2
4
1
4

3
4

6
4

2
4
1
4

3
4
0

2
2
1
4

3
4
0 0
3
4

3
4

RESPUESTAS A LOS EJERCICIOS 275


A
0
=
1
8

3 +

3 +

3 +

3 +

3 +

7 3

3 +

3 +

3 +

3 +

3 +

7 3

3 +

3 +

3 +

3 +

3 +

7 3

3 +

A
00
=

14
4

10
20

15
20
1
4
0
3

10
10

15
20
1
4
0 0

15
4
1
4
0 0 0 1

3.16. a. La matriz de covarianzas de U y V est dada por



3 0
0 1

.
b. U y V son independientes.
c. La matriz de covarianzas de X y Y est dada por

1
1
2
1
2
1

.
d. X y Y no son independientes.
3.17. a. f
U,V
( u) =
1
6
exp

1
2
(Q u) u

en donde Q =

2
9

1
9

1
9
5
9

b. C =

5 1
1 2

3.18. P [3 < s
2
< 20] = 0.755969
3.19. f
U
(u) =
1
2

2
e

1
8
u
2
para cualquier u R.
f
V
(v) =
(
4e
2v
q
2v

si v > 0
0 en otro caso
U tiene distribucin N(0, 4) y
1
4
V tiene distribucin
2
con 3 grados de libertad.
3.20. f
Z
(z =
1
2(1+z
2
)
3/2
para cualquier z R

2Z tiene distribucin t con 2 grados de libertad.


3.21. f
Y
1
,Y
2
,Y
3
,Y
4
(y
1
, y
2
, y
3
, y
4
) =
1
4
2
e

1
2
(
y
2
1
+y
2
2
+y
2
3
+y
2
4
)
Z tiene distribucin uniforme en el intervalo (0, 1).
3.26. f
U
(u) =
1
2

1
4
u
2
U tiene distribucin normal de parmetros = 0 y
2
= 2.
CAPTULO 4
4.1. a. E[X | X > 2Y ] =
8N+5
6
b. E[X | X +Y > 4] =
N
2
(2N+1)5
2N
2
3
4.2. a. E[X | X > 2Y ] =
5
3
b. E[X | X < 2Y ] =
2
3
276 RESPUESTAS A LOS EJERCICIOS
4.3. a. E[X | X > 2Y + 1] =
11
6
b. E[X | X > 2Y 1] = 0.55416
4.4. a. E[X | Y > 2X] =
1
6
b. E[X | X +Y > 1] =
2
3
4.5. a. E[X | X < Y
2
] =
3
10
b. E[Y | X < Y
2
] = 0
4.6. E[X | Y ] =
1
2Y +N+1

1
3
(N + 1) (2N + 1) + (N + 1)Y

4.7. a) E[X | Y ] =
1
3
(Y + 1)
b) E[Y | X] =
1
3
(X + 1 + 2N)
4.8. a. E[X | Y ] =
1
2
Y
b. E[Y | X] =
1
2
X +
1
2
(N + 1)
4.9. a. E[X | Y X] =
1
2
(N + 1)
1
2
(Y X)
b. E[Y | Y X] =
1
2
(N + 1) +
1
2
(Y X)
4.10. [X | mn(X, Y )] = mn(X, Y ) +
(1p)
p(2p)
4.11. E [X | m ax(X, Y )] =
max(X,Y )[3 max(X,Y )1]
2[2 m ax(X,Y )1]
4.12. a. E [mn(X, Y ) | Y ] = Y
1
2N
Y (Y 1)
b. E[m ax(X, Y ) | Y ] =
1
2
(N + 1) +
1
2N
Y (Y 1)
4.20. a. E [X | Y ] = 0
b. E[Y | X] = 6e
2|X|
4.21. a. E [X | Y ] =
1
2
Y
b. E[Y | X] =
X
3
3X
2
+6X6
X
2
2X+2
I
(,0)
(X) +
2(X
2
+2X+2)
1+X
I
(0,)
(X)
4.22. E [(X +Y )
2
| Y ] =
1
6
12Y
3
30Y
2
36Y 13
2Y 7
I
(0,2)
(Y ) +
1
18
(35Y
2
34Y + 21)I
[2,3)
(Y )
4.23. E [(X +Y )
3
| Y ] =
6

2
Y +Y
3
4.24. E

e
(X+Y )
| Y

=
1
Y +1
e
Y
4.25. a. E [X
2
| Y ] = Y
2
+
2

Y +
2

2
.
b. E[X | Y
2
] = Y +
1

4.26. a. E [XY | X] = 0
b. E[X | XY ] = 0
4.27. a. E

Y |
X
Y

=
2
3
I
(0,1)

X
Y

+
2
3
Y
X
I
[1,)

X
Y

b. E

X
Y
| Y

=
1
2Y
4.28. E [X +Y | Y X] = Y X +
2

RESPUESTAS A LOS EJERCICIOS 277


4.29. E[m ax(X, Y ) | Y ] = Y
4.30. E

X +Y |
X
X+Y

=
+

4.31. E[XY | X +Y ] =
1
6
(X +Y )
2
4.32. E[X | U] = UI
[0,t)
(U) + (1 +t)I
{t}
(U)
E[X | V ] = V I
(t,)
(V ) +

1
te
t
1e
t

I
{t}
(V )
4.33. E[X | Y ] = 0
4.34. f
X|Y
(x | y) =

2(x+y)
N(N+1+2y)
si x {1, . . . , N}
0 en otro caso
4.35. a. f
X|Y
(x | y) =

2(yx)
y
2
y
si x {1, . . . , y 1}
0 en otro caso
b. f
Y |X
(y | x) =

2(yx)
(Nx)(N+1x)
si y {x + 1, . . . , N}
0 en otro caso
4.36. a. Dado que Y = y, X tiene distribucin uniforme en el conjunto {1, . . . , y 1}.
b. Dado que X = x, Y tiene distribucin uniforme en el conjunto {x + 1, . . . , N}.
4.37. a) f
max(X,Y )|Y
(u | y) =

y
N
si u = y
1
N
si u {y + 1, . . . , N}
0 si u {1, . . . , y 1}
b) f
mn(X,Y )|X
(v | x) =

Nx+1
N
si v = x
1
N
si v {1, . . . , x 1}
0 si v {x + 1, . . . , N}
4.38. Dado que X
2
= n, X
1
tiene distribucin uniforme en el conjunto {0, . . . , n}.
4.39. Para z N, dado que X +Y = z, X tiene distribucin binomial con parmetros n = z
y p =

2

1
+
2
. Para z = 0, la distribucin de X, dado que X + Y = z, est concentrada en
x = 0.
4.40. a. Dado que N
i
= s, la distribucin de N
j
es binomial con parmetros ns y p =
p
j
1p
i
.
b. Cov(N
i
, N
j
) = np
i
p
j
4.41. f
Y |X
(y | x) =

1
2x
si 0 < x < 1, 0 < y < 2x
1
42x
si 1 x < 2, 0 < y < 4 2x
0 en otro caso
Por lo tanto, si 0 < x < 1, dado que X = x, Y tiene distribucin uniforme en el intervalo
(0, 2x), mientras que si 1 x < 2, dado que X = x, Y tiene distribucin uniforme en el
intervalo (0, 4 2x).
4.42. a. f
X
(3)
|X
(1)
(x
3
| x
1
) =

2(x
3
x
1
)
(1x
1
)
2
si 0 < x
1
< x
3
< 1
0