Probabilidad Con Aplicaciones

PROBABILIDAD
CON
APLICACIONES
M. WOODROOFE
UNIVERSIDAD AUTÓNOMA CHAPINGO

DIVISIÓN DE CIENCIAS FORESTALES
DEPARTAMENTO DE ESTADÍSTICA, MATEMÁTICA Y CÓMPUTO
MICHAEL WOODROOFE
Profesor de Matemáticas y Estadística
Universidad de Michigan
Probabilidad
con Aplicaciones
v
NOTA DEL TRADUCTOR
El propósito de la traducción de este libro es proporcionar a los estudiantes de la licenciatura

en estadística de la Universidad Autónoma Chapingo los elementos fundamentales de la
probabilidad en su lenguaje materno para evitar una doble complejidad que se generaría en
aquellos no habilitados en el inglés. Si se optó por una traducción en lugar de la elaboración
de un texto fue por el reconocimiento que el traductor tiene de la estructura, el orden, el
manejo de los fundamentos y el alcance de los ejercicios incluidos que en general están
presentes en los textos de esta naturaleza elaborados en las grandes universidades. No puede
ser descartado ir a las fuentes reconocidas inmersas en los lugares donde se ha desarrollado
el conocimiento científico de interés.
De acuerdo al plan de estudios de la licenciatura mencionada se deberán cubrir los primeros
cinco capítulos del libro en el curso semestral de Probabilidad I y los siguientes cinco
capítulos en el curso semestral de Probabilidad II. Sólo como tópicos especiales se deberán
usar los últimos dos capítulos.
La impresión de este material sólo tiene propósitos docentes y no tiene absolutamente
ninguna intención de lucro. Esta versión, por la premura que se tiene de ser usada en los
cursos señalados, no tuvo una corrección de estilo, problema que será superado en la
siguiente edición.
Francisco J. Zamudio S.
Enero del 2000
vii
TABLA DE CONTENIDO
Nota del Traductor ................................................................................................................. v

Prefacio ................................................................................................................................. xiii
1 El Modelo Clásico............................................................................................................. 1
1.1. Introducción ................................................................................................................ 1
1.2. Análisis Combinatorio................................................................................................. 3
1.3 Modelos de Urnas...................................................................................................... 10
1.4. Muestras Desordenadas ............................................................................................. 15
1.5. Muestras Ordenadas .................................................................................................. 21
1.6. Problemas de Ocupación ........................................................................................... 27
1.7. El Teorema Binomial Generalizado .......................................................................... 30
1.8. La Fórmula de Stirling .............................................................................................. 33
1.9. Problemas .................................................................................................................. 36
2 Probabilidad Axiomática ............................................................................................... 43
2.1 Probabilidad, Frecuencia, y Grado de Creencia ........................................................ 43
2.2 Un Modelo Matemático ............................................................................................ 48
2.3 Algunas Consecuencias Elementales de los Primeros Dos Axiomas ....................... 53
2.4 Combinaciones de Eventos ....................................................................................... 59
2.5 Equivalentes del Tercer Axioma ............................................................................... 63
viii
2.6 Problemas .................................................................................................................. 67

3 Probabilidad Condicional e Independencia ................................................................ 73
3.1 Probabilidad Condicional.......................................................................................... 73
3.2 El Teorema de Bayes ................................................................................................ 79
3.3 Independencia ........................................................................................................... 84
3.4 Algunas Propiedades de Independencia.................................................................... 88
3.5 Ensayos Repetidos: Espacios Producto .................................................................... 91
3.6 Problemas .................................................................................................................. 94
4 Las Probabilidades Binomiales y Relacionadas ........................................................ 101
4.1 Las Probabilidades Binomiales ............................................................................... 101
4.2 Las Probabilidades Binomiales Negativas .............................................................. 107
4.3 Teorema de Poisson: La Ley de Eventos Raros ..................................................... 110
4.4 La Curva Normal .................................................................................................... 113
4.5 Aproximación Normal ............................................................................................ 116
4.6 Los Teoremas de Demoivre-Laplace ...................................................................... 121
4.7 Problemas ................................................................................................................ 127
5 Variables Aleatorias .................................................................................................... 133
5.1 Variables Aleatorias ................................................................................................ 133
5.2 Distribuciones Discretas ......................................................................................... 139
5.3 Distribuciones Absolutamente Continuas ............................................................... 143
5.4 Las Distribuciones Gama y Beta............................................................................. 147
5.5 Funciones de Distribución ...................................................................................... 154
5.6 Cálculos con Funciones de Distribución................................................................. 160
5.7 Medianas y Modas .................................................................................................. 162
5.8 Propiedades de las Funciones de Distribución ....................................................... 165
5.9 Problemas ................................................................................................................ 169
6 Vectores Aleatorios ...................................................................................................... 175
6.1 Distribuciones Bivariadas ....................................................................................... 175
6.2 Distribuciones Marginales e Independencia ........................................................... 181
6.3 Mayores Dimensiones ............................................................................................. 187
NOTA DEL TRADUCTOR ix
6.4 Ejemplos .................................................................................................................. 194

6.5 Problemas ................................................................................................................ 198
7 Teoría de Distribuciones .............................................................................................. 203
7.1 Distribuciones Univariadas ..................................................................................... 203
7.2 Distribuciones Multivariadas .................................................................................. 210
7.3 Convoluciones ......................................................................................................... 214
7.4 Jacobianos ............................................................................................................... 219
7.5 Muestreo de una Distribución Normal .................................................................... 226
7.6 Descomposición Radioactiva .................................................................................. 232
7.7 Problemas ................................................................................................................ 237
8 Esperanza ...................................................................................................................... 243
8.1 Esperanza ................................................................................................................ 243
8.2 Propiedades de la Esperanza ................................................................................... 249
8.3 La Media y la Varianza ........................................................................................... 253
8.4 La Función Generatriz de Momentos ...................................................................... 258
8.5 Covarianza y Correlación ........................................................................................ 268
8.6 Ejemplos .................................................................................................................. 274
8.7 Problemas ................................................................................................................ 278
9 Teoremas Límites ......................................................................................................... 285
9.1 Algunas Desigualdades Útiles ................................................................................. 285
9.2 La Ley Débil de los Grandes Números ................................................................... 288
9.3 Variaciones de la Ley Débil de los Grandes Números ........................................... 292
9.4 El Teorema del Límite Central ................................................................................ 296
9.5 Distribuciones de Valores Extremos ....................................................................... 303
9.6 Problemas ................................................................................................................ 308
10 Esperanza y Distribuciones Condicionales ............................................................ 311
10.1 Funciones Masa y Densidades Condicionales ..................................................... 311
10.2 Probabilidad Condicional .................................................................................... 321
10.3 Esperanza Condicional ........................................................................................ 327
10.4 Dimensiones Mayores .......................................................................................... 333
x
10.5 Teoría de Decisión ............................................................................................... 338

10.6 Procesos Ramificados .......................................................................................... 343
10.7 Problemas ............................................................................................................ 348
11 Caminatas Aleatorias ............................................................................................... 353
11.1 Sucesión Infinita de Variables Aleatorias ........................................................... 353
11.2 El Problema de la Ruina del Jugador .................................................................. 356
11.3 Los Lemas de Borel-Cantelli ............................................................................... 361
11.4 Recurrencia .......................................................................................................... 364
11.5 Convergencia con Probabilidad1 ......................................................................... 365
11.6 Algunas Desigualdades........................................................................................ 368
11.7 La Ley Fuerte de los Grandes Números .............................................................. 373
11.8 La Ley del Logaritmo Iterado .............................................................................. 376
11.9 Problemas ............................................................................................................ 381
12 Martingalas ............................................................................................................... 387
12.1 Sistemas de Juego ................................................................................................ 387
12.2 Martingalas .......................................................................................................... 390
12.3 Propiedades Elementales de las Martingalas ....................................................... 394
12.4 El Teorema de la Interrupción Opcional ............................................................. 396
12.5 Aplicaciones del Teorema de la Interrupción Opcional ...................................... 402
12.6 La Desigualdad de la Submartingala ................................................................... 405
12.7 Problemas ............................................................................................................ 407
13 Apéndices .................................................................................................................. 411
13.1 Apéndice A. Teoría de Conjuntos ....................................................................... 411
13.2 Apéndice B. Integración ...................................................................................... 414
13.3 Apéndice C. Tablas.............................................................................................. 420
13.4 Apéndice D. Referencias ..................................................................................... 425
13.5 Apéndice E. Respuestas a Problemas Seleccionados .......................................... 427
Índice.................................................................................................................................... 435
Índice ................................................................................................................................ 435
NOTA DEL TRADUCTOR xi
xiii
PREFACIO
Este libro se ha desarrollado de varios diferentes cursos que he dado en la Universidad de

Michigan durante los pasados pocos años. Los estudiantes en estos cursos fueron
esencialmente de los dos últimos años de la licenciatura y del primer año de postgrado en
matemáticas y campos relacionados como la ingeniería, estadística, psicología matemática, y
econometría, y este libro está diseñado para tal audiencia. Las versiones preliminares del
libro usadas en estos cursos se han visto beneficiadas de los comentarios de los estudiantes.
El libro tiene varios propósitos. Primero, como libro de texto, intenta introducir a sus
lectores a los conceptos básicos de probabilidad y familiarizarlos con la teoría matemática de
la probabilidad. Un conocimiento estudiado de las secciones sin asterisco de los Capítulos 1
a 10 debe permitir al lector entender las aplicaciones de la teoría de probabilidades a muchos
fenómenos científicos y sociales.
Otro objetivo, igualmente importante, es desarrollar la intuición del lector acerca de la
probabilidad. El libro contiene numerosos ejemplos y varias aplicaciones a problemas
científicos y estadísticos. Además, muchos temas han sido enfocados desde más de un punto
de vista.
El libro también está intentado para servir de referencia para aquellos cuyo entrenamiento
formal en probabilidad no continúa más allá del nivel introductorio. Así, el libro contiene
mucho material que encuentra múltiples aplicaciones pero que no sería usualmente
presentado en un curso introductorio. Este material adicional ha sido colocado en secciones
xiv
al pie de página y puede ser omitido sin pérdida de continuidad. Le puede proveer también a
un instructor una amplia selección de tópicos especiales de los cuales el puede seleccionar
uno o dos para estudios a profundidad.
El libro se divide naturalmente en tres partes. Los Capítulos 1 a 4 tratan la probabilidad
combinatoria e introducen las nociones de espacio muestral, probabilidad estadística y
subjetiva, probabilidad condicional, e independencia. Las nociones de variable aleatoria,
distribución de probabilidad, y esperanza son entonces introducidas y desarrolladas en los
Capítulos 5 a 10. Finalmente, los Capítulos 11 y 12 introducen al lector a los procesos
estocásticos y desarrollan las caminatas aleatorias y las martingalas.
Las secciones sin asterisco de los Capítulos 1 a 10 forman la base para un curso
introductorio fuerte en la teoría de probabilidades. El prerrequisito para una lectura
inteligente de este libro es 2 años de cálculo. Conocimiento adicional es deseable para los
Capítulos 11 y 12, pero no es esencial.
El libro se ha beneficiado de la discusión que he tenido con Bill Ericson, Richard Olshen,
Herb Robbins, Norman Starr, y Jim Wendel. Patricia Holly hizo un trabajo eficiente con la
mecanografía, y Charles Séller y Francis Smock ayudaron con la corrección de estilo. A
todos mis sinceras gracias.
MICHAEL WOODROOFE
1
1 El Modelo Clásico
1.1. INTRODUCCIÓN
Comenzaremos nuestro estudio de la teoría de la probabilidad con juegos de azar. En este
capítulo estudiamos juegos de azar que deben resultar en uno de un número finito de
posibles sucesos, la totalidad de los cuales puede ser especificada antes de que el juego sea
jugado. Por ejemplo, la mayoría de los juegos de carta son de esta naturaleza. Nuestra meta
en este capítulo es construir un modelo matemático para tales juegos y desarrollar algunas de
las propiedades más simples del modelo. El modelo que escogimos es denominado el
modelo clásico porque fue el primer modelo de probabilidad en ser estudiado.1
Dado un juego de azar particular, como descrito anteriormente, denotaremos al conjunto de
posibles sucesos del juego por S, y denominaremos a S el espacio muestral.2 Subconjuntos
de S serán denominados eventos, y un evento A  S se dirá que ocurre si y sólo si el suceso
real del juego es un elemento de A. Por ejemplo, si nuestro juego consiste de lanzar una vez
un dado balanceado, podríamos tomar S para ser el conjunto {1, 2, 3, 4, 5, 6} con la
convención de que k  S representa el suceso de que una cara mostrando exactamente k
puntos aparece. El evento de que un número non de puntos aparezca es entonces A = {1, 3,
5}, y el evento de que únicamente un punto aparezca es {1}.
1
1 Referencias a trabajos sobre la historia de la probabilidad son dadas al final del capítulo.
2
2 Espacio de sucesos sería mejor, pero usaremos la terminología convencional espacio muestral.
2 INTRODUCCIÓN
Si S es el espacio muestral para un juego particular y A  S es un evento, definimos la

probabilidad de A para ser
A
P  A  (1.1)
S
donde para cualquier subconjunto B  S, |B| denota el número de elementos distintos de B.

Así, dentro del modelo clásico, la probabilidad de un evento es el cociente del número de
sucesos que implican la ocurrencia del evento al número total de posibles sucesos. Por
ejemplo, en el juego del dado mencionado anteriormente, la probabilidad del evento A = {1,
3, 5} de que un número non de puntos aparezca es P(A) = 3/6 = 1/2, mientras que la
probabilidad de que sólo un punto aparezca es P({1}) = 1/6.
La Ecuación (1.1) define una función cuyo dominio es la clase (o conjunto) de todos los
subconjuntos de S. Así, la probabilidad es una propiedad de conjuntos (eventos) A  S, no de
puntos s  S. En particular, si s  S, nos referiremos a {s}, el conjunto cuyo único elemento
es s, como el evento de que el suceso de nuestro juego será s. La Ecuación (1.1) entonces
requiere P({s}) = 1/|S|. El símbolo P(s) no ha sido definido.
Para referencia posterior, observamos que la función P de la Ecuación (1.1) tiene las
siguientes propiedades:
0  P  A  P S   1 (1.2)
P A  B  P A  PB si AB   (1.3)
P A  1  P A (1.4)
donde A  B denota la unión de A y B, AB denota la intersección de A y B, A' denota el

complemento de A, y  denota el conjunto vacío.1 Por ejemplo, para establecer (1.3)
simplemente observe que si AB = , entonces |A  B| = |A| + |B|, así que P(A  B) = P(A) +
P(B) por (1.1). La Ecuación (1.4) entonces se sigue de P(A) + P(A') = P(S) = 1, y (1.2) es
obvia. Estas propiedades son algunas veces útiles en reducir un cálculo complicado a una
serie de cálculos más sencillos.
EJEMPLO 1.1.1
Si dos dados balanceados distinguibles son lanzados, podemos describir el suceso del juego
por un par ordenado (x,y), donde x denota el número de puntos sobre el primer dado y y el
1
3 Algunos elementos de la teoría de conjuntos son revisados en el Apéndice A.
EL MODELO CLÁSICO 3
número sobre el segundo. Así, podemos tomar S para ser el conjunto de pares ordenados
(x,y), donde x y y son enteros entre 1 y 6. Una inspección muestra que hay |S| = 36 elementos
en S. Calculemos la probabilidad del evento A de que la suma de puntos sobre los dos dados
es 7. Claramente
A  1,6,2,5,3,4,4,3,5,2,6,1
así que |A| = 6. Por tanto, P(A) = 1/6. ////
Aunque el ejemplo es completamente simple, repagará su estudio cuidadoso, porque la

técnica empleada en el Ejemplo 1.1.1 será empleada a través de este capítulo. Observe que
dimos una cuidadosa descripción del espacio muestral (conjunto de posibles sucesos) y del
evento A cuya probabilidad deseábamos calcular. Después que esto fue hecho, el cálculo de
P(A) sólo involucró contar el número de elementos en A, contar el número de elementos en
S, y dividir. Conceptualmente, todos los problemas que encontraremos en este capítulo son
tan simples como el Ejemplo 1.1.1, aunque el conteo real puede convertirse en algo un
poquito más complicado. Muchos estudiantes tienen dificultad con la teoría de probabilidad
elemental porque ellos no conceptualizan los problemas apropiadamente. Eso es, ellos no
toman el tiempo y el esfuerzo para definir su espacio muestral y evento cuidadosamente.
Como un resultado, ellos no saben qué contar. Por tanto, repetimos: El primer paso en
calcular cualquier probabilidad en este capítulo debe ser una definición cuidadosa del
espacio muestral y del evento cuya probabilidad tiene que ser calculada.
La Ecuación (1.1) refleja una suposición acerca del juego bajo consideración. Es decir,
supone que los varios sucesos del experimento son igualmente verosímiles en el sentido de
que P({s}) = 1/|S| para toda s  S. Por lo tanto estamos confrontados con la siguiente
cuestión: ¿A qué juegos aplica el modelo clásico? Discutimos esta cuestión en la Sección
2.1. Por el momento, suponemos que el lector ha tenido suficiente experiencia con tales
términos como "azar," "verosímil," y "probabilidad" para identificar juegos a los cuales el
modelo clásico aplica.
1.2. ANÁLISIS COMBINATORIO

Al principio, todos los cálculos que son derivados del modelo clásico son completamente
directos. Indudablemente, para calcular P(A) de (1.1) uno sólo tiene que contar el número de
elementos distintos en A, contar el número de distintos elementos en S, y dividir el anterior
por el último. En la práctica, sin embargo, a menudo es imposible contar el número de
elementos en A o S por simple inspección. Por ejemplo, si deseáramos calcular la
probabilidad recibir un 'full' en un juego de póquer, no podríamos realistamente esperar listar
4 ANÁLISIS COMBINATORIO
todas las posibles manos de póquer y contar el número que contiene tres cartas de una
denominación y dos de otra. ¿Por qué? Porque, como veremos en el Ejemplo 1.2.4a, hay
2,598,960 distintas manos de póquer. Lo que necesitamos es un método eficiente de conteo,
uno que nos permita contar el número total de distintas manos de póquer sin, de hecho,
listarlas, por ejemplo. El cuerpo de técnicas que consiste de este método eficiente de conteo
es conocido como análisis combinatorio y es el tópico de la presente sección.
Si Z es un conjunto no vacío y k es un entero positivo, entonces definimos una keta
ordenada de elementos de Z para ser un arreglo (z1,z2,,zk) con zi  Z para i = 1,2,, k. zi es
denominada la iésima componente de (z1,z2,,zk) para i = 1,2,, k. Cuando no hay peligro
de confusión, omitiremos la frase "de elementos de Z," y cuando k = 2 o 3, referiremos a las
ketas ordenadas como pares ordenados y tripletas ordenadas, respectivamente. Dos ketas
ordenadas son iguales si y sólo si ellas tienen los mismos elementos en el mismo orden. Eso
es, (z1,,zk) = (w1,,wk) si y sólo si zi = zi para i = 1,, k.
La noción de una keta ordenada de elementos de Z debe ser contrastada con la noción de un
subconjunto {z1,,zk}  Z de Z. Dos subconjuntos {z1,,zk} y {w1,,zj} son iguales si ellos
listan los mismos elementos, aun cuando ellos los listen en diferentes ordenes o con
repetición. Por ejemplo, {1,2} = {2,1} = {2,1,2}, pero (1,2)  (2,1). La distinción es simple
pero importante.
Una keta ordenada de elementos de Z, digamos (z1,z2,,zk), con distintas componentes (eso
es, zi  zj para i  j) es denominada una permutación de k elementos de Z. Un subconjunto
{z1,,zk) con k distintos elementos es denominado una combinación de k elementos de Z.
Muchos de los problemas en este capítulo serán expresados en términos de permutaciones y
combinaciones.
El análisis combinatorio que necesitaremos será derivado del siguiente principio básico, que
adoptamos como un axioma.
El principio básico del análisis combinatorio Suponer que podemos seleccionar

dos objetos x y y en ese orden. Si tenemos m distintas selecciones para x y n distintas
selecciones para y, donde m y n son enteros positivos, entonces podemos seleccionar el
par ordenado (x,y) en mn distintas formas.
Más generalmente, suponer que k  2 es un entero y que los objetos x1,... xk son
seleccionados secuencialmente; eso es, primero x1, entonces x2,. Si xi puede ser
seleccionada en ni distintas formas, i = 1,, k, entonces la keta ordenada (x1,... xk)
puede ser seleccionada en
n  n1n2nk
distintas formas.
La segunda afirmación del principio básico puede, de hecho, ser derivada de la primera por
inducción matemática. Dejamos la derivación como un ejercicio para el lector interesado y
nos dirigimos directamente a algunos ejemplos.
EJEMPLO 1.2.1
De un menú que contiene 3 sopas, 2 ensaladas, 6 platos principales, y 3 postres, 3  2  6  3
= 108 diferentes comidas pueden ser ordenadas. Simplemente tome x1 para ser la sopa, x2
para ser la ensalada, x3 para ser el plato principal, y x4 para ser el postre y aplique el
principio básico con k = 4. ////
Debe ser enfatizado que el principio básico permite al conjunto de objetos del cual xi es
seleccionado depender de la selección de x1,,xi-1. Únicamente el número de posibles
selecciones ni debe ser fijado con anticipación.
EJEMPLO 1.2.2
Si un hombre tiene camisas color rojo, verde, y oro y corbatas color rojo, verde, y oro,
¿cuántas formas puede el escoger diferentes colores para su camisa y corbata? 3  2 = 6,
porque él tiene 3 posibilidades para el color de su camisa y, después de eso, sólo 2 para el
color de su corbata. Aquí, por supuesto, los dos colores de los cuales el selecciona el color
de su corbata dependerá del color que el seleccionó para su camisa. ////
Teorema 1.2.1 Sea Z un conjunto conteniendo n  1 distintos elementos, y sea k  1

un entero. Entonces, hay nk distintas ketas ordenadas (z1,,zk) con zi  Z , i = 1,, k.
Si k  n, entonces hay
nk  nn 1n  k  1 (2.1)
distintas ketas ordenadas con distintas componentes, eso es, zi  zj para i  j.
PRUEBA Para seleccionar una keta ordenada (z1,,zk) con zi  Z, i = 1,, k,

tenemos n selecciones para z1, n selecciones para z2, y en general, n selecciones para zi,
i = 1,, k. Por tanto, por el principio básico, tenemos nnn = nk selecciones para
(z1,,zk). Si k  n y requerimos que las zi sean distintas, entonces aún tenemos n
selecciones para z1 pero sólo n  1 para z2, que debe ser diferente de z1, y sólo n  2
para z3, que debe diferir de ambas z1 y z2. En general, tendremos n  i + 1 selecciones
para zi, i = 1,, k, y por lo tanto n(n  1)(n  k +1) = (n)k selecciones para (z1,,zk).
////
EJEMPLO 1.2.3
Si cuatro dados distinguibles son lanzados, hay 64 = 1296 sucesos distinguibles. De estos hay
(6)4 = 360 sucesos distinguibles para los cuales ninguna pareja de dados muestra el mismo
número de puntos. Indudablemente, podemos aplicar el teorema con Z = {1,,6}
permitiendo que zi denote el número de puntos que aparecen sobre el iésimo dado, i = 1,
4. ////
La notación (n)k ha sido definida por (2.1) cuando n y k son enteros positivos para los cuales
k  n. Ahora extendemos esta notación definiendo
n0  1  n 0 (2.2 a)
nk  0 si k <0 o k >n (2.2 b)
para n = 0, 1, 2,. Encontraremos también conveniente escribir n! (leer "n factorial") para
(n)n. Así, 0! = 1, y
n!  nn  12  1 (2.3)
para n = 1, 2,. El Teorema 1.2.1 entonces asegura que si Z contiene n  1 distintos

elementos, hay n! permutaciones de los n elementos de Z.
Para referencia posterior, observamos que
n k 
n!
(2.4 a)
n  k !
ni j  ni n  i  j (2.4 b)
para enteros no negativos n, i, j, y k con k  n.

Nuestro siguiente resultado da el número de combinaciones de k elementos que pueden ser
seleccionados de un conjunto que contiene n elementos.
Teorema 1.2.2 Sea Z un conjunto conteniendo n  0 distintos elementos, y sea k un

entero para el cual 0  k  n. Entonces hay
n n!
   (2.5)
 k  k!n  k !
n
distintos subconjuntos de tamaño k contenidos en Z. Aquí (2.5) define la notación   .
k 
PRUEBA Si k = 0 o n = 0, el resultado es obvio, porque el único subconjunto de
n
tamaño cero es el conjunto vacío, y, por definición,   = 1, n = 0, 1,. Por tanto,
0
podemos restringir nuestra atención a positivos n y k. Una keta ordenada con k
distintos componentes puede ser seleccionada en dos pasos: primero, seleccionamos un
subconjunto de tamaño k; entonces arreglamos el subconjunto en un orden definido.
Seleccionando una permutación de k elementos de Z es por lo tanto equivalente a
seleccionar un par ordenado (Z0,), donde Z0 es un subconjunto de tamaño k y  es
una permutación de los k elementos de Z0. Denote A el número de subconjuntos de
tamaño k. Entonces, puesto que hay (n)k distintas ketas ordenadas con distintas
componentes y k! formas en las cuales arreglar un subconjunto de tamaño k en un
orden definido (ambos por el Teorema 1.2.1), tenemos (n)k = Ak! por el principio
básico. Resolviendo para A, encontramos
nk n! n
A    
k! k!n  k !  k 
como se aseveró. ////
El Teorema 1.2.2 es especialmente útil en problemas que involucran juegos de cartas. Para
hacer esto preciso, definimos una mano de póquer para ser una combinación de cinco cartas
(subconjunto de tamaño 5) tomada de una baraja estándar de 52 cartas.1 Análogamente,
definimos una mano de bridge para ser una combinación de 13 cartas tomadas de una baraja
estándar. Así, dos manos que contienen las mismas cartas arregladas en diferentes órdenes
son consideradas como idénticas.
EJEMPLO 1.2.4
 52 
a Hay   = 2,598,960 distintas manos de póquer.
5
 52
b Hay   distintas manos de bridge.
13 
c m indistinguibles bolas rojas y n indistinguibles bolas blancas pueden ser arregladas en
1
Eso es, una baraja que consiste de 4 palos, espadas, corazones, diamantes, y tréboles, y las 13 denominaciones
ases, doses, treses,, reinas, reyes, con exactamente uno de cada denominación en cada palo.
 n  m  n  m
una hilera para formar      configuraciones distinguibles.
 m   n 
Indudablemente, una configuración distinguible está determinada por los m lugares
ocupados por las bolas rojas. ////
n
Los números   son conocidos como coeficientes binomiales porque aparecen en el
k 
teorema binomial, que establece que para números reales a y b y para enteros no negativos n,
 n  k n k
a  bn   
n
a b (2.6)
k 0 k 
De hecho, el teorema binomial se sigue fácilmente del Teorema 1.2.2, porque si (a + b)n = (a
+ b) (a + b) (a + b) es expandido en una suma de potencias de a multiplicadas por
potencias de b, entonces akbn-k aparecerá tantas veces como podamos seleccionar a de k de
 n
los factores y b de los restantes n  k. Por el Ejemplo 1.2.4c esto puede ser hecho en  
 k
formas.
n
En la secuela, será a menudo conveniente usar la notación   cuando k sea un entero
k 
n
negativo o un entero positivo que exceda a n. Definimos   = 0 en ambos casos. Observe
k 
n
que con la definición extendida es aún verdadero que hay   subconjuntos de tamaño k
k 
contenidos en un conjunto de n elementos.
Concluimos esta sección con una extensión del Teorema 1.2.2. Sea Z un conjunto no vacío,
finito. Definimos una partición de Z para ser una keta ordenada (Z1,,Zk), donde Z1,,Zk
son subconjuntos disjuntos de Z para los cuales
k
 Zi  Z
i 1
Permitimos a algunos de los Zi ser vacíos. Si (Z1,,Zk) es una partición del conjunto Z, los
números ri = |Zi|, i = 1,, k, serán llamados números partición. Claramente, r1,,rk cumplen
k
ri  0 i  1, ,k y  ri  Z (2.7)
i 1
Por ejemplo, si Z = {1,2,3,4}, entonces tomando Z1 = {1}, Z2 = {2,3}, y Z3 = {4} define una
partición para la cual r1 = 1, r2 = 2, y r3 = 1. En nuestro siguiente teorema nos proponemos
contestar la siguiente cuestión: Dados los enteros r1,,rk que satisfacen (2.7), ¿cuántas
particiones (Z1,,Zk) para las cuales |Zi| = ri, i = 1,, k, existen?
Teorema 1.2.3 Sea Z un conjunto que contiene n elementos distintos, y sean r1,,rk
enteros que satisfacen (2.7), Entonces hay
n!
(2.8)
r1!rk !
distintas particiones (Z1,,Zk) de Z con |Zi| = ri, i = 1,, k.
PRUEBA Aplicaremos el principio básico. Al escoger Z1, estamos simplemente
seleccionando un subconjunto de tamaño r1 de Z, un conjunto conteniendo n elementos.
n 
Por el Teorema 1.2.2, esto puede ser hecho en   distintas formas. Después, debemos
 r1 
seleccionar Z2 de los restantes n  r1 elementos en Z  Z1. Esto puede ser hecho en
 n  r1 
  distintas formas. En general, debemos seleccionar Zi de los n  (r1 +  + ri-1)
 r2 
elementos de Z  (Z1  Zi-1), y esto puede ser hecho en
 n  r1    ri1 
ni   
 ri 
distintas formas, i = 2,, k. Por tanto, por el principio básico, (Z1,,Zk) puede ser
seleccionada en
 n   n  r1   n  r1    rk 1 
    (2.9)
 r1   r2   rk 
distintas formas. Finalmente, escribiendo los coeficientes binomiales en términos de

factoriales ahora encontramos que (2.9) es
n!  n  r1 !   n  r1    rk 1 !
r1! n  r1 ! r2! n  r1  r2 ! rk! n  r1    rk !
n!
=
r1! rk!
10 MODELOS DE URNAS
EJEMPLO 1.2.5
a Si Z ={1,2,3,4}, entonces hay 4!/2! = 12 particiones de Z para las cuales r1 = 1, r2 =
2, y r3 = 1.
b Una baraja de cartas puede ser particionada en cuatro manos de bridge en
52!/(13!)4 diferentes formas.
Los números
 n  n!
  (2.10)
 r1 , ,rk  r1! rk!
son llamados coeficientes multinomiales. Hay también un teorema multinomial que establece
que para números reales a1,,ak y enteros no negativos n
 n 
a1    ak  n    r ,,r a1r ak r
1 k
 1 k
donde la sumatoria se extiende sobre todos los enteros no negativos r1,,rk para los cuales r1
++rk = n. La prueba del teorema binomial es similar a esa del teorema binomial y será
omitida.
Revisemos brevemente. En esta sección, hemos presentado cuatro reglas de conteo—el
principio básico, fórmulas para el número de ketas ordenadas, una fórmula para el
número de combinaciones, y una fórmula para el número de particiones. Cuando son usadas
con una ligera cantidad de ingenio, estas cuatro reglas nos permitirán calcular una amplia
variedad de probabilidades interesantes. Puesto que ellas contienen la cantidad mínima de
análisis combinatorio con que la teoría de la probabilidad puede ser dominada, ellas deben
ser entendidas y memorizadas.
Más análisis combinatorio será encontrado en la Sección 1.6 y en los problemas al final de
este capítulo.
1.3 MODELOS DE URNAS

En esta sección y las siguientes dos, estudiaremos modelos para el siguiente juego: de una
urna que contiene bolas de varios colores, una muestra es tomada y examinada. Eso es,
algunas de las bolas son extraídas de la urna y examinadas. Estamos interesados en la
probabilidad de que la muestra tenga alguna propiedad particular, tal como contener tres
bolas de un color específico. Aquí los términos "bolas," "colores," y "urna" no son para ser
tomados literalmente sino como substitutos de los términos más prosaicos "objetos," "tipos
de objetos," y "grupo de objetos." Así, nuestro modelo tiene una aplicabilidad más amplia
que la que puede parecer en principio. Indudablemente, con una interpretación propia de los
términos "bolas," "colores,” y "urna," cada uno de los siguientes ejemplos puede ser
expresado como un problema de urnas.
EJEMPLO 1.3.1
a Encuestas de opinión Un grupo de personas (la muestra) es seleccionada de un
grupo más grande de personas (la urna) y requerida su opinión sobre algún tema
político o candidato. Aquí podemos considerar a las personas como bolas y las
diferentes opiniones como colores diferentes.
b Muestreo de aceptación De un lote de productos manufacturados (la urna) un
sublote (la muestra) es seleccionada y examinada para productos defectuosos. Aquí
podemos considerar los productos defectuosos como bolas de un color y los productos
no defectuosos como bolas de otro.
c Juego Podemos considerar una mano de póquer como una muestra de cinco cartas
de una baraja de cartas (la urna) y las cartas de diferentes denominaciones (o de
diferentes palos) como bolas de diferentes colores. Asimismo, si un dado es lanzado
repetidamente, los números de puntos que aparecen sobre los lanzamientos sucesivos
pueden ser considerados como una muestra de los enteros 1,,6, que, a su vez, pueden
ser considerados como bolas de seis diferentes colores.
d Coleccionando cupones Si un productor regala varios tipos de cupones con su
producto, podemos considerar los cupones como bolas, los tipos como colores, y los
cupones colectados por una persona en particular como la muestra. ////
Hay varios tipos de muestras que pueden ser tomadas de una urna, y será conveniente
distinguirlas. Primero, las bolas pueden ser tomadas secuencialmente (eso es, una a la vez) o
simultáneamente (todas a la vez). Denote Z el conjunto de bolas en la urna. Si las bolas son
tomadas secuencialmente, entonces podemos describir el suceso de nuestro juego por la
keta ordenada (z1,,zk) de elementos de Z, donde z1 denota la primera bola tomada de la
urna, z2 la segunda,, y k denota el número total de bolas tomadas. Así, referiremos a
(z1,,zk) como una muestra ordenada de tamaño k. Si las bolas son tomadas
simultáneamente, ya no hace sentido hablar de una primera bola o segunda bola y podemos
describir el suceso de nuestro muestreo sólo por el subconjunto (combinación) {z1,,zk} de
distintos elementos de Z que fueron seleccionados. Referiremos a {z1,,zk} como una
muestra desordenada de tamaño k. Debemos, por supuesto, tener k  |Z| en el caso de
muestras desordenadas.
Hay otra distinción adicional para ser considerada en el caso de muestras ordenadas.
12 MODELOS DE URNAS
Podemos, ya sea, remplazar cada bola después de que ha sido tomada y examinada, o no. En
el primer caso, nosotros diremos que el muestreo fue realizado con reemplazo, y en el
segundo, nosotros diremos que el muestreo fue realizado sin reemplazo. No consideraremos
aquí el esquema más complicado en el cual algunas de las bolas son remplazadas y otras no
lo son.
Ahora estableceremos modelos para cada uno de los tres tipos de muestreo.
Muestras desordenadas Si una muestra desordenada de tamaño k es tomada de una urna

conteniendo n bolas, entonces tomamos el espacio muestral S para ser el conjunto de todos
los subconjuntos de tamaño k que pueden ser tomados de la urna. Por el Teorema 1.2.2, hay
 n
entonces |S| =   posibles sucesos.
 k
Muestras ordenadas con reemplazo Si una muestra ordenada de tamaño k es tomada con
reemplazo de una urna con n bolas, entonces podemos tomar el espacio muestral S para ser
el conjunto de todas las ketas ordenadas (z1,,zk) con zi  Z, el conjunto de bolas, i = 1,,
k. En este caso, hay |S| = nk posibles sucesos por el Teorema 1.2.1.
Muestras ordenadas sin reemplazo Si una muestra ordenada de tamaño k es tomada sin
reemplazo de una urna conteniendo n bolas, entonces podemos tomar el espacio muestral S
para ser el conjunto de todas las ketas ordenadas (z1,,zk) con zi  zj para i  j y zi  Z, el
conjunto de bolas en la urna, i = 1,, k. En este caso, hay |S| = (n)k posibles sucesos por el
Teorema 1.2.1.
Diremos que una muestra ha sido tomada al azar cuando estemos suponiendo que todas las
muestras del tamaño y tipo en cuestión son igualmente verosímiles. En este caso podemos
calcular muchas probabilidades interesantes de (1.1) y los resultados de la Sección 1.2. Para
estos cálculos, es imperativo que el lector no confunda el espacio muestral S con el conjunto
de bolas en la urna. El espacio muestral apropiado depende sobre el tipo de muestreo y ha
sido definido arriba.
EJEMPLO 1.3.2
Todas las partes del ejemplo se refieren a una urna que contiene 4 bolas rojas y 4 bolas
blancas. Así, hay n = 8 bolas en la urna.
a Si una muestra ordenada de tamaño 2 es tomada al azar con reemplazo, ¿cuál es la
probabilidad de que la muestra contendrá 2 bolas rojas? El espacio muestral S consiste de
todos los pares ordenados (z1,z2) que pueden ser tomados de la urna. Por tanto, |S| = 82 por el
Teorema 1.2.1. Requerimos la probabilidad del evento A, que consiste de todos los pares
ordenados (z1,z2)para los cuales z1 y z2 son ambos rojos. Así, para seleccionar un
elemento de A, tenemos 4 selecciones para z1 y 4 selecciones para z2 (puesto que el
muestreo es con reemplazo). Por tanto, hay |A| = 42 = 16 elementos en A, así que P(A) =
16/64 = ¼.
b Si el muestreo es sin reemplazo, encontraríamos |S| = 8  7 = 56, |A| = 4  3 = 12, y
P(A) = 12/56 = 3/14.
c Calculemos la probabilidad de tomar 2 bolas rojas cuando una muestra aleatoria
desordenada de tamaño 2 es tomada de la urna. En este caso el espacio muestral S consiste
de todos los subconjuntos de tamaño 2 que pueden ser tomados de las 8 bolas, así que |S| =
 8
  = 28. El evento A ahora consiste de todos los subconjuntos de tamaño 2 que pueden ser
 2
 4
tomados de las 4 bolas rojas, así que |A| =   = 6. Por tanto, P(A) = 2/28 = 3/14. Como
 2
veremos en la Sección 1.5, no es accidental que las respuestas en las partes b y c sean las
mismas. ////
Los Ejemplos 1.3.2a a c pueden ser generalizados considerablemente, y consideraremos
estas generalizaciones en las siguientes dos secciones. Concluimos esta sección con dos
resultados simples pero interesantes.
Si una muestra ordenada de tamaño k es tomada (ya sea con o sin reemplazo) de una urna
que contiene m bolas rojas y n  m blancas, es intuitivamente claro que la probabilidad de
tomar una bola roja en la primera extracción es m/n. Esta es también la probabilidad de
tomar una bola roja en la segunda, o tercera, o jésima extracción, j = 1,, k, como ahora
mostraremos.
Teorema 1.3.1 Sea una muestra aleatoria ordenada de tamaño k  1 tomada ya sea
con o sin reemplazo de una urna conteniendo m bolas rojas y n  m blancas, y sea Ai el
evento que la iésima bola tomada es roja para i = 1,, k. Entonces, P(Ai) = m/n, i =
1,, k.
PRUEBA Si el muestreo es con reemplazo, entonces hay |S| = nk posibles sucesos y Ai
consiste de todas las ketas ordenadas (z1,,zk) para las cuales zi es roja. Así, hay m posibles
selecciones para zi y n selecciones para zj para j  i puesto que zj no está restringida por
Ai para j  i. Por el principio básico, hay |Ai| = nnmnn = mnk-1 sucesos en Ai, y por
lo tanto P(Ai) = m/n, como se aseveró.
Si el muestreo es sin reemplazo, la situación es ligeramente más complicada, y daremos
la prueba sólo para el caso especial donde i = 2. Claramente, A2 = A1A2  A1' A2 con
14 MODELOS DE URNAS
A1A2  A1' A2  A1 A1' = , así que P(A2) = P(A1A2) + P( A1' A2 ). así, necesitamos sólo
calcular P(A1A2) y P( A1' A2 ).
En el muestreo sin reemplazo hay |S| = (n)k posibles sucesos. Ahora A1A2 consiste de todas
las ketas ordenadas (z1,,zk) para las cuales z1 es roja y z2 es roja y zj no está
restringida para j = 3,,k, así que hay m selecciones para z1, m  1 selecciones para z2,
y (n  2)k-2 selecciones para (z3,,zk). Así, |A1A2| = m(m  1)(n  2)k-2 por el principio
básico. Por tanto, P(A1A2) = m(m  1)  (n  2)k-2/(n)k = m(m  1)/n(n  1).
Análogamente, P( A1' A2 ) = m(n  m)/n  (n  1), así que
m m  1  m n  m m
P A2   
n n  1 n
EJEMPLO 1.3.3
En la rifa de reclutamiento nacional, bolas numeradas con los días del año son extraídas
secuencialmente y sin reemplazo de una urna. ¿Cuál es la probabilidad de que la última bola
tomada estará numerada con un día de Enero? Podemos considerar las bolas numeradas con
días en Enero como bolas rojas y las otras como bolas blancas. Entonces tenemos una
muestra aleatoria sin reemplazo de tamaño k = 365 de una urna conteniendo m = 31 bolas
rojas y n  m = 334 bolas blancas. La probabilidad deseada es por lo tanto m/n = 31/365 =
0.085.† ////
Ahora consideremos una urna que contiene n bolas de diferentes colores. Si una muestra
aleatoria ordenada de tamaño k es tomada con reemplazo, ¿cuál es la probabilidad de que las
k bolas tomadas serán de diferentes colores? Eso es, si la repetición es permitida en la
muestra, ¿cuál es la probabilidad de que ninguna repetición ocurra?
Teorema 1.3.2 Si una muestra aleatoria ordenada de tamaño k es tomada con
reemplazo de una urna conteniendo n bolas de diferentes colores, entonces la
probabilidad de que todas las bolas en la muestra sean de diferentes colores es
k
 i  1
pn ,k   1  
i 1  k 
PRUEBA El espacio muestral S consiste de todas las ketas ordenadas (z1,,zk) que pueden
ser seleccionadas de las n bolas, y así |S| = nk por el Teorema 1.2.1. El evento A de que todas
†
5 Respuestas numéricas a menudo serán redondeadas. Son exactas a el número de decimales dados.
las bolas en la muestra sean de diferentes colores consiste de todas las ketas ordenadas
(z1,,zk) con distintas componentes, así que |A| = (n)k, de nuevo por el Teorema 1.2.1.
Así,
 n k  1   2   k  1
P A   1 1   1    1  
nk  n  n  n 
EJEMPLO 1.3.4
a Si un dado balanceado es lanzado seis veces, ¿cuál es la probabilidad de que
ninguna cara aparezca más de una vez? Por (3.1) esta probabilidad es simplemente
(6)6/66 = 6!/66 = 0.0154, puesto que los seis tiros seleccionan una muestra de tamaño k
= 6 de los enteros {1,,6}. Así, aunque las caras son igualmente verosímiles de
aparecer sobre cualquier lanzamiento, la probabilidad de que todas ellas aparezcan
durante seis lanzamientos es menor a 1 en 50.
b Si 25 personas se reúnen en una fiesta, ¿cuál es la probabilidad que todos ellos
tengan diferentes cumpleaños? Consideremos los 365 días del año como bolas de
diferentes colores y los cumpleaños de las personas como una muestra aleatoria con
reemplazo de las 365 bolas. Sea A el evento de que ninguna pareja tenga el mismo
cumpleaños. Así, P(A) = p365,25 = 0.44. Eso es, si 25 personas se reúnen en una fiesta, la
probabilidad que ninguna pareja tenga el mismo cumpleaños es menor a 0.5. ////
Una aproximación sencilla a pn,k será dada en el Ejemplo 1.7.2.
1.4. MUESTRAS DESORDENADAS

En esta sección consideramos problemas que surgen cuando una muestra aleatoria
desordenada de tamaño k  1 es tomada de una urna conteniendo m bolas rojas y n  m bolas
blancas. Aquí m y n son enteros no negativos con n  k. ¿Cuál es la probabilidad de obtener
exactamente r bolas rojas en la muestra, donde r es un entero no negativo con r  k? La
respuesta es provista por el siguiente teorema, que generaliza el Ejemplo 1.3.2c.
Teorema 1.4.1 Si una muestra aleatoria desordenada de tamaño k es tomada de una
urna que contiene m bolas rojas y n  m bolas blancas con k  n, entonces la
probabilidad de que la muestra contendrá exactamente r bolas rojas es
16 MUESTRAS DESORDENADAS
 m  n  m
  
r  k  r 
pr  (4.1)
 n
 
 k
para r = 0, 1,, k.
PRUEBA El espacio muestral S para este problema es el conjunto de todas las
 n
muestras desordenadas que pueden ser tomadas de una urna. Por tanto, hay |S| =  
 k
posibles sucesos. Sea A  S el evento consistiendo de todas las muestras desordenadas
que contienen exactamente r bolas rojas . Necesitamos encontrar |A|. Una muestra
desordenada que contiene exactamente r bolas rojas puede ser seleccionada en dos
pasos. Primero, seleccione un subconjunto de tamaño r de las m bolas rojas en la urna;
entonces seleccione un subconjunto de tamaño k  r de las n  m bolas blancas en la
urna. Eso es, un elemento de A corresponde unívocamente a un par ordenado (Z0,Z1),
donde Z0 es una combinación de r bolas rojas y Z1 es una combinación de k  r bolas
blancas . El primer paso requiere la selección de un subconjunto de tamaño r de un
 m
conjunto de m elementos y puede por lo tanto ser realizado en   formas por el
r 
 n  m
Teorema 1.2.2. Análogamente, el segundo paso puede ser realizado en   formas
k  r 
por el mismo teorema. Por tanto,
 m  n  m
A    
r  k  r 
 m  n  m  n
por el principio básico. Así, P A  A S        , como se aseveró. ////
r k  r   k
La probabilidad de obtener exactamente r bolas rojas es, por supuesto, cero si r > m o k  r >
n  m. El lector debe verificar que nuestras convenciones acerca de los coeficientes
binomiales dan pr = 0 en estos casos.
Los números pr son conocidos como las probabilidades hipergeométricas. Para tablas de las
probabilidades hipergeométricas para 0  r  k, 0  m  n, 1  k  n, y 1  n  20, ver Beyer
(1966).
EJEMPLO 1.4.1
En estos ejemplos, consideramos una mano de póquer como una muestra aleatoria
desordenada de tamaño 5 tomada de una baraja estándar de 52 cartas.
a La probabilidad que una mano de póquer contenga exactamente 3 ases es
 4  48
  
 3  2 
 0.001736 (4.2)
 52
 
 5
porque podemos considerar los 4 ases como bolas rojas y las 48 no ases como bolas
blancas. El Teorema 1.4.1 entonces se aplica con m = 4, n = 52, k = 5, y r = 3. Más
generalmente, la Ecuación (4.2) da la probabilidad de obtener exactamente tres cartas
de cualquier denominación especificada, tal como reyes, reinas, etc..
b ¿Cuál es la probabilidad de que una mano de póquer contenga exactamente 3 cartas
de una denominación no especificada (3 de una clase)? Sea A el evento de que la mano
contenga 3 cartas de alguna denominación. Entonces podemos seleccionar un elemento
de A en tres pasos. Primero, seleccionamos una denominación; entonces seleccionamos
3 cartas de las 4 cartas de esa denominación; entonces seleccionamos 2 cartas de las
restantes 48 cartas. El primer paso puede ser realizado en 13 formas puesto que hay 13
 4  48
denominaciones, y los últimos dos pueden ser realizados en     formas por la
 3  2 
parte a. Por tanto, la probabilidad deseada es
 4  48
  
 3  2 
13  0.0226
 52
 
 5
c La probabilidad de obtener exactamente 4 ases es
 4  48
  
 4  1 
 0.0000184
 52
 
 5
de nuevo por el Teorema 1.4.1. Por tanto, la probabilidad de obtener al menos 3 ases es
.001736 + .0000184 = 0.00175 por la Ecuación (1.3). La probabilidad de obtener al
menos 3 de cualquier denominación puede ahora ser calculada como en la parte b.
d La probabilidad de obtener exactamente 2 ases es
 4  48
  
 2  3 
 0.03993
 52
 
 5
que también da la probabilidad de obtener exactamente 2 cartas de cualquier

denominación especificada. Sin embargo, la probabilidad de obtener exactamente 2
 4  48  52
cartas de una denominación no especificada no es 13      , puesto que es
 2  3   5 
posible obtener más de un par en una sola mano.
e La probabilidad de que una mano de póquer contenga exactamente 3 corazones es
13  39  52
      . Aquí podemos considerar los corazones como bolas rojas. ////
 3  2   2 
EJEMPLO 1.4.2
Muestreo de aceptación. Considere una compañía que mercadea sus bienes en lotes de
tamaño n = 100. Suponer que cada lote contiene un número desconocido m de elementos
defectuosos y de que es desventajoso para la compañía liberar un lote que contenga más de 5
elementos defectuosos. Suponer también que el proceso de inspección de los elementos en
un lote es caro. Entonces la compañía puede desear inspeccionar sólo una muestra
seleccionada aleatoriamente de cada lote, para liberar inmediatamente aquellos lotes de los
cuales las muestras no contengan defectuosos, e inspeccionar todos los elementos en
aquellos lotes de los cuales las muestras contengan al menos un defectuoso. La probabilidad
de que un lote particular sea liberado (i.e., que la muestra no contendrá defectuosos) es
entonces
100  m
 
 k 
q k , m 
100
 
 k 
porque podemos considerar los elementos defectuosos como bolas rojas y los no defectuosos
como bolas blancas. Por supuesto, si m > 5, entonces q(k,m) es la probabilidad de liberar un
lote malo, uno que contiene demasiados defectuosos. ¿Qué tan grande es esta probabilidad?
La respuesta depende de los parámetros m y k. Valores típicos están dados en la Tabla 1.
La compañía puede desear controlar la probabilidad de liberar un lote malo seleccionando el
tamaño de muestra k. Eso es, la compañía puede desear seleccionar k de tal manera que la
probabilidad de liberar un lote malo es a lo más un número especificado . ¿Qué tan grande
debe ser k para que la probabilidad de liberar un lote malo sea a lo más  = 0.05? Puesto que
q(k,m) es una función decreciente de m, será suficiente seleccionar k de tal manera que q(k,6)
 0.05. La tabla indica que 40 es un tamaño de muestra suficientemente grande. De hecho,
39 es el valor más pequeño de k para el cual q(k,6)  0.05. ////
El Teorema 1.4.1 se extiende del caso de dos colores al caso de varios. Así, considere una
urna que contiene bolas de c diferentes colores. Sea n1 el número de bolas del primer color,
n2 el número de bolas del segundo color, y, en general, sea ni el número de bolas del iésimo
color, i = 1,, c. Entonces hay n = n1 +  + nc bolas en la urna. Suponer ahora que una
muestra desordenada de tamaño k es tomada al azar de la urna, sean k1,,kc enteros no
negativos para los cuales k1 +  + kc = k. Entonces podemos calcular la probabilidad de que
la muestra contenga exactamente k1 bolas del primer color, exactamente k2 bolas del segundo
color, etc.
Tabla 1
k
m 10 25 40 50
3 0.727 0.418 0.212 0.121
6 0.522 0.169 0.042 0.013
9 0.371 0.066 0.007 0.001
Teorema 1.4.2 Con la notación del párrafo anterior, la probabilidad de que la muestra
contenga exactamente ki bolas de color i, i = 1,, c es
 n1   nc 
   
 k1   kc 
 n
 
 k
Ya que la notación es algo difícil, ejemplificamos el Teorema 1.4.2 antes de probarlo.
EJEMPLO 1.4.3
a ¿Cuál es la probabilidad de que una mano de póquer contenga 3 ases y 2 reyes?
Consideremos los ases como bolas rojas, los reyes como bolas negras, y el resto como
bolas blancas. Entonces, tenemos n1 = 4 bolas rojas, n2 = 4 bolas negras, y n3 = 44
bolas blancas, y requerimos la probabilidad de obtener una muestra que contenga k1 = 3
bolas rojas, k2 = 2 bolas negras, y k3 = 0 bolas blancas. Por el Teorema 1.4.2, esto es
 4  4  44  4  4
        
 3  2  0   3  2
  0.00000923 (4.3)
 52  52
   
 5  5
Más generalmente, (4.3) da la probabilidad de que una mano de póquer contendrá 3
cartas de una denominación especificada y 2 de otra.
b ¿Cuál es la probabilidad de obtener 3 cartas de una denominación no especificada y
2 de otra (un full)? Podemos seleccionar un par ordenado de distintas denominaciones
en (13)2 formas por el Teorema 1.2.1; después podemos seleccionar 3 cartas de la
 4  4  44  4  4
primera denominación y 2 de la segunda en            formas por la parte
 3  2  0   3  2
 4  4  52
a. Por tanto, la probabilidad deseada es 13 2        0.00144.
 3  2  5 
c La probabilidad de obtener 2 ases, 2 reyes, y 1 carta que no sea ni as ni rey es
 4  4  44  52
         0.00061, por el Teorema 1.4.2. Ésta es también la probabilidad
 2  2  1   5 
de que una mano tenga exactamente 2 cartas de una denominación especificada,
exactamente 2 cartas de otra, y 1 que no esté en ninguna de las denominaciones dadas.
d La probabilidad de obtener exactamente 2 cartas de cada una de dos denominaciones
2
13  4  44
 52
no especificadas es        0.0475 . De hecho, podemos seleccionar un
 
 2   2  1
 5
13
conjunto de dos distintas denominaciones en   formas; después podemos seleccionar una
 2
2
 4  44
mano con exactamente 2 cartas de cada una de estas dos denominaciones en    
 2  1 
formas por la parte c. Observe que multiplicamos por (13)2 en una situación análoga en la
parte b. ////
EJEMPLO 1.4.4
Encuestas de opinión. Suponer que un electorado consiste de n individuos de los cuales na
favorecen al candidato A, nb favorecen al candidato B, y nu están indecisos. Para aprender
acerca de la opinión colectiva del electorado, una muestra aleatoria desordenada de tamaño k
es seleccionada del mismo, y los miembros de la muestra son interrogados por sus opiniones.
Si ka, kb, y ku son enteros no negativos para los cuales ka + kb + ku = k, ¿cuál es la
probabilidad que ka miembros de la muestra favorecerán a A, kb favorecerán a B, y ku estarán
indecisos? La respuesta puede ser obtenida por una aplicación directa del Teorema 1.4.2
 na   nb   nu   n
como         . ////
 ka   kb   ku   k 
PRUEBA del Teorema 1.4.2 Como en la prueba del Teorema 1.4.1, el espacio muestral
para nuestro juego es el conjunto de todas las muestras desordenadas que pueden ser
 n
tomadas de la urna. Por tanto, |S| =   . Ahora requerimos la probabilidad del evento A, que
 k
consiste de todas las muestras desordenadas conteniendo exactamente ki bolas de color i, i =
1,, c. Un elemento de A puede ser escogido en c pasos. Primero, escoja un subconjunto de
tamaño k1 de las n1 bolas de color 1. Después, seleccione un subconjunto de tamaño k2
de las n2 bolas de color 2. Así, debemos tomar un subconjunto de tamaño ki de las ni
 ni 
bolas de color i, i = 1,, k. El iésimo paso puede ser realizado en   formas por el
 ki 
Teorema 1.2.2. Por el principio básico,
 n1   n2   nc 
A       
 k1   k2   kc 
El Teorema se sigue de (1.1). ////
1.5. MUESTRAS ORDENADAS1

Ahora consideremos muestras ordenadas. Como en la sección previa, consideraremos una
urna que contiene m bolas rojas y n  m bolas blancas de las cuales una muestra de tamaño k
1
6 Los principales resultados de esta sección serán derivados de nuevo en un contexto más general en las Secciones 4.1
y 4.2.
22 MUESTRAS ORDENADAS
es para ser tomada, y encontraremos la probabilidad de que la muestra contenga exactamente

r bolas rojas. Esta vez, sin embargo, consideraremos muestras ordenadas.
En el caso de muestras ordenadas, hay una distinción importante para ser hecha entre tomar r
bolas rojas en la muestra y tomar bolas rojas sobre r tomas especificadas. Por ejemplo, si una
muestra aleatoria ordenada de tamaño k = 3 es tomada con reemplazo de una urna que
contiene m = 1 bola roja y n  m = 1 bola blanca, entonces la probabilidad de que las
primeras dos bolas tomadas sean rojas y la tercera sea blanca es simplemente 1/23 = 1/8.
Porque el espacio muestral S (que consiste de todas las tripletas ordenadas que pueden ser
tomadas de las 2 bolas) contiene nk = 23 = 8 elementos, sólo uno de los cuales resulta en 2
bolas rojas seguidas por 1 bola blanca. Análogamente, la probabilidad de que la primera y la
tercera bolas tomadas sean rojas mientras que la segunda sea blanca es también 1/8, como es
la probabilidad de que la primera bola tomada sea blanca mientras que la segunda y tercera
sean rojas. Así, la probabilidad de que bolas rojas sean tomadas sobre cualesquiera dos
tomas especificadas es 1/8. El evento de que la muestra contenga exactamente 2 bolas rojas
puede ocurrir en tres formas, sin embargo, es decir, (roja, roja, blanca), (roja, blanca, roja), y
(blanca, roja, roja). Por tanto, la probabilidad de que la muestra contenga exactamente 2
bolas rojas es 3/8. Habiendo, esperamos, hecho la distinción clara, ahora desarrollaremos
algunas fórmulas generales. Empezamos con el caso de r tomas especificadas.
Lema 1.5.1 Sea una muestra aleatoria ordenada de tamaño k  1 tomada de una
urna que contiene m bolas rojas y n  m bolas blancas. Entonces la probabilidad de
que bolas rojas sean tomadas sobre r tomas especificadas y bolas blancas sean
tomadas sobre las tomas restantes es
mr  n  m
k r
(5.1)
nk
si el muestreo es con reemplazo y es
 mr  n  m k r
(5.2)
 n k
si el muestreo es sin reemplazo y k  n.
PRUEBA Probaremos el lema para muestreo con reemplazo sólo, ya que la
prueba para muestreo sin reemplazo es análoga. El espacio muestral S es entonces el
conjunto de todas las ketas ordenadas (z1,,zk) que pueden ser tomadas de la urna, así
|S| = nk. Denote J  {1,,k} el conjunto consistente de las r tomas especificadas, y sea
A el evento de que las bolas rojas son tomadas sobre tomas i  J y que las bolas
blancas son tomadas sobre tomas i  J. Para seleccionar un elemento de A, entonces
tenemos ni selecciones para la iésima bola, donde ni = m (el número de bolas rojas en
la urna), si i  J y ni = n  m si i  J. Así, hay n1n2nk = mr(n  m)k-r distintos

elementos en A por el principio básico. La expresión (5.1) ahora se sigue fácilmente.////
Como un corolario a el Lema 1.5.1, ahora calculamos la probabilidad de que la primera bola
roja para ser tomada sea tomada sobre la késima (última) toma.
Teorema 1.5.1 Si una muestra aleatoria ordenada de tamaño k es tomada de una

urna que contiene m bolas rojas y n  m bolas blancas, entonces la probabilidad de
que la primera bola roja para ser tomada sea tomada en la késima toma es
m n  m
k 1
(5.3a )
nk
si el muestreo es con reemplazo y es
m n  m k 1
(5.3b)
 n k
si el muestreo es sin reemplazo y k  n.

PRUEBA El evento de que la primera bola roja sea tomada en la késima
toma requiere que una bola roja sea tomada sobre una toma especificada, la última. Así,
(5.3a) y (5.3b) son casos especiales de (5.1) y (5.2), respectivamente. ////
La expresión (5.3a) define un caso especial de las probabilidades geométricas, que
encontraremos de nuevo en la Sección 4.2.
EJEMPLO 1.5.1
a Si una moneda balanceada es lanzada k veces, la probabilidad de que la primera
águila surgirá en el késimo lanzamiento es 2-k, porque podemos tomar los primeros k
lanzamientos como una muestra ordenada con reemplazo del conjunto {águila, sol}.
b Si un hombre tiene n llaves, sólo una de las cuales abrirá su puerta, y si las ensaya
en un orden aleatorio (sin reemplazo), ¿cuál es la probabilidad de que el ensayará
exactamente k  1 llaves incorrectas antes de encontrar la correcta? Si consideramos la
llave correcta como una bola roja y las incorrectas como bolas blancas , la respuesta
está dada por (5.3b) como
11 n  1 k 1 1

 n k n
para k = 1, 2,. Así, el hombre es tan verosímil para ensayar una llave, como dos
llaves, como tres llaves, etc. ////
Ahora calcularemos la probabilidad que la muestra contendrá exactamente r bolas rojas.
Teorema 1.5.2 Sea una muestra aleatoria ordenada de tamaño k tomada de una
urna que tiene m bolas rojas y n  m bolas blancas. Si el muestreo es con reemplazo,
entonces la probabilidad que la muestra contendrá exactamente r bolas rojas es
 k r
  m  n  m
k r
r
(5.4)
nk
para r = 0,,k. Si el muestreo es sin reemplazo, y k  n, entonces la probabilidad que
la muestra contendrá exactamente r bolas rojas es
 k
   m r  n  m k r
r
(5.5)
 n k
para r = 0,,k.
PRUEBA De nuevo, probaremos el teorema sólo para muestreo con
reemplazo, puesto que la prueba para muestreo sin reemplazo es análoga. Así, el
espacio muestral contiene |S| = nk elementos. Denote B el evento que la muestra
contiene exactamente r bolas rojas . Entonces, un elemento de B puede ser
seleccionado en dos pasos. Primero, seleccione un subconjunto J de tamaño |J| = r de
los enteros 1,,k. Después, tome bolas rojas en aquellas tomas i  J y tome bolas
 k
blancas en aquellas tomas i  J. El primer paso puede ser realizado en   distintas
r
formas por el Teorema 1.2.2, y el segundo en m (n  m) por el Lema 1.5.1. Por tanto,
r k-r
 k
B    mr  n  m
k r
r 
por el principio básico. El teorema se sigue.
EJEMPLO 1.5.2
a Si un dado balanceado es tirado 5 veces, la probabilidad de obtener exactamente 1
punto sobre la primera y última tiradas y más de 1 punto sobre la otras tres tiradas es
(1/6)2(5/6)3 = 0.0161 por Lema 1.5.1. La probabilidad de obtener exactamente 1 punto

 5  1   5 
2 3
sobre exactamente dos lanzamientos es        0161 . por Teorema 1.5.2.
 2  6   6 
b Si una moneda balanceada es lanzada k veces, ¿cuál es la probabilidad de obtener
exactamente r águilas? Podemos considerar águila como una bola roja y sol como una
bola blanca. Así, los k lanzamientos constituyen una muestra aleatoria ordenada de una
urna conteniendo m = 1 bola roja y n  m = 1 bola blanca, y la probabilidad requerida
 k
es por lo tanto   2  r . ////
r
En la Ecuación (5.4), sea p = m/n y q = 1  p = (n  m)/n. Entonces, la primera conclusión en

el Teorema 1.5.1 puede ser establecida: la probabilidad de obtener exactamente r bolas rojas
cuando se muestrea con reemplazo es
 k  r k r
 p q r  0, , k (5.6)
r
Estos números son conocidos como las probabilidades binomiales. Las encontraremos de
nuevo en los Capítulos 4 y 5. Tablas de las probabilidades binomiales para 0  r  k, 1  k 
10, y valores seleccionados de p serán encontradas en el Apéndice C. Para tablas más
extensas ver, por ejemplo, Beyer (1966) o Selby (1965).
Es interesante que la probabilidad de obtener exactamente r bolas rojas en una muestra
aleatoria ordenada que es tomada sin reemplazo es la misma que la probabilidad de tomar
exactamente r bolas rojas en una muestra desordenada. Para ver esto observe que, por (5.5),
la probabilidad que una muestra aleatoria ordenada contenga exactamente r bolas rojas es
 k
   m r  n  m k r
r k!  m r  n  m k r

 n k r! k  r !  n k
 m r  n  m k r  k  r !
=
r!  n k k!
 m  n  m
  
r  k  r 
= (5.7)
 n
 
 k
que es también la probabilidad que una muestra aleatoria desordenada contenga exactamente
r bolas rojas.
También es interesante que si m, n, y n  m son todos grandes, entonces la diferencia entre
las probabilidades binomiales (5.4) y las probabilidades hipergeométricas (5.5) es pequeña.
Para ver esto observe que
 n k k n  i 1
k
 1
n i 1 n
cuando n   para cada k = 1, 2, fija. Así, si n   y m   de tal manera que m/n  p,
0 < p < 1, entonces
 k
   m r  n  m k r
r
lim
 n k
 k  m  n  m
r k r
 mr  n  m k r n k  k
= lim          p r q k r (5.8)
r   n  n  mr  n  m k r  n k r 
donde q = 1  p, para r = 0,,k para cada k fija. El valor práctico de (5.8) es que el lado
izquierdo de (5.8) puede ser aproximado por el lado derecho si m y n son suficientemente
grandes. De hecho, la aproximación (5.8) será buena provisto sólo que k2/n, r2/m, y (k 
r)2/(n  m) son todos pequeños (ver Problemas 1.62 y 1.63).
EJEMPLO 1.5.3 Encuestas de opinión

De un electorado de n = 70,000,000 una muestra aleatoria de tamaño k es tomada, y
miembros de la muestra son interrogados si ellos prefieren al candidato A o al candidato B.
¿Cuál es la probabilidad que exactamente r miembros de la muestra preferirán al candidato
A? Denote m el número de personas en el electorado quienes prefieren al candidato A, y
suponer, por simplicidad, que el resto n  m prefieren al candidato B. Entonces, la
 m  n  m  n
probabilidad exacta está dada por Teorema 1.4.1 como       . Por las
 r   k  r   k
 k
Ecuaciones (5.7) y (5.8), esta es aproximadamente   p r q k r , donde p = m/n y q = 1  p,
r
provisto que k /n, r /m, y (k  r) /(n  m) son pequeños. En particular, si 20,000,000  m 
2 2 2
50,000,000, la aproximación es excelente para k  500. ////

1.6. PROBLEMAS DE OCUPACIÓN1

En las tres secciones previas, hemos abordado extensivamente problemas que surgen cuando
bolas son tomadas de una urna. Ahora dirigimos nuestra atención a problemas que surgen
cuando bolas son ubicadas en urnas, o celdas, como las llamaremos en esta sección.
Suponer, entonces, que tenemos k bolas que deseamos ubicar en n celdas, y preguntémonos
como cuántas configuraciones distinguibles de bolas en las celdas pueden ser así formadas.
Como en la Sección 1.3, debemos considerar varios casos. Podemos tener bolas distinguibles
o bolas indistinguibles, y podemos permitir repetición (eso es, más de 1 bola en una celda) o
no. Hay una relación definida con la teoría de muestreo de la Sección 1.3 aquí, porque
podemos considerar las k bolas como seleccionando una muestra de las n celdas. En esta
analogía, vemos que la distinción entre bolas distinguibles e indistinguibles hecha aquí
corresponde a la distinción entre muestras ordenadas y desordenadas hecha en la Sección
1.3. Más aún, el concepto de repetición introducido arriba corresponde al concepto de
reemplazo en la Sección 1.3.
Por tanto, tenemos el siguiente teorema.
Teorema 1.6.1 Sean n y k enteros positivos. Si k bolas distinguibles son ubicadas

en n celdas, entonces hay nk arreglos distinguibles de bolas en las celdas si la
repetición es permitida y hay (n)k arreglos distinguibles de bolas en las celdas si la
repetición no es permitida y k  n. Más aún, si k bolas indistinguibles son ubicadas en
 n
n celdas, donde k  n y la repetición no es permitida, entonces hay   arreglos
 k
distinguibles de bolas en las celdas.
La característica original que encontramos cuando se ubican bolas en las celdas es que
podemos ubicar bolas indistinguibles en las celdas con repetición, mientras que nosotros no
definimos una muestra desordenada con reemplazo. El número de arreglos distinguibles en
este caso está dado por el siguiente teorema.
Teorema 1.6.2 Sean n y k enteros positivos. Si k bolas indistinguibles son ubicadas

en n celdas con repetición permitida, entonces hay
 n  k  1  n  k  1
   
 k   n 1 
1
7 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad.
28 PROBLEMAS DE OCUPACIÓN
 k  1
arreglos distinguibles de bolas en las celdas; y si k  n, entonces hay   de tales
 n  1
arreglos en los cuales ninguna celda permanece vacía.
PRUEBA Dividamos las celdas por las líneas y representemos las bolas por
círculos. Así, si n = 5 y k = 4, representamos las cinco celdas como 1 | 2 | 3 | 4 | 5. El
arreglo
  
representa el arreglo con ninguna bola en la primera celda, 2 en la segunda, ninguna en

la tercera, y 1 en cada una de la cuarta y quinta celdas. Observe que necesitamos sólo n
 1 = 4 líneas para representar las n = 5 celdas puesto que las paredes exteriores de la
primera y última celdas no están explícitamente dibujadas. En general, podemos
representar cualquier arreglo distinguible de bolas en las celdas por tal orden, donde el
número de círculos a la izquierda de la primera línea da el número de bolas en la
primera celda, el número de círculos entre la primera y segunda líneas da el número de
bolas en la segunda celda, etc. El número de arreglos distinguibles de bolas en las
celdas es por lo tanto igual al número de ordenamientos distinguibles que pueden ser
formados de k círculos y n  1 líneas. Puesto que podemos escoger k de los n + k  1
lugares para ser ocupados por círculos en exactamente
 n  k  1  n  k  1
   
 k   n 1 
formas por el Teorema 1.2.2 (compare Ejemplo 1.2.4c), la primera aseveración del
teorema ha sido probada. La segunda ahora se sigue fácilmente. Indudablemente, si k 
n y requerimos que cada celda contenga al menos 1 bola, entonces estamos en libertad
para ubicar sólo k' = k  n de las bolas como gustemos, y podemos hacerlo así en
 n  k   1  k  1
   
 k    n  1
distintas formas por la primera aseveración del Teorema 1.6.2. ////
EJEMPLO 1.6.1
10
a Si cinco dados indistinguibles son lanzados, entonces hay   = 252 sucesos
 5
distinguibles. Simplemente considere los dados como bolas y los enteros 1,, 6 como
celdas. Si los dados están desbalanceados, sin embargo, los sucesos distinguibles no
serán igualmente verosímiles.
 8
b Si nueve dados indistinguibles son lanzados, entonces hay   = 56 sucesos
 5
distinguibles para los cuales cada uno de los enteros 1,, 6 aparece sobre al menos un
dado. ////
1
Los Teoremas 1.6.1 y 1.6.2 encuentran aplicación en mecánica estadística. Considere una
región del espacio que contiene k partículas, tales como electrones o fotones, e imagine la
región subdividida en n subregiones (celdas). Si las partículas son consideradas como
distinguibles, y si cada arreglo de partículas en las celdas (con repetición permitida) es
igualmente verosímil, entonces se dice que las partículas obedecen la estadística Maxwell-
Boltzmann. Aunque la estadística Maxwell-Boltzmann ciertamente parece ser una suposición
razonable, no se aplica a ninguna clase conocida de partículas. Si las partículas son
 n  k  1
indistinguibles , y si los   arreglos distinguibles de partículas en las celdas (con
 n 1 
repetición permitida) son igualmente verosímiles, entonces se dice que las partículas
obedecen la estadística Bose-Einstein. Fotones obedecen la estadística Bose-Einstein.
Finalmente, si las partículas son indistinguibles, si no dos pueden ocupar la misma celda y si
 n
los   arreglos distinguibles son igualmente verosímiles, entonces se dice que las partículas
 k
obedecen la estadística Fermi-Dirac. Este modelo aplica a electrones, protones, y neutrones.
EJEMPLO 1.6.2
a Si las partículas obedecen la estadística de Bose-Einstein y k  n, entonces la
 k  1  n  k  1
probabilidad que cada celda sea ocupada es    .
 n  1  n  1 
b Considere una subregión que contenga m < n celdas. Si las partículas obedecen la
estadística Bose-Einstein, entonces la probabilidad de que la subregión contendrá todas
 m  k  1  n  k  1
las partículas es    .
 m 1   n 1 
c Si las partículas obedecen la estadística Fermi-Dirac, entonces la probabilidad de que la
1
8 Ver, por ejemplo, Constant (1958), caps. 5 y 6.
30 EL TEOREMA BINOMIAL GENERALIZADO
 m  n  m  n
subregión contenga exactamente r partículas es       , r = 0,, k, por el
r k  r   k
Teorema 1.4.2. ////
Más aplicaciones del Teorema 1.6.2 serán encontradas en los problemas al final de este
capítulo.
1.7. EL TEOREMA BINOMIAL GENERALIZADO

Tendremos la ocasión para sumar ciertas series y aproximar ciertas funciones. En esta
sección discutimos una herramienta para realizar estas operaciones, es decir, el teorema de
Taylor, que el lector ha probablemente encontrado en un curso de cálculo. 1 El teorema de
Taylor establece lo siguiente. Sea f una función que está definida sobre un intervalo (a,b) y
tiene k derivadas ahí; si x0  (a,b), entonces
k 1 1 1 k
f  x   f  x0     x0  x  x0  j  f  x1  x  x0 
j k
f (7.1)
j 1 j! k!
para x  (a,b), donde x1 yace entre x y x0 y f j denota a la jésima derivada de f, j = 1,, k.

Eso es, f puede ser aproximada por un polinomio en una vecindad de cualquier punto dado
x0 .
EJEMPLO 1.7.1
a Tomando k = 1 en (7.1) se obtiene el teorema del valor medio, es decir,
f  x   f  x0   f  x1  x  x0 
donde x1 yace entre x y x0.

b Tomando k = 3 en (7.1) se obtiene la aproximación cuadrática
f  x   f  x0   f  x0  x  x0   12 f  x0  x  x0   r x 
2
donde el término remanente r está definido por r(x) = (1/6)f'''(x1)(x  x0)3. ////
EJEMPLO 1.7.2
1
9 Ver, por ejemplo, Thomas (1972), pp. 150-151, para un tratamiento elemental o Rudin (1964), pp. 95-96, para un
tratamiento más detallado.
Considere la función f, definida por f(x) = log (1  x) para  < x < 1. Las primeras dos
derivadas de f son f'(x) = 1/(1  x) y f''(x) = 1/(1  x)2, así que podemos expandir f en una
serie de Taylor alrededor de x0 = 0 como
log 1 x    x  r x 
donde r(x) = ½(1  x1)2x2 con |x1|  |x|. Observe también que para x > 0, 0  r(x)  (½)x2(1 
x)2.
Podemos aplicar esta observación para estimar el valor del producto
k 1
 i
pn ,k   1  
i 1  n
que encontramos en el Teorema 1.3.2. Indudablemente, tenemos
k 1
 i k 1 i k  k  1
log pn ,k   log 1       R   R
i 1  n i 1 n 2n
2 2
1 k 1 i   i
donde 0  R     1  
2 i1  n   n
k  k  1 2k  1
2
 k
 1  
 n 12n 2
Aquí hemos usado el resultado del Problema 1.61 para evaluar la sumatoria de i y la
sumatoria de i2.
En el problema del cumpleaños del Ejemplo 1.3.4b, donde n = 365 y k = 25, encontramos
que log pn,k = 0.8219  R, donde 0  R  0.0212. Eso es, exp (0.8431)  pn,k  exp
(0.8219).
Una estimación aún mejor de pn,k puede ser obtenida tomando un término adicional en la
expansión de la serie de Taylor de log (1  x). ////
Es claro de (7.1) que si f tiene derivadas de todos los órdenes, y si
1 n
f  x1  x  x0   0
n
lim
n!
cuando n   para cualquier x  (a,b), entonces podemos escribir f como una serie de
potencias
32 EL TEOREMA BINOMIAL GENERALIZADO

f  x     k  x  x0 
k
(7.2)
k 0
para x  (a,b), donde 0 = f(x0) y k = f k(x0)/k! Para k = 1, 2,. Llamaremos a (7.1) y (7.2)
las expansiones de la serie de Taylor finita e infinita de f alrededor de x0, respectivamente.
La Ecuación (7.2) es especialmente útil en la evaluación de series infinitas.
EJEMPLO 1.7.3
a Sea f(x) = ex para  < x < . Entonces f j(x) = ex para toda x y toda j  0.
Expandamos f en una serie de Taylor infinita alrededor de x0 = 0. Observe primero que
f j(0) = e0 = 1 para toda j  0. Más aún, si |x1|  |x|, entonces |f n (x1)xn/n!|  |xn|e|x|/n!, que
tiende a cero cuando n   para cualquier x. Por tanto,
 1 j
ex   x (7.3)
j 0 j!
para toda x,  < x < .

b Análogamente, si f(x) = 1/(1  x) para 1 < x < 1, entonces f j(x) = j!/(1  x) j + 1
para j = 0, 1, 2,. En particular, f j(0) = j! para j  0, y la expansión
1 
 x j (7.4a )
1  x j 0
para 1 < x < 1 puede ser deducida del teorema de Taylor.

c Una extensión útil de la parte b es la siguiente: para 1 < x < 1 y r  0
   xr
j r
x  x x
j r
 x x 
r k
(7.4b)
j r j r k 0 1 x
////
Las Ecuaciones (7.3) y (7.4a) son conocidas como las series exponencial y geométrica,
respectivamente. Las encontraremos de nuevo ocasionalmente.
Otra expansión útil de la serie de Taylor requiere la generalización de los coeficientes
binomiales. Si  es cualquier número real, sea ()0 = 1 y defina
  k     1  k  1 k 1 (7.5a )
     k
  k  0, 1, 2, (7.5b)
k  k!
Entonces, para cualquier real , la expansión de la serie de Taylor de la función f(x) = (1 +

x) alrededor del punto x0 = 0 es
1
  
1  x      x k 1  x  1 (7.6)
k 0 
k
La Ecuación (7.4a) es un caso especial. Que le lado derecho de (7.6) es la expansión de la

serie de Taylor formal de (1 + x) es fácilmente verificado por diferenciación.
 
Los números   definidos en (7.5b) son conocidos como coeficientes binomiales
k 
generalizados, y (7.6) es conocido como el teorema binomial generalizado.
1.8. LA FÓRMULA DE STIRLING

Hemos visto que varias probabilidades interesantes pueden ser expresadas en términos de la
notación n! = n(n  1)1. Es claro que para valores grandes de n el cálculo exacto de n! es
una tarea formidable. En esta sección daremos una aproximación para n! Que es válida
cuando n es grande. El resultado es conocido como la fórmula de Stirling.
En el enunciado de la fórmula de Stirling, usaremos la siguiente notación. Si a1, a2, y b1,
b2, son dos sucesiones infinitas de números reales positivos, entonces escribiremos an ~ bn
si y sólo si lim anbn1 = 1 cuando n  , y en este caso diremos que an es asintótica a bn.
Esta notación es útil en los casos donde an y bn tienden a cero o infinito cuando n  .
La fórmula de Stirling ahora puede ser establecida como sigue.

1
n
Teorema 1.8.1 n! ~ 2 n 2 n
e cuando n  .
1
n
De hecho, es posible dar desigualdades más exactas que relacionen n! y 2 n 2 n
e .
1
10 Para una prueba de que la serie converge y es igual a (1 + x) para 1 < x < 1, ver Apostol (1957), pp. 420-421.
34 LA FÓRMULA DE STIRLING
1 1
1  1 12n  1
n n
Teorema 1.8.2 2 n 2 n
e  n!  2 n 2 ne para cualquier n 
1.
Diferimos la prueba del Teorema 1.8.1 a la Sección 5.4.1, y omitimos la prueba del Teorema
1
1.8.2.
Así, el error relativo incurrido por usar la fórmula de Stirling,
n  12  n
2 n e  n!
n!
es positivo, y a lo más 1/(12n  ). Para n  9, esto es menor que 0.01.
EJEMPLO 1.8.1
Si una moneda buena es lanzada 2n veces, la probabilidad de que n águilas exactamente
 2n
resultarán es   4  n por el Teorema 1.5.1. Por la fórmula de Stirling, tenemos
 n
 2n 2 n 2n!
  2  2 2n
 n n! 2
2  2n
2 n  12
e 2 n 1
~ = (8.1)
 2 n
2
n  12  n
2 n e 2n
cuando n  . Por ejemplo, la probabilidad de que 100 lanzamientos de una buena moneda
producirán exactamente 50 águilas es aproximadamente 0.08.
Es interesante observar que la última línea en (8.1) tiende a cero cuando n  . Eso es, en
muchos lanzamientos de una buena moneda, no debemos esperar que la moneda caiga águila
exactamente la mitad de las veces.
REFERENCIAS
Referencias completas son dadas en el Apéndice D.
La historia de la teoría de la probabilidad es discutida por Todhunter (1865) y David (1962)
Una serie de artículos en Biometrika, iniciando en 1955, trata aspectos de la historia más
reciente de la teoría de la probabilidad.
1
11 Para una prueba del Teorema 1.8.1, ver Feller (1968), pp. 52-54.
Un tratamiento más extenso de análisis combinatorio será encontrado en Riorden (1958).

Los Capítulos 2 y 3 de Feller (1968) contienen algún análisis combinatorio adicional y
algunas aplicaciones adicionales del análisis combinatorio a la teoría de la probabilidad.
36 PROBLEMAS
1.9. PROBLEMAS
1.1 Dé una definición cuidadosa de un espacio muestral propio para los siguientes juegos.
(a) Una moneda balanceada es lanzada dos veces; si en lugar de dos, es lanzada tres
veces.
(b) Un dado balanceado es lanzado tres veces.
(c) Dos distintas cartas son seleccionadas secuencialmente de un paquete estándar de 52
cartas.
(d) Una carta es seleccionada de cada uno de dos paquetes estándar.
En cada caso el espacio muestral debe ser de tal modo seleccionado que los resultados
puedan ser supuestos igualmente verosímiles.
1.2 Dar el número de posibles resultados para cada uno de los juegos descritos en el
Problema 1.1.
1.3 Si dos dados balanceados, distinguibles, son lanzados, ¿cuál es la probabilidad de que
la suma de puntos sobre los dos dados será 5? ¿Cuál es la probabilidad de que la
diferencia (mayor menos menor) será 2?
1.4 Si una moneda balanceada es lanzada tres veces, ¿cuál es la probabilidad (a) de que
habrá 2 o más águilas consecutivas; (b) de que habrá al menos 2 águilas?
1.5 Si un hombre tiene 3 sombreros, 4 camisas, 4 pares de pantalones, y 2 pares de zapatos,

¿en cuántas formas puede el vestir?
1.6 ¿Cuántas palabras de 4 letras pueden ser formadas del alfabeto Inglés si permitimos
cualquier cadena de 4 letras como una palabra y consideramos palabras como idénticas
si y sólo si ellas listan las mismas letras en el mismo orden?
1.7 ¿ Cuántas palabras de 4 letras pueden ser formadas del alfabeto Inglés si requerimos:
(a) Que la segunda letra sea vocal?
(b) Exactamente una vocal?
(c) Al menos una vocal?
Aquí, por definición, una vocal es cualquiera de las letras a, e, i, o, u.
1.8 (a) ¿Cuántos números telefónicos de 7 dígitos pueden ser formados? (b) De estos,
¿cuántos contienen dígitos distintos?
1.9 Un cierto dispositivo electrónico contiene 100 circuitos, cada uno de los cuales puede
estar abierto o cerrado. El estado del sistema está definido para ser el vector (x1, x100),
donde xi = 1 o 0 de acuerdo a si el i-ésimo circuito está abierto o cerrado, i = 1, 100.
¿Cuántos estados hay?
El recibidor de la Pizza ABC lista 10 ingredientes tal como champiñones o pepperoni, los
cuales pueden ser agregados a la pizza. Si un cliente quiere 2 ingredientes adicionales,
¿cuántas selecciones tiene él?
1.11 Un cierto cuestionario presenta 10 preguntas con las posibles respuestas sí o no para
cada pregunta:
(a) ¿En cuántas formas puede el cuestionario ser contestado?
(b) ¿En cuántas formas puede el cuestionario ser contestado con 5 sí y 5 no?
1.12 En el Problema 1.11, suponer que cada pregunta puede ser contestada con sí, no, o sin
opinión. ¿En cuántas formas puede el cuestionario ser contestado con 4 si, 4 no, y 2 sin
opinión?
1.13 Un investigador médico desea comparar dos nuevas drogas y tiene 20 ratones
indistinguibles con los cuales experimentar. ¿En cuántas formas pueden los 20 ratones
ser divididos en dos grupos de 10?
1.14 ¿En cuántas formas puede un comité de tamaño 4 ser escogido de un grupo de 10:
(a) Si todos los miembros del comité tienen el mismo estado?
(b) Tiene que haber un director y 3 otros de igual estado?
38 PROBLEMAS
1.15 ¿En cuántas formas pueden manos de póquer ser servidas a (a) 2 personas
distinguibles; (b) 3 personas distinguibles?
 n  1  n  1  n 
1.16 Mostrar que         para 1  k  n. Interprete su resultado en términos de
 k  1  k   k 
combinaciones.
1.17 Use el Problema 1.16 para probar el teorema binomial por inducción matemática.
1.18 Derive las siguientes identidades del teorema binomial:
 n  n  n
           2 n
 0  1   n
 n  n  n
           0
 0  1   n
 n  n  n
   2     n   n2 n 1
1   2   n
1.19 ¿Cuántos subconjuntos hay en un conjunto de n elementos? Sugerencia: Parte (a) del
Problema 1.18.
Si dos cartas son extraídas secuencialmente sin reemplazo de un paquete estándar, ¿cuál es la
probabilidad de que ellas sean (a) ambas ases; (b) ambas espadas? ¿Cuál es la probabilidad
de que ellas sean (c) de la misma denominación; (d) del mismo palo?
1.21 Sea una muestra aleatoria ordenada de tamaño 5 extraída de un paquete estándar de 52
cartas. ¿Cuál es la probabilidad de que la tercera carta extraída será (a) un as; (b) una
espada?
1.22 (a) ¿Cuál es la probabilidad de que todos los 7 dígitos de un número de teléfono serán
distintos?
(b) ¿Cuál es la probabilidad de que los últimos 4 dígitos serán distintos? (Suponga
todos los números telefónicos para ser igualmente verosímiles.)
1.23 (a) Si cartas son seleccionadas de cada uno de 5 paquetes bien barajados, ¿cuál es la
probabilidad de que las 5 cartas sean todas diferentes? (b) ¿Cuál es la probabilidad de
que las 5 cartas sean de diferentes denominaciones?
Cada día el profesor selecciona uno de sus 10 alumnos para quedarse después de la escuela y
limpiar el pizarrón. Juanito, quien fue seleccionado dos veces durante la primera semana de
clases, siente que el profesor lo está persiguiendo. ¿Es “inusual” que un estudiante deba ser
seleccionado dos veces durante la misma semana de 5 días?
1.25 Si un dado balanceado es lanzado 7 veces, ¿cuál es la probabilidad de que cada cara
aparecerá al menos una vez?
1.26 ¿Cuál es la probabilidad de que una mano de bridge contendrá (a) exactamente 2 ases;
(b) al menos 2 ases?
1.27 ¿Cuál es la probabilidad de que una mano de bridge contendrá (a) 8 espadas; (b) 8
cartas del mismo palo?
1.28 ¿Cuál es la probabilidad de que una mano de bridge contendrá una de cada una de las
13 denominaciones?
1.29 (a) ¿Cuál es la probabilidad de que una mano de bridge contendrá 4 espadas, 3
corazones, 3 diamantes, y 3 tréboles? (b) ¿Cuál es la probabilidad de que una mano de
bridge contendrá 4 cartas de un palo y 3 de cada uno de los otros tres palos?
1.30 (a) ¿Cuál es la probabilidad de que una mano de bridge no contendrá ases? (b) ¿Cuál es
la probabilidad de que una mano de bridge no contendrá corazones?
1.31 ¿Cuál es la probabilidad de que una mano de póquer contendrá exactamente 2 cartas de
una denominación (un par) y cartas de tres diferentes denominaciones?
1.32 Si un comité de tamaño 3 es seleccionado de un grupo de 6 Demócratas y 4
Republicanos, ¿cuál es la probabilidad de que el comité contendrá (a) dos Demócratas
y un Republicano; (b) más Demócratas que Republicanos?
El Comité del Senado sobre Aleatorización consiste de 6 miembros del partido A y 4
miembros del partido B, pero el director es un miembro del partido B. Recientemente,
el director formó un subcomité de tamaño 3 que consistió de 2 miembros del partido B
y 1 del partido A. El director asegura haber seleccionado el subcomité por lote de los
10 miembros del comité. El líder del partido A, sin embargo, asegura que la
composición del subcomité confirma un sesgo más allá de una duda razonable. ¿Está el
líder del partido A justificado en su declaración?
1.34 Sebastián, un mago, declara tener percepción extrasensorial. Para demostrar esta
declaración, se le pide identificar las 4 cartas rojas de 4 cartas rojas y 4 negras que están
volteadas hacia abajo sobre la mesa. Sebastián correctamente identifica 3 de las cartas
rojas e incorrectamente selecciona 1 de las cartas negras. Después de ello, el dice haber
probado su dicho. ¿Cuál es la probabilidad de que Sebastián habría identificado
correctamente al menos 3 de las cartas rojas si él estuviera, de hecho, adivinando?
(Considere las 4 cartas seleccionadas por Sebastián como una muestra aleatoria
desordenada de tamaño 4.)
1.35 Una caja contiene 8 productos buenos y 2 defectuosos. Si 5 productos son
seleccionados al azar de la caja, ¿cuál es la probabilidad de encontrar (a) al menos 1 de
los productos defectuosos; (b) ambos productos defectuosos?
40 PROBLEMAS
1.36 En el Ejemplo 1.4.2, suponer que el tamaño del lote es 50 y que no es redituable vender
lotes conteniendo más de 2 defectuosos. ¿Cómo debe ser seleccionado k para que la
probabilidad de vender un lote malo sea a lo más 0.1?
1.37 En el Ejemplo 1.4.2, mostrar que q(k,m) es una función decreciente de m. Sugerencia:
Calcular q(k, m + 1)  q(k,m).
1.38 Calcular y graficar las probabilidades hipergeométricas pr como una función de r, para
(a) m = k = 4 y n = 8;
(b) k = 4 y m = n  m = 8.
k 
1.39 Calcular y graficar las probabilidades binomiales   2  r como una función de r para
r 
(a) k = 4;
(b) k = 6;
(c) k = 8.
1.40 Si un dado balanceado es lanzado 5 veces, ¿cuál es la probabilidad de que exactamente
2 de los lanzamientos producirán ó 1 ó 6 puntos?
1.41 Sea una muestra aleatoria ordenada extraída sin reemplazo de un paquete estándar.
(a) Si el tamaño de la muestra es k = 5, ¿cuál es la probabilidad de que la muestra
contendrá exactamente 2 espadas?
(b) ¿Cuál es la probabilidad de que la primera espada aparecerá en la quinta extracción?
1.42 Repetir el Problema 1.41 para muestreo con reemplazo.
1.43 Si una muestra aleatoria ordenada de tamaño 5 es extraída sin reemplazo de un paquete
estándar, ¿cuál es la probabilidad de que la segunda espada aparecerá en la quinta
extracción?
Una caja contiene 6 fusibles, 2 de los cuales son defectuosos. Si los fusibles son
inspeccionados en un orden aleatorio, ¿cuál es la probabilidad de encontrar el primer fusible
defectuoso (a) en la tercera prueba; (b) en o antes de la tercera prueba; (c) después de la
tercera prueba?
1.45 Repetir el Problema 1.44 con el primer fusible defectuoso reemplazado por el segundo
fusible defectuoso.
1.46 ¿Qué es más probable: obtener al menos 1 seis en 6 lanzamientos de un dado no
cargado u obtener al menos 2 seises en 12 lanzamientos de un dado no cargado?
1.47 Sea una muestra de tamaño k = 4 extraída de una urna que contiene 4 bolas rojas y 4
bolas blancas. ¿Es más probable que todas las bolas extraídas serán rojas si el muestreo
es con reemplazo o sin reemplazo?
1.48 Sebastián, un mago, canta águilas o soles antes de cada uno de cuatro lanzamientos de
una moneda no cargada. Si el está de hecho adivinando, ¿cuál es la probabilidad de que
Sebastián correctamente cantará (a) las 4; (b) al menos 3 de los lanzamientos? Compare
sus respuestas con la respuesta al Problema 1.34.
Si 4 bolas son ubicadas en 4 celdas de acuerdo a la estadística de Bose-Einstein, ¿cuál es la
probabilidad de que la primera celda contendrá (a) exactamente 1 bola; (b) exactamente 2
bolas; (c) al menos 1 bola?
1.50 Si 6 bolas son ubicadas en 4 celdas de acuerdo a la estadística de Bose-Einstein, ¿cuál
es la probabilidad (a) que cualquier celda esté ocupada; (b) que al menos 3 celdas estén
ocupadas?
1.51 Repetir los Problemas 1.49 y 1.50 para la estadística Fermi-Dirac.
1.52 Si k partículas son ubicadas en n celdas de acuerdo a la estadística de Bose-Einstein,
¿cuál es la probabilidad de que una subregión dada, digamos consistiendo de m celdas,
contendrá exactamente r partículas?
1.53 Sean k bolas indistinguibles ubicadas en n celdas de acuerdo a la estadística de Bose-
Einstein, y suponer que las celdas están etiquetadas por los enteros 1, n. ¿Cuál es la
probabilidad de que el índice de la celda ocupada más grande sea m, donde m < n?
1.54 Escriba una prueba del Teorema 1.6.1 en la terminología de la Sección 1.6.
1.55 Derivar la siguiente identidad para 1 < x < 1:

 log 1  x 
1
n x
n 1
n
1.56 Encontrar las expansiones de las series de Taylor infinitas de

e x  ex e x  ex
cosh x  y senh x 
2 2
alrededor de x0 = 0.
1.57 Mostrar que ex  1 + x para cualquier x,  < x < . Sugerencia: Use el Ejemplo
1.7.1b.
1.58 Mostrar que log (1 + x)  x  x2 para ½ < x < ½.
 2n    1 2 
1.59 Mostrar que      4 para enteros positivos n = 1, 2,.
n
n  n 
42 PROBLEMAS

 2n 
1.60 Evaluar las serie   n  x n
para –¼ < x < ¼.
n 0  
k k  1 y que k k  12k  1 para k  1.

1 1
 
k k
1.61 Mostrar que i 1
i i 1
i2 
2 6
1.62 Mostrar que exp [k(k  1)/2(n  k)]  (n)k n-k  1 para 0  k < n.
1.63 Use el Problema 1.62 para derivar la siguiente comparación entre las probabilidades
hipergeométricas y binomiales:
 1 r r  1 1 k  r k  r  1   k  r k  r
exp      p q
 2 2m  r  2 n  m  k  r   r 
1
 m n  m n
      
 r k  r k 
 k k  1   k  r k  r
 exp     p q
 2n  k   r 
 52 
1.64 Use la fórmula de Stirling para estimar el número de manos de bridge   .
13 
1.65 Use la fórmula de Stirling para estimar el número de formas que un paquete de bridge
 52 
puede ser particionado en 4 manos distintas   .
 13,13,13,13 
1.66 Una muestra ordenada de tamaño n es extraída al azar y con reemplazo de una urna
conteniendo n bolas distintas. Use la fórmula de Stirling para estimar la probabilidad de
que todas las n bolas son extraídas para n = 10, 15, y 20.
2
2 PROBABILIDAD AXIOMÁTICA
2.1 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA

El modelo clásico presentado en el Capítulo 1 no es lo suficientemente flexible para incluir
varios ejemplos que son interesantes desde los puntos de vista práctico y matemático. En
particular, no puede ser usado para describir experimentos para los cuales hay infinitamente
varios sucesos posibles. En este capítulo, desarrollaremos un modelo más general y flexible
que comienza con axiomas estableciendo como deben comportarse las probabilidades y
permite varias interpretaciones de los resultados derivados de ellos. En esta sección
intentaremos motivar estos axiomas y dilucidar varias interpretaciones de los elementos de
nuestro modelo.
Comenzamos examinando el significado del término "probabilidad" y tales términos
relacionados como "posibilidad" y "verosimilitud." De hecho, ellos pueden tener varios
significados, dos de los cuales serán de especial interés para nosotros. Primero, ellos son
usados por todos nosotros para expresar nuestra opinión subjetiva o grado de creencia. Por
ejemplo, enunciados tales como "probablemente lloverá mañana," "el probablemente llegará
tarde," y "las posibilidades de que los Mets ganarán el gallardete son alrededor de 1 en 3"
todos expresan la opinión subjetiva o grado de creencia del orador. Por otro lado, el término
"probabilidad" a menudo denota frecuencia de ocurrencia. Por ejemplo, si un científico
fuera a reportar que la probabilidad de curar un tipo particular de cáncer en ratones es 0.6, el
bien puede significar que un gran número de ratones había sido tratado y de esos
44 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA
aproximadamente 60 porciento habían sido curados. Los dos usos no son mutuamente
exclusivos, puesto que la opinión subjetiva de uno puede estar basada sobre experiencia
pasada con frecuencias, pero ellas son distintas y justifican una consideración separada.
Para considerar los dos usos, será conveniente tener alguna terminología uniforme que
aplicará a ambos. Así, considere una variable X cuyo valor exacto es desconocido para
nosotros, y suponer que podemos especificar un conjunto S en el que X debe estar. La
variable X puede representar el suceso de algún experimento o juego de azar, o puede
simplemente representar algún aspecto de la naturaleza acerca del cual estamos inciertos.
Como en el capítulo previo, llamaremos a S el espacio muestral y referiremos a los
subconjuntos A, B, de S como eventos. Además, diremos que el evento A ocurre si y sólo
si X  A.
EJEMPLO 2.1.1
a Juegos de azar (como en el Capítulo 1) Denote X el número de puntos que
aparecen cuando dos dados legales son lanzados, o denote X la mano de póker repartida
a un particular jugador.
b Experimentos de muestreo (como en el Capítulo 1) Denote X el número de
defectuosos encontrados cuando un lote de artículos manufacturados es examinado.
c Experimentos científicos Denote X el número de partículas emitidas desde una
substancia radioactiva dada durante un intervalo de tiempo dado; o denote X el número
de ratones que contraen cáncer cuando un grupo de ratones es expuesto a humo de
cigarro.
d Problemas de ingeniería Denote X la demanda de electricidad en la Ciudad de
Nueva York en un día dado; denote X el peso máximo sobre el puente George
Washington durante un año dado.
e Problemas actuariales Denote X la longitud de vida anticipada para un hombre
dado quien ha justamente aplicado para un seguro de vida.
f Incertidumbre Denote X la fecha exacta del nacimiento de Noé; o denote X el
siguiente cierre de la semana del promedio industrial Dow-Jones. ////
Primero consideremos la interpretación frecuentista del término "probabilidad." Aquí

requerimos que X sea el suceso de algún juego o experimento que puede ser repetido tan
seguido como se desee bajo el mismo conjunto de condiciones experimentales relevantes. Si
el juego o experimento es así repetido, digamos n veces, y si A es un evento, entonces
podemos calcular las frecuencias relativas
PROBABILIDAD AXIOMÁTICA 45
1
f n  A   numero de repeticiones en que A ocurre
n
con que A ocurre. Eso es, fn(A) es el cociente del número de veces que A ocurre a el número
total de repeticiones del experimento. Ahora, es un hecho empírico que para muchos tipos de
juegos y experimentos, las frecuencias relativas fn(A) tienden a estabilizarse cuando n crece.
Eso es, ellas actúan como si se estuvieran aproximando a límites cuando n  . La
interpretación frecuentista de "probabilidad" define la probabilidad de A para ser
p A  lim f n  A (1.1)
n 
donde la existencia del límite se presupone. (La existencia del límite no puede ser probada,
porque no estamos trabajando con un tema puramente matemático.)
Así, de acuerdo a la interpretación frecuentista de "probabilidad," la probabilidad de un
evento está determinada por el evento y el conjunto de condiciones experimentales. Es
independiente del observador y puede ser determinada a un grado de precisión creciente
simplemente repitiendo el experimento al cual el evento se refiere suficientes veces y
calculando la sucesión de frecuencias relativas. Por esta razón, la interpretación frecuentista
de "probabilidad" es algunas veces llamada la interpretación objetiva.
EJEMPLO 2.1.2
Una moneda es lanzada 10,000 veces, produciendo los resultados mostrados en la Tabla 2.
Desde el punto de vista frecuentista, los resultados son consistentes con la hipótesis de que la
probabilidad de águilas en cualquier lanzamiento dado es ½. ////
Ahora suponer que tenemos dos eventos A y B, y suponer que A y B son disjuntos; eso es,
AB = . Entonces
f n  A  B  f n  A  f n  B
para cualquier n = 1, 2,. Así, dejando que n  , encontramos que
P A  B  P A  P B (1.2)
Eso es, si las probabilidades son definidas por (1.1), ellas necesariamente satisfacen la
condición (1.2) siempre que A y B sean eventos disjuntos.
En el Capítulo 1, usamos el término "igualmente verosímil" sin dar una definición precisa.
46 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA
Tabla 2
No. de lanzamientos No. de águilas Frecuencias
Relativas
100 46 0.460
500 239 0.478
1000 495 0.495
5000 2529 0.506
10000 5049 0.505
Podemos ahora dar tal definición desde el punto de vista de la interpretación frecuentista. Si
S es un conjunto finito, entonces los sucesos s  S son igualmente verosímiles si los eventos
{s} ocurrirán con aproximadamente la misma frecuencia relativa después de muchas
repeticiones del juego o experimento bajo consideración. Eso es, los sucesos son igualmente
verosímiles si fn({s}) todos convergen al mismo límite P({s}) = c para toda s  S. La
Ecuación (1.2) entonces requiere1 que P(A) = |A|/|S| para A  S. Así, el modelo del Capítulo
1 es aplicable, y los resultados del Capítulo 1 ahora admiten la siguiente interpretación
frecuentista. Si los sucesos s  S son igualmente verosímiles, y si A es cualquier evento cuya
probabilidad fue calculada para ser P(A) = p en el Capítulo 1, entonces la frecuencia relativa
fn(A) con la cual A ocurrirá será aproximadamente p después de muchas repeticiones del
juego o experimento bajo consideración.
Ahora consideremos la interpretación subjetiva del término "probabilidad." Aquí un
problema se presenta en si mismo inmediatamente, porque la mayoría de los enunciados de
probabilidad subjetiva son cualitativos (por ejemplo, "probablemente lloverá mañana"), no
cuantitativos. Si deseamos ajustar una interpretación subjetiva en una teoría matemática de
probabilidad, necesitaremos un método para cuantificar enunciados de probabilidad
subjetiva. Una forma de hacerlo es relacionarlas a momios de apuesta, y este es el enfoque
que seguiremos. Sea A un evento, y denote G el siguiente juego:
1 Uno paga p unidades para jugar.

2 Uno recibe 1 unidad si A ocurre y nada si A no ocurre.
1
1 Aquí anticipamos el resultado del Teorema 2.3.3; ver Ejemplo 2.3.5.
Equivalentemente, el juego puede ser descrito diciendo que uno gana 1  p unidades si A
ocurre y uno pierde p unidades si A no ocurre. Diremos que G ofrece momios de 1  p a p
1
sobre la ocurrencia de A.
Acordemos decir que una persona considera el juego G como justo si él es indiferente a los
dos lados de G. Eso es, la persona considera a G como justo si y sólo si él, tan pronto ganaría
1  p unidades si A ocurre y perdería p unidades si A no ocurre como ganaría p unidades si A
no ocurre y perdería 1  p unidades si A ocurre.
Ahora adoptamos la siguiente definición de probabilidad subjetiva. Si hay un valor único de
p, 0  p  1, para el cual una persona considera el juego G como justo, entonces diremos que
la probabilidad subjetiva de esa persona para A es P(A) = p. Observe que las probabilidades
subjetivas están determinadas por el observador y están influenciadas por el evento mismo
sólo hasta donde el observador está bien informado acerca de él. Dos diferentes personas
pueden asignar diferentes probabilidades subjetivas al mismo evento, aun si ellas tienen
acceso a la misma información.
Ahora suponer que una persona tiene dos eventos A y B para los cuales ha asignado
probabilidades subjetivas P(A) = p y P(B) = q, y suponer también que A y B son disjuntos.
Entonces por hipótesis él considera las siguientes apuestas como justas.
1 Uno paga p unidades para jugar y recibe 1 unidad si y sólo si A ocurre.

2 Uno paga q unidades para jugar y recibe 1 unidad si y sólo si B ocurre.
Si fuera a tomar ambas apuestas, el pagaría p + q unidades para jugar y puesto que A y B son
disjuntos, el recibiría 1 unidad si A o B ocurriera (y nada de otro modo). Puesto que la nueva
apuesta está formada tomando dos apuestas justas, parece razonable que el debe considerarla
para ser justa. Eso es, parece razonable que el debe asignar la probabilidad subjetiva.
P A  B  p  q  P A  P B (1.3)
al evento A  B. Decimos que las probabilidades subjetivas de una persona son consistentes
si y sólo si ellas satisfacen (1.3) siempre que A y B sean disjuntos. Puede ser mostrado (ver
Problemas 2.4 a 2.6) que una persona con probabilidades subjetivas inconsistentes puede ser
conducida a aceptar apuestas por la conjunción en la cual el necesariamente pierda dinero.
Así, restringimos nuestra atención a probabilidades subjetivas consistentes.
El significado subjetivo del término "igualmente verosímil" debe ahora ser claro. Si S es un
conjunto finito, uno considera los sucesos s  S como igualmente verosímiles si y sólo si
uno asigna la misma probabilidad subjetiva P({s}) = c a cada evento s  S. Como antes, la
1
Las unidades aquí deben ser tomadas para ser cantidades de dinero pequeñas comparadas a los recursos
totales de uno. Deseamos evitar, por ejemplo, la posibilidad de que la pérdida de una unidad resultaría en bancarota.
48 UN MODELO MATEMÁTICO
Ecuación (1.3) entonces requiere que uno asigne probabilidad subjetiva P(A) = |A|/|S| a cada
evento A  S, así que el modelo del Capítulo 1 es aplicable. Más aún, los resultados del
Capítulo 1 ahora admiten la siguiente interpretación subjetiva. Si A es un evento cuya
probabilidad fue calculada para ser P(A) = p en el Capítulo 1, y si uno considera los sucesos
del juego al cual A se refiere como igualmente verosímiles, entonces, para ser consistente en
las creencias de uno, uno debe asignar probabilidad subjetiva P(A) = p a A.
2.2 UN MODELO MATEMÁTICO

En esta sección presentamos un modelo matemático que es suficientemente general para
cubrir las dos interpretaciones de probabilidad presentadas en la Sección 2.1 y
suficientemente flexible para permitir la derivación de una teoría matemática útil. Nuestro
modelo consistirá de los siguientes elementos básicos:
1 Un conjunto no vacío S denominado el espacio muestral.

2 Una clase  de subconjuntos de S, los elementos del cual serán llamados eventos.
3 Para cualquier evento A   un número real P(A) que llamaremos la probabilidad
de A.
Eso es, requerimos una función real P que esté definida sobre la clase  de eventos.
El espacio muestral S, los eventos A  S, y la probabilidad P pueden ser todos interpretados
como en la sección previa. Eso es, S puede ser considerado como el conjunto de posibles
sucesos de algún juego o experimento; un evento A se dice que ocurre si y sólo si el suceso
del juego o experimento es un elemento de A; y P(A) puede ser considerada ya sea como la
probabilidad subjetiva o frecuentista del evento A.
En muchos ejemplos la clase  consistirá de todos los subconjuntos de S, pero en otros 
será una subclase propia de la clase de todos los subconjuntos de S. En lo sucesivo, diremos
que un subconjunto A  S es un evento si y sólo si A  . Tendremos que realizar ciertas
operaciones de la teoría de conjuntos con eventos, tal como la formación de complementos,
uniones, e intersecciones, y requeriremos que la clase  sea cerrada con respecto a estas
operaciones.
Imponemos tres requerimientos sobre :
1 El espacio muestral S y el conjunto vacío  deben ser eventos. Llamaremos a S el

evento infalible y a  el evento imposible.
2 Si A es un evento, entonces el complemento A' = S  A es también un evento.

Llamaremos a A' el evento en el que A no ocurre.
3 Si A1, A2, es una sucesión de eventos infinita o finita, entonces la unión Ai y
la intersección Ai son también eventos. Llamaremos a la unión (intersección) el
evento en el que Ai ocurre para alguna i (para toda i).
Una clase  de subconjuntos de S será llamada una  álgebra de subconjuntos de S si y sólo

si satisface las condiciones 1, 2, y 3.
EJEMPLO 2.2.1
a La clase de todos los subconjuntos de un conjunto no vacío S es una  álgebra
puesto que las condiciones de 1 a 3 son trivialmente satisfechas en este caso.
b Si S es un intervalo de números reales, entonces hay una  álgebra más pequeña
de subconjuntos de S que contiene a todos los subintervalos de S (ver Problemas 2.21 y
2.22). Esta  álgebra es conocida como la clase de conjuntos de Borel, y sus elementos
son conocidos como conjuntos de Borel.
Las propiedades relevantes de la clase de conjuntos de Borel son las siguientes:
1 Cualquier subintervalo de S es un conjunto de Borel.

2 La clase de conjuntos de Borel es cerrada con respecto a la formación de
complementos y la formación de uniones e intersecciones de sucesiones infinitas
o finitas de sus miembros. ////
La teoría de la probabilidad ha desarrollado su propio nombre para varias relaciones de la
teoría de conjuntos entre eventos. Diremos que los eventos A1, A2, son mutuamente
excluyentes si ellos son disjuntos, eso es, AiAj =  para i  j. Diremos que los eventos A1,
A2, son exhaustivos si su unión es el espacio muestral completo S, eso es, si  Ai = S.
Finalmente, diremos que el evento A implica al evento B si A es un subconjunto de B, A  B.
También registremos las leyes de De Morgan: si A1, A2, son eventos, entonces
 Ai    Ai y  Ai    Ai
Ver Apéndice A para su derivación.
Ahora consideremos la función P. ¿Qué propiedades podemos razonablemente demandar de
P? Primero, deseamos probabilidades para ser números entre 0 y 1, y deseamos ciertamente
implicar una probabilidad de 1. Así, requeriremos
0  P A  1 y P S   1 (2.1)
para A  . Más aún, vimos en la Sección 2.1 que dentro de la interpretación frecuentista o
subjetiva de probabilidad debemos tener
P A  B  P A  P B (2.2)
siempre que A y B sean eventos mutuamente excluyentes. Así, requeriremos las condiciones
(2.1) y (2.2).
Las condiciones (2.1) y (2.2) trabajan espléndidamente si S es un conjunto finito, como en el
Capítulo 1, pero no conducen a una teoría matemática suficientemente rica si S es infinita.
Por tanto, estamos influidos para introducir la siguiente versión fortalecida de (2.2): si A1,
A2, es una sucesión infinita de eventos mutuamente excluyentes, entonces
  
P  Ai    P Ai  (2.3)
 i1  i1
La condición (2.3) implica (2.2) en general y es equivalente a (2.2) si S es un conjunto finito

(ver Problemas 2.17 y 2.18). En cualquier caso, adoptaremos (2.3) como un axioma. En
consecuencia, definimos una medida de probabilidad para ser una función P que está
definida sobre una  álgebra  y satisface las condiciones (2.1), (2.2), y (2.3).
Podemos ahora definir nuestro modelo matemático para probabilidad. Definimos un espacio
de probabilidad para ser un trío ordenado (S,,P), donde S es un conjunto no vacío.  es una
 álgebra de subconjuntos de S, y P es una medida de probabilidad definida sobre  . Un
espacio de probabilidad puede ser considerado como un modelo para un experimento o juego
de azar con la convención que S representa el conjunto de posibles sucesos del experimento
o juego,  representa la clase de eventos observables, y, para cada A  , P(A) es la
probabilidad de que el evento A ocurrirá. Los espacios de probabilidad forman la base de la
teoría de probabilidad que será presentada en este libro.
EJEMPLO 2.2.2
Espacios de probabilidad discretos. Sea S = {s1, s2,} un conjunto infinito numerable1 o
finito, y sea f una función real que está definida sobre S y satisface2
1
3 Un conjunto es llamado infinito numerable si hay una correspondencia uno a uno entre S y el conjunto de enteros
positivos Z = {1,2,}.
2
4 La notación S f(s) significa que los números f(s), s  S, son sumados. Esto puede ser una suma finita si S es finito o
una serie infinita si S es infinito numerable.
f  s  0 para toda s  S y  f  s  1 (2.4)

s
Entonces podemos definir una función P sobre la clase  de todos los subconjuntos de S
haciendo
P A   f  s (2.5)
A
para todo A  S. Tenemos P(A)  0 y P(A)  P(S) para todo A puesto que f(s)  0 para
cualquier s, y tenemos P(S) = 1 por (2.4). Así, la condición (2.1) es satisfecha. Más aún, si A
y B son disjuntos, entonces
P A  B   f  s
A B
=  f  s   f  s  P A  P B
A B
Así, la condición (2.2) es satisfecha, y análogamente, la condición (2.3) es también

satisfecha. Así, P es una medida de probabilidad, y (S,,P) es un espacio de probabilidad.
Tomando A = {s} en (2.5) produce P({s}) = f(s) para s S. Así, f(s) da la probabilidad de
que el suceso del juego o experimento bajo consideración será s. ////
EJEMPLO 2.2.3
a Si S es un conjunto finito, y si f(s) = 1/|S| para todo s  S, entonces (2.5) produce
P(A) = |A|/|S| para A  S. Así, el modelo clásico del Capítulo 1 es un caso especial del
Ejemplo 2.2.2.
b Considere un experimento en el cual una moneda es lanzada hasta que un águila
aparece y el número total de lanzamientos es registrado. Podemos describir el suceso
del experimento por un entero positivo (el número de lanzamientos requeridos), y por
lo tanto podemos tomar a S para ser el conjunto de todos los enteros positivos S =
{1,2,}. Más aún, en el Ejemplo 5.1.1a mostramos que la probabilidad de que la
primera águila aparezca sobre el sésimo lanzamiento es simplemente 2-s. Entonces

 f  s   2  S  1
S s 1
por la Ecuación (7.4) del Capítulo 1, así que la condición (2.4) es satisfecha. Ahora
definimos una medida de probabilidad por (2.5) para obtener un espacio de
probabilidad para representar el experimento. Si, por ejemplo, deseamos calcular la
probabilidad de que un número par de lanzamientos será requerido, encontramos la
probabilidad del evento A = {2,4,}. Por (2.5) y (7.4) del Capítulo 1, esta es

P A   2 s   22 k  1
4 1  14  1  13 ////
A k 1
Más ejemplos de espacios de probabilidad discretos serán encontrados en los problemas al

final de este capítulo. Ahora consideremos un ejemplo de una naturaleza diferente.
EJEMPLO 2.2.4
Espacios de probabilidad absolutamente continuos. Sea S un intervalo infinito o finito de
números reales, y sea f una función real definida sobre S para la cual
f  s  0 para toda s  S y S f  s ds  1 (2.6)
Por analogía con (2.5), parece natural definir una medida de probabilidad P por
P A  A f  s ds (2.7)
El problema aquí es la clase  de eventos. Simplemente no es cierto que la integral sobre el

lado derecho de (2.7) existirá como una integral impropia o propia para cualquier A  S. Es
posible, sin embargo, definir una medida de probabilidad P sobre la clase  de conjuntos de
Borel de S (Ejemplo 2.2.1b) de tal forma que (2.7) se cumpla siempre que A sea un
subintervalo de S. Más aún, la medida de probabilidad P es unívocamente determinada por
(2.7) y las condiciones (2.1), (2.2), y (2.3).
Los espacios de probabilidad (S,,P) para los cuales S es un intervalo,  es la clase de
conjuntos de Borel de S, y P es de la forma (2.7) son llamados absolutamente continuos.
Para tales espacios, la probabilidad de un subintervalo A de S está dada por (2.7), y la
probabilidad de eventos más complicados debe ser deducida de (2.7) y los axiomas de
probabilidad (2.1), (2.2), y (2.3).
EJEMPLO 2.2.5
Considere un experimento en el cual un número es seleccionado del intervalo unitario S =
[0,1] de tal manera que la probabilidad de que el número esté en un subintervalo de S sea
igual a la longitud del subintervalo. Tomando f(s) = 1, 0  s  1, en (2.7) produce P(A) =
longitud de A, así que la discusión anterior garantiza la existencia de un espacio de
probabilidad para representar nuestro experimento. Calculemos, por ejemplo, la probabilidad

de que el número seleccionado será un número racional. Eso es, calculemos P(R#), donde R#
1
denota al conjunto de números racionales en S. Escribimos

R #   r1 ,r2 ,    An
n 1
donde An = {rn} es el conjunto cuyo único elemento es rn, n = 1, 2,. Ahora cada An es un
intervalo de longitud 0, así que
P An   A ds  rn  rn  0
n
para n = 1, 2,. Ahora se sigue de (2.3) que
 
 
P R #   P An    0  0
n 1 n 1
Eso es, la probabilidad de que el número seleccionado será un número racional es cero. ////
2.3 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS

En esta sección desarrollaremos algunas consecuencias elementales de los axiomas
presentados en la Sección 2.2. Supondremos a lo largo que S es un conjunto no vacío, que 
es una  álgebra de subconjuntos de S, y que P es una función definida sobre  que
satisface las condiciones (2.1) y (2.2). Eso es, suponemos
0  P A  1 y P S   1 (2.1)
para toda A  , y
P A  B  P A  P B (2.2)
siempre que A y B sean disjuntos. Aunque la mayoría de las aplicaciones posteriores de

nuestros resultados serán para el caso donde (S,,P) es un espacio de probabilidad, no
hacemos uso de la condición (2.3) aquí, y no la asumiremos. Continuaremos refiriendo a los
elementos de  como eventos.
Teorema 2.3.1 Sean A y B eventos. Si A  B, entonces

P B  A  P B  P A (3.1)
1
5 El conjunto de números racionales es infinito numerable; ver, por ejemplo, Rudin (1964), p. 26.
54 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS
En particular, P(A)  P(B).

PRUEBA Si A  B, entonces podemos escribir B = A  (B  A). Puesto que
A(B  A) = , obtenemos P(B) = P(A) + P(B  A) por la condición (2.2). La Ecuación
(3.1) se sigue inmediatamente. La aseveración final del teorema se sigue del hecho que
P(B  A)  0 por (2.1).
Corolario 2.3.1 Si A es cualquier evento, entonces
P A  1  P A (3.2)
En particular, P() = 0.
PRUEBA Tomando B = S en la Ecuación (3.1), obtenemos P(A') = P(S  A) =
P(S)  P(A) = 1  P(A) por (2.1). Esto establece (3.2). La aseveración final del
corolario se sigue, puesto que P() = P(S') = 1  P(S) = 0. ////
La aseveración final del Teorema 2.3.1 puede ser parafraseada como sigue: si el evento A
implica al evento B, entonces la probabilidad de A es menor que o igual a la probabilidad de
B. Veremos más tarde que esta simple observación puede ser extremadamente útil. La
Ecuaciones (3.1) y (3.2) son también muy útiles. Ilustramos con algunos ejemplos.
EJEMPLO 2.3.1
a Si una mano de póker es seleccionada al azar de una baraja estándar de 52 cartas,
¿cuál es la probabilidad de que la mano contendrá al menos 1 as? Sea A el evento de
que la mano contiene al menos 1 as. Entonces A' es el evento de que la mano no
 4  48  52  48  52
contiene ases, así que P A             por el Teorema 1.4.1. Por
 0  5   5   5   5 
 48  52
tanto, P A  1  P A  1      por (3.2).
 5  5
b ¿Cuál es la probabilidad de que la más alta denominación en una mano de póker
seleccionada aleatoriamente sea una reina (ases máximo)? Sea B el evento de que la
más alta denominación es a lo más una reina, y sea A el evento de que la más alta
denominación es a lo más una sota. Entonces el evento de que la más alta
denominación es una reina es C = B  A. Puesto que A implica a B, tenemos que P(C) =
P(B)  P(A) por (3.1), y así será suficiente calcular P(A) y P(B). Para calcular P(B),
considere ases y reyes como bolas rojas y 2s, 3s,, y reinas como bolas blancas.
Entonces B es el evento de que ninguna bola roja es tomada en una muestra de tamaño
 44  52  40  52
5, así que P B      . Análogamente, P A      . Así,
 5  5  5  5
 44  40   52

P C         
 5   5    5 
////
Dados cualesquiera dos eventos A y B, definimos su diferencia simétrica para ser el evento
de que ocurre A o ocurre B pero no ambos. Eso es, definimos su diferencia simétrica para ser
A  B = (A  B)  AB.
Teorema 2.3.2 Si A y B son eventos, entonces
P A  B  P A  P B  P AB (3.3)
P A B  P A  P B  2 P AB (3.4)
PRUEBA Podemos escribir A  B = A  (B  A) = A  (B  AB). Eso es, A o

B ocurre si y sólo si A ocurre o B ocurre pero AB no ocurre. Por tanto, puesto que A y B
 AB son mutuamente excluyentes, y puesto que AB implica a B, tenemos
P A  B  P A  P B  AB
 P A  P B  P AB
por las Ecuaciones (2.2) y (3.1). Esto establece (3.3), de la cual (3.4) se sigue puesto
que P(A  B) = P(A  B)  P(AB) por (3.1).
////
EJEMPLO 2.3.2
De la clase total de novatos en una universidad dada, 22 porciento toma un curso de
matemáticas, 29 porciento toma un curso de ciencias, y 15 porciento toma ambos. Si un
estudiante es seleccionado al azar de la clase de novatos, ¿cuál es la probabilidad que el tome
un curso de matemáticas o un curso de ciencias? ¿Cuál es la probabilidad que el tome un
curso de matemáticas o un curso de ciencias pero no ambos? Sea A el evento que el novato
seleccionado aleatoriamente tome un curso de matemáticas, y sea B el evento que el tome un
curso de ciencias. Entonces, nos han dado P(A) = 0.22, P(B) = 0.29, y P(AB) = 0.15, y
requerimos la probabilidad de A  B y A  B. Éstas son P(A  B) = 0.22 + 0.29  0.15 =
0.36 y P(A  B) = 0.21 por las Ecuaciones (3.3) y (3.4) respectivamente. ////
Presentamos una extensión de las Ecuaciones (3.3) y (3.4) en la siguiente sección y

concluimos esta sección con una extensión de la Ecuación (2.2).
Teorema 2.3.3 Sean A1, A2,... An cualesquiera eventos. Si A1, A2,... An son
mutuamente excluyentes, entonces
n  n
P  Ai    P Ai  (3.5)
 i1  i1
En cualquier caso (aun si A1, A2,... An no son mutuamente excluyentes), tenemos
n  n
P  Ai    P Ai  (3.6)
 i1  i1
PRUEBA Probaremos (3.5) por inducción sobre n. Si n = 1, entonces (3.5) es

trivialmente cierta. Ahora, suponer que (3.5) es cierta cuando n = m  1, y considere el
caso para n = m + 1. En este caso, encontramos que los eventos
m
A   Ai y B  Am1
i1
son mutuamente excluyentes. Por tanto,

 m1 
P  Ai   P A  B  P A  P B
 i1 
m m1
=  P Ai   P Am1    P Ai 
i1 i1
por la Ecuación (2.2) y la hipótesis de inducción. La expresión (3.6) puede ser

establecida por un argumento análogo que usa la Ecuación (3.3) en lugar de la
Ecuación (2.2). ////
EJEMPLO 2.3.3
Sea una muestra desordenada de tamaño k tomada de una urna que contiene m bolas rojas y
n  m bolas blancas. ¿Cuál es la probabilidad que al menos r de las bolas tomadas serán
rojas? Para j = 0,, k, sea Ej el evento que exactamente j de las bolas tomadas serán rojas.
Entonces E0,,Ek son mutuamente excluyentes, y
 m  n  m
  
 j k  j 
 
P Ej 
 n
 
 k
para j = 0,, k por el Teorema 1.4.1. Más aún, el evento que al menos r de las bolas
tomadas sean rojas es simplemente
k
Lr   E j
j r
Por tanto,
 m  n  m
 
k  j k  j 

P Lr   
j r  n
 
 k
por la Ecuación (3.5). La probabilidad que a lo más r bolas rojas serán tomadas es
 m  n  m
 
r  j k  j 

P M r    ////
j 0  n
 
 k
EJEMPLO 2.3.4
Considere una lotería en la cual 100,000 boletos son vendidos, de los cuales 5 ganan
premios. Si un hombre compra 10 boletos, ¿cuál es la probabilidad que el ganará al menos 1
premio? Considere los 10 boletos como una muestra ordenada sin reemplazo de los 100,000
boletos, y sea Ak el evento que el késimo boleto gana un premio. Entonces, P(Ak) =
0.00005, k = 1,, 10, y el evento que el hombre gana al menos 1 premio es A  10 k 1 Ak
.
Puesto que los eventos A1,,A10 no son mutuamente excluyentes, la Ecuación (3.5) no es
k 1 P Ak   0.00005.
aplicable. Sin embargo, (3.6) es aplicable y produce P A  10
La probabilidad exacta puede ser también calculada. Indudablemente, por (3.2) y el Teorema
1.5.1, tenemos P(A) = 1  P(A') = 1  (99,995)10/(100,000)10. Así, tenemos una simple cota
superior para la probabilidad en cuestión y una expresión algo complicada para su valor
exacto. ////
EJEMPLO 2.3.5
Si S es un conjunto finito, si  es la clase de todos los subconjuntos de S, y si P({s}) = c es
la misma para toda s  S, entonces P(A) = |A|/|S| para todo A  S. Sin lugar a dudas, si A  S,
entonces A = A{s}, donde la unión se extiende sobre todos los distintos s  A, así que P(A)
= A P({s}) = c|A|. Tomando A = S, ahora encontramos que 1 = P(S) = c|S|, o c = 1/|S|. La
afirmación se sigue.
Hay un número de identidades combinatorias interesantes que se siguen del Teorema 2.3.3;
enumeramos dos de ellas en el siguiente ejemplo.
EJEMPLO 2.3.6
a Sean E0, E1,, Ek como descritos en el Ejemplo 2.3.3. Entonces E0, E1,, Ek son
tanto mutuamente excluyentes como exhaustivos. Por tanto,
 m  n  m
  
k  j k  j 
 k 
1  P S   P  E j   
 j 0  j 0  n
 
 k
Eso es,
k  m  n  m  n
    
j 0  j   k  j   k
b Análogamente, si una muestra ordenada de tamaño n es tomada sin remplazo de

una urna conteniendo m  1 bolas rojas y n  m bolas blancas, entonces al menos 1 bola
roja debe ser tomada. Sea Fk el evento que la primera bola roja es tomada en la késima
toma, k = 1,, n. Entonces F1,,Fn son mutuamente excluyentes y exhaustivos, y
P(Fk) = m(n  m)k-1/(n)k = m(nm)k-1(n  k)!/n!, k = 1,, n por el Ejemplo 1.5.1. Por
tanto, tenemos
n
 m n  m k 1  n  k  !  n! ////
k 1
2.4 COMBINACIONES DE EVENTOS1

En el Teorema 2.3.3 mostramos que la probabilidad de la unión de n eventos es siempre
menor que o igual a la suma de sus probabilidades, con igualdad si los eventos son
mutuamente excluyentes. En esta sección desarrollaremos una expresión exacta para la
probabilidad de la unión de n eventos arbitrarios. Usaremos la siguiente notación. Sean A1,
A2,, An cualesquiera eventos, y para cualquier subconjunto J de {1,,n} sea
B j   Ai
ij
Así, Bj es el evento que Ai ocurre para toda i  J, con ninguna restricción ubicada sobre la
ocurrencia de Ai para i  J. Además, sea
Sk   P B j
J k
  (4.1)
donde la sumatoria se extiende sobre todos los subconjuntos J de tamaño k, k = 1,, n. Así,
n
S1   P Ai 
i1
 
n i1
S 2    P Ai Aj
i 2 j 1
y así enseguida. La fórmula que desarrollaremos está dada en el siguiente teorema.
Teorema 2.4.1 Sean A1,,An cualesquiera n eventos, y sea A = A1  An el

evento de que al menos uno de A1,,An ocurre. Entonces
n
P A    1
k 1
Sk (4.2)
k 1
El Teorema 2.4.1 puede ser probado por inducción matemática directa sobre n usando la
Ecuación (3.3), que el Teorema 2.4.1 generaliza. Daremos los detalles abajo, pero primero
consideraremos algunos ejemplos.
La mayoría de las aplicaciones de la Ecuación (4.2) serán para casos en los cuales los
eventos A1,,An son simétricos en el sentido que
1
6 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad.
60 COMBINACIONES DE EVENTOS
  
P B j  P A1 A2  Ak  (4.3)
para todos los subconjuntos J de tamaño k, k = 1,, n. En este caso Sk se simplifica a
 n
S k    P A1  Ak  (4.1a )
 k
 n
puesto que hay   sumandos en la Ecuación (4.1).
 k
EJEMPLO 2.4.1
Apareamiento Una computadora prepara cobros mensualmente para sus n clientes y
rotula un sobre para cada uno. Un error de programación entonces le causa poner los cobros
dentro de los sobres al azar. ¿Cuál es la probabilidad que ubique al menos un cobro en el
sobre correcto? Numeremos los cobros y sobres de tal manera que cada cobro reciba el
mismo número que el sobre rotulado para él. Podemos entonces describir el suceso del
experimento por una permutación x = (x1,... xn) de los enteros 1,, n, donde xk denota el
número del sobre dentro del cual el késimo cobro es ubicado, k = 1,, n. Podemos por lo
tanto tomar nuestro espacio muestral S para ser el conjunto de todas las permutaciones
dichas, e interpretamos la frase "al azar" para significar que todos los n! sucesos x = (x1,... xn)
 S son igualmente verosímiles. El evento que la késima carta es correctamente ubicada es
entonces Ak = {x  S: xk = k} para k = 1,, n, y requerimos la probabilidad de la unión
B  nk 1 Ak . Es fácil ver que la condición de simetría (4.3) es satisfecha. Más aún, P(A1 
Ak) = (n  k)!/n!, porque A1  An especifica que xi = i, i = 1,, k, y permite xk+1,, xn para
 n
ser permutadas en cualquier orden. Ahora se sigue que S k     n  k !/ n!= 1 / k !. Por
 k
tanto, por la Ecuación (4.2)
n  n k 1 1
n
k 1
P  Ai     1  1    1
 i1  k 1 k! k 0 k!
La última suma, sin embargo, es simplemente los primeros n términos en la expansión de la

serie infinita de Taylor de ex para x = 1, así que
n 
P  Ai   1  e 1  0.632 (4.4)
 i1 
para n grande. De hecho, la aproximación (4.4) es válida a dos decimales provisto sólo que n
 5. ////
EJEMPLO 2.4.2
El problema del colector de cupones. Un fabricante regala cupones de t diferentes tipos
con su producto y da un premio a cualquiera quien colecte al menos uno de todos los t tipos.
Si un hombre colecta n cupones, ¿cuál es la probabilidad que el colectará al menos uno de
todos los t tipos? Si los t tipos de cupones son distribuidos en igual número, y si hay un
número grande de cupones, podemos parafrasear la cuestión como sigue.
Si un dado balanceado de t lados es lanzado n veces, ¿cuál es la probabilidad que cada una
de las t caras aparezca al menos una vez? Sea Ai el evento que la iésima cara no aparece al
menos una vez. Entonces requerimos la probabilidad que el evento A  ti1 Ai no ocurra, eso
es, 1  P(A). Podemos calcular P(A) de la Ecuación (4.2). Indudablemente, es de nuevo
fácilmente verificado que la condición de simetría (4.3) es satisfecha, y
n
 k
P A1  Ak   1  
 t
para k = 1,,t, puesto que A1  Ak requiere que cada uno de los n lanzamientos resultar en
una de las t  k caras especificadas (ver Lema 1.5.1). Por tanto,
n
t t   k
P A    1
k 1
  1   (4.5)
k 1  k  t
por la Ecuación (4.2). La Ecuación (4.5) no se simplifica pero es tratable para cálculos.
Enumeramos algunos valores típicos en la Tabla 3 para t = 6. ////
PRUEBA del Teorema 2.4.1 Probaremos el Teorema 2.4.1 por inducción

sobre n. Si n = 1, entonces (4.2) es trivial. Así, suponer que (4.2) es cierta para n  m, y
considere el caso donde n = m + 1. Si A1,,Am+1 son cualesquiera m + 1 eventos,
 m1  m  m 
P
entonces   Ai 

 P  A
 i1 
i   P Am1   P  Ai Am1 
 i1 
(4.6)
i 1
por (3.3). Más aún, el primer y último términos sobre el lado derecho de (4.6) son
probabilidades de la unión de m eventos, así que
k 1
m  m   
P  Ai     1   P   Ai (4.7a )
 i1  k 1  J  k  iJ  
62 COMBINACIONES DE EVENTOS
k 1
m  m   
P  Ai Am1     1   P Am1  Ai   (4.7b)
 i1  k 1  J k iJ 
Tabla 3
n 8 12 16 20 24
1  P A 0.114 0.438 0.698 0.848 0.925
por la hipótesis de inducción. Finalmente, si (4.7a) y (4.7b) son substituidas dentro de
(4.6), y si el (k + 1)ésimo término en (4.7a) es agrupado con el késimo término en
(4.7b), la Ecuación (4.2) es obtenida. El Teorema 2.4.1 ahora se sigue por inducción
matemática. ////
Para cerrar, mencionamos la siguiente extensión del Teorema 2.4.1. Sean A1,,An
cualesquiera n eventos; para r = 1,,n sea Lr el evento que al menos r de los eventos
A1,,An ocurran; y sea Er el evento que exactamente r de los eventos A1,,An ocurran. Así,
Lr   BJ y Er  Lr  Lr 1
J r
donde Bj es como en la Ecuación (4.1).
Teorema 2.4.2 Para r = 1,,n,
n k r
 k  1
P Lr     1   Sk (4.8)
k r  r  1
k r
n  k
P Er     1   Sk (4.9)
k r r
donde Sk está definido por (4.1).
La Ecuación (4.8) puede ser establecida por un argumento inductivo que es similar a ese
dado en la prueba del Teorema 2.4.1. La Ecuación (4.9) entonces puede ser obtenida de la
identidad P(Er) = P(Lr)  P(Lr+1). Omitimos los detalles. Otra, prueba más simple del
Teorema 2.4.1 es bosquejada en el Problema 8.66.
2.5 EQUIVALENTES DEL TERCER AXIOMA1

Ahora cambiaremos nuestra atención a el tercer axioma (2.3) y desarrollaremos varios útiles
equivalentes a él. Decimos que una sucesión infinita de eventos A1, A2, es creciente si y
sólo si A1  A2    An  An+1   para cualquier n = 1, 2,. Eso es, A1, A2, es
creciente si y sólo si la ocurrencia de An implica la ocurrencia de An+1 para cualquier n = 1,
2,. Definimos el límite de una sucesión creciente A1, A2, para ser la unión

A   An
n 1
y escribimos A = lim An. Así, A = lim An ocurre si y sólo si An ocurre para alguna n = n0, en
cuyo caso Ak ocurre para toda k  n0. Análogamente, decimos que una sucesión infinita de
eventos A1, A2, es decreciente si y sólo si A1  A2    An  An+1   para cualquier n
= 1, 2,, y definimos el límite de la sucesión decreciente de eventos para ser la intersección

A   An
n 1
En este caso A = lim An ocurre si y sólo si An ocurre para cada n = 1, 2,. Observemos que
una sucesión A1, A2, es creciente (decreciente) si y sólo si A1, A2 ,... es decreciente
(creciente) y que en uno u otro caso
lim An '  lim An (5.1)
EJEMPLO 2.5.1
Sea S = (0,1) el intervalo unitario abierto, y para n = 1, 2, sea An = (1/n,1) el intervalo
abierto de 1/n a 1. Entonces, puesto que 1/(n + 1) < 1/n, n  1, A1, A2, es una sucesión
creciente de eventos, y puesto que 1/n  0 cuando n  ,

lim An   An   01
,
n 1
Análogamente, haciendo Bn = (0,1/n), n  1, encontramos que B1, B2, es una sucesión

decreciente de eventos con límite n1 Bn   , puesto que no hay números reales x con 0 < x
< 1/n para n = 1, 2,. ////
1
64 EQUIVALENTES DEL TERCER AXIOMA
Ahora suponer que S es un conjunto no vacío, que  es una  álgebra de subconjuntos de S,

y que P es una función definida sobre  que satisface (2.1) y (2.2), y consecuentemente
(3.1) a (3.8). Entonces decimos que P es continua por abajo (por arriba) si y sólo si
P lim An   lim P An  (5.2)
cuando n  , siempre que A1, A2, sea una sucesión creciente (decreciente) de eventos. El
principal resultado de esta sección es que el tercer axioma es equivalente a la continuidad
como está definida en (5.2).
Teorema 2.5.1 Sea S un conjunto no vacío, sea  una  álgebra de subconjuntos

de S, y sea P una función sobre  que satisface (2.1) y (2.2). Entonces, los siguientes
son equivalentes:
(i) La Ecuación (2.3) se cumple.
(ii) P es continua por abajo.
(iii) P es continua por arriba.
En particular, (i), (ii), y (iii) todas se cumplen si P es una medida de probabilidad.
PRUEBA Mostraremos que (i)  (ii)  (iii)  (i). Comenzamos con la

prueba que (i)  (ii). Suponer que P es un espacio de probabilidad, y sean A1, A2,
una sucesión creciente de eventos. Entonces podemos definir una nueva sucesión B1,
B2, por
B1  A1 y Bn  An  An1
para n = 2, 3,. Entonces B1, B2, son mutuamente excluyentes,

n
An   Bk (5.3)
k 1
para n = 1, 2,, y
  n 
lim An   An    Bk   Bn
n1 n1k 1 n1
Por tanto, por (2.3),

 n
P lim An    P Bk   lim  P Bk   lim P An 
k 1 n k 1 n
Aquí, la primera igualdad se sigue de (2.3), la segunda de la definición de una suma

infinita, y la tercera de (5.3).
La prueba que (ii)  (iii) es ahora trivial. Indudablemente, si A1, A2, es una sucesión
decreciente de eventos, entonces A1, A2 ,... es una sucesión creciente de eventos y (5.1)
se cumple. Así, si P es continua por abajo, entonces
P lim An   1  P lim An   1  lim P An   lim P An 
cuando n  , así que P es también continua por arriba.

Finalmente, debemos mostrar que (iii)  (i). Sea P continua por arriba, y sea A1, A2,
una sucesión de eventos mutuamente excluyentes con unión

A   An
n 1
Para n = 1, 2, defina

n
Bn   Ak
k 1
Entonces, B1, B2, es una sucesión creciente de eventos con límite lim Bn = A, así que
Cn = A  Bn forma una sucesión decreciente de eventos con límite lim Cn = . Ahora,
para cada n = 1, 2,, tenemos
n
P A  P Bn   P Cn    P Ak   P Cn  (5.4)
k 1
por (2.2) y (3.5). Finalmente, puesto que P es supuesta para ser continua por arriba,
debemos tener lim P(Cn) = P(lim Cn) = P() = 0 cuando n  . Así,

P A   P Ak 
k 1
como es requerida por (2.3). Esto completa la prueba del Teorema 2.5.1. ////
El interés en el Teorema 2.5.1 se deriva de dos hechos. Primero, muestra que el tercer
axioma (2.3), que no fue tan bien motivado como (2.1) y (2.2), es equivalente a
probabilidades requeridas para ser continuas en el sentido de la Ecuación (5.2). El lector
puede encontrar la suposición de continuidad más admisible que (2.3) como originalmente se
estableció. También, muestra que las medidas de probabilidad son continuas en el sentido de
(5.2), y este hecho será útil para nosotros posteriormente.
66 EQUIVALENTES DEL TERCER AXIOMA
REFERENCIAS
Una discusión concisa de varias interpretaciones de probabilidad es dada por De Finetti
(1968). Una discusión más extensiva de estas interpretaciones será encontrada en Smokler y
Kyburg (1964). Un enfoque diferente a la cuantificación de probabilidades subjetivas está
dado por DeGroot (1970), quien también da más referencias.
Lectores familiarizados con teoría de la medida pueden desear consultar un texto más
avanzado para más información sobre los fundamentos matemáticos de la probabilidad.
Neveu (1965) y Tucker (1967) son recomendados.
2.6 PROBLEMAS
2.1. Definir un espacio muestral apropiado para cada uno de los siguientes experimentos.
No es ya necesario que los resultados sean supuestos igualmente verosímiles:
(a) Un dado cargado es lanzado dos veces.
(b) Un dado es lanzado hasta que un as aparece.
(c) Una moneda no cargada es lanzada hasta que dos águilas han aparecido.
(d) Deseas adivinar el año del nacimiento de Noé.
2.2. Definir espacios muestrales apropiados para los siguientes experimentos:
(a) La longitud del tiempo requerido para que una sustancia radiactiva registre 25
emisiones es observada.
(b) El peso de un hombre seleccionado al azar es registrado.
(c) La precipitación anual en Seattle es registrada.
(d) El valor de la acción IBM es registrado cada día por una semana.
(e) El número de accidentes de tráfico en una ciudad y día particular es registrado.
2.3. Trate de asignar su probabilidad subjetiva de que lloverá mañana.
68 PROBLEMAS
NOTA: Problemas 2.4 a 2.6 muestran que una persona con

probabilidades subjetivas inconsistentes estará dispuesto a poner
apuestas sobre lo que ciertamente perderá dinero.
2.4. Sea A un evento, y denoten p y q sus probabilidades subjetivas para A y A´,
respectivamente. Si p + q  1, entonces ¿consideraría como legal dos apuestas la
combinación de las cuales le forzaría a perder? Sugerencia: Si p + q > 1, ¿qué ocurre si
usted apuesta a favor de ambos A y A´?
2.5. Extienda el resultado del Problema 2.4 al caso de los eventos disjuntos cuya unión es
S.
2.6. Si A y B son eventos disjuntos y su probabilidad subjetiva para A  B no es P(A) +
P(B), entonces ¿estaría dispuesto a poner apuestas la combinación de las cuales le
forzaría a perder? Sugerencia: Sea C = A´B´, y mostrar que, ya sea P(C) + P(C´)  1 ó
P(A) + P(B) + P(C)  1; entonces aplique los Problemas 2.5 y 2.6.
2.7. Una persona es seleccionada al azar de la población de una ciudad dada. Sea A el
evento de que la persona es hombre; sea B el evento de que la persona tiene menos de
30 años de edad; y sea C el evento de que la persona habla un lenguaje extranjero.
Describa en símbolos:
(a) Un hombre quien tiene menos de 30 y no habla un lenguaje extranjero.
(b) una mujer quien, ya sea, tiene menos de 30 o habla un lenguaje extranjero.
(c) Una persona quien, ya sea, tiene menos de 30 o es mujer pero no ambas.
(d) Un hombre quien, ya sea, tiene menos de 30 o habla un lenguaje extranjero pero no
ambos.
2.8. Sea A, B, y C como en el Problema 2.7. Describir en palabras los siguientes eventos:
(a) A(B  C) (b) A  BC (c) A  BC
(d) A  (B  C) (e) (A  B)  AB (f) (A  B  C)  ABC
(g) (A  B  C)  (AB  BC  AC) (h) AB  C
(i) (A  B)  C (j) (A  B)  C
2.9. Considere un dado el cual está cargado de tal manera que la probabilidad de que k
puntos aparecerán cuando el dado sea lanzado es proporcional a k. Si el dado es lanzado
una vez, ¿cuál es la probabilidad de que un número par de puntos aparecerán?
2.10. Si la probabilidad de que un conmutador telefónico hará exactamente k conexiones
erróneas durante un día de 24 horas es proporcional a 1/k! para k = 0, 1, 2,, ¿cuál es
la probabilidad (a) de que no habrá conexiones erróneas; (b) de que habrá cuando
mucho 2 conexiones erróneas?
2.11. Sea S = {1,2,} el conjunto de enteros positivos, y sea f(s) = 1/s(s + 1) para s  S.
Mostrar que f(1) + f(2) +  = 1.
2.12. Sean S y f como en el Problema 2.11 y defina P como en el Ejemplo 2.2.2. Encontrar la
probabilidad de los eventos A = {1,2,3,4} y B = {10,11,}.
2.13. En el Problema 2.12 encontrar la probabilidad del evento A = {2,4,6,} que un entero
par sea seleccionado. Sugerencia: Integre la expansión de la serie de Taylor de –(½) log
(1  x2).
2.14. Denote S = [0,1] el intervalo unitario y sea un punto s seleccionado al azar de S como
en el Ejemplo 2.2.5. ¿Cuál es la probabilidad (a) de que el primer decimal en la
expansión decimal de s sea 1; (b) que sea a lo más 5?
2.15. En el Problema 2.14 reemplace el primer decimal por el segundo decimal.
2.16. Sea S = (0,) y sean las probabilidades asignadas como en el Ejemplo 2.2.4 con f(s) =
e-s para s  S. Sea A el conjunto de s  S los cuales difieren de un entero positivo en
más de ¼. Encontrar P(A). Sugerencia: Sea An el conjunto de s para las cuales s  n 
¼; calcular P(An); y sumar.
2.17. Mostrar que la condición (2.3) implica la condición (2.2).
2.18. Mostrar que la condición (2.2) y (2.3) son equivalentes si S es un conjunto finito.
2.19. Sea un punto seleccionado al azar del intervalo unitario S = [0,1], como en el Ejemplo
2.2.5, y sea el evento A definido como sigue. Primero, definimos A1 para ser el
intervalo (1/3,2/3). Enseguida, definimos A2 para ser la unión de los intervalos (1/9,2/9)
y (7/9,8/9). En general definimos An, n  3, para ser la unión de los tercios medios de
los 2n –1 intervalos que están incluidos en (A1    An –1)´.Finalmente, permitimos a A

= k 1 An ser la unión de los An. El complemento de A, C = S  A, es conocido como el
conjunto de Cantor y tiene varias propiedades interesantes. Mostrar que P(A) = 1 y
consecuentemente que P(C) = 0. Sugerencia: P(An) es fácilmente calculado, y los An
son disjuntos.
2.20. En el Problema 2.19, reemplazar tercio medio por cuarto medio en todo (también en la
definición de A1 y A2). Calcule P(A) en este caso.
2.21. Mostrar que si A es un conjunto índice y para cada   A  es una -álgebra de
subconjuntos de un conjunto no vacío S, entonces A es de nuevo una -álgebra de
subconjuntos de S.
2.22. Sea S un intervalo de números reales, y sea  la intersección de todas aquellas -
álgebras de subconjuntos de S que contienen todos los subintervalos de S. Mostrar que
70 PROBLEMAS
 es una -álgebra y que si  es cualquier otra -álgebra que contiene todos los
subintervalos de S, entonces   .
2.23. Algunos de los requerimientos en la definición de una -álgebra son redundantes.
Mostrar que  es una -álgebra si S  ; si A   implica que A´ ; y si Ak   para

k = 1, 2, implica que k 1 Ak  .
2.24. Si una muestra aleatoria desordenada de tamaño 10 es extraída de un lote de productos
manufacturados, de los cuales 10 son defectuosos y 90 son no defectuosos, ¿cuál es la
probabilidad de que la muestra contendrá (a) al menos 1 defectuoso; (b) al menos 2
defectuosos?
2.25. Si una moneda no cargada es lanzada hasta que un águila aparece, ¿cuál es la
probabilidad de que entre 3 y 8 lanzamientos (inclusive) serán requeridos?
2.26. Si cartas son extraídas secuencialmente de un paquete estándar hasta que una espada
aparece, ¿cuál es la probabilidad de que entre 3 y 8 extracciones serán requeridas?
2.27. ¿Cuál es la probabilidad que la más pequeña denominación en una mano de póquer será
un 4?
2.28. Si un dado balanceado es lanzado dos veces, ¿cuál es la probabilidad de que el número
más grande de puntos a aparecer será j, j = 1, 6?
2.29. Si un dado balanceado es lanzado n veces, ¿cuál es la probabilidad de que el número
más grande de puntos a aparecer será j para j = 1, 2,,6?
2.30. ¿Cuál es la probabilidad de que una mano de póquer seleccionada aleatoriamente
contendrá al menos 2 cartas de al menos una denominación?
2.31. ¿Cuál es la probabilidad de que una mano de póquer contendrá:
(a) Exactamente 2 ases o exactamente 2 reyes o ambos?
(b) Exactamente 2 ases o exactamente 2 reyes pero no ambos?
2.32. Un oficial en la Oficina Interna de Impuestos cree:
(a) Que 40 por ciento de todos los contribuyentes fallan en listar todos sus ingresos
fiscales.
(b) Que 36 por ciento listan más deducciones que las que ellos de hecho tienen.
(c) Que 22 por ciento hacen ambas.
Si él es consistente en sus creencias, ¿qué porcentaje de contribuyentes cree él que
hacen trampa por, ya sea, el método (a) o el método (b)?
2.33. Si A, B, y C son eventos, derivar una fórmula para P(A  B  C) en términos de las
probabilidades de intersecciones de A, B, y C.
2.34. ¿Cuál es la probabilidad de que una mano de bridge seleccionada al azar contendrá al
menos siete cartas del mismo palo?
2.35. ¿Cuál es la probabilidad de que una mano de póquer seleccionada al azar contendrá al
menos tres cartas de la misma denominación?
2.36. Si una muestra aleatoria desordenada de tamaño 10 es seleccionada de un grupo de 55
Demócratas y 45 Republicanos, ¿cuál es la probabilidad de que la muestra contendrá
más Demócratas que Republicanos?
2.37. En el Problema 2.36 ¿cuál es la probabilidad de que la muestra contendrá entre 4 y 8
Demócratas (inclusive)?
2.38. Sea A1, A2, cualquier sucesión infinita de eventos, y permita que B1 = A1 y Bk = Ak 
(A1    Ak –1) para k  2. Mostrar que B1, B2, son mutuamente excluyentes y
 
k 1 Ak = k 1 Bk .

2.39. Sea A1, A2, cualquier sucesión infinita de eventos con unión A =  k 1
Ak . Mostrar
que P(A)   P Ak  .

k 1
2.40. Obtener una cota superior sobre la probabilidad de que una mano de bridge
seleccionada al azar contendrá un vacío (no cartas de al menos un palo).
2.41. Calcular la probabilidad de que una mano de bridge seleccionada al azar contendrá un
vacío.
2.42. Calcular la probabilidad de que una mano de bridge seleccionada al azar contendrá
exactamente 6 cartas de al menos un palo.
2.43. Si un hombre aleatoriamente selecciona 4 calcetines de un cajón que contiene 4 pares
distinguibles de calcetines, ¿cuál es la probabilidad de que el seleccionará al menos un
par?
2.44. Cartas etiquetadas 1, 2, n son volteadas en un orden aleatorio. Sea Ak el evento de
que la carta etiquetada k es volteada en la k-ésima vuelta. ¿Cuál es la probabilidad de
que al menos uno de A1, An ocurra?
2.45. En el Problema 2.44 sea pn(j) la probabilidad de que exactamente j de A1, An
ocurrirán. Mostrar que pn(j)  1/ej! para j = 0, 1, 2, cuando n  .

2.46. Mostrar que si A1, A2, es cualquier sucesión infinita de eventos, entonces P k 1 Ak


   
  
= lim P k 1 Ak cuando n   y P k 1 Ak = lim P k 1 Ak cuando n  .
n n
3
3 PROBABILIDAD CONDICIONAL E INDEPENDENCIA
3.1 PROBABILIDAD CONDICIONAL

Sea (S,,P) un espacio de probabilidad, y sea B un evento con probabilidad positiva. Así,
(S,,P) puede ser pensado como un modelo para algún experimento o juego de azar y B
como un evento con una posibilidad positiva de ocurrir. Ahora suponer que sabemos que B
ha de hecho ocurrido. Entonces nuestra asignación original de probabilidades, representada
en el modelo por P, puede no ser ya apropiada. Indudablemente, puesto que ahora sabemos
que B ha ocurrido, sabemos que es imposible para B' ocurrir, aunque pudimos haber
asignado originalmente probabilidad positiva a B'. La cuestión que proponemos responder en
esta sección es por lo tanto: ¿Cómo deben nuestras probabilidades cambiar a la luz de la
nueva información?
Desde el punto de vista frecuentista, la respuesta es completamente simple. Nuestras nuevas
probabilidades deben representar frecuencias relativas límites de eventos entre exactamente
aquellos ensayos sobre los cuales B ocurra. Eso es, si el juego o experimento bajo
consideración es repetido n veces, como en la Sección 2.1, y si nA denota el número de veces
que A ocurre durante la n repeticiones del juego o experimento, entonces la frecuencia
relativa de A entre aquellos ensayos sobre los cuales B ocurre es
74 PROBABILIDAD CONDICIONAL
n AB n AB n

nB nB n
En la interpretación frecuentista de probabilidad, la última cantidad es (para n grande)

aproximadamente P(AB)/P(B), que por lo tanto parece ser un candidato razonable para
nuestra nueva probabilidad.
También somos conducidos al cociente P(AB)/P(B) desde el punto de vista subjetivo. Así,
considere el siguiente juego: si B ocurre, entonces
1 Uno paga q unidades para jugar.
2 Uno recibe 1 unidad si A ocurre y nada si A no ocurre.
Si B no ocurre, ninguna apuesta es ubicada. ¿Cómo puede q ser seleccionada de tal manera
que la anterior apuesta sea justa? Si uno antes ha asignado probabilidades subjetivas a los
eventos A, B, AB, y A'B de una manera consistente, esta cuestión tiene una respuesta fácil.
Puesto que uno gana 1  q unidades con probabilidad P(AB) y pierde q unidades con
probabilidad P(A'B), la noción intuitiva de justicia requiere que (1  q)P(AB) = qP(A'B).
Esto también puede ser escrito
P AB  q P AB  P A B  qP B
donde hemos usado la consistencia en el paso final. Resolviendo para q ahora produce q =
P(AB)/P(B), que por lo tanto parece ser un candidato razonable para nuestra nueva
probabilidad para A desde el punto de vista subjetivo también.
Hemos motivado la siguiente definición: si A y B son eventos para los cuales P(B) > 0,
entonces definimos la probabilidad condicional de A dado B para ser
P AB
P A B  (1.1)
P B
Antes que procedamos a ejemplos, observemos que nuestras probabilidades originales P(A)
pueden también ser consideradas como probabilidades condicionales dado el espacio
muestral S. Indudablemente, tomando B = S en la Ecuación (1.1) produce AS = A y P(S) = 1,
así que P(A | S) = P(A). Esta observación admite la siguiente interpretación: nuestras
probabilidades originales son probabilidades condicionales dado nuestro almacén inicial de
información acerca del problema en mano; nuestras nuevas probabilidades P(A | B), donde B
 S, son condicionales dada alguna información adicional.
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 75
EJEMPLO 3.1.1
a Si A  B entonces AB = A, así que P(A | B) = P(A)/P(B). En este caso la nueva
probabilidad para A es mayor que la probabilidad original para A excepto en el caso
trivial donde P(B) = 1. En particular, P(B | B) = 1.
b Si A  B', entonces AB = , así que P(A | B) = 0. ////
EJEMPLO 3.1.2
a Si una muestra aleatoria ordenada de tamaño k = 2 es tomada de una urna que
contiene m bolas rojas y n  m bolas blancas , ¿cuál es la probabilidad condicional que
la segunda bola tomada será roja (evento A) dado que la primera bola tomada es roja
(evento B)? Tenemos P(B) = m/n y P(AB) = m(m  1)/n(n  1). Consecuentemente, P(A
| B) = P(AB)/P(B) = (m  1)/(n  1). Un cálculo semejante mostrará que P(A | B') =
m/(n  1). En ambos casos, la probabilidad condicional de tomar una bola roja en la
segunda selección, dado que el suceso de la primera selección, es proporcional al
número de bolas rojas en la urna al momento de la segunda selección.
b Si el muestreo había sido con reemplazo en la parte a, habríamos encontrado que
P(B) = m/n, P(AB) = m2/n2 y consecuentemente que P(A | B) = m/n. Similarmente, P(A |
B') = m/n. De nuevo, la probabilidad condicional de tomar una bola roja en la segunda
selección es proporcional al número de bolas rojas en la urna al momento de la segunda
selección. ////
EJEMPLO 3.1.3
a ¿Cuál es la probabilidad que una mano de póker seleccionada aleatoriamente
contenga exactamente 3 ases (evento A), dado que contiene al menos 2 ases (evento B)?
Puesto que A implica a B, tenemos AB = A es el evento que la mano contenga
 4  48  52
exactamente 3 ases. Así P AB        por el Teorema 1.4.1. El evento B
 3  2   5 
ocurre si la mano contiene 2, 3, o 4 ases, así que
 4  48  4  48  4  48

          
 2  3   3  2   4  1 
P B 
 52
 
 5
por los Teoremas 1.4.1 y 2.3.3. Por tanto,

P A B  P AB P B
 4  48  4  48  4  48  4  48 
=                  
 3  2   2  3   3  2   4  1  
= 0.0416
b ¿Cuál es la probabilidad que una mano de póker seleccionada aleatoriamente

contendrá exactamente 2 reyes (evento A), dado que contiene exactamente 2 ases
(evento B)? Tenemos
 4  48  52  4  4  44  52
P B        y P AB         
 2  3   5  2  2  1   5
 4  44  48
por los Teoremas 1.4.1 y 1.4.2. Así, P A B        . Observe que ésta es
 2  1   3 
también la probabilidad que una muestra de tamaño 3 de una baraja sin ases contendrá
exactamente 2 reyes. ////
En el modelo clásico, donde P(A) = |A|/|S| para A  S, las probabilidades condicionales
toman una forma particularmente simple. Cierto, si B es un subconjunto no vacío de S,
entonces
P A B 
AB S AB
 (1.2)
B S B
para cualquier A  S. Así, si consideramos originalmente los sucesos en S como igualmente
verosímiles y sabemos que B ha ocurrido, entonces consideramos los sucesos en B como
igualmente verosímiles. En efecto, reducimos nuestro espacio muestral de S a B. Eso es,
calculamos probabilidades como si B fuera el espacio muestral.
Esta observación puede ser extremadamente útil en el cálculo de probabilidades
condicionales en experimentos de muestreo. Sin duda, dice que dado que la muestra tiene
alguna propiedad particular (evento B), todas las restantes posibles muestras son igualmente
verosímiles. Ejemplos 3.1.2 y 3.1.3b son casos especiales.
EJEMPLO 3.1.4
a Si una muestra aleatoria desordenada de tamaño k es tomada de una urna
conteniendo r bolas rojas, b bolas negras, y w bolas blancas, ¿cuál es la probabilidad
condicional que la muestra contendrá exactamente i bolas blancas (evento A) dado que
contiene exactamente j bolas rojas (evento B)? Dado que la muestra contiene
exactamente j bolas rojas, podemos considerar las restantes k  j bolas en la muestra
como una nueva muestra de una urna conteniendo b bolas negras, w bolas blancas, y
ninguna bola roja. Eso es, formamos un nuevo espacio muestral consistiendo de todos
los sucesos en B. La probabilidad condicional de A es entonces justo la probabilidad
que una muestra de tamaño k  j de una urna conteniendo b bolas negras y w bolas
blancas contendrá exactamente i bolas blancas; eso es,
 b  w 
  
 i   k  j  i
P A B 
 b  w
 
k  j
por el Teorema 1.4.1. El Ejemplo 3.1.3b es un caso especial.
Observaciones similares aplican a muestras ordenadas.
b Sea una muestra aleatoria ordenada de tamaño k = k1 + k2 tomada de una urna,
donde k1 y k2 son enteros positivos. Entonces, dado el suceso de las primeras k1
selecciones, todas las posibles k2adas de bolas son igualmente verosímiles para ser
tomadas de la urna sobre las restantes k2 selecciones. Las partes a y b del Ejemplo 3.1.2
son un caso especial.
c Un comité de tamaño k = 5 es para ser seleccionado secuencialmente de un grupo de 6
Demócratas y 4 Republicanos. Dado que los 2 primeros miembros del comité para ser
seleccionados fueron Demócratas, ¿cuál es la probabilidad condicional que el comité
consistirá de 3 Demócratas y 2 Republicanos? Requerimos la probabilidad que una
muestra de tamaño 3 de un grupo de 4 Demócratas y 4 Republicanos consista de 1
 3 3
Demócrata y 2 Republicanos. La respuesta es por lo tanto   4 4 2 / 83  . ////
1 7
La simple idea incorporada en (1.2) se generaliza. Así, considere un espacio de probabilidad

(S,,P) y un evento B con probabilidad positiva P(B). Defina una nueva clase de eventos B
para ser todo A   donde A  B, y defina una función PB sobre B por
PB  A  P A B A B
Que B es, de hecho, una  álgebra se deja como un ejercicio.
Teorema 3.1.1 (B,B,PB) es un espacio de probabilidad.

PRUEBA Tenemos que mostrar que PB satisface (2.1), (2.2) y (2.3) del
Capítulo 2. Ahora A  B implica A  B, en cuyo caso PB(A) = P(A)/P(B). Así, PB(B) =
1. Para establecer (2.2), sean A1 y A2 elementos disjuntos de B. Entonces
P A1  A2  P A1   P A2 
PB  A1  A2   
P B P B
= PB  A1   PB  A2 
donde hemos usado el hecho que P es una medida de probabilidad en el segundo paso;
(2.3) puede ser establecida en una manera similar. ////
El Teorema 3.1.1 admite una interpretación que es similar a esa de la Ecuación (1.2). Eso es,
dado que B ha ocurrido, podemos considerar a B como el nuevo espacio muestral para
nuestro experimento provisto que cambiamos nuestra asignación de probabilidades de P a
PB. Sin embargo, el Teorema 3.1.1 provee información adicional. El Teorema 3.1.1 dice que
se nos es permitido usar todos los resultados del Capítulo 2 para calcular probabilidades
condicionales porque aquellos resultados son válidos para cualquier espacio de
probabilidad.
EJEMPLO 3.1.5 Bridge

a Dado que un jugador de bridge tiene 7 espadas, ¿cuál es la probabilidad
condicional que su pareja tenga al menos 1 espada? Dado que un jugador tiene 7
espadas y 6 no espadas, podemos considerar la mano de su pareja como una muestra de
tamaño 13 de una baraja conteniendo 6 espadas y 33 no espadas. Por tanto, la
 33  39
probabilidad condicional que su pareja no tenga espadas es     = 0.0706, y la
13 13 
probabilidad que su pareja tenga al menos 1 espada es 1  0.0706 = 0.9294.
b Si Norte y Sur tienen exactamente 8 cartas de triunfo en sus manos combinadas,
¿cuál es la probabilidad condicional que las restantes 5 cartas de triunfo estén divididas
3 y 2 entre Este y Oeste? Requerimos esa probabilidad condicional que el número de
cartas de triunfo en la mano Este sea 2 o 3. Dado que Norte y Sur juntos tienen
exactamente 8 cartas de triunfo, podemos considerar la mano Este como una muestra
de tamaño 13 de una baraja conteniendo 5 cartas de triunfo y 21 cartas de no triunfo.
La probabilidad condicional que Este tenga 2 o 3 cartas de triunfo es por tanto
 5  21  5  21
      
 2 11  3 10
 0.678 ////
 26
 
13 
El Teorema 3.1.1 abre una posibilidad interesante, es decir, iterar la operación de
condicionamiento. Que nada realmente nuevo es por este medio obtenido es el contenido de
nuestro siguiente teorema.

Teorema 3.1.2 Sean A, B, y C eventos para los cuales A y C son subconjuntos de B
y P(C) > 0. Entonces
PB  A C  P A C
PRUEBA Observe primero que P(B)  P(C) > 0, así que PB está bien definida.
Ahora, por definición, PB(A | C) = PB(AC)/PB(C), que puede ser escrita
P  ABC P B P AC
  P A C ////
P BC P B P C
3.2 EL TEOREMA DE BAYES

Las probabilidades condicionales no son sólo interesantes como nuevas probabilidades dada
alguna información adicional; ellas también pueden ser usadas como herramientas en el
cálculo de probabilidades incondicionales. Por ejemplo, la fórmula
P AB  P A B P B (2.1)
se sigue inmediatamente de la definición de probabilidad condicional y permite a uno

calcular P(AB) del conocimiento de P(A | B) y P(B). Es útil puesto que podemos algunas
veces calcular P(A | B) considerando a B como el espacio muestral para un nuevo
experimento. Más aún, puesto que cualquier evento A puede ser escrito A = AB  AB' con
AB  AB'  BB' = , tenemos P(A) = P(AB) + P(AB'), que, por la Ecuación (2.1), puede ser
escrita
P A  P A B P B  P A B P B (2.2)
provisto que 0 < P(B) < 1. Finalmente, si P(A) > 0, podemos usar las Ecuaciones (2.1) y
(2.2) para calcular P(B | A). Así
P AB P A B P B
P B A   (2.3)
P A P A B P B  P A B P B
La Ecuación (2.3) es un caso especial del Teorema de Bayes, discutido abajo. Consideremos
primero algunos ejemplos.
80 EL TEOREMA DE BAYES
EJEMPLO 3.2.1
Permita que la urna I contenga 4 bolas rojas y 2 bolas blancas, y permita que la urna II
contenga 3 bolas de cada color. Si una bola es seleccionada al azar de la urna I y transferida
a la urna II y entonces una bola es tomada al azar de la urna II, ¿cuál es la probabilidad que
la segunda bola tomada será roja? Sea A el evento que la bola tomada de la urna II es roja, y
sea B el evento que la bola transferida es roja. Entonces, P(A | B) = 4/7 puesto que habrá 4
bolas rojas y 3 bolas blancas en la urna II al momento de la segunda selección si B ocurre.
Similarmente P(A | B') = 3/7. Ya que P(B) = 2/9, tenemos
P A   47   23    73   13   11
21
por la Ecuación (2.2). Ahora suponer que observamos el color de la segunda bola para ser
roja pero no observamos el color de la bola transferida. Entonces podemos calcular la
probabilidad condicional que la bola transferida fuera roja de la Ecuación (2.3). Cierto,
tenemos P(B  A) = (4/7)(2/3)/(11/21) = 8/11. ////
EJEMPLO 3.2.2
En una cierta comunidad, se encontró que 60 por ciento de todos los dueños de propiedades
se oponen a un incremento en el impuesto a la propiedad mientras que 80 por ciento de los
no propietarios lo favorecen. Si el 65 por ciento de todos los votantes registrados son dueños
de propiedades, ¿qué proporción de votantes registrados favorecen el incremento fiscal? Sea
A el evento que un votante seleccionado al azar favorezca el incremento fiscal. Entonces
requerimos P(A). Sea B el evento que un votante seleccionado al azar sea un propietario.
Entonces, se nos ha dado que P(A | B) = 0.40, P(A | B') = 0.80, y P(B) = 0.65. Por la
Ecuación (2.2) encontramos P(A) = (0.40)  (0.65) + (0.80)(0.35) = 0.54. Eso es, 54 por
ciento de los votantes registrados favorecen el incremento fiscal.
¿Cuál porcentaje de aquellos votantes registrados quienes favorecen el incremento fiscal son
propietarios? Requerimos P(B | A). Por la Ecuación (2.3), esto es simplemente P(B | A) =
(0.40)(0.65)/0.54 = 0.4815. ////
Las Ecuaciones (2.1), (2.2) y (2.3) pueden todas ser generalizadas. Comenzamos con la
generalización de (2.1).
Teorema 3.2.1 Sean A1,,An eventos, y sea Bk = A1    Ak para k = 1,,n. Si
P(Bn-1) > 0, entonces
 
n
P Bn   P B1   P Bk Bk 1
k 2
PRUEBA Observamos que Bk implica Bk-1 (Bk  Bk-1), así que

P Bk Bk 1   P  Bk  P Bk 1 
para k = 2,, n. Por tanto,

P B2  P Bn 
P B1    P Bn 
P B1  P Bn1 
EJEMPLO 3.2.3
Un cierto sistema de comunicación, o canal, está diseñado para trasmitir o el símbolo 0 o el
símbolo 1. Hay 4 relevos, cada uno de los cuales puede funcionar mal. De hecho, cada
relevo cambia un 1 recibido a un 0 trasmitido con probabilidad 0.1 y cambia un 0 recibido a
un 1 trasmitido con probabilidad 0.2.
Fuente  1  2  3  4 Receptor
Si un 1 es enviado, ¿cuál es la probabilidad que un 1 sea trasmitido por cada uno de los
relevos? Sea Ai el evento que el iésimo relevo trasmita un 1, y sea Bk = A1    Ak para k
= 1,, 4. Entonces se nos proporciona que P(B1) = P(Bk | Bk-1) = 0.9 para k = 2, 3, 4. Así,
P(A1A2A3A4) = P(B4) = (0.9)4 = 0.6561.
Si un 1 es enviado, ¿cuál es la probabilidad que un 1 será recibido? Un 1 será recibido si y
sólo si cero, dos, o cuatro de los relevos funcionan mal. La probabilidad que ninguno de los
relevos funcione mal ha sido justo calculada. La probabilidad que los relevos 1 y 2
funcionen mal mientras que los relevos 3 y 4 operen correctamente es (0.1)(0.2)(0.9)2 por un
argumento similar. Esta es también la probabilidad de que cualesquiera dos relevos
especificados funcionen mal mientras que los otros dos operen correctamente, así la
probabilidad de que exactamente dos de los relevos funcionen mal es
 4
   01
.  0.20.9  0.0972. Finalmente, la probabilidad de que todos los cuatro relevos
2
 2
funcionen mal es (0.1)2(0.2)2 = 0.0004. Así, la probabilidad que un 1 sea recibido es 0.6561
+ 0.0972 + 0.0004 = 0.7537. ////
Consideremos ahora la generalización de las Ecuaciones (2.2) y (2.3).
Teorema 3.2.2 Sea B1, B2, una sucesión infinita o finita de eventos exhaustivos,
mutuamente excluyentes y sea P(Bi) > 0 para toda i. Si A es cualquier evento, entonces
P A   P A Bi P Bi  (2.4)
i
donde la sumatoria se extiende sobre todo i. Si P(A) > 0, entonces

82 EL TEOREMA DE BAYES
P A B j  P B j 


P Bj A   i P A Bi  P Bi 
(2.5)
para cualquier j.
PRUEBA Las Ecuaciones (2.2) y (2.3) son, por supuesto, casos especiales de
(2.4) y (2.5) con B1 = B y B2 = B'. Para probar (2.4) observe que puesto que i Bi  S ,
por hipótesis, podemos escribir A  i ABi . Más aún, puesto que los Bi son
mutuamente excluyentes, debemos tener
P A   P ABi    P A Bi P Bi 
i i
por la Ecuación (2.1). Esto establece (2.4). La Ecuación (2.5) entonces se sigue de la
definición P(Bj | A) = P(ABj)/P(A) escribiendo P(ABj) = P(A | Bj) P(Bj) y substituyendo
(2.4) por P(A). ////
La Ecuación (2.5) es conocida como el Teorema de Bayes en honor del sacerdote del siglo
XVII, Thomas Bayes. Ambas Ecuaciones (2.4) y (2.5) son útiles en describir experimentos
que proceden en dos etapas y tienen la propiedad de que el mecanismo aleatorio de la
segunda etapa está determinado por el suceso de la primera etapa de experimentación. Por
ejemplo, el Ejemplo 3.2.1 es de esta naturaleza. Ahí la composición de la urna de la cual la
bola fue tomada en la segunda etapa estuvo determinada por el suceso de la primera etapa.
Denominaremos a tales experimentos compuestos. En aplicaciones del Teorema 3.2.2 a
experimentos compuestos, uno usualmente permite a los Bi representar los sucesos posibles
de la primera etapa de experimentación y P(A  Bi ) describe el mecanismo aleatorio de la
segunda etapa bajo la hipótesis de que Bi ocurrió en la primera etapa, como en el Ejemplo
3.2.1.
Los Bi también pueden ser pensados como posibles estados de la naturaleza, en cuyo caso
P(A  Bi) es para ser interpretada como la probabilidad de A bajo la hipótesis de que la
naturaleza está en el estado Bi. Con esta interpretación las P(Bi) son típicamente
probabilidades subjetivas que representan nuestra opinión acerca de la naturaleza, anterior a
cualquier experimentación y son conocidas como probabilidades a priori. Las
probabilidades condicionales P(Bi | A) pueden entonces ser pensadas como describiendo
nuestra nueva opinión acerca de la naturaleza después de que algún experimento ha sido
realizado y el evento A ha sido observado para ocurrir; por esta razón ellas son conocidas
como probabilidades a posteriori. Así, el teorema de Bayes puede ser pensado como un
algoritmo para cambiar la mente de uno a la luz de la evidencia experimental, y es de esta
interpretación de la cual el teorema de Bayes deriva su fama. Por supuesto, uno debe poder y
desear expresar la opinión de uno en términos de probabilidades subjetivas para usar este
algoritmo. La objeción de la comunidad científica para aceptar la interpretación subjetiva de

probabilidad ha obstaculizado la aceptación de la última interpretación del teorema de
Bayes. Sin embargo, ha ganado considerable terreno durante la última década y ahora forma
la base para una teoría analítica de la toma de decisiones que será discutida en la Sección
10.5.
EJEMPLO 3.2.4
Si la probabilidad de que una familia tendrá exactamente n hijos es 2-n para n = 1, 2,, y si
todas las 2n permutaciones de los sexos de los n hijos son igualmente probables, ¿cuál es la
probabilidad de que una familia no tenga niños? Sea A el evento de que una familia no tenga
niños, y sea Bn el evento de que tenga exactamente n hijos. Entonces, tenemos que P(Bn) = 2-
n
, y claramente, P(A | Bn) = 2-n para cualquier n = 1, 2,. (Dado Bn, A requiere n niñas.) Por
el Teorema 3.2.1, por lo tanto tenemos

P A   P A Bn P Bn 
n 1
n

n 1   1  1  4  1
= 2  2 -n
       
n=1 4 n  0 4   4   3 3
La probabilidad condicional de que una familia tendrá n hijos, dado que no tiene niños, es
P(Bn | A) = P(A | Bn)P(Bn)/P(A) = 3  4-n para n = 1, 2,. ////
EJEMPLO 3.2.5
Accidentes de tráfico. Un cierto estado agrupa a sus conductores licenciados de acuerdo a la
edad dentro de las siguientes categorías: (1) 16 a 25; (2) 26 a 45; (3) 46 a 65; y (4) arriba de
65. La Tabla 4 lista, para cada grupo, la proporción de conductores licenciados quienes
pertenecen al grupo y la proporción de conductores en el grupo quienes tuvieron accidentes.
Tabla 4
Grupo Tamaño Proporción de accidentes
1 0.151 0.098
2 0.356 0.044
3 0.338 0.056
4 0.155 0.086
¿Qué proporción de conductores licenciados tuvieron accidentes? ¿Qué proporción de
aquellos conductores licenciados quienes tuvieron accidentes estaban por arriba de 65? Sea
A el evento de que un conductor licenciado seleccionado aleatoriamente tenga un accidente,
y sea Bk el evento de que un conductor licenciado seleccionado aleatoriamente caiga dentro
84 INDEPENDENCIA
del grupo k, k = 1, 2, 3, 4. Requerimos P(A) y P(B4 | A), respectivamente. Ahora, P(Bk) y P(A
| Bk) están dadas por las columnas tituladas tamaño y proporción de accidentes,
respectivamente. Así, P(A) = P(A | B1)P(B1) +  + P(A | B4)P(B4) = (0.098)(0.151) +  +
(0.086)(0.155) = 0.06272, y P(B4 | A) = P(A | B4)P(B4)/P(A) = (0.086)(0.155)/0.06272. ////
3.3 INDEPENDENCIA
Parece natural preguntar la siguiente cuestión: ¿Para cuáles eventos A y B es verdad que P(A
| B) = P(A)? Eso es, ¿para cuales eventos A y B es verdad que la ocurrencia de B no provee
información acerca de la posibilidad de que A ocurrirá? La respuesta es fácilmente derivada.
Tendremos P(A | B) = P(A) si y sólo si P(AB)/P(B) = P(A). Eso es, P(A | B) = P(A) si y sólo
si
P AB  P A P B (3.1)
Por tanto definimos dos eventos A y B para ser independientes si y sólo si (3.1) se cumple, y
expresamente permitimos la posibilidad de que P(B) = 0 en ( 3.1). La definición de
independencia es entonces simétrica en A y B.
El significado intuitivo de independencia debe ser claro. A y B son independientes si y sólo
si la ocurrencia de B no afecta la posibilidad de que A ocurrirá, y recíprocamente. La
importancia de la noción de independencia deriva del hecho de que muchos fenómenos
ocurriendo naturalmente operan independientemente, eso es, en tal forma que el suceso de
uno no afecta el de otro(s).
EJEMPLO 3.3.1
a Si A y B son disjuntos, entonces P(AB) = P() = 0, así que A y B no pueden ser
independientes a menos que o P(A) = 0 o P(B) = 0.
b Si A  B, entonces AB = A, así que P(AB) = P(A). En este caso A y B no pueden
ser independientes a menos que P(B) = 1.
c El conjunto vacío  y el espacio muestral S son independientes de cualquier otro
evento. Sin duda, P(AS) = P(A) = P(A)P(S), y P(A) = P() = 0 = P()P(A) para
cualquier A  S. ////
EJEMPLO 3.3.2
Sea una muestra aleatoria ordenada de tamaño k = 2 tomada de una urna que contiene m  1
bolas rojas y n  m bolas blancas. Además, sea B el evento de que una bola roja es tomada
en la primera selección, y sea A el evento de que una bola roja es tomada en la segunda
selección. Si el muestreo es con reemplazo, entonces P(A | B) = m/n = P(A) por el Teorema
1.3.1 y el Ejemplo 3.1.2, así que A y B son independientes. Si el muestreo es sin reemplazo,
entonces P(A | B) = (m  1)/(n  1)  m/n = P(A). Así, A y B no son independientes si el
muestreo es sin reemplazo.
Este resultado está claramente de acuerdo con nuestra noción intuitiva de independencia. Sin
duda, cuando el muestreo es con reemplazo, el color de la bola tomada en la primera
selección no afecta la oferta de bolas rojas en la urna al momento de la segunda selección,
mientras que si lo hace cuando el muestreo es sin reemplazo.
EJEMPLO 3.3.3
a Sean dos dados balanceados, distinguibles lanzados de tal manera que todos los
posibles sucesos sean igualmente verosímiles. Entonces el evento A de que solamente
un punto aparece sobre el primer dado y el evento B de que solamente un punto aparece
sobre el segundo dado son independientes. De hecho, P(A) = P(B) = 1/6, mientras que
P(AB) = 1/36. Esto es un caso especial del Ejemplo 3.3.2.
b Sea una carta seleccionada al azar de una baraja de 52 cartas. Sea A el evento de
que un corazón es tomado, y sea B el evento de que un mono (caballero, reina o rey) es
tomado. Entonces P(A) = 13/52 = ¼, P(B) = 12/52 = 3/13, puesto que hay 13 corazones
y 12 monos. Más aún, AB es el evento de que un caballero de corazones, reina de
corazones, o rey de corazones es tomado, así que P(AB) = 3/52 = P(A)P(B). Por tanto,
A y B son independientes.
c Sea un punto seleccionado de un cuadrado unitario S = {(x,y): 0  x  1 y 0  y  1} de
manera que la probabilidad de que el punto caiga dentro de una subregión C  S es
igual al área de C. Sea A = {(x,y): 0.25  x  0.75}, y sea B = {(x,y): 0.25  y  0.75}
(ver Figura 1a). Entonces A es un rectángulo de altura 0.5 y longitud 1, así que P(A) =
0.5, y análogamente, P(B) = 0.5. Más aún, AB = {(x,y): 0.25  x  0.75, 0.25  y 
0.75} es un cuadrado cuyos lados son de longitud 0.5, así que P(AB) = 0.25. Por tanto,
A y B son independientes.
d Sea un punto s seleccionado del intervalo unitario S = [0,1] de tal manera que la
probabilidad de que el punto pertenezca a un subintervalo I  S es la longitud de I,
como en el Ejemplo 2.2.5. Escribamos a s en su expansión decimal como s = .s1s2,…,
donde sk son enteros entre 0 y 9 inclusive. Por ejemplo, si s = 1/8, entonces s1 = 1, s2 =
2, s3 = 5, y sk = 0 para k  4. Sea A el evento de que s1 = 0, y sea B el evento de que s2 =
0. Entonces A es el intervalo [0,0.1), así que P(A) = 0.1; y B es la unión [0,0.01) 
[0.10,0.11)    [0.80,0.81)  [0.90,0.91), así que P(B) = 0.1 también (ver Figura
1b). Finalmente, AB es el intervalo [0,0.01), así que P(AB) = 0.01 = P(A) P(B). Por
tanto, A y B son independientes.
86 INDEPENDENCIA
Figura 1. (a). El cuadrado unitario. (b). El intervalo unitario.

Hay dos formas naturales aparentemente de extender la definición de independencia de
dos eventos a varios, digamos A1,,An, donde n  2 es un entero positivo. Una es
requerir que
P(AiAj) = P(Ai)P(Aj) (3.2)
siempre que i  j. La otra es requerir que
P  Ai    P Ai  (3.3)
 iJ  iJ
para cualquier subconjunto no vacío J  {1, n}. Las dos nociones no son
equivalentes (ver Ejemplo 3.3.5), y es la segunda (3.3) la que es más útil. Por tanto
definimos los eventos A1, An para ser independientes por parejas si y sólo si (3.2) se
cumple y para ser mutuamente independientes si y sólo si (3.3) se cumple. Así,
independencia de cualquier tipo es simétrica en los eventos A1, An y tiene la
propiedad de que subcolecciones de eventos independientes son de nuevos
independientes. La mayoría de los ejemplos de independencia que encontraremos serán
ejemplos de mutua independencia. En correspondencia, usaremos el término
“independencia” sin calificarlo para designar mutua independencia.
EJEMPLO 3.3.4
Sea una muestra aleatoria ordenada de tamaño n tomada con reemplazo de una urna que
contiene r bolas rojas y b bolas blancas, y sea Ai el evento de que una bola roja es tomada en
la iésima selección, i = 1, 2,, n. Entonces, A1, An son independientes. Sin duda, ambos
lados de (3.3) son iguales a rk/(r + b)k, donde k = |J|.
EJEMPLO 3.3.5
Daremos un ejemplo de eventos que son independientes por parejas pero no mutuamente
independientes. Sea un entero seleccionado del conjunto S = {1,2,3,4} de manera que
cualquier entero es igualmente verosímil de ser escogido. Además, sea Ai = {i,4} el evento
de que ya sea i o 4 es seleccionado, i = 1, 2, 3. Entonces, P(Ai) = 2/4 = ½, i = 1, 2, 3, y
P(AiAj) = P({4}) = ¼ = P(Ai)P(Aj) siempre que i  j. Por tanto, A1, A2, A3 son independientes
por parejas. Sin embargo, P(A1A2A3) = P({4}) = ¼  1/8 = P(A1)P(A2)P(A3), así que A1, A2, y
A3 no son mutuamente independientes. ////
EJEMPLO 3.3.6
Muestreo estratificado. Considere una población de n individuos de los cuales un número
desconocido m favorece un candidato político particular o propuesta. Suponemos que la
población está dividida en estratos, por lo cual entendemos subclases disjuntas. Por ejemplo,
la población puede ser dividida en habitantes urbanos, habitantes suburbanos, y habitantes
rurales; o puede ser dividida de acuerdo a la edad de sus miembros; o puede ser dividida de
acuerdo al ingreso de sus miembros, etc. Suponemos que hay un total de t estratos diferentes
y que hay un total de ni miembros en el iésimo estrato, de los cuales mi favorecen al
candidato político o propuesta en cuestión. Así, n = n1 +  + nt y m = m1 +  + mt.
Suponer después que se nos permite muestrear k de los miembros de la población para saber
acerca de m. Entonces dos posibles esquemas de muestreo se presentan por sí mismos.
Primero, podemos tomar una muestra aleatoria (sin reemplazo) de tamaño k de la población
total. En este caso la probabilidad que la muestra contendrá justo r personas quienes
 m  n  m  n 
favorecen al candidato o propuesta es       por el Teorema 1.4.1.
r   k  r   k
También podemos dividir el tamaño de la muestra k en grupos de tamaños k1,,kt, donde k1
+  + kt = k, y tomar una muestra aleatoria de tamaño ki del iésimo estrato para i = 1,, t.
Suponemos que las t diferentes muestras son tomadas de modo que la muestra seleccionada
del iésimo estrato no afecte la seleccionada de otro estrato. En este caso podemos suponer
que los sucesos de los t diferentes experimentos de muestreo son independientes, y
calculamos la probabilidad que la muestra del iésimo estrato contenga exactamente ri
quienes favorecen al candidato o propuesta para todo i = 1,, t para ser
88 ALGUNAS PROPIEDADES DE INDEPENDENCIA
 m1  n1  m1  mt   nt  mt 
     
 r1   k1  r1   rt   kt  rt 

 n1  nt 
   
 k1   kt 
El segundo de los dos esquemas de muestreo descritos arriba es conocido como muestreo
estratificado. Continuamos nuestro estudio de muestreo estratificado en el Ejemplo 8.6.1,
donde se ve que si k1,,kt son seleccionados proporcionales a n1,,nt, entonces el muestreo
estratificado es más informativo que el muestreo simple aleatorio. ////
3.4 ALGUNAS PROPIEDADES DE INDEPENDENCIA

Ciertas operaciones de la teoría de conjuntos preservan la independencia. Damos algunos
ejemplos de ellas en los teoremas siguientes.
Teorema 3.4.1 Si A1,,An son eventos independientes, entonces así son las
siguientes colecciones de eventos:
(i) B1,,Bn, donde Bi es ya sea Ai o Ai , i = 1,, n.

(ii) C1,,Cn, donde k  n y C1,,Cn están formados por medio de tomar uniones
o intersecciones de subcolecciones disjuntas de A1,,An.
PRUEBA Para conservar la notación a la mano, probaremos sólo (i) para n = 2

y (ii) para k = 2. Las pruebas para n y k general no son conceptualmente más difíciles
pero notacionalmente algo desagradables.
Es suficiente probar (i) en el caso especial que B1 = A1 y B2 = A2 , porque podemos
intercambiar A1 y A2 o A1 y A2 . Si B1 = A1 y B2 = A2 , entonces
P B1 B2   P A1  A1 A2   P A1   P A1 A2 

= P A1   P A1  P A2   P A1  1  P A2  
= P B1  P B2 
como se aseveró.
Probemos primero (ii) en el caso especial que ambos C1 y C2 son formados tomando
intersecciones de subcolecciones disjuntas de A1,,An. En este caso podemos suponer
(renombrando A1,,An si es necesario) que

r n
C1   Ai y C2   Ai
i 1 it
donde 1  r < t  n. En este caso el resultado es obvio, porque

PC1C2   P A1  Ar  At  An 
r  n 
=  P Ai   P Ai   PC1  PC2 
 i 1  it 
Ahora suponer que C1 es como arriba y que C2 = int Ai . Sea Bi = Ai, i = 1,, r, y sea
Bi = Ai , i = r + 1,, n. Entonces, B1,,Bn son independientes por (i), así que
r n
D1   Bi y D2   Bi
i 1 it
son independientes por lo que ha sido justamente mostrado. Finalmente, si D1 y D2 son

independientes, entonces así son C1 = D1 y C2 = D2 , de nuevo por (i). Los casos
restantes bajo (ii) pueden ser manejados análogamente para completar la prueba. ////
Teorema 3.4.2 Sean A1,,Am eventos mutuamente excluyentes, y sean B1,,Bn

eventos mutuamente excluyentes. Si Ai y Bj son independientes para cualquier selección
de i y j, entonces
m n
A   Ai y B   Bj
i 1 j 1
son independientes.
PRUEBA
m n
AB    Ai B j
i 1 j 1
y los eventos Cij = AiBj son mutuamente excluyentes. Por tanto,

90 ALGUNAS PROPIEDADES DE INDEPENDENCIA
   
m n m n
P AB    P Ai B j    P Ai P B j
i 1 j  1 i 1 j 1
 n 
m
 
=  P Ai    P B j   P A P B
 i 1   j 1 
1
En presencia de independencia, muchos cálculos se simplifican. Ilustraremos con algunos

ejemplos.
EJEMPLO 3.4.1
a Tres misiles son disparados a un blanco. Si cada misil tiene probabilidad 0.6 de
pegar en el blanco, ¿cuál es la probabilidad de que al menos uno de los mísiles pegue
en el blanco? Sea Ai el evento de que el iésimo misil pegue en el blanco, i = 1, 2, 3.
Entonces, el evento de que al menos uno de los misiles pegue en el blanco es B = A1 
A2  A3 = ( A1  A2  A3 ). Por tanto, suponiendo que A1, A2, y A3 son
independientes, tenemos que P(B) = 1  P( A1  A2  A3 ) = 1  P( A1 )P( A2 )P( A3 ) =
1  0.43 = 0.936.
b Suponer que n individuos trabajan independientemente sobre un problema. Si
cada uno tiene probabilidad p de resolver el problema, ¿cuál es la probabilidad de que
todos ellos resuelvan el problema? ¿Cuál es la probabilidad de que al menos uno de
ellos resuelva el problema? Sea Ai el evento de que el iésimo individuo resuelva el
problema, así que P(Ai) = p para i = 1,, n. El evento de que todos los n individuos
resuelvan el problema es A  in1 Ai , así que P(A) = in1 P( Ai )  p n . El evento de
que al menos uno de los individuos resuelva el problema es L = in1 Ai  in1 Ai  .  
 
Así, P(L) = 1  P in1 Ai  1  (1  p)n.
En el caso especial que p = 0.5 y n = 4, tenemos P(A) = 0.0625 y P(L) = 0.9375.

////
1
1 Si a1,,am y b1,,bn son números reales, entonces
 m  n  m n
  ai    b j     aib j
 i 1   j 1  i 1 j 1
Esto es fácilmente establecido por inducción matemática.
3.5 ENSAYOS REPETIDOS: ESPACIOS PRODUCTO1

Suponer que tenemos n experimentos o juegos E1,,En, donde n  2 es un entero. Suponer
también que cada experimento Ei puede ser descrito por un espacio de probabilidad
(Si,i,Pi), i = 1,, n . Finalmente, suponer que realizamos todos los n experimentos, ya sea
uno a la vez o simultáneamente, de tal manera que el suceso de un experimento no afecte los
sucesos de los otros. ¿Es posible describir el nuevo experimento, formado por la realización
de todos los E1,,En? Eso es, ¿es posible definir un espacio de probabilidad para representar
el nuevo experimento de modo que los eventos dependiendo de diferentes experimentos sean
independientes? La respuesta es sí, como mostraremos en esta sección.
Antes de dar los detalles de la construcción, observemos que el problema ubicado arriba
contiene el siguiente problema como un caso especial. Suponer que tenemos un experimento
E0, que es descrito por un espacio de probabilidad (S0,0,P0), y suponer que el experimento
E0 es repetido n veces. ¿Es posible definir un espacio de probabilidad que describa al nuevo
experimento y tenga la propiedad de que los eventos dependiendo de diferentes ensayos
(repeticiones) sean independientes? La respuesta es de nuevo sí, puesto que la segunda
cuestión es un caso especial de la primera con Ei = E0, i = 1,, n.
Por simplicidad, daremos la construcción sólo en el caso especial donde los espacios de
probabilidad (S1,1,P1),, (Sn,n,Pn) sean todos discretos. Eso es, consideramos sólo el caso
en que cada Si es o un conjunto finito o un conjunto infinito contable y cada i consiste de
todos los subconjuntos de Si, i = 1,, n. Denote S el producto cartesiano
S  S1  S2    Sn
Así, S consiste de todas las nadas ordenadas (s1,,sn) con si  Si, i = 1,, n. Usaremos S
como el espacio muestral para el nuevo experimento con la convención de que si denota el
suceso del experimento Ei, i = 1,, n. Además, permitiremos que  sea la clase de todos los
subconjuntos de S, y definimos una función P sobre  por
f  s   Pi si 
n
i 1
para s = (s1,,sn)  S y
P A   f  s
sA
para A  S. Puesto que

1
2 Esta sección puede ser omitida sin pérdida de continuidad.
92 ENSAYOS REPETIDOS: ESPACIOS PRODUCTO
 
 f  s      Pi  si    1  1
n
n
sS 
i 1 si Si 
se sigue del Ejemplo 2.2.2 que (S,,P) es un espacio de probabilidad.
Diremos que un evento B  S depende sólo del iésimo ensayo si y sólo si hay un
subconjunto A  Si para el cual
B   s1 ,,sn   S: si  A (5.1)
Más aún, si A  Si y B  S están relacionados por (5.1), referiremos a B como el evento en

que A ocurre en el iésimo ensayo.
Lema 3.5.1 Para i = 1,, n, sea Ai  Si, y sea Bi el evento en que Ai ocurre en el
iésimo ensayo. Entonces,
n
 Bi  A1  A2    An
i 1
Eso es, la intersección de B1,,Bn es el producto cartesiano de A1,,An.
PRUEBA Bi es el conjunto de (s1,,sn)  S para el cual si  Ai. Así, ambos B1

 B2    Bn y A1  A2    An pueden ser descritos como el conjunto de s =
(s1,,sn) para los cuales si  Ai para toda i = 1,, n. ////
Lema 3.5.2 Sea Ai  Si, i = 1,, n, y sea A = A1  A2    An. Entonces

n
P A   Pi  Ai 
i 1
PRUEBA Por definición de P, tenemos
P A    Pi  si  
n
sA  i 1 
y la última suma es fácilmente vista para ser
 
   Pi  si     Pi  Ai 
n n
////

i 1 si Ai  i 1
Teorema 3.5.1 Para i = 1,…,n, sea Ai  Si, y sea Bi el evento en que Ai ocurre en el
i–ésimo ensayo. Entonces
P(Bi) = Pi(Ai) i = 1,. . ., n (5.2)

y B1,. . .,Bn son mutuamente excluyentes.
PRUEBA Primero probemos (5.2). Para cada i, Bi = S1  Si-1  Ai  Si+1  Sn.

Por tanto,
 
P Bi   Pi  Ai  Pj S j  Pi  Ai 
j 1
como se aseveró. Para establecer la mutua independencia de B1,…,Bn, sea J un

subconjunto de {1,…,n}. Entonces podemos escribir
 Bi  C1  C2    Cn
i J
donde Ci = Ai si i  J y Ci = Si de otro modo. Por tanto,
P  Bi    Pi Ci    Pi  Ai    P Bi 
n
 iJ  i 1 i J i J
por el Lema 3.5.2 y la Ecuación (5.2). La independencia mutua se sigue. ////

94 PROBLEMAS
3.6 PROBLEMAS
3.1 De una urna conteniendo 5 bolas rojas y 5 bolas blancas, una muestra aleatoria
desordenada de tamaño 5 es extraída. Dado que hay al menos 2 bolas rojas en la muestra,
encontrar la probabilidad condicional de que haya exactamente 3 bolas rojas en la
muestra.
3.2 Si en el Problema 3.1 una muestra aleatoria ordenada ha sido extraída sin reemplazo,
cuál es la probabilidad condicional de que la muestra contenga exactamente 3 bolas
rojas:
(a) Dado que las primeras 2 bolas extraídas son rojas.
(b) Dado que la primera y última bolas extraídas son rojas.
3.3 Si una moneda balanceada es lanzada 5 veces, cuál es la probabilidad condicional de
obtener exactamente 3 águilas:
(a) Dado que hay al menos 2 águilas.
(b) Dado que el primero y último lanzamientos resultaron en águilas.
3.4 Si un dado balanceado es lanzado 6 veces, cuál es la probabilidad condicional de
obtener 2 seises:
(a) Dados exactamente 2 ases.
(b) Dados al menos 2 ases.
3.5 Si dos dados balanceados son lanzados, encontrar la probabilidad condicional de que la
suma de puntos será 7, dado que ésta es impar.
En póquer una flor consiste de 5 cartas del mismo palo. Dado que todas las cartas en una
mano póquer seleccionada aleatoriamente son rojas (corazones o diamantes), ¿cuál es
la probabilidad condicional de que la mano sea una flor?
3.7 Si Jorge Jugador tiene 4 espadas y una que no es espada y entonces descarta la que no
es espada para extraer otra carta, ¿cuál es la probabilidad condicional de que él
completará exitosamente una flor?
3.8 En el Problema 3.7, suponer que Jorge había estado con 3 espadas y 2 que no eran
espadas. Si el descarta las 2 que no son espadas y extrae 2 nuevas cartas, ¿cuál es la
probabilidad condicional de que el completará su flor?
3.9 En bridge, suponer que Norte y Sur tienen 9 triunfos en sus manos combinadas pero no
tienen el rey de triunfos. ¿Cuál es la probabilidad condicional de que el rey esté
desprotegido, eso es, no aparece con ningún otro triunfo en la mano de Este u oeste?
3.10 En el Problema 3.9, suponer también que Sur tiene el as de triunfos. ¿Cuál es la
probabilidad condicional de que el rey esté ya sea desprotegido o en la mano de Oeste
(de manera que pueda ser usado como subterfugio?
3.11 Una caja contiene tres cajones. En un cajón hay 2 monedas de oro; en otro hay una
moneda de oro y una moneda de plata; y en el tercer cajón hay 2 monedas de plata. Un
cajón es seleccionado al azar, y entonces 1 moneda es seleccionada al azar del cajón.
Dado que la moneda seleccionada es de oro, ¿cuál es la probabilidad condicional de
que la moneda restante en el cajón abierto es también de oro?
3.12 El registro de votantes en una cierta ciudad reveló las estadísticas tabuladas. Si una
persona es seleccionada al azar de los votantes registrados de esta ciudad, ¿cuál es la
probabilidad condicional de que la persona será hombre dado que la persona es
Demócrata?
Hombres, Mujeres,
% %
Demócrata 20 25
Independiente 10 15
Republicano 15 15
96 PROBLEMAS
3.13 En el Problema 3.12 ¿cuál es la probabilidad condicional de que la persona será

Demócrata dado que la persona es hombre?
3.14 Sea (S,,P) un espacio de probabilidad, y sea B un evento con probabilidad positiva.
Definir Q sobre  por Q(A) = P(A  B). Mostrar que Q es una medida de probabilidad
sobre el conjunto .
3.15 Mostrar que en el Problema 3.14 si C es un evento con Q(C) > 0, entonces Q(A  C) =
P(A  BC) para toda A  .
3.16 Una moneda no cargada es lanzada 5 veces. Dado que el primer lanzamiento resultó en
águila y que los 5 lanzamientos produjeron al menos 2 águilas, ¿cuál es la probabilidad
condicional de que los 5 lanzamientos resultaran en exactamente 2 águilas?
3.17 Una moneda no cargada es lanzada 10 veces. Dado que los 10 lanzamientos produjeron
exactamente 5 águilas, ¿cuál es la probabilidad condicional de que:
(a) El primer lanzamiento resultó en águila?
(b) Exactamente 3 de los primeros 5 lanzamientos resultaron en águilas?
3.18 Una universidad encuentra que el 75% de sus estudiantes graduándose obtuvieron
arriba de 80 en el examen de admisión, mientras que sólo el 25% de aquellos quienes
fracasaron en graduarse obtuvieron arriba de 80. Ellos también encontraron que la
mitad de los entrantes a primer año se gradúan. ¿Cuál es la probabilidad condicional de
que uno en el primer año se graduará dado:
(a) Que el obtuvo arriba de 80 en el examen de admisión?
(b) Que obtuvo 80 o menos?
3.19 Suponer que 10 por ciento de los conductores con licencia en un estado dado son
incompetentes. Suponer también que una prueba de diagnóstico está disponible, la cual
es 90% efectiva en el siguiente sentido. Si un conductor es incompetente, la
probabilidad de que la prueba así lo indicará es 0.9; y si un conductor no es
incompetente, la probabilidad de que la prueba así lo indicará es también 0.9. Dado que
la prueba indica que un conductor en particular es incompetente, ¿cuál es la
probabilidad condicional de que el conductor sea de hecho incompetente?
3.20 Jorge Jugador siempre juega vía la siguiente estrategia. Si el obtiene una flor (cinco
cartas del mismo palo), el conserva este juego. Si el obtiene 4 cartas de un palo y una
de otro, el descarta la carta que no coincide y extrae otra. De otra manera, el no intenta
una flor. ¿Cuál es la probabilidad de que el, ya sea, obtendrá o intentará exitosamente
una flor?
Percy Paranoia virtualmente tiene la certeza de que la moneda que él tiene está cargada. De
hecho, el atribuye una probabilidad subjetiva de 0.9 al evento de que la moneda tiene
probabilidad 0.75 de caer águila y sólo probabilidad 0.1 al evento de que la moneda está
balanceada (tiene probabilidad 0.5 de caer águila). Si 4 lanzamientos independientes de la
moneda producen 2 águilas y 2 soles, ¿cómo debe Percy modificar sus probabilidades
subjetivas?
Considere dos urnas. La urna I contiene 4 bolas rojas y 2 bolas blancas, y la urna II contiene
3 bolas de cada color. Si 2 bolas son extraídas de la urna I sin reemplazo y transferidas a la
urna II y entonces una bola es extraída de la urna II, ¿cuál es la probabilidad de que la bola
extraída de la urna II será roja? Dado que la bola extraída de la urna II fue roja, ¿cuál es la
probabilidad condicional de que (a) 0, (b) 1, (c) 2 bolas rojas fueran transferidas?
En el Problema 3.22 suponer que 2 bolas son extraídas sin reemplazo de la urna II. Dado que
ambas son rojas, ¿cuál es la probabilidad condicional de que (a) 0, (b) 1, (c) 2 bolas rojas
fueran transferidas?
3.24 En el Ejemplo 3.2.4, (a) encontrar la probabilidad de que una familia tenga
exactamente k niños. (b) Encontrar la probabilidad condicional de que una familia
tenga n hijos dado que tiene exactamente k niños.
3.25 En el Ejemplo 3.2.5, ¿cuál es la probabilidad condicional:
(a) Que un conductor tendrá un accidente dado que tiene una edad menor de 46 años?
(b) Que un conductor sea menor de 45 años de edad dado que el tiene un accidente?
NOTA: Problemas 3.26 a 3.29 esboza una aplicación de probabilidad
condicional a la teoría del aprendizaje matemático; ver Estes (1959).
Cada día un animal experimental es expuesto a un cierto conjunto de
estímulos diseñados para producir una respuesta particular. Sea Ak el
evento que el animal realice la respuesta deseada en el k-ésimo día, y
suponer que P(Ak +1  Ak) =  y P(Ak +1  Ak´) = , donde 0 <  <   1.
3.26 Sea pk = P(Ak). Mostrar que pk +1 =  + (  )pk.
3.27 Si  = 1 y p1 = 0, mostrar que pk = 1  (1  )k –1.
3.28 Mostrar que lim pk = /(1 +   ) cuando k  .
3.29 Si  = 0.05,  = 0.9, y p1 = 0, encontrar la probabilidad de que el animal realizará la
respuesta deseada en los días 11 y 12.
NOTA: Problemas 3.30 a 3.34 desarrollan propiedades del esquema
de la urna de Polya, que puede ser descrito como sigue. Bolas son
tomadas secuencialmente de una urna que inicialmente contiene r  1
bolas rojas y w  1 bolas blancas. Después de cada extracción, la bola
extraída se regresa a la urna junto con t  1 bolas del mismo color.
3.30 Mostrar que la probabilidad de tomar bolas rojas en las primeras k extracciones es
98 PROBLEMAS
r t  k  1k
r t  w t  k  1k
3.31 Mostrar que la probabilidad de tomar bolas rojas en las primeras k extracciones y bolas
blancas en las siguientes j extracciones es
r t  k  1k w t  j  1 j
p
r t  w t  n  1n
donde n = k + j.
3.32 Mostrar que la probabilidad de tomar exactamente k bolas rojas en las primeras n = k +
n
j extracciones es   p , donde p es como en el Problema 3.31.
k 
3.33 Mostrar que la probabilidad incondicional de tomar una bola roja en la segunda
extracción es r/(r + w).
3.34 Mostrar que la probabilidad de tomar una bola roja en la n-ésima extracción es r/(r + w)
para cualquier n = 1, 2,.
3.35 Tres misiles son disparados a un blanco. Si sus probabilidades de dar en el blanco son
0.4, 0.5, y 0.6, respectivamente, y si los misiles son disparados independientemente,
¿cuál es la probabilidad:
(a) Que los tres misiles den en el blanco?
(b) Que al menos uno de los tres dé en el blanco?
3.36 En el Problema 3.35 encontrar la probabilidad de que (a) exactamente 1; (b)
exactamente 2 de los misiles den en el blanco.
3.37 Un dado está cargado de tal manera que la probabilidad de que exactamente k puntos
aparecerán cuando sea lanzado es proporcional a k. Si dos lanzamientos independientes
del dado son hechos, ¿cuál es la probabilidad de que la suma de puntos será 7?
3.38 En el Problema 3.37 ¿cuál es la probabilidad de que el mismo número de puntos
aparecerá en ambos dados?
3.39 Pedro y Pablo cada uno lanzan una moneda no cargada hasta que un águila ha
aparecido:
(a) ¿Cuál es la probabilidad de que requerirán el mismo número de lanzamientos?
(b) ¿Cuál es la probabilidad de que Pedro requerirá más lanzamientos que Pablo?
Suponga que los resultados de todos los lanzamientos son independientes.

3.40 En el Problema 3.39 ¿cuál es la probabilidad de que Pedro requerirá al menos dos veces
más lanzamientos que Pablo?
3.41 Dos encuestadores de opinión toman muestras aleatorias independientes de tamaño k =
5 sin reemplazo de una población de 5 Demócratas y 5 Republicanos. ¿Cuál es la
probabilidad de que las dos muestras contendrán exactamente el mismo número de
Demócratas?
3.42 Si A es independiente de A, ¿qué puede ser dicho acerca de la P(A)?
3.43 Mostrar, directamente de la definición, que si A, B, y C son independientes, entonces
así son A´, B´, y C´.
3.44 Sean dos dados balanceados lanzados. ¿Cuáles de los siguientes pares de eventos son
independientes?
(a) A es el evento de que a lo más 2 puntos aparecen en el primer dado, y B es el evento
de que al menos 2 aparecen en el segundo dado.
(b) A es el evento de que el número total de puntos en los dos dados es impar, y B es el
evento de que el número total de puntos excede 7?
3.45 Permita que cuatro cartas sean extraídas sin reemplazo de un paquete estándar de
bridge. ¿Cuáles de los siguientes pares de eventos son independientes?
(a) A es el evento de que hay exactamente 2 corazones, y B es el evento de que hay al
menos 1 espada.
(b) A es el evento de que hay por lo menos 2 espadas, y B es el evento de que hay al
menos 1 as.
3.46 La independencia o dependencia de eventos depende no sólo sobre los eventos mismos
sino también sobre la función de probabilidad P. Por ejemplo, considere un
lanzamiento de un dado, y sea A el evento de que el 1 ó 6 puntos aparecen, y sea B el
evento de que un número impar de puntos aparece. Entonces, A y B son independientes
si el dado está balanceado, pero ellos no son independientes si el dado está cargado de
tal manera que la probabilidad de obtener k puntos es proporcional a k.
3.47 Una cadena de luces de árbol de navidad está conectada en serie, así que si cualquiera
de los focos no funciona, ninguno de los focos prende. Si hay 20 focos y cada uno
funciona mal con probabilidad p = 0.1, ¿cuál es la probabilidad de todos los 20 focos
prenderán? Suponga independencia.
3.48 Un dado no cargado es lanzado repetidamente. Si 1 ó 6 puntos aparecen en el primer
lanzamiento, usted gana. Si k puntos aparecen en el primer lanzamiento, donde 2  k 
5, el dado es lanzado hasta que 1, k, ó 6 puntos aparecen. Si k puntos aparecen antes de
100 PROBLEMAS
1 ó 6, entonces gana. De otro modo, pierde. Calcular la probabilidad de que usted gane.
Sugerencia: Sea An el evento de que usted gana después de exactamente n lanzamientos
y encontrar la probabilidad de A1  A2   .
3.49 Sean S y T conjuntos infinitos contables o finitos, sea Po una medida de probabilidad
sobre , la clase de todos los subconjuntos de S, y para cada s  S sea Qs una medida
de probabilidad sobre , la clase de todos los subconjuntos de T.
(a) Definir P sobre la clase de subconjuntos de S  T por P(B) =  B
Qs tPo s ,
donde la sumatoria se extiende sobre todo (s,t)  B.
(b) Mostrar que P es una medida de probabilidad.
3.50 Como una continuación del Problema 3.49, para A  S, mostrar que P(A  T) = Po(A).
Mostrar también, que si Po({s}) > 0, entonces P(S  B  {s}  T) = Qs(B) para B  T.
4
4 LAS PROBABILIDADES BINOMIALES Y RELACIONADAS
4.1 LAS PROBABILIDADES BINOMIALES

En esta sección consideraremos eventos independientes A1, An con la misma probabilidad
P(Ai) = p, i = 1, n. Un contexto en que tales eventos surgen es ese de ensayos
independientes del mismo experimento. Así, sea (S0,0,P0) un espacio de probabilidad, e
imagine el experimento al cual (S0,0,P0) se refiere para ser repetido n veces, donde n es un
entero positivo. Además, sea A  0 un evento que se refiere al experimento básico, y sea Ai
el evento que A ocurre en el i-ésimo ensayo (repetición). Entonces, como se explicó en la
Sección 3.5, A1,,An son eventos mutuamente independientes con la misma probabilidad
P(Ai) = P0(A), i = 1,, n.
Teorema 4.1.1 Sean A1,,An eventos independientes con probabilidad común P(Ai)
= p, i = 1,, n. Entonces la probabilidad de que exactamente k de los A1,,An
ocurrirán es
 n
b k; n, p    p k q n k (1.1)
 k
para k = 0,, n, donde q = 1 – p.

PRUEBA Para cualquier subconjunto fijo J  {1,,n}, sea
102 LAS PROBABILIDADES BINOMIALES
   
BJ    Ai     Ai
 iJ   iJ 
el evento que Ai ocurre para i  J y Ai no ocurre para i  J. Si hay k elementos en J,

entonces
P BJ    P Ai  P Ai  p k q nk
iJ iJ
por la independencia A1,,An, puesto que P(Ai) = p y P( Ai ) = 1 – p = q, i = 1,, n .

Ahora el evento que exactamente k de A1,,An ocurran es simplemente
E k   BJ
J k
donde la unión se extiende sobre todos los subconjuntos J de tamaño k. Puesto que los
 n
eventos BJ son mutuamente excluyentes, y puesto que hay   subconjuntos de tamaño
 k
k, ahora se sigue que
 n
P Ek    P BJ     p k q nk
J k  k
La Ecuación (1.1) es una de las fórmulas más importantes en toda la teoría de probabilidad.
Su lado derecho define las probabilidades binomiales, que están tabuladas en el Apéndice
Tabla C.1 para valores seleccionados de n y p.1 Como se explicó arriba, se aplica a
repeticiones independientes de cualquier experimento fijo.
EJEMPLO 4.1.1
El Teorema 4.1.1 contiene la Ecuación (5.4) del Capítulo 1 como un caso especial. Sin duda,
si una muestra aleatoria ordenada de tamaño n es tomada con remplazo de una urna
conteniendo r bolas rojas y w bolas blancas, y si permitimos a Ai ser el evento que una bola
roja sea tomada en la i-ésima selección, i = 1,, n, entonces A1,,An son independientes
con probabilidad común P(Ai) = p = r/(r + w), la proporción de bolas rojas en la urna
(Ejemplo 3.3.4). Note que q = w/(r + w). Por tanto, la probabilidad que exactamente k bolas
rojas serán tomadas es
1
1 Tablas más extensas serán encontradas en Beyer (1966) o Selby (1965).
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 103
n k
 n  r   w 
k
    
 k   r  w  r  w
que es (5.4) del Capítulo 1 en una notación diferente. ////
EJEMPLO 4.1.2
a Si una moneda balanceada es lanzada n veces, la probabilidad que exactamente k
 n
águilas resultaran es b(k;n,½) =   2  n . Para el caso especial donde n = 8, estas
 k
probabilidades están dadas en la Tabla 5. Los valores restantes pueden ser obtenidos
por la simetría b(k;n,½) = b(n – k;n,½), y una gráfica será encontrada en la Figura 4.
b Si un par de dados balanceados son lanzados n veces, entonces la probabilidad
que justo k de ellos producirán un total de exactamente 7 puntos es b(k;n,16) porque la
probabilidad que un total de 7 puntos resultarán de un lanzamiento es 16.
c Si un jugador de bridge juega 8 manos durante una tarde, ¿cuál es la probabilidad de
que el no obtendrá ases en exactamente 4 de las manos? La probabilidad de que él no
 48  52
obtendrá ases en una simple mano es p       0.3038 . Así, si las manos son
13  13
dadas independientemente una de otra, la probabilidad de no obtener ases en
exactamente 4 manos es b(4;8,p). Por interpolación lineal en la Tabla 1 encontramos
b(4;8,p)  0.14.
d Suponer que la probabilidad de curar una enfermedad dada en animales
experimentales con un tratamiento dado es p = 0.7. Si el tratamiento es administrado
independientemente a n = 10 de tales animales, entonces la probabilidad que
exactamente 7 serán curados es b(7;10,0.7) = 0.267. ////
Para referencia posterior, observamos la simetría
b k ; n, p  bn  k ; n,q (1.2)
que fue usada antes en un caso especial.
Algunas propiedades de b(k;n,p) pueden ser deducidas de la identidad
b k; n, p 
 n  k  1 p b k  1; n, p
  (1.3)
kq
que se cumple para 0 < p < 1 y k = 1,, n. Para establecer (1.3) observe que
 n
b k ; n , p    p k q n  k
 k
n  k  1  n  k n k
  p q
k  k  1
n  k 1 p
 b k  1; n , p
k q
para k = 1,, n y 0 < p < 1.
Tabla 5
k 0 1 2 3 4
b(k;8,½) = 0.0039 0.0313 0.1094 0.2188 0.2734
Puesto que (n – k + 1)p > kq si y sólo si k < (n +1)p, se sigue de (1.3) que b(k – 1;n,p) <
b(k;n,p) para k < (n + 1)p. Eso es, b(k;n,p) es una función creciente de k sobre el intervalo 0
 k < (n + 1)p. Asimismo, b(k;n,p) es una función decreciente sobre el intervalo (n + 1)p < k
 n. En particular, b(k;n,p) es maximizada tomando k = [(n + 1)p], el entero más grande que
es menor que o igual a (n + 1)p. Una descripción más completa del comportamiento de las
probabilidades binomiales será dada en la Sección 4.5.
En el contexto del Teorema 4.1.1, es de interés buscar la probabilidad que al menos k o a lo
más k de los eventos A1,,An ocurran. Dejando que Ek denote el evento que exactamente k
de los A1,,An ocurran, los últimos eventos son
n k
Lk   E j y Mk   E j
jk j 0
respectivamente. Puesto que los eventos E0,,En son mutuamente excluyentes, ahora
tenemos el siguiente corolario.
Corolario 4.1.1 Sean A1,,An independientes con probabilidad común P(Ai) = p, i =
1,, n. Entonces
n
P Lk    b j ; n , p (1.4a )
jk
k
P M k    b j ; n , p (1.4b)
j 0
para k = 0,, n.
EJEMPLO 4.1.3
a Si una moneda balanceada es lanzada 20 veces, la probabilidad de obtener
exactamente 10 águilas es b(10;20,0.5) = 0.1762. La probabilidad de obtener al menos
10 águilas es b(10;20,0.5) +  + b(20;20,0.5) = 0.5881.
b Si la probabilidad de curar una cierto tipo de enfermedad en animales
experimentales con un tratamiento particular es p = 0.7, y si el tratamiento es
administrado independientemente a 10 de tales animales, entonces la probabilidad que
al menos 7 serán curados es b(7;10,0.7) +  + b(10;10,0.7) = 0.6496. ////
El Teorema 4.1.1 puede ser generalizado. Así, considere un espacio de probabilidad

(S0,0,P0), y sean A1,,Ak, k  2, eventos exhaustivos y mutuamente excluyentes. Además,
denote la probabilidad de Ai por pi, así que pi  0, i = 1,, k y p1 +  + pk = 1. Ahora
imagine el experimento al cual (S0,0,P0) se refiere repetido n veces independientemente,
donde n es un entero positivo, y sean n1, nk enteros para los cuales
ni  0 i  1, , k
n1 nk  n (1.5)
Entonces podemos calcular la probabilidad que Ai ocurra exactamente ni veces durante los n
ensayos, i = 1,, k.
Teorema 4.1.2 La probabilidad que Ai ocurra exactamente ni veces, i = 1,, k, es
 n  n1
mn1 , ,nk ; p   n
 p1  pk k (1.6)
 n1 , ,nk 
para todos los n1,,nk que satisface (1.5). Aquí p denota el vector p = (p1,,pk), y
 n  n!
 
 n1 ,nk  n1!nk!
denota el coeficiente multinomial.

PRUEBA La prueba del Teorema 4.1.2 es análoga a la del Teorema 4.1.1, al
cual generaliza. Sea Aij el evento que Ai ocurra sobre el j-ésimo ensayo, i = 1,, k, j =
1,, n, y para cada partición  = (1,,k) de los enteros {1,,n}, sea
k
B    Aij
i 1 j i
el evento que Ai ocurre en ensayos j  i, i = 1,, k. Entonces, por independencia,
 
k k
P B     P Aij   piri
i 1 j i i 1
donde ri = i denota el número de elementos en i, i = 1,, k. Ahora, el evento que Ai
ocurra exactamente ni veces, i = 1,, k, es simplemente C = B, donde la unión se
extiende sobre todo  para el cual i = ni, i = 1,, k. Por tanto, puesto que los eventos
 n 
B son mutuamente excluyentes, y puesto que hay   de tales , por el
 n1 , , n k 
Teorema 1.2.3, se sigue que
 n  k ni
PC     pi
 n1 , ,nk  i 1

Las probabilidades (1.6) son conocidas como las probabilidades binomiales.
EJEMPLO 4.1.4
a Si un dado balanceado es lanzado 12 veces, la probabilidad que cada cara
aparezca exactamente dos veces es
 12  12  12! 12

  6   6  6  0.0034
 2 , ,2 2 
(Sea Ai el evento que exactamente i puntos aparezcan en un sólo lanzamiento, i = 1,,
6, y observe que p1 = p2 =  = p6 = 1/6.)
b En una tarde de bridge, Sur juega 6 manos. ¿Cuál es la probabilidad que Sur
tendrá exactamente 2 ases en exactamente 2 manos, exactamente 1 as en exactamente 2
manos, y ningún as en exactamente 2 manos? En una sola mano, la probabilidad que
Sur reciba exactamente i ases es
 4  48 
  
 i   13  i
pi 
 52
 
 13
para i = 0,, 4 por el Teorema 1.4.1. La probabilidad deseada es por tanto

 6  2 2 2 0 0  6  2 2 2
  p0 p1 p2 p3 p4    p0 p1 p2 ////
 2 ,2 ,2 ,0,0  2 ,2 ,2
4.2 LAS PROBABILIDADES BINOMIALES NEGATIVAS

En esta sección continuamos nuestro estudio de ensayos independientes de un experimento.
Así, sea (S0,0,P0) un espacio de probabilidad, e imagine el experimento al cual (S0,0,P0) se
refiere para ser repetido n veces, donde n es un entero positivo. Como en la sección previa,
sean A  0, y Ai el evento que A ocurre sobre el i-ésimo ensayo, i = 1,, n, de modo que
A1,,An son mutuamente independientes con probabilidad común p = P0(A).
Calcularemos la probabilidad que A ocurra por r-ésima vez sobre el k-ésimo ensayo para
cualesquiera enteros r y k con 1  r  k  n. Para r = 1, esto es fácil. Sin duda, el evento que
A ocurra por primera vez sobre el k-ésimo ensayo es simplemente Bk = A1    Ak 1  Ak,
de modo que P(Bk) = P( A1 )  P( Ak 1 )P(Ak) = pqk-1, donde q = 1 – p. Para r > 1, tenemos.
Teorema 4.2.1 La probabilidad que A ocurra por r-ésima vez en el k-ésimo ensayo
es
 k  1 r k r
a  k ; r , p   p q (2.1)
 r  1
para 1  r  k  n. En particular, la probabilidad que A ocurra por primera vez en el

k-ésimo ensayo es
a(k;p) = a(k;1,p) = pqk - 1 (2.2)
para k = 1, n.
PRUEBA A ocurrirá por r-ésima vez en el k-ésimo ensayo si y sólo si Ak
ocurre y exactamente r – 1 de A1,,Ak-1 ocurren. Sea B el evento que exactamente r – 1
de A1,,Ak-1 ocurren. Entonces
 k  1 r 1 k r
P(B) = b(r - 1;k - 1, p) =  p q
 r  1
por el Teorema 4.1.1. Más aún, Ak y B son independientes, puesto que B depende sólo
de A1,,Ak-1 por los Teoremas 3.4.1 y 3.4.2. Por tanto,
108 LAS PROBABILIDADES BINOMIALES NEGATIVAS
 k  1 r k r
P(BAk) = P(B)P(Ak) = pP(B) =  p q
 r  1
EJEMPLO 4.2.1 En lanzamientos repetidos de una moneda balanceada, la probabilidad

que la primera águila aparezca en el k-ésimo lanzamiento es 2-k. La probabilidad que la r-
 k  1  k
ésima águila aparezca en el k-ésimo lanzamiento es  2 . ////
 r  1
EJEMPLO 4.2.2 La serie mundial

a Suponer que dos equipos I y II juegan una serie de a lo más 7 juegos con la
convención que el primer equipo que gane 4 juegos gana la serie. Suponer también que
los sucesos de los juegos son independientes uno de otro y que el equipo I tiene una
probabilidad constante p de ganar en cada juego. Sea Bk el evento que el equipo I gana
la serie en exactamente k juegos. Entonces Bk es el evento que el equipo I gane por
 k  1 4 k  4
cuarta vez en el k-ésimo juego, así que P Bk    p q para k = 4,5,6,7. El
 3 
evento que el equipo I gane la serie es entonces B = B4  B5  B6  B7, así que
7  k  1
P B    4 k 3
p q
k  4 3 
Ver Tabla 6.
b Si los equipos igualmente parejos, p = 0.5, ¿cuál es la probabilidad que la serie
requerirá todos los 7 juegos? Requerimos la probabilidad que el equipo I gane por
Tabla 6
p 0.55 0.60 0.65 0.70 0.75
P(B) 0.6083 0.7102 0.8002 0.8740 0.9294
cuarta vez en el séptimo juego o el equipo II gane por cuarta vez en el séptimo juego.
Los dos eventos son mutuamente excluyentes, y ellos tienen la misma probabilidad por
 6
simetría. Así, la respuesta es 2  2  7  0.3125 . ////
 3
Los lados derechos de (2.1) y (2.2) son independientes de n, y por tanto a(k;r,p) =
 k  1 r k  r
 p q están definidos para toda k = r, r + 1,. Estos números son conocidos como
 r  1
las probabilidades binomiales negativas y en el caso especial que r = 1, a(k;p) = pqk-1, k = 1,
2,, son conocidos como las probabilidades geométricas. Ahora mostraremos que ellas son,
de hecho, probabilidades.
Lema 4.2.1 Si p > 0, entonces para cualquier r = 1, 2,, tenemos

  k  1 r k r
 p q 1 (2.3)
k  r  r  1
PRUEBA Para fijo n  1, considere n ensayos de un experimento, como en el

párrafo inicial de esta sección. Sea Cn el evento que A ocurre r – 1 veces o menos, y
para k = r,, n sea Bk el evento que A ocurre por r-ésima vez después de exactamente k
ensayos. Entonces Cn, Br,, Bn son eventos exhaustivos, mutuamente excluyentes, así
 k  1 r k-r
que P(Cn) + P(Br) +  + P(Bn) = 1. Más aún, P(Bk) =   p q para k = r,, n, así
 r  1
que
n  k  1
PCn     r k r
p q 1
k  r  r  1
Por tanto, será suficiente mostrar que lim P(Cn) = 0 cuando n  . Para ver esto
observe que
r 1  n
PCn      p j q n j
j  0 j 
 n
por el Corolario 4.1.1 y que   p j q n  j ~ p j q  j n j q n j !, que tiende a cero cuando n
 j
  para cada j fijo, puesto que q < 1. Una prueba alterna puede ser basada en el
teorema binomial generalizado de la Sección 1.7. ////
Las probabilidades geométricas tienen una propiedad interesante que puede ser descrita
como carencia de memoria. Como en la introducción a esta sección, sea A un evento, y sea
Ai el evento que A ocurre sobre el i-ésimo de n ensayos independientes del experimento al
cual A se refiere. Además, permítasenos referir a la ocurrencia de Ai como “éxito” sobre el i-
ésimo ensayo y a la no ocurrencia de Ai como “fracaso.” Sea Ck el evento que no hay éxitos
110 TEOREMA DE POISSON: LA LEY DE EVENTOS RAROS
durante los primeros k ensayos. Equivalentemente, Ck puede ser descrito como el evento que
el primer éxito toma lugar después del k-ésimo ensayo, si acaso. Ahora
P(Ck + j | Ck) = P(Cj) (2.4)
para todos los enteros positivos k y j para los cuales k + j  n. Para ver esto, simplemente
observe que Ck  A1 Ak , así que P(Ck) = qk por independencia. Puesto Ck+j implica Ck,
ahora tenemos P(Ck+j  Ck) = P(Ck+j)/P(Ck) = qk+j/qk = qj = P(Cj), como se aseveró
La Ecuación (2.4) puede ser parafraseada como sigue. Dado que uno ha esperado al menos k
ensayos sin un éxito, la probabilidad condicional que uno tenga que esperar j ensayos
adicionales para un éxito es la misma que la probabilidad que uno tenga que esperar j
ensayos antes de un éxito al inicio. Eso es, el proceso “olvida” la cadena inicial de k
fracasos. Esta propiedad es, de hecho, característica de las probabilidades geométricas (ver
Problema 5.12).
4.3 TEOREMA DE POISSON: LA LEY DE EVENTOS RAROS

En esta sección desarrollará una aproximación a las probabilidades binomiales
 n
b k ; n , p    p k q n k
 k
que es válida cuando n es grande, p es pequeña, y el producto  = np es moderado. Más

precisamente, probaremos el siguiente teorema.
Teorema 4.3.1 Sea p1, p2, una sucesión de números reales para los cuales 0 < pn
< 1, n  1, lim pn = 0, y lim npn = , cuando n  , cuando 0 <  < . Entonces
1 k 
lim b k; n, pn    e
k!
cuando n   para cualquier k = 0, 1, 2,.
En la prueba del Teorema 4.3.1, necesitaremos el siguiente lema de análisis.
Lema 4.3.1 Sea x, x1, x2, una sucesión de números reales. Si lim xn = x cuando n
 , entonces
n
 x 
lim 1 n   e x
 n
cuando n  .
PRUEBA Puesto que xn  x, se sigue que xn/n  0 cuando n  . Por tanto, hay
un entero n0 para el cual xn/n  ½ para n  n0. Para tal n, podemos usar el Teorema de
Taylor (Sección 1.7) para escribir
2
 x  x 2  x 
log 1  n   n  21 1  y  n 
 n n  n
donde y = y(xn,n) es un valor intermedio y y  xn/n  ½. Por tanto,
 x  2  x 
2
n log1  n   xn  21 1  y   n   x
 n  n
cuando n  . Por tanto,
n
 xn    xn  
1    exp n log1     e
x
 n   n 
cuando n  . ////
PRUEBA del Teorema 4.2.1 Sea n = npn. Entonces n  , por suposición, y
 n
b k ; n, pn     pnk 1  pn 
n k
 k
k
1 ( n ) k k  n   n 
n
 n 1   1   (3.1)
k ! nk  n  n
para k = 0, 1, 2,. Cuando n  , los factores sobre el lado derecho de (3.1)

convergen a 1/k!, 1, k, e-, y 1, respectivamente. El teorema se sigue. ////
Los números
1 k 
p k ;     e k  0, 1, 2 , (3.2)
k!
son conocidos como las probabilidades Poisson y están tabuladas en el Apéndice Tabla C.2
para varios valores de k y . Observamos que ellas probabilidades (suman 1), porque
 1 k
   e
k 0 k !
por el Teorema de Taylor (Sección 1.7).

112 TEOREMA DE POISSON: LA LEY DE EVENTOS RAROS
El contenido del Teorema 4.3.1 ahora puede ser establecido de alguna manera más
informalmente como sigue. Si n es grande, p es pequeña, y el producto  = np es moderado,
entonces las probabilidades binomiales b(k;n,p) pueden ser aproximadas por las
probabilidades Poisson p(k;). El requisito de que n sea grande y p sea pequeña conduce aún
a otra descripción de las probabilidades Poisson. Las probabilidades Poisson p(k;) dan la
probabilidad de ocurrencia de exactamente k de un número grande n de eventos improbables
(p pequeña). Por esta razón, las probabilidades Poisson son conocidas como la ley de eventos
raros.
EJEMPLO 4.3.1
Suponer que una máquina en una línea de ensamble tiene probabilidad p = 0.01 de producir
una pieza defectuosa cada vez que opera. Si la máquina produce 300 piezas durante un día
dado, entonces la probabilidad que exactamente 4 de las 300 serán defectuosas es
aproximadamente p(4;3) = 0.168. La probabilidad que a lo más 4 de las 300 piezas serán
defectuosas es aproximadamente p(0;3) + p(1;3) + p(2;3) + p(3;3) + p(4;3) = 0.815. ////
EJEMPLO 4.3.2
Conexiones a un número equivocado. Durante un periodo de 24 horas una operadora
telefónica maneja un gran número de llamadas, digamos n llamadas. Hay también una
pequeña probabilidad p de que cada llamada será conectada a un número equivocado.
Podemos por tanto esperar la probabilidad de exactamente k conexiones a un número
equivocado para ser aproximadamente p(k;), donde  = np. ////
EJEMPLO 4.3.3
Descomposición radioactiva. Considere una substancia radioactiva que emite partículas
radioactivas a una razón de  por segundo. Eso es, suponer que durante un largo intervalo de
tiempo, la proporción promedio de emisión es  por segundo (el número emitido durante
cualquier segundo será, por supuesto, aleatorio). Si hay un total de n partículas en la
substancia, parece razonable suponer que cada una será emitida con probabilidad
aproximadamente p = (1/n)t durante un intervalo de tiempo de longitud t. También parece
razonable suponer que las partículas son emitidas independientemente una de otra. Con estas
suposiciones, se sigue del Teorema 4.3.1 que la probabilidad de exactamente k emisiones
durante un intervalo de tiempo de longitud t es aproximadamente
1
p( k ; t )  ( t ) k e  t
k!
para k = 0, 1, 2,. La derivación anterior es incompleta, pero el resultado es correcto,

provisto sólo que t es pequeño comparado con la vida-promedio de la substancia.
Regresaremos a esta cuestión en la Sección 7.6. ////
4.4 LA CURVA NORMAL

En la siguiente sección, desarrollaremos otra aproximación a las probabilidades binomiales
b(k;n,p). La nueva aproximación es válida cuando npq es grande y es por tanto
complementaria a la aproximación Poisson de la Sección 4.3.
La aproximación involucra a la función
1  21 x2
 ( x)  e  x  (4.1)
2
a la que nos referiremos como la función de densidad normal estándar (Figura 2).
Figura 2. La función de densidad normal estándar

114 LA CURVA NORMAL
Claramente,  es simétrica alrededor de cero [(x) = (–x)], y  alcanza su valor máximo de


1 2 en x = 0. Más aún, diferenciación muestra que   x  1  x 2   x , así que  tiene 
puntos de inflexión en 1. Así, la gráfica de  es en forma de campana.
Necesitaremos el siguiente lema.
   xdx  1.

Lema 4.4.1
PRUEBA Sea
  21 x 2
I   e dx
Entonces, debemos mostrar que I  2 o, equivalentemente, que I 2 = 2. Ahora


I    exp [ 12 ( x 2  y 2 )]dxdy
2

Haga el cambio de variable1 x = r cos , y = r sen . Entonces, x2 + y2 = r2, y dx dy =

r dr d. Por tanto,
 2  12 r 2
I 2  0 0 re d dr
  21 r 2  21 r 2 
 2 0 re dr  2e 0  2 ////
Necesitaremos una notación para la integral indefinida de . Sea
( x)    ( y) dy
x
 x  (4.2)
 es conocida como la función de distribución normal estándar. La expresión para  no

puede ser simplificada, pero  ha sido calculada numéricamente y está tabulada en el
Apéndice Tabla C.3. Damos una forma abreviada de esta tabla en la Figura 3.
El valor de (x) para valores negativos de x puede ser obtenido de la identidad
  x  1   x  x  (4.3)
que se sigue fácilmente de la simetría de . De hecho, el cambio de variables u = –y muestra

1
2 Integrales múltiples son discutidas en la Sección 6.4, y la fórmula del cambio de variable para integrales múltiples es
discutida en la Sección 7.4. Para una discusión elemental de estos conceptos ver, por ejemplo, Thomas (1972), Cap. 15.
x 
 (  x)    ( y) dy  x  (u) du  1   ( x)
por la simetría de  y el Lema 4.4.1.
Figura 3. La función de distribución normal estándar
Finalmente, observamos que (x) se aproxima a 1 muy rápidamente cuando x  . De

hecho, tenemos la siguiente desigualdad.
Lema 4.4.2 Para x > 0, 1 – (x) < (1/x)(x), y 1 – (x)  (1/x)(x) cuando x  .
PRUEBA La derivada de (x) es –x(x), y la derivada de 1 – (x) es –(x), así que

 
 ( x)  x y ( y) dy  x[1  ( x)]  x [1  ( y)] dy (4.4)
para x > 0. La segunda igualdad se sigue de la integración por partes. Ahora el segundo
término en la última línea de (4.4) es positivo, así que x[1 – (x)]  (x) para x > 0,
116 APROXIMACIÓN NORMAL
como se aseveró en el lema. Ahora reemplacemos 1 – (x) por su cota superior y-1(y)
para obtener
 1
 ( x )  x[1   ( x )]  x  ( y ) dy
y
1 
 x [1   ( x )]    ( y ) dy
x x
 1
  x   [1   ( x )]
 x
para x > 0. Así, 1 – (x)  (1/x)(x) cuando x  . ////
4.5 APROXIMACIÓN NORMAL

La densidad normal  puede ser usada para aproximar las probabilidades binomiales b(k;n,p)
cuando n es grande. De hecho, el siguiente resultado es verdadero y será demostrado en la
siguiente sección. Para p fijo, 0 < p < 1, sea
k  np
xnk  (5.1)
npq
y defina rnk por
npq b( k ; n, p)   ( xnk )  rnk
Entonces el término remanente rnk es insignificante cuando n es grande en el sentido que

lim max rnk  0
k
 cuando n  
Eso es, podemos aproximar las probabilidades binomiales b(k;n,p) por la expresión más
simple (xnk)/ npq cuando n es grande, y denotaremos la relación escribiendo
npq b( k ; n, p)   ( xnk ) (5.2)
Como un corolario, vemos que una gráfica de barras de las probabilidades binomiales
b(k;n,p) tiene la forma aproximada de la densidad normal estándar centrada en k = np con
unidades de ancho 1 npq en ambos ejes k y b(k;n,p) (Figura 4). Cuando p = 0.5, la
aproximación es excelente para valores de n tan pequeños como n = 8.
Figura 4. Aproximación normal a la binomial.
Para establecer nuestro siguiente resultado, usaremos la siguiente notación. Escribiremos Pr

() para denotar la probabilidad del evento descrito en los paréntesis. Por ejemplo, si A1,,An
son eventos independientes con la misma probabilidad P (Ai) = p, y si X denota el número de
A1,,An que de hecho ocurren, entonces Pr (j  X  k) denotará la probabilidad del evento
que al menos j y a lo más k de los eventos A1,,An ocurran para 0  j  k  n. Por los
Teoremas 2.3.3 y 4.1.1, esto es
k
Pr ( j  X  k )   b(i ; n , p)
i j
Podemos ahora establecer el siguiente resultado, que está relacionado a (5.2). Sean A1,,An
y X como antes, y sea 0  j  k  n. Definir  y  por
j  np  21 k  np  21
 y  (5.3)
npq npq
y defina rn  rn j, k  por
Pr ( j  X  k )  (  )  ( )  rn (5.4)

Entonces el término remanente rn es insignificante para valores grandes de n. Eso es,
podemos aproximar Pr (j  X  k) por la expresión más simple () – (), y denotaremos
la relación por
Pr (j  X  k)  ()  () (5.5)
Es difícil sobre enfatizar el poder de (5.5), porque da una aproximación efectiva, simple a
sumas complicadas de probabilidades binomiales.
Las relaciones (5.2) y (5.5) son conocidas como los teoremas límite local e integral de
DeMoivre-Laplace, respectivamente. Los probaremos en la siguiente sección. La relación
(5.5) es un caso especial del teorema límite-central, que discutimos en la Sección 9.4.
Ahora consideremos algunos ejemplos.
EJEMPLO 4.5.1 La aproximación (5.5) es generalmente muy buena cuando p es

cercana a ½. Denote X el número de águilas en n lanzamientos de una moneda balanceada.
Damos en la Tabla 7 los valores exactos y aproximados de
k
Pr (0  X  k )   b(i ; n , 21 )
i 0
para valores seleccionados de n y k.
Tabla 7 VALORES EXACTOS Y APROXIMADOS DE Pr (X  k)
n = 8 y p = 0.5 n = 16 y p = 0.5
k Exacto Aprox. Error k Exacto Aprox. Error
0 0.004 0.006 -0.002 0 0.0000 0.0001 -0.0001
1 0.035 0.038 -0.003 1 0.0003 0.0006 -0.0003
2 0.145 0.144 0.001 2 0.0021 0.0030 -0.0009
3 0.363 0.361 0.002 3 0.0106 0.0122 -0.0016
4 0.637 0.638 -0.001 4 0.0384 0.0401 -0.0017
5 0.1051 0.1056 -0.0005
6 0.2272 0.2266 0.0006
7 0.4018 0.4013 0.0005
8 0.5982 0.5987 -0.0005
Por simetría, la aproximación debe ser completamente tan buena en el rango k > 0.5n como
en el rango k < 0.5n. Así, el error (exacto – aproximado) es uniformemente pequeño para
toda k para n tan chica como 8. El error relativo, (exacto – aproximado)/exacto, será grande
para valores pequeños de k, sin embargo.
Recíprocamente, la aproximación es generalmente pobre si p es cercana a 0 o a 1. Esto es
claro de los resultados de la Sección 4.3. ////
EJEMPLO 4.5.2
a En 400 lanzamientos de una moneda balanceada, ¿cuál es la probabilidad que el
número de águilas, digamos X, diferirá de 200 por al menos 10? Requerimos
210
Pr (190  X  210)   b(i ;400, 21 )
i 190
La relación (5.5) se aplica con n = 400, p = ½, j = 190, y k = 210. Encontramos

fácilmente que np = 200, npq = 10,  = –1.05, y  = 1.05. Del Apéndice Tabla C.3,
encontramos entonces que la probabilidad deseada es aproximadamente
()  () = 2(1.05)  1 = 0.706
b En 10,000 nacimientos, ¿cuál es la probabilidad que la proporción de varones este
entre 0.49 y 0.51? Sea Ai el evento que el i-ésimo nacimiento sea varón, i = 1,,104, y
suponer que los Ai son independientes con probabilidad 0.5. Entonces requerimos la
probabilidad que 4900  X  5100, donde X es el número de Ai que ocurren. Tenemos
np = 5000 y npq = 50, así que
4900  5000  0.5

  2.01
50
y análogamente,  = 2.01. Así, la probabilidad requerida es aproximadamente (2.01)
– (–2.01) = 2(2.01) – 1 = 0.956.
c Un investigador médico cree que la probabilidad de curar un tipo particular de
enfermedad en ratones de laboratorio con un tratamiento particular es p = 0.7. Si el está
en lo correcto, y si el administra el tratamiento independientemente a 100 de tales
ratones, ¿cuál es la probabilidad que al menos 65 de ellos serán curados? Aquí tenemos
n = 100, p = 0.7, j = 65, y k = 100. Después de algunos cálculos, encontramos () –
() = 0.885. ////
Ahora discutiremos una aplicación práctica de (5.5). Considere una moneda con
probabilidad desconocida p de que ocurra águila. Equivalentemente, considere una droga
que tiene probabilidad desconocida p de curar una enfermedad, o considere de un electorado
grande una proporción p que favorece a un candidato particular o demanda. Podemos

estimar p como sigue. Lanzamos la moneda n veces; contamos el número de águilas que
resultan, digamos Xn; y calculemos la frecuencia relativa águilas Fn = (1/n)Xn. De acuerdo a
la interpretación frecuentista de probabilidad, Fn converge a p cuando n  , así que parece
razonable estimar p por Fn. Por tanto podemos buscar para constantes preasignadas  > 0 y ,
0 <  < 1, ¿qué tan grande debe ser n para que
Pr (| Fn  p|  )   (5.6)
La  entonces sirve como una medida natural de nuestra confianza que, de hecho, Fn – p 
, y  sirve para medir la exactitud de nuestra estimación. Por ejemplo, si sabíamos que (5.6)
se cumple para  = 0.01 y  = 0.99, entonces podríamos estar virtualmente ciertos que
nuestra estimación Fn estaría dentro 0.01 de la p desconocida.1
Usando (5.5), podemos encontrar una n tal que (5.6) es aproximadamente satisfecha.
EJEMPLO 4.5.3
Dados , , 0 < ,  < 1, ¿qué tan grande debe ser n para que (5.6) sea “aproximadamente”
satisfecha? Sea j el entero más pequeño que es mayor que o igual a n(p – ), y sea k el entero
más grande que es menor a o igual a n(p + ). Entonces
k
Pr (| Fn  p|   )   b(i ; n , p)
i j
que es aproximadamente () – () con  = (j – np – ½)/ npq y  = (k – np + ½)/ npq .

Sea 2 = pq. Entonces, ambos  y – difieren de n  -1 a lo más por 1/ n . Puesto que 
es continua, se sigue que () – () es aproximadamente
( n  1 )  (  n  1 )  2( n  1 )  1
Así, si n es tan grande que 2( n  -1) – 1  , entonces (5.6) debe ser aproximadamente
satisfecha. Eso es, debemos tener
 2  1[(1   ) / 2]2
n
2
1
3 Los estadísticos se refieren al intervalo [Fn – , Fn + ] como un intervalo de confianza y a  como el coeficiente de
confianza.
donde -1 denota la función inversa para . Finalmente, puesto que 2 = pq = p(1 – p)  ¼
para 0 < p < 1, como es fácilmente verificado por diferenciación, vemos que la última
condición será satisfecha si n  n0, donde
 1[(1   ) / 2]2
n0  (5.7)
4 2
Así n0 parece ser la selección apropiada de n. ////
En aplicaciones, la Tabla 8 será muy útil.
EJEMPLO 4.5.4
Suponer que dos candidatos, A y B, están buscando una oficina. Sea p la proporción del
electorado que favorece al candidato A. Para estimar p, una encuesta de opinión es tomada.
Eso es, una muestra aleatoria de tamaño n es seleccionada del electorado y tomada su
preferencia. Denote Fn la proporción de la muestra que favorece a A. ¿Qué tan grande debe
ser seleccionada n para que Pr (Fn– p  0.05)  0.95, aproximadamente?
Si el electorado es grande, podemos ignorar la diferencia entre muestreo sin remplazo y
muestreo con remplazo (ver Sección 1.5). Para muestreo con remplazo, (5.7) se aplica con 
= 0.05 y  = 0.95 para producir n0 = 384 para el entero más cercano. ////
Tabla 8
 0.900 0.950 0.975 0.990 0.995
 1 ( ) 1.282 1.645 1.960 2.326 2.576
4.6 LOS TEOREMAS DE DEMOIVRE-LAPLACE1

En esta sección discutiremos las pruebas de (5.2) y (5.5). Recuerde que an  bn significa anbn-
1
 1 cuando n  .
Teorema 4.6.1 Sea 0 < p < 1, y sea kn cualquier sucesión de enteros para la cual 0 
kn  n para n  1, y sea
1
4 Esta sección puede ser omitida sin pérdida de continuidad
122 LOS TEOREMAS DE DEMOIVRE-LAPLACE
k n  np
xnkn  (6.1)
npq
Si kn depende de n de tal manera que lim n-1/6 x nkn = 0 cuando n  , entonces

  cuando n  .
npqb k n ; n, p   x nkn
PRUEBA Para simplificar la notación permítasenos escribir k por kn, x por x nkn
, y j por n – k. Entonces
k  np  x npq (6.2a)
j  nq  x npq (6.2b)
por definición de x. Más aún, puesto que n-1/6x  0 cuando n  , debemos también
tener n-1/2x  0 cuando n  , así que k/n  p y j/n  q cuando n  . En
particular, ambos k y j tienden a infinito cuando n  , así que podemos aplicar la
fórmula de Stirling (Sección 1.8) para deducir que
k! ~ 2k k k e  k
j! ~ 2j j j e  j
n! ~ 2nn n e  n
cuando n  . Si substituimos estas relaciones dentro de la definición de b(k;n,p) y

usamos el hecho que k + j = n, encontramos que
n! k j
b( k ; n, p )  p q
k ! j!
k j
n  k  j
~    
2kj  np   nq 
cuando n  . Así,
npq b( k ; n , p)
 An Bn (6.3)
 ( x)
k j
n 2 pq  k  j 1 2
An  Bn   
x
y   e2
donde kj  np   nq 
así que será suficiente mostrar que lim An = 1 y lim Bn = 1 cuando n  . Que An  1
cuando n   es claro puesto que k/n  p y j/n  q, como nosotros observamos
antes.
Para mostrar que Bn  1 cuando n  , escriba k y j en la forma de (6.2) para obtener
k j
log Bn   k log  j log  21 x 2
np nq
 q 
  (np  x npq ) log 1  x 
 np 
 p 1 2
 (nq  x npq ) log 1  x  x (6.4)
 nq  2
Ahora, puesto que n-1/2x  0 cuando n  , debemos tener
q 1 p 1
x  y x 
np 2 nq 2
para n suficientemente grande, digamos n  n0. Para tal n, podemos expandir los
términos logarítmicos en la serie de Taylor alrededor de 0 para obtener
 q  q 1 2 q
log  1  x x  x  Rn
 np  np 2 np
(6.5)
 p p 1 2 p
log  1  x   x  x  Rn
 nq  nq 2 nq
3
1 1   q
3
donde Rn    x 
3  1     np 
3
1 1   p
3
Rn     x 
3  1    nq 
con    ½ y ´  ½. Si seguido substituimos (6.5) dentro de (6.4), encontramos que

 q 1 2 q 
log Bn  (np  x npq ) x  x  Rn 
 np 2 np 
 p 1 2 p  1
 (nq  x npq )  x  x  Rn   x 2
 nq 2 nq  2
que simplifica a
log Bn  (np  x npq ) Rn

1 3 q p
 (nq  x npq ) Rn  x q p 
2  np nq 
Finalmente,
|np  x npq || Rn | k n | Rn |
3 3
 1  1  q
 n    x
 3  1    np
32
8 q 1
   n 2 | x 3 | 0
3  p
cuando n   puesto que n-1/6x  0 cuando n  , por hipótesis. Asimismo,
 q p
lim | nq  x npq|| Rn|  0 y lim x 3 q p 0
 np nq 
cuando n  , así que lim log Bn = 0 cuando n  . Eso es, lim Bn = 1 cuando n  ,
como se pidió. ////
Hemos mostrado que la razón de   es cercana a 1 provisto que k no
npqb k; n, p a  x nkn
está demasiado distante de np en el sentido que n-1/6 x nkn  0 cuando n  . Ahora
mostraremos que la diferencia es pequeña para toda k. En efecto, mostramos que ambos
 
b(k;n,p) y  x nkn son pequeños si k es distante de np.
Teorema 4.6.2 Para k = 0,, n, defina xnk y rnk por

k  np
xnk 
npq
y rnk  npq b( k ; n, p)   ( xnk )

Entonces lim (maxk rnk) = 0 cuando n  .
PRUEBA Seleccione enteros in < (n + 1)p y jn > (n + 1)p para los cuales x nin
 
 –, x njn  , y n 1/ 6 x njn  x nin  0 cuando n  . Entonces
npq b(in ; n , p) ~  ( xnin )
por el Teorema 4.6.1 y  ( xnin )  0 puesto que xnin   . Ahora puesto que b(k;n,p)
es una función creciente de k para k < (n + 1)p por (1.3), y puesto que (x) es una
función creciente de x para x < 0, debemos tener
max|rnk | npq b(in ; n , p)   ( xnin )

k in
que tiende a cero cuando n  . Asimismo, max k  jn rnk  0 cuando n  .

Finalmente, podemos seleccionar una kn para la cual in  kn  jn y
| npq b( k n ; n , p)   ( xnkn )|  max |rnk | (6.6)

in  k  jn
y el lado izquierdo de (6.6) tiende a cero cuando n   por el Teorema 4.6.1. ////
Ahora tornamos nuestra atención a la prueba de (5.5). Por simplicidad, consideraremos sólo
el caso donde  y  permanecen acotadas cuando n  , aunque (5.5) es verdadera sin esta
restricción.
Teorema 4.6.3 Para cualquier n sean jn y kn enteros positivos para los cuales 0  jn
< kn  n, y sean
jn  np  21 k n  np  21
n  y n 
npq npq
Si hay una constante c para la cual –c  n < n  c para toda n = 1, 2,, entonces
k
 b(i ; n , p)   ( n )   ( n )  rn
i  jn
donde rn  0 cuando n  .

PRUEBA Tenemos
kn
1 kn
 b( i; n , p )    ( x ni )
i  jn npq i jn
1 kn
  [ npq b( i; n , p )   ( x ni )]  I n  Rn , digamos
npq i jn
Ahora, puesto que xni = xn(i-1) = 1/ npq , es una suma de Riemann aproximando a
n
  ( x) dx   ( n )   ( n )
n
y el término remanente Rn esta acotado por

1
Rn  ( k n  jn ) max |rnk | ( n   n ) max |rnk |
npq k k
que tiende a cero cuando n  . El teorema se sigue. ////

4.7 PROBLEMAS
4.1 Si un jugador de bridge juega 6 manos de bridge durante una tarde, ¿cuál es la
probabilidad de que el obtendrá:
(a) ¿Exactamente 2 ases en exactamente 2 de las manos?
(b) ¿Al menos 2 ases en al menos 2 de las manos?
4.2 Si dos dados balanceados son lanzados 4 veces, ¿cuál es la probabilidad de que al
menos 2 de los lanzamientos producirán al menos 9 puntos en total?
4.3 Dos jugadores de ajedrez, digamos A y B, juegan una serie de 10 juegos. Suponer que
los resultados de los 10 juegos son independientes y que cada jugador tiene
probabilidad 0.5 de ganar cada juego. ¿Cuál es la probabilidad de que uno de los
jugadores ganará más juegos que el otro?
4.4 En el Problema previo suponer que los jugadores A y B juegan 9 juegos y que A tiene
probabilidad p = 0.6 de ganar cada juego. ¿Cuál es la probabilidad de que A ganará más
juegos que B?
4.5 Mandrake, un mago, sostiene tener percepción extrasensorial. Para probar esta
aseveración, una moneda balanceada es lanzada 8 veces, y él es requerido para predecir
el resultado de cada lanzamiento. Suponiendo que Mandrake está de hecho adivinando,
¿cuál es la probabilidad de que el adivinará correctamente al menos 6 de los 8
resultados?
128 PROBLEMAS
4.6 En el Problema 4.5 suponer que Mandrake de hecho tiene percepción extrasensorial.
Suponer que él puede correctamente cantar el lanzamiento de una moneda con
probabilidad ¾. ¿Cuál es la probabilidad de que el correctamente cantará al menos 6 de
los 8 lanzamientos?
4.7 Suponer que los elementos sobre una línea de ensamble deben pasar por 10 operaciones
para convertirse en productos terminados. Suponer también que cada operación
funciona erróneamente con probabilidad p = 0.01. Si 10 elementos pasan a través de la
línea, ¿cuál es la probabilidad de que ninguna de las operaciones funcionará mal en (a)
exactamente 8 de los elementos; (b) al menos 8 de los elementos? Suponer que las 10
operaciones son independientes.
4.8 Considere un examen de selección múltiple con 10 preguntas, cada una de las cuales
tiene 4 posibles respuestas. Si un estudiante conoce la respuesta correcta con
probabilidad 0.8 y adivina con probabilidad 0.2, ¿cuál es la probabilidad de que el
responderá correctamente (a) exactamente 8 de las 10 preguntas; (b) al menos 7 de las
10 preguntas? Suponer sus respuestas a las 10 preguntas para ser independientes.
4.9 Dos monedas no cargadas son lanzadas n veces. Dado que hubieron exactamente k
águilas en los 2n lanzamientos, ¿cuál es la probabilidad condicional de que hubieron
exactamente j águilas en los n lanzamientos de la primera moneda?
4.10 Un dado balanceado es lanzado 4 veces. Dado que ningún as y ningún seis aparece,
¿cuál es la probabilidad condicional que cualquier otra cara aparezca exactamente una
vez?
4.11 Sean dos dados balanceados lanzados 6 veces. ¿Cuál es la probabilidad de que
exactamente 2 de los lanzamientos produzcan un número total de puntos menor que 7,
exactamente 2 produzcan un número total de puntos igual a 7, y exactamente 2
produzcan una suma total de puntos mayor que 7?
4.12 Problema de la fosforera de Banach . Un fumador inicia la mañana con dos cajas,
cada una de las cuales contiene n fósforos. Cada vez que el necesita un fósforo,
selecciona una de las dos cajas al azar y toma un fósforo de ella. ¿Cuál es la
probabilidad de que el (n + k)-ésimo fósforo vaciará una de las cajas? Sugerencia: Sea
Ai el evento de que el i-ésimo fósforo es tomado de la caja I, y suponer que los Ai son
independientes con probabilidad común ½.
NOTA: Los Problemas 4.13 a 4.16 introducen una aplicación de las
probabilidades binomial y multinomial a la genética. Características
heredables son determinadas por transportadores denominados genes, los
cuales aparecen en pares. En el caso más simple, los genes pueden tomar sólo
dos formas a y A, así que hay tres posibles genotipos (parejas) aa, Aa, y AA.
No hay distinción entre Aa y aA. En la reproducción sexual, el genotipo de
un descendiente está determinado como sigue: un gene es seleccionado al
azar de cada uno de los padres, y las selecciones son independientes.

También, la selección de genotipos para diferentes descendientes son
independientes.
4.13 Si ambos padres son del tipo Aa, ¿cuál es la probabilidad de que un descendiente será
del tipo aa; Aa; AA?
4.14 Si dos padres del tipo Aa tienen 6 descendientes, ¿cuál es la probabilidad de que
exactamente 3 de los descendientes serán del tipo Aa?
4.15 Si dos padres del tipo Aa tienen 6 descendientes, ¿cuál es la probabilidad de que
exactamente 2 de los descendientes serán de cada uno de los genotipos?
4.16 Responda los Problemas 4.13 a 4.15 cuando los genotipos de los padres son:
(a) Aa y aa (b) Aa y AA (c) AA y aa
Una moneda con probabilidad p > 0 de caer águila es lanzada hasta que 3 águilas han
aparecido. ¿Cuál es la probabilidad de que un número par de lanzamientos será
requerido?
4.18 Una moneda limpia es lanzada hasta que 2 águilas han aparecido. Sea k la
probabilidad que al menos k lanzamientos serán requeridos y encontrar el entero más
pequeño k tal que k  ½.
4.19 Una moneda limpia es lanzada hasta que 2 águilas aparecen. Dado que más de 3
lanzamientos son requeridos, ¿cuál es la probabilidad condicional que más de 6
lanzamientos serán requeridos?
 ak ; r , p   1 para p > 0 y r 

4.20 Use el teorema binomial generalizado para probar que k r
1.
4.21 Una moneda es lanzada hasta que 2 águilas han aparecido. Dado que exactamente k
lanzamientos fueron requeridos, ¿cuál es la probabilidad condicional de que el primer
lanzamiento resultara en águila?
4.22 Una moneda es lanzada hasta que r águilas han aparecido. Dado que exactamente k
lanzamientos fueron requeridos, ¿cuál es la probabilidad condicional de que el j-ésimo
lanzamiento resultara en águila, j = 1, k  1?
En n = 1000 lanzamientos de una moneda que tiene probabilidad p = 0.005 de caer en águila
en cada lanzamiento, estimar la probabilidad de que:
(a) Exactamente 5 águilas aparecerán.
(b) Al menos 5 águilas aparecerán.
(c) A lo más 5 águilas aparecer.
130 PROBLEMAS
4.24 La máquina ponedora de tapas en la Compañía de Cerveza XYZ funciona mal con
probabilidad p = 0.001 en cada botella que intenta ponerle tapa. Si intenta 2500 botellas
en un día, ¿cuál es la probabilidad de que funcionará mal en más de 10 botellas?
4.25 La Compañía de Galletas ABC puso n pedacitos de chocolate dentro de una tina de
pasta de la cual hace m galletas y encuentra que las galletas resultantes contienen
exactamente k pedacitos de chocolate con probabilidad p(k;), donde k = n/m. Si se
desea hacer m = 10,000 galletas de una tina en particular, ¿cuántos pedacitos de
chocolate se deben poner dentro de la tina para que el 95 por ciento de la galletas
resultantes contengan al menos 5 pedacitos de chocolate?
4.26 Una sustancia radioactiva emite  partículas con intensidad  = 0.1 por microsegundo.
¿Cuál es la probabilidad de que habrá más de 2 emisiones durante los primeros 10
microsegundos?
4.27 En el Problema 4.26 encuentre el número t para el cual la probabilidad de al menos 1
emisión durante los primeros t microsegundos sea 0.5.
NOTA: Problemas 4.28 a 4.32 se refieren a n lanzamientos independientes de una moneda
que tiene probabilidad p de caer águila en cada lanzamiento. X denota el número de águilas.
4.28 Si n = 10 y p = ½, encontrar los valores exacto y aproximado de la probabilidad de que
X sea menor que o igual a k para k = 1, 5.
4.29 Si n = 100 y p = 1/3, estimar la probabilidad de que (a) X sea mayor que 35 (b) X este
entre 25 y 35 inclusive.
4.30 Sea F = X/n. Si p = ½, ¿qué tan grande debe ser n para que (aproximadamente) la
probabilidad de que F  ½  0.1 sea al menos 0.95?
4.31 Sea F = X/n. Encontrar una n para la cual aproximadamente la probabilidad de que F 
p  0.05 sea al menos 0.95 para toda p, 0 < p < 1.
4.32 Sea F = X/n. Si n = 100,000 y p = ½, estimar la probabilidad de que F  ½  0.01.
4.33 Un dado balanceado es lanzado 12,000 veces. Estimar la probabilidad de que el número
de ases esté entre 1800 y 2200 inclusive.
4.34 Si 12,000 lanzamientos de un dado producen un total de 2500 ases, ¿sería razonable
concluir que el dado no está balanceado?
4.35 En el Ejemplo 4.5.4, ¿qué tan grande debe ser n para que aproximadamente
Pr  Fn  p  0.01  0.95
para toda p?
4.36 Para estimar la probabilidad p con la cual un tratamiento particular curará una
enfermedad dada, el tratamiento es administrado independientemente a n animales
experimentales. Denote Xn el número de animales que son curados, y sea Fn = (1/n)Xn.

¿Qué tan grande debe de ser n para que (a) aproximadamente Pr (Fn  p  0.02)  0.95
para toda p; (b) aproximadamente Pr (Fn  p  0.01)  0.99 para toda p?
NOTA: Problemas 4.37 y 4.38 desarrollan una aproximación para las
probabilidades binomial negativas. Problemas 4.39 y 4.40 desarrollan
una aproximación a las probabilidades Poisson.
4.37 Considere las probabilidades binomial negativas a(k;r,p) cuando p  0 y k   de tal
manera que kp  x > 0. Mostrar que
1 x r 1e  x
 ak ; r , p  
 p r  1!
4.38 En la notación del Problema 4.37 mostrar que
x r 1e  x
 ak ; r , p   
b
dx
a  kp b
a r  1!
4.39 Sea
k
pk ;   
1 k 
 e y x
k! 
Use la fórmula de Stirling para mostrar que si k = k depende de  de tal manera que x
permanece acotada cuando   , entonces  pk ;    (x) cuando   .
4.40 En la notación del Problema 4.39 mostrar que
 pk ;    b  a 
a   k   b 
cuando   .
 pk ;100 .
110
4.41 Estimar k 90
5
5 VARIABLES ALEATORIAS
5.1 VARIABLES ALEATORIAS

En muchos problemas, no estamos interesados con todos los aspectos del resultado de un
experimento sino únicamente en una característica numérica particular del resultado, tal
como el número de bolas rojas en una muestra, la altura de un hombre seleccionado
aleatoriamente. Podemos abstraer la noción de una característica numérica interesante como
sigue. Considere un espacio de probabilidad (S,,P), y denotamos por X a una función real
que está definida sobre un espacio muestral S. Así, S puede ser visto como el conjunto de
posibles resultados de algún juego o experimento y X como una regla que asigna a cada
posible resultado s  S un número real X(s) unívocamente definido. Llamaremos a X una
variable aleatoria si para cada intervalo I de números reales el subconjunto de S
s  S : X s  I  (1.1)
es un evento, eso es, pertenece a . En este caso referiremos a (1.1) como el evento que X
pertenece a I y escribimos
Pr X  I   Ps  S : X s   I  (1.2)
La restricción de que (1.1) sea un evento garantiza que el lado derecho de (1.1) esté bien
definido. Puesto que muchos eventos interesantes pueden ser escritos en la forma (1.1), con
una selección apropiada de X e I, veremos que la notación (1.2) es muy útil. Generalmente,
usaremos la notación Pr (·) para denotar la probabilidad del evento descrito dentro del
paréntesis. Por ejemplo, Pr (a < X < b) significa P ({s  S: a < X(s) < b}), Pr (X = a)
significa P ({s  S: X(s) = a}), Pr (X  a) significa P ({s  S: X(s)  a}), etc.
Hemos considerado antes una variable aleatoria y usado la notación (1.2) y sus variaciones
en el capítulo previo, cuando consideramos el número de águilas que resultan de n
lanzamientos independientes de una moneda. El Ejemplo 5.1.2a proporciona los detalles.
EJEMPLO 5.1.1
a Sea (S,,P) un espacio de probabilidad y sea A cualquier evento. Entonces la
función X definida por
1 si s  A
X s   
0 si s  A
es conocida como la indicadora de A. Denotaremos a X por IA. Así, IA = 1 si A ocurre, e

IA = 0 si A no ocurre. Entonces tenemos Pr (IA = 1) = P ({s: IA(s) = 1}) = P (A), y Pr (IA
= 0) = P (A') = 1 - P (A).
b Sean A1 ,..., An cualesquiera eventos. La función X definida por
X s   I A1 s  ... I A n s 
para s  S cuenta el número de A1 ,..., An que ocurren.

c Si A1 ,..., An son eventos mutuamente excluyentes y exhaustivos, entonces la función X
definida por
X s    kI Ak s 
n
(1.3)
k 1
calcula el índice del Ai que ocurre. (Todos excepto uno de los términos en la suma son
0.) En este caso, Pr (X = k) = P({s: X(s) = k}) = Ps : I Ak s   1 = P(Ak) para k = 1,...
n.
Cualquier variable aleatoria que tome únicamente los valores 1,... n puede ser
representada en la forma (1.3) simplemente haciendo que Ak sea el evento que X = k
para k = 1,... n. ////
EJEMPLO 5.1.2
a Si una moneda es lanzada independientemente n veces, el número de águilas que
aparece puede ser representado como una variable aleatoria, como en el Ejemplo
VARIABLES ALEATORIAS 135
5.1.1b, permitiendo que Ai sea el evento de que águila aparece en el i-ésimo

lanzamiento. Del Teorema 4.1.1, entonces tenemos
n
Pr  X  k     p k q nk
k 
para k = 0,... n, donde p denota la probabilidad de águila en un ensayo individual y q =
1 - p.
b Del mismo modo, si una muestra aleatoria no ordenada de tamaño k es extraída de
una urna que contiene m bolas rojas y n - m bolas blancas, podemos representar el
número de bolas rojas en la muestra como una variable aleatoria, como en el Ejemplo
5.1.1c y encontramos que
 m  n  m 
  
 r  k  r 
Pr  X  r  
n
 
k 
para r = 0,... k por el Teorema 1.4.1. ////

EJEMPLO 5.1.3
Sea (S,,P) cualquier espacio de probabilidad para el cual S es un intervalo y  es la clase de
subconjuntos de Borel de S. Entonces la función X definida por X(s) = s para s  S es una
variable aleatoria. De hecho, {s: X(s)  I} = IS es un intervalo para cualquier intervalo I 
R. Si S es pensado como el conjunto de posibles resultados del experimento, entonces X
efectivamente calcula el resultado real del experimento. Correspondientemente, referiremos
a X como el resultado del experimento. Observe que si I es un subintervalo de S, entonces Pr
(X  I) = P(IS) = P(I).
En particular, si S = [0,1] es el intervalo unitario y P(I) es la longitud de I para cualquier
subintervalo I  S, como en el Ejemplo 2.2.5, entonces Pr({X  I}) = longitud de IS para
cualquier intervalo I  R. ////
EJEMPLO 5.1.4
Considerar un experimento en el cual un punto es seleccionado al azar del intervalo unitario
S = [0,1] de tal manera que la probabilidad de que el punto esté en un intervalo I  S es
P(I)= longitud de I. Podemos entonces definir muchas variables aleatorias interesantes. Por
ejemplo,
X( s )  s2 y Z s   tan2 s
para s  S.
Calculemos Pr (X  I). Suponer, por ejemplo, que I = (a, b] con 0 < a < b < 1. Entonces

Pr a  X  b   P s  S : s 2  a ,b 
 P a , b   b a
y resultados similares pueden ser obtenidos para otros intervalos.

El cálculo de Pr (Z  I) es más complicado. Un examen de la Figura 5 muestra que para 0 <
a < b < , el evento de que a < Z  b es simplemente
s  S : a  Z s   b  c1 ,d1  c2,d 2 
Figura 5. La función tangente

donde por definición,

1 1
c1  arctan a d1  arctan b
2 2
c2  c1  12 , y d2  d1  12 . Se sigue que
1
Pr a  Z  b  Pc1 , d1   Pc2 , d 2 

  d1  c1    d 2  c2 
1
 arctan b  arctan a 

y el mismo resultado se obtiene para cualquier otro intervalo con puntos finales a y b (a < b),
por ejemplo, (a,b). Por cierto Z, da la tangente de un ángulo seleccionado aleatoriamente. ////
Muchos ejemplos de variables aleatoria serán dados en las siguientes dos secciones.
Concluimos esta sección probando que (1.2) define una función de probabilidad, así que los
resultados de las Secciones 2.3, 2.4, y 2.5 son aplicables a él. Primero, necesitamos un lema.
Lema 5.1.1 Sea X una función de un conjunto S a un conjunto T, y defina
X 1 B   s  S : X s  B
para todos los subconjuntos B  T . Entonces, para B, B1 , B2 ,... T , tenemos
X 1  Bi    X 1  Bi  (1.4a )
X 1  Bi    X 1  Bi  (1.4b)
X 1  B'  X 1  B' (1.4c )
PRUEBA El lema es una simple consecuencia del hecho de que, por definición, s
 X (B) si y sólo si X(s)  B. Para probar (1.4a), por ejemplo, simplemente observe
-1
que los siguientes enunciados son equivalentes:

1 s  X 1  Bi 
2 X  s  Bi
3 X  s  Bi para alguna i
4 s  X 1  Bi  para alguna i
5 s  X 1  Bi 
1
1 Por arctan entendemos la rama principal de arcotangente. Eso es, arctan y es la única x para la cual -(½)  x < (½) y
tan x = y.
Esto establece (1.4a), y las pruebas de (1.4b) y (1.4c) son similares. ////
Ahora, sea X cualquier variable aleatoria definida sobre un espacio de probabilidad (S,,P),
y sea B la clase de todos los subconjuntos B  R (el conjunto de los números reales) para los
cuales X-1(B) es un evento, esto es, pertenece a . La condición (1.1) pide que B tenga a
todos los intervalos, y podemos extender la notación (1.2) escribiendo Pr (X  B) = P(X-1(B))
para toda B  B. Mostraremos que Pr (X  B) define una función de probabilidad.
Teorema 5.1.1 Sea X cualquier variable aleatoria, y defina una función Q por medio
de Q(B) = Pr(X  B) para B  B. Entonces (R,B,Q) es un espacio de probabilidad.
PRUEBA La prueba de que B es una -álgebra se deja como un ejercicio
(Problema 5.7). Mostraremos que Q satisface los axiomas (2.1),(2.2), y (2.3) del
Capítulo 2. Claramente, 0  Q( B)  P( X 1 ( B))  1 puesto que P es una medida de
probabilidad, y más aún, Q(R) = P(X-1(R)) = 1 por la misma razón. Para establecer
(2.2), sean A y B elementos disjuntos de B. Entonces, X-1(A)  X-1(B) = X-1(AB) = X-
1
() = , así que X-1(A) y X-1(B) son eventos mutuamente excluyentes. Así,

Q A  B   P X 1  A  B  
 P X  A  X 1 B 
1
 P X 1
 A  PX 1 B 
 Q  A  Q  B 
que es (2.2). El axioma (2.3) puede ser análogamente verificado para completar la
prueba. ////
Se sigue que los resultados de las Secciones 2.3, 2.4, y 2.5 son aplicables a Q como también
a P, puesto que estos resultados son válidos en cualquier espacio de probabilidad. Por
ejemplo, si A  B, entonces Pr (X  B - A) = Pr (X  B)-Pr (X  A) y Pr (X  A  B) = Pr (X
 A) + Pr(XB) - Pr (XAB) para cualquier A y B en B.
Nos referimos a Q como la distribución de la variable aleatoria X. Así , la distribución de X
especifica la probabilidad de que X pertenezca a B para cualquier conjunto B para la cual la
última probabilidad está definida y así contiene toda la información que podamos siempre
querer conocer acerca de probabilidades asociadas con X. Por supuesto, Q es algo
complicada, pero veremos en las siguientes pocas secciones como Q puede ser determinada
implícitamente por funciones mucho más simples.
5.2 DISTRIBUCIONES DISCRETAS

Definimos una función masa (unidimensional) para ser una función real que está definida
sobre R = (-, ) y tiene las siguientes propiedades:
f x   0 for all x  R (2.1)
Más aún, hay un conjunto finito o infinito contable C, digamos C = x1 , x2 ,... , para el cual
1
f(x) = 0 para X C y
 f x   1 (2.2)
C
El termino densidad discreta también será usado para una función f que satisface (2.1) y
(2.2). Por supuesto, si (2.2) es satisfecha para alguna selección de C, entonces es también
satisfecha con C = x  R: f(x) > 0. Veremos que en muchos casos, la distribución de una
variable aleatoria puede ser determinada implícitamente por una función masa.
Diremos que una variable aleatoria X es discreta si y sólo si hay un conjunto finito o infinito
contable C = {x1,x2,...}  R para el cual
Pr X C   1
En particular, este será el caso si los únicos posibles valores de X son x1 , x2 , ... , y en la
mayoría de los casos las x i serán enteros no negativos.
Ahora, mostraremos que cualquier variable discreta X determina una función masa f que a su
vez determina la distribución de X.
Teorema 5.2.1 Sea X cualquier variable aleatoria discreta. Entonces la función f
definida por
f x   Pr  X  x  (2.3)
para x  R es una función masa. Más aún, si C es cualquier conjunto finito o infinito
contable para el cual Pr (X  C) = 1, entonces
Pr  X  B    f x  (2.4)
BC
para toda B para la cual el lado izquierdo de (2.4) esté definido.

PRUEBA Tenemos f(x)  0 para toda x  R porque las probabilidades son no
negativas. Sea C como en el enunciado del teorema. Entonces para A  C ,tenemos Pr
1
2 Un conjunto es infinito contable si hay una correspondencia uno a uno entre C y el conjunto Z = {1,2,…} de enteros
positivos. C f(x) denota la suma de los números f(x) para x  C.
140 DISTRIBUCIONES DISCRETAS
(X  A) ≤ Pr (X  C) = 1 - Pr (X  C) = 1 - 1= 0 por el Teorema 5.1.1. En particular, si

x  C, entonces f(x) = Pr (X = x) = Pr (x {x})  Pr (X  C) = 0.
Para completar la prueba, debemos mostrar que f satisface (2.2) y demostrar (2.4).
Primero demostraremos (2.4), sea B como en el enunciado del teorema. Entonces,
puesto que B = BC  BC y BC y BC son mutuamente excluyentes, tenemos Pr (X 
B) = Pr(X  BC) + Pr (X  BC). Además, puesto que BC  C, tenemos que Pr (X 
BC) = 0, así que Pr (X  B) = Pr (X  BC). Puesto que C es finito o infinito contable,
lo mismo debe ser válido para BC, y así podemos escribir BC = { x1 , x2 , ... } con
distintas y´s. Sea B j = { y j }. Entonces las B j son mutuamente excluyentes, y su unión
es BC, así que
Pr X  BC    Pr X  B j    f y j    f x 
j j BC
Esto demuestra (2.4). La ecuación (2.2) ahora se sigue fácilmente. Indiscutiblemente,

tomando B = C, tenemos
1  Pr  X  C    f x 
C
por (2.4). ////

Si X es una variable aleatoria discreta, nos referiremos a la función f de la Ecuación (2.3)
como la función masa de X. Por (2.4) la función masa de una variable aleatoria discreta X
unívocamente determina a la distribución de X. Hemos antes encontrado varias variables
aleatorias discretas, aunque no nos referimos a ellas como tales. Ahora parafraseamos
algunos de nuestros anteriores resultados en la terminología de variables aleatorias.
EJEMPLO 5.2.1
Imagine un dado balanceado de n lados con k puntos sobre el k-ésimo lado para k = 1,2,... n.
Si el dado es lanzado una vez podemos representar el número de puntos que aparecen como
una variable aleatoria X haciendo Ak el evento de que exactamente k puntos aparecen y
n
X   kI Ak
k 1
como en el Ejemplo 5.1.1c. X es discreta puesto que puede tomar sólo los valores 1 ,... n y
su función masa está dada por
f k   Pr  X  k   P Ak  
1
(2.5)
n
para k = 1,... n y f(x) = 0 para otros valores de x. ////

La función (2.5) es conocida como la función masa uniforme discreta. Observemos que (2.5)
define no únicamente una función masa sino una familia entera de funciones masa una por
cada entero n = 1,2,.... En concordancia referimos a la función f de (2.5) como la función
masa uniforme discreta con parámetro n y diremos que X tiene la distribución uniforme
discreta con parámetro n.
Encontraremos situaciones semejantes adelante. Eso es, encontraremos funciones masa f que
dependen no sólo de sus argumentos sino también de otras variables libres , o parámetros,
como les llamaremos. Los parámetros usualmente son descriptivos de las condiciones
experimentales y por lo tanto muy fácilmente interpretados. Por ejemplo, en el Ejemplo 5.2.1
el parámetro simplemente describe el número de lados del dado.
EJEMPLO 5.2.2
Considere una urna que contiene m bolas rojas y n - m bolas blancas, donde m y n - m son
enteros no negativos con n  1. Si una muestra aleatoria de tamaño k  n es extraída de la
urna sin reemplazo, entonces el número X de bolas rojas en la muestra es una variable
aleatoria como en Ejemplo 5.1.2b. X es discreta puesto que puede tomar únicamente los
valores 0,... k, y su función masa está dada por
 m  n  m 
  

f r   Pr  X = r     
r k r
(2.6)
n
 
k 
para r = 0,... k y f(x) = 0 para otros valores de x por el Teorema 1.4.1. La ecuación (2.6)
define la función masa hipergeométrica con parámetros m, n, y k (0  m  n y 1  k  n). ////
EJEMPLO 5.2.3
Considere una moneda que tiene una probabilidad p de ocurrir águila cuando es lanzada. Si n
lanzamientos independientes de la moneda son hechos, entonces el número de águilas X que
aparece es una variable aleatoria como en el Ejemplo 5.1.2a. X es discreta puesto que puede
tomar solamente los valores 0,... n, y su función masa está dada por
n
f k   Pr  X = k     p k q nq (2.7)
k 
para k = 0,... n y f(x) = 0 para otros valores de x. Nos referiremos a (2.7) como la función
masa binomial con parámetros n y p (n  1, 0  p  1). ////
142 DISTRIBUCIONES DISCRETAS
EJEMPLO 5.2.4
Si la moneda del Ejemplo 5.2.3 es lanzada repetidamente, la probabilidad de que la primera
águila aparezca en el k-ésimo lanzamiento es
f k   pqk 1 2.8 
para k = 1,2,... por el Teorema 4.2.1. Sea f(x) = 0 si x no es un entero positivo. Entonces f es
una función masa, la cual referiremos como la función masa geométrica con parámetro p (0
< p < 1 ).
Recordemos de la Sección 4.2 que la función masa geométrica tiene la propiedad de carencia
de memoria. Con nuestra nueva terminología, la Ecuación (2.4) del Capítulo 4 puede ser
establecida como sigue: si X tiene la distribución geométrica (función masa), entonces para
todos los enteros positivos k y j, la probabilidad condicional de que X > k + j dado que X > j
es
PrX  k  j X  j   Pr X  k 
la misma que la probabilidad de que X > k. De hecho, esta propiedad es característica de la

función masa geométrica (ver Problema 5.12). ////
EJEMPLO 5.2.5
Si la moneda del Ejemplo 5.2.3 es lanzada repetidamente, la probabilidad de que la r-ésima
águila aparezca en el k-ésimo lanzamiento es
 k  1 r k r
f k     p q (2.9)
 r  1 
para k = r, r + 1,.… La Ecuación (2.9) define la función masa binomial negativa con
parámetros r y p (r  1 y 0 < p < 1). La geométrica es un caso especial con r = 1. Que (2.9)
define una función masa, eso es, que la condición (2.2) es satisfecha, fue mostrado en la
Sección 4.2. ////
EJEMPLO 5.2.6
Una variable aleatoria X se dice que tiene la distribución Poisson con parámetro  > 0 si y
sólo si X tiene función masa
k
f k   Pr  X  k   e  (2.10)
k!
para k = 0,1,... y f(x) = 0 para otros valores de x . Que f es una función masa fue mostrado
en la Sección 4.3.
También fue mostrado en la Sección 4.3 que (2.10) provee una aproximación a la función
masa binomial cuando n es grande, p es pequeña y  = np es moderada. Otra aplicación de la
distribución Poisson es la siguiente. Si una sustancia radioactiva es observada por t unidades
de tiempo, donde t es pequeña comparada con la vida media de la sustancia, y si el número X
de emisiones radioactivas es registrado, entonces X puede ser considerada como una variable
aleatoria que tiene la distribución Poisson con parámetrot, donde  > 0 es característica de
la sustancia radioactiva.  es denominada la intensidad de la radiación. Indicamos una
derivación de este resultado en el Ejemplo 4.3.3, y daremos otra derivación de esta
aseveración en la Sección 7.6. Por el momento, lo aceptamos como un hecho empírico. ////
5.3 DISTRIBUCIONES ABSOLUTAMENTE CONTINUAS

Definimos una función de densidad (unidimensional) para ser una función real f que está
definida sobre R = (-, ) y satisface
f x   0 para    x   (3.1)
 f x dx  1

(3.2)
además, diremos que una variable aleatoria X es absolutamente continua si y sólo si hay una
función de densidad f para la cual
Pra  X  b  a f x dx
b
(3.3)
siempre que a < b. En este caso llamaremos a f una densidad para X y diremos que X tiene
densidad f. Puesto que una función puede ser cambiada en cualquier número finito de puntos
sin afectar su integral, una variable aleatoria puede tener más de una función de densidad.
Una propiedad interesante de variables aleatorias absolutamente continuas es la siguiente. Si
X es cualquier variable aleatoria absolutamente continua y a  R es cualquier número real,
entonces
Pr  X  a   0 (3.4)
Para ver esto observe que para cualquier  > 0 tenemos

144 DISTRIBUCIONES ABSOLUTAMENTE CONTINUAS
Pr X  a   Pra    X  a   a f x dx  I  , digamos

a
Ahora, la integrabilidad de f implica que lim I() = 0 cuando   0 , así que I() puede ser
1
hecha arbitrariamente pequeña tomando  > 0 suficientemente pequeña. Puesto que Pr (X =

a)  I() para toda  > 0, se sigue que Pr (X = a) = 0.
Se sigue de la Ecuación (3.4) que si X es absolutamente continua, entonces en la Ecuación
(3.3) podemos reemplazar a < X  b por cualquiera de a  X  b, a  X < b, ó a < X < b,
puesto que los puntos finales a y b contribuyen en nada, ni en la probabilidad ni en la
integral. Por ejemplo,
Pr a  X  b   Pr  X  a   Pr a  X  b 
 Pr a  X  b   a f x dx
b
La Ecuación (3.4) puede parecer algo no intuitiva, pero en realidad no lo es. En particular,
no asegura que los eventos X = a para a  R sean imposibles. Desde el punto de vista
frecuentista, simplemente significa que si el experimento al cual se refiere X es repetido n
veces, la frecuencia relativa con la que X = a tenderá a cero cuando n   . Desde el punto
de vista subjetivo, significa que para cualquier a  R fijo, el evento de que X = a es
considerado como extremadamente menos probable que el evento X  R - {a}. Para
clarificar el último punto, imagine el siguiente juego. Se te solicita adivinar el peso de un
amigo exactamenteno sólo a la libra más cercana, o a la décima de una libra, o
millonésima de una libra, sino exactamente. Si tienes éxito, ganas c dólares, si fallas,
entonces pierdes 1 dólar. Suponer también que es posible medir el peso de tu amigo,
digamos X, a un grado arbitrario de precisión. ¿Hay algún valor de c para el cual
considerarías el juego como apropiado? Si no, entonces tu probabilidad subjetiva de que X =
a es cero para cualquier a.
En vista de la Ecuación (3.4), las funciones de densidad son más difíciles de interpretar que
las funciones masa (que dan probabilidades de eventos particulares). Sin embargo, si una
densidad f es continua en un punto a  R, entonces f(a) puede ser interpretada como un
cociente aproximado de la probabilidad a la longitud. Para ver esto, sea X absolutamente
continua con densidad f, sea a  R, y suponer que f es continua en a. Entonces
1
3 Si f es acotada, digamos f(x)  b para toda x, entonces I()  b, que tiende a cero cuando   0. Para f posiblemente
no acotada, ver Problema 5.34.
Pr a  h  X  a  h  
1 1 ah
2h
 f ( x )dx
2h a  h
que converge a f(a) cuando h  0 por el teorema fundamental del cálculo. Eso es, Pr (a - h <
X  a + h) es aproximadamente 2hf(a) para h pequeña.
Ahora consideramos varios ejemplos.
EJEMPLO 5.3.1
En el Ejemplo 5.1.3 encontramos que si un punto X es seleccionado al azar del intervalo S =
[0,1), entonces Pr (X  I) = longitud de IS para cualquier intervalo I  R. Esto puede ser
escrito en la forma (3.3) con
1 0 x 1
f x    (3.5)
0 de otro modo
Nos referiremos a (3.5) como la densidad uniforme sobre el intervalo [0,1). Más
generalmente, si J es cualquier intervalo de longitud finita y positiva, nos referiremos a la
función g definida por
1
 xJ
g x    J (3.6)
0
 de otro modo
donde J denota la longitud de J, como la densidad uniforme sobre J, y diremos que una
variable aleatoria Y que tiene densidad g está uniformemente distribuida sobre J. ////
EJEMPLO 5.3.2
En el Ejemplo 5.1.4 mostramos que si X denota la tangente de un ángulo que esta
uniformemente distribuido sobre el intervalo [0,2, entonces
Pr a  X  b  
1
(arctan b - arctan a)

para a < b. Esto puede ser escrito en la forma (3.3) con
f x  
1
  x 

 1  x2  (3.7)
146 DISTRIBUCIONES ABSOLUTAMENTE CONTINUAS
la derivada de  -1 arctan x. Así, X es absolutamente continua con densidad dada por (3.7).
Nos referiremos a (3.7) como la densidad Cauchy. ////
EJEMPLO 5.3.3
Una variable aleatoria X se dice que tiene la distribución normal estándar si y sólo si X tiene
densidad
 12 x 2
f x  
e
  x  (3.8)
2
y nos referiremos a (3.8) como la densidad normal estándar. La prueba de que (3.8) define
una densidad, eso es que la condición (3.2) es satisfecha, fue dada en la Sección 4.4 junto
con una gráfica de la función. También mostramos en la Sección 4.6 que si Y tiene la
distribución binomial con parámetros n y p, 0 < p < 1, entonces cuando n  ,
 Y  np 
 b  a f  x dx
b
lim Pr  a 
 npq 
donde f está definido por (3.8). Así podemos ver a la distribución normal estándar como una
distribución aproximada para (Y - np)/ npq . De hecho, la distribución normal estándar
tiene una aplicabilidad mucho más amplia, como veremos en la Sección 9.4. ////
EJEMPLO 5.3.4
Para cualquier  > 0, la función f definida por
 e   x x0
f  x   (3.9)
0 x0
es una densidad, porque
f  x dx  0 e x dx  e x
 
 1

 0
Nos referiremos a (3.9) como la densidad exponencial con parámetro .

La densidad exponencial comparte con la función masa geométrica la propiedad de carencia
de memoria, como mostramos en el Problema 5.28 y Sección 7.6. Una derivación de la
densidad exponencial será dada en el Ejemplo 5.5.4. ////
Concluimos esta sección con un análogo del Teorema 5.2.1.
Teorema 5.3.1 Si X es absolutamente continua con densidad f, entonces
Pr  X  B  B f  x dx (3.10)
para cualquier subconjunto B  R para el cual ambos lados de (3.10) estén definidos.
Más aún, si X es absolutamente continua con densidad f, entonces f unívocamente
determina la distribución de X.
PRUEBA Las Ecuaciones (3.3) y (3.4) aseguran que (3.10) se cumple siempre
que B sea un intervalo. Por lo tanto, si
n
B   Ik
k 1
es la unión de un número finito de intervalos disjuntos, entonces (3.10) se cumple

puesto que
n
Pr  X  B   Pr  X  I k 
k 1
n
  I f  x  dx  B f  x  dx
k 1 k
Así, debemos esperar que (3.10) se cumpla para todo B que pueda ser aproximado por
una unión finita de intervalos disjuntos. Esto es, de hecho, verdadero, y la última clase
de subconjuntos de B contiene todos los conjuntos para los cuales ambos lados de
(3.10) están definidos. Los detalles de esta aproximación son un poco complicados, sin
embargo, y los omitimos. ////
5.4 LAS DISTRIBUCIONES GAMA Y BETA

En esta sección introduciremos dos nuevas familias de densidades. Puesto que ambas
involucran a la función gama en sus definiciones, empezamos con una discusión de esa
función, la función gama está definida sobre el intervalo 0, por
   0 x  1e  x dx

 > 0 (4.1)
Esta función tiene varias propiedades interesantes, la más sorprendentes de las cuales serán
ahora dadas.
Lema 5.4.1 Para   1 , () = ( - 1) ( - 1).
PRUEBA Sea u(x) = x-1 y v(x) = e-x para x > 0. Entonces puesto que  > 1,
u(x)v(x)  0 cuando x  0 ó x  , y así podemos integrar por partes para obtener
148 LAS DISTRIBUCIONES GAMA Y BETA
    0 u x v'  x  dx  uv 0  0 u'  x v x dx

  
   10 x  2 e  x dx    1   1

como se aseguró. ////

Tenemos también (1) = 1 por cálculo directo. De hecho
1  0 e  x dx   e  x 0 = 1
 
Ahora se sigue que si n es un entero positivo, entonces (n) = (n - 1 )(n - 1) = (n - 1)(n -

2)(n - 2) =  = (n - 1)(n - 2 ) … 2 x 1(1). Eso es,
 n   n 1! (4.2)
 12  también puede ser evaluada.
Lema 5.4.2  12   
PRUEBA Para ver esto haga el cambio de variable x  12 2 y 2 en la integral que

define a   12  para obtener
 12   2 0 e
  12 y 2
dy
1  
 e dy  
y2

1
2
2 
donde el paso final se sigue del hecho de que la densidad normal estándar es una
densidad (Lema 4.4.1). Cuando se combinan, los Lemas 5.4.1 y 5.4.2 proveen una
expresión para () cuando  es la mitad de un entero. ////
EJEMPLO 5.4.1
Para cualquier  > 0 y  > 0, la función f definida por f(x)=0 para x  0 y
  x  1  x
f  x  e (4.3)
(  )
para x > 0 es una densidad. Indiscutiblemente, el cambio de variable y  x produce
y  1e  y ( )
f  x dx  0
 
0
( )
y
( )
1
Nos referiremos a (4.3) como la densidad gama con parámetros  y .

Observe que cuando  = 1, la densidad gama es la densidad exponencial. Una derivación de
las densidades gama y exponencial será dada en el Ejemplo 5.5.4. ////
EJEMPLO 5.4.2
Cuando   12 y  = k/2, donde k es un entero positivo, la densidad gama es conocida como
la densidad ji-cuadrada. En este caso el parámetro libre k es llamado los grados de libertad.
La terminología se origina con una aplicación para la estadística que consideraremos en la
Sección 7.5. ////
La densidad gama puede asumir una variedad de formas para valores diferentes del
parámetro . Algunas de estas son ilustradas en la Figura 6.
EJEMPLO 5.4.3
Para cualquier  > 0 y  > 0, la función f definida por
      1
f  x  x 1  x 
 1
0  x 1 (4.4)
     
y f(x) = 0 para x  (0,1) es conocida como la densidad beta con parámetros  y . Puesto
que esta densidad será derivada dos veces en el Capítulo 7, diferimos la prueba de que (4.4)
define una densidad. ////
Figura 6. Algunas densidades gama.
Como la densidad gama, la densidad beta puede tomar una amplia variedad de formas.
Algunas de estas son ilustradas en la Figura 7. Observe que la densidad uniforme sobre (0,1)
es un caso especial cuando  =  = 1.
Concluimos esta sección con un ejemplo de un cálculo con la densidad gama.
Figura 7. Algunas densidades beta.
EJEMPLO 5.4.4
Si la longitud de vida en años de residentes masculinos en un estado dado sigue la
distribución gama con parámetros  = 2 y  = 0.02, ¿Qué proporción de residentes
masculinos vivirá por más de 50 años? Requerimos Pr (X > 50), donde X tiene la distribución
gama con parámetros  = 2 y  = 0.02, eso es,

Pr  X > 50  50  2 ye y dy
La integral puede ser evaluada haciendo el cambio de variable y = x e integrando por

partes. El resultado es
Pr  X  50  1 ye  y dy  2e 1  0.7358

////
5.4.1 Una Prueba de la Fórmula de Stirling1

En esta sección daremos una prueba de la fórmula de Stirling (Teorema 1.8.1), la cual
establece que
n  12
n!  2 n e n (4.5)
cuando n  . Nuestro punto de inicio es la ecuación (4.2), la que establece que n! = (n+1)
o equivalentemente que

n!  0 x n e  x dx (4.6)
Hagamos el cambio de variable x = ny en (4.6) para obtener

n !  n n1 0 y n e  ny dy

 n n1e  n 0 y n e  n ( y 1) dy

 n n1e  n 0 e n ( y ) dy
donde (y) = log y - (y - 1) para y > 0. La fórmula de Stirling (4.5) es así equivalente a la
aseveración de que

I n  n 0 e n ( y ) dy  2 (4.7)
cuando n  .
1
Para establecer (4.7) estudiemos la función . Las primeras dos derivadas de  son
1 1
 ' y  1 and  ''  y   
y y2
para y > 0. Así,  alcanza su valor máximo de  (1) = 0 cuando y = 1, (y) < 1 para y  1, y
(y)   cuando y  . Ahora expandamos  en una serie de Taylor alrededor de y = 1
para obtener
1
  y    ''  y * y  1
2
(4.8)
2
para y > 0, donde y*-1  y-1.
Sea  > 0 dado. Entonces, puesto que  '' es continua y  ''(1) = -1, hay una  > 0 para la
cual -(1 + )   ''(y)  -(1 - ) para y - 1 . En particular, debemos también tener
 1      ''  y *  1    (4.9)
en (4.8) para y - 1  .
Dividamos el intervalo de integración en (4.7) en tres subintervalos como sigue:
In   1 1
n 0  n 1  n 1 e

 n  y 
dy
 I n'  I n''  I n''' , digamos

Entonces tenemos
1
I n'  n 0 e n ( y ) dy  n e n (1 )
que tiende a cero cuando n   puesto que  (1 - ) <  (1) = 0. Análogamente, podemos
mostrar que I n'''  0 cuando n   (Problema 5.39).
Para estimar I n'' usamos (4.8) y (4.9) para deducir que
1  12 n  1  y 1
2
I n''  n 1 e dy
El cambio de variable z  n1     y  1 entonces muestra que

1  n1   12 z 2
In'' 
1 
 n1 
e dz
que converge a
154 FUNCIONES DE DISTRIBUCIÓN
1   1 z2 2
 e 2 dz  1  
1 
cuando n  . Aquí usamos el Lema 4.4.1 para evaluar la integral. Puesto que I n'  I n'''  0
cuando n  , debemos tener
2
In   (4.10)
1 
para n suficientemente grande; y análogamente
2
In   (4.11)
1 
para n suficientemente grande. Puesto que  > 0 fue arbitrario, (4.10) y (4.11) se pueden
combinar para probar (4.7). ////
5.5 FUNCIONES DE DISTRIBUCIÓN

Si X es una variable aleatoria, definimos la función de distribución F de X por
F a   Pr  X  a  (5.1)
para - < a < . Así, si X es discreta con función masa f, entonces por el Teorema 5.2.1
F a   f  x  (5.2)
x a
donde la suma se extiende sobre todos los x  a para los cuales f(x) > 0; y si x es
absolutamente continua con densidad f entonces
F a    f  x dx
a
(5.3)
por el Teorema 5.3.1. Enfatizamos, sin embargo, que todas las variables aleatorias tienen
funciones de distribuciónaun aquellas que no son ni discretas ni absolutamente continuas.
Las relaciones (5.2) y (5.3) pueden ser invertidas. Así, si X es absolutamente continua con
densidad f y función de distribución F, podemos diferenciar (5.3) por el teorema
fundamental del cálculo para obtener
f a  F ' a (5.3a )
para todo a en la cual f es continua. En particular (5.39) se cumple para todo a si F es

continuamente diferenciable. Una fórmula semejante se cumple si X es discreta con función
masa f y función de distribución F. Mostraremos más tarde en el Teorema 5.6.1 que
f  a   F  a   F  a  (5.2a )
donde F(a-) denota el límite de F(x) cuando x  a con x < a (ver Fig. 8).
Llamaremos a las funciones de distribución de la forma (5.2) discretas, y nos referiremos a
f como la función masa de F. Similarmente, llamaremos a las funciones de distribución de
la forma (5.3) absolutamente continuas, y nos referiremos a f como una densidad para F.
Además, si F y f están relacionadas por (5.2) ó (5.3), llamaremos a F por el mismo nombre
(por ejemplo, binomial o normal) como a f.
EJEMPLO 5.5.1
a Si un dado balanceado de n lados es lanzado una vez, y si X denota el número de
puntos que aparece, la probabilidad de que X  a es 0 para a < 1, es k/n si k  a < k + 1,
donde k = 1,..,n - 1, y es 1 si a  n. Eso es,
0 para a  1

 a 
F a =  para 1  a  n
n
1 para a  n
donde a denota el mayor entero menor o igual que a.

b Si X tiene la distribución geométrica (Ejemplo 5.2.4) entonces X tiene función
masa f , donde f(k) = pqk-1 para k= 1,2,... y f(x) = 0 para otros valores de x. Denote F la
función de distribución correspondiente. Entonces F(a) = 0 para a < 1, y
 a
F  a =  pq k 1
k 1
para a  1 (donde a denota el mayor entero menor o igual que a). La sumatoria puede
ser evaluada para producir
0 a 1
F a =   a
1  q a 1
c Si X tiene la distribución binomial con parámetros n y p, entonces X tiene la función de

distribución F dada por
 a  n
F a      p k q n k
k 0  k 
para 0  a < n, F(a) = 0 para a < 0, y F(a) = 1 para a  n (ver Figura 8). ////
Figura 8. La función de distribución binomial con n = 6 y p = 0.5
EJEMPLO 5.5.2
a Si X tiene la distribución uniforme sobre el intervalo J = (c, d) con c < d, entonces X
tiene función de distribución F, donde
0 ac
 a  c
F a =  cad
d  c
1 ad
Esto se sigue de una integración directa de la densidad uniforme del Ejemplo 5.3.1.
b Si X tiene la distribución exponencial con parámetro  > 0 (Ejemplo 5.3.4),
entonces X tiene densidad f(x) = 0 para x  0 y f(x) = e  x para x > 0. Integración ahora
produce F(a) = 0 para a  0 y
F a  =
a
 0
 e x dx  1  e a
para a > 0.
c Si X tiene la distribución Cauchy (Ejemplo 5.3.2), entonces X tiene densidad f(x) =
1/(1 + x2) para - < x <  por el Ejemplo 5.3.2. Así, X tiene función de distribución
1
F a   arctan a  12

para - < a <  por integración.
d Si X tiene la distribución normal estándar, entonces X tiene función de
distribución
 12 x 2
e
a   
a
dx
2
para - < a < . ////
Las relaciones (5.2a) y (5.3a) pueden ser usadas para calcular la función masa o de densidad
de una variable aleatoria en algunos casos. Lo ilustraremos encontrando la distribución de
una función lineal de una variable aleatoria. Si X es una variable aleatoria, y si  y  son
números reales, podemos definir una nueva variable aleatoria Y haciendo Y = X + . Eso es,
hacemos Y(s) = X(s) +  para toda s  S, el espacio muestral sobre el cual X está definida.
Podemos pensar de Y como X medida en nuevas unidades. La distribución de X y Y están
relacionadas de una manera simple, como mostraremos ahora.
Lema 5.5.1 Sea X una variable aleatoria con función de distribución F, y sea
Y=X+, donde  > 0. Entonces la función de distribución de Y está dada por
 a  
G( a )  F   (5.4a )
  
para - < a < . Si X es absolutamente continua con una densidad continua f,
entonces Y tiene densidad g, donde
1  a  
g a   f  (5.4b)
   
para - < a < .

PRUEBA El conjunto de s  S para las cuales Y (s)  a es el mismo que el
conjunto de s  S para las cuales X(s)  (a - )/. Así ,
G( a )  Pr (Y  a )
 a    a  
 Pr  X    F 
     
para - < a < . Esto establece (5.4a). Si, en adición, X es absolutamente continua con
densidad f, entonces (5.4b) se sigue por diferenciación. ////
Cuando se trabaje con distribuciones G de la forma (5.4), nos referiremos a  y  como los
parámetros de localidad y escala, respectivamente.
EJEMPLO 5.5.3
a Si X tiene la distribución normal estándar, entonces X tiene función de
distribución , como en el Ejemplo 5.5.2d. Así, Y = X +  tiene funciones de
distribución y de densidad dadas por
 a  
G ( a )   
  
1  1  x  2
g( a )  exp    
 2  2   
para - < a < . Nos referiremos a G y g como la función de distribución y densidad

normal con parámetro de escala  y parámetro de localidad ..
b Si X tiene la distribución Cauchy (Ejemplo 5.3.2 y 5.5.2c), entonces Y = X + 
tiene función de distribución y densidad
1 a
G( a )  arctan  12
 

g( a ) 

   a   
2 2

para - < a < . Nos referiremos a G y g como la función de distribución y densidad
Cauchy con parámetro de localidad  y parámetro de escala .
c Denote por g a la densidad gama con parámetros  y . Eso es, g(x) = 0 para x  0 y
1
g x     x  1e x
 
para x > 0. Además, sea f igual a g con  = 1. Entonces g(x) = f(x) para toda x, así
que  1 es un parámetro de escala. ////
Como otra aplicación de (5.3a), ahora daremos una derivación de las distribuciones gama y
exponencial.
EJEMPLO 5.5.4
Imagine una sustancia radioactiva que emite partículas radioactivas. Si la sustancia es
observada continuamente, ¿cuál es la distribución del tiempo de la primera emisión? Más
generalmente, ¿cuál es la distribución del tiempo de la k-ésima emisión, donde k es un entero
positivo? Denote por X el tiempo de la k-ésima emisión, sea t > 0, y denote Y el número de
emisiones hasta el tiempo t. Entonces podemos suponer que Y tiene la distribución Poisson
con parámetro t, donde  > 0 es la intensidad de la radiación (Ejemplo 5.2.6). Eso es,
suponemos que Pr (Y  j )  (  t ) j e  t / j ! para j = 0,1,2,.... Ahora X es menor o igual a t si y
sólo si ha habido al menos k emisiones hasta el tiempo t. Eso es, la Pr (X  t) = Pr (Y  k) = 1
- Pr (Y  k - 1). Denote F la función de distribución de X. Entonces, tenemos
k 1
1
F t   1   (  t ) j e  t (5.5)
j 0 j!
para t > 0. Por supuesto, F(t) = 0 para t  0 puesto que X es una variable no negativa.
Podemos ahora obtener la densidad de X por diferenciación. Si k = 1, entonces
F ( t )  1  e   t para t > 0, así que
f t   e  t
para t > 0. Eso es, la distribución del tiempo de la primera emisión es exponencial con
parámetro , como se dijo en el Ejemplo 5.3.4.
Para k > 1, la derivada f = F´ también puede ser calculada como
k 1 k 1
1 1
f t     j j t j 1e  t    j 1t j e  t
j 0 j! j  0 j!
El término j - 1 en la segunda suma se cancela con el j-ésimo término en la primera, dejando

160 CÁLCULOS CON FUNCIONES DE DISTRIBUCIÓN
1
f t    k t k 1e  t (5.6)
 k  1!
para t > 0. Así, el tiempo de la k-ésima emisión tiene una distribución gama con parámetros
 = k y .
Como un corolario a nuestros cálculos, vemos que la función de distribución de la densidad
gama (5.6) está dada por (5.5). ////
5.6 CÁLCULOS CON FUNCIONES DE DISTRIBUCIÓN

La función de distribución F de una variable aleatoria X unívocamente determina la
distribución de X. Eso es, si X y Y tienen la misma función de distribución, entonces
Pr  X  B  Pr Y  B
para todo B  R donde ambos símbolos estén definidos. No probaremos este hecho aquí,
1
puesto que la prueba requiere algunas técnicas avanzadas. Sin embargo, probamos que Pr(X
 I) puede ser calculada de la función de distribución F de X para cualquier intervalo I.
Si F es una función real sobre R, diremos que F es no decreciente si y sólo si F(a)  F(b)
siempre que a < b. Si F es no decreciente, entonces el límite de F(x) cuando xa con x < a
existe,2 y denotaremos este límite por F(a-). Asimismo si F es no decreciente, entonces el
límite de F(x) cuando xa con x > a existe, y denotaremos este límite por F(a+). Así, si F es
no decreciente, F es continua en a  R si y sólo si F(a-) = F(a) = F(a+). Si F es no
decreciente, diremos que F es continua por la derecha si y sólo si F(a) = F(a+) para todo a y
por la izquierda si y sólo si F(a) = F(a-) para toda a.
Si F es la función de distribución de una variable aleatoria X, entonces F es no decreciente.
Sin lugar a duda, si a < b, el evento de que X  a implica que X  b, así que F(a) = Pr (X  a)
 Pr (X  b) = F(b) por el Teorema 2.3.1. Así, los límites por un solo lado F(a-) y F(a+)
existen para toda a. En la Sección 5.8 mostraremos que
F a   F a   Pr  X  a  (6.1a )
F a   Pr  X  a  (6.1b)
para toda a, - < a < . En particular, F es continua en a si y sólo si F(a) = F(a-).

Teorema 5.6.1 Sea X una variable aleatoria, y sea F su función de distribución.
1
5 Lectores familiarizados con teoría de la medida pueden consultar Neveu (1965), p. 28.
2
6 Ver, por ejemplo, Rudin (1964), p. 82.
Entonces para a < b

Pr  a  X  b  F  b  F  a  (6.2a )
Pr  a  X  b = F  b  F  a   (6.2b)
Pr  a  X  b  F  b    F  a  (6.2c )
Pr  a  X  b  F  b    F  a  (6.2d )
y para toda a
Pr  X  a   F  a   F  a   (6.3)
Pr  X  a   1  F  a  (6.4a )
Pr  X  a   1  F  a   (6.4b)
PRUEBA Puesto que las pruebas de las cuatro ecuaciones en (6.2) son todas
similares, probaremos solamente la primera. Dado que a < b, sea A el evento de que X
 a, y sea B el evento de que X  b. Entonces A implica B, y B - A es simplemente el
evento que a < X  b. Por lo tanto, Pr (a < X  b) = P(B - A) = P(B) - P(A)= Pr (X  b) -
Pr (X  a) = F(b) - F(a), como se estableció. (Aquí hemos usado el Teorema 2.3.1 para
obtener la segunda igualdad.) La prueba de (6.3) es similar. Sea B el evento que X  a,
y sea A el evento que X < a. Entonces, Pr (X = a) = P(B - A) = P(B) - P(A) = F(a) - F(a-
), donde hemos usado (6.1).en el paso final. Finalmente, (6.4a) y (6.4b) se siguen de
(6.1) tomando complementos. Para establecer (6.4a), por ejemplo, observe que el
evento X > a es el complemento del evento X  a, así que Pr (X > a)=1 - Pr (X  a) = 1
- F(a). ////
La Ecuación (6.3) es de especial interés. Puesto que las funciones de distribución son
siempre continuas por la derecha por (6.1), puede ser replanteada como sigue. Si la función
de distribución F de la variable aleatoria X tiene una discontinuidad de magnitud  = F(a) -
F(a-) en el punto a, entonces Pr (X = a) = . Recíprocamente, si F es continua en el punto a,
entonces Pr (X = a) = 0. En particular, si F es una función continua, entonces Pr (X = a) = 0
para toda a  R. Así, si F es continua, las cuatro probabilidades en (6.2) son todas la misma,
y Pr (a < X < b) = Pr (a < X  b) = Pr (a  X < b) = Pr (a  X  b) = F(b) - F(a).
EJEMPLO 5.6.1
a Si X tiene la distribución normal estándar, entonces Pr (a < X < b) = Pr (a  X  b)
= (b) - (a) para a < b, puesto que  es continua. En particular, tenemos Pr (-1  X 
1) = (1) - (-1) = 0.683 y Pr (-2  X  2)=0.954 del Apéndice Tabla C.3.
b Más generalmente, si X tiene la distribución normal con parámetro de localidad 
162 MEDIANAS Y MODAS
y parámetro de escala  > 0, entonces
 b    a  
Pr a  X  b       para a  b
     
En particular, Pr ( -   X   + ) = (1) - (-1) = 0.683 y Pr (-2  X   + 2) =

0.954. ////
EJEMPLO 5.6.2
Si X tiene la distribución gama con parámetros  = k, un entero positivo y  > 0, entonces.
 
k 1
1
Pr a  X  b   a ea  b eb
i i
i0 i !
para a < b por el Ejemplo 5.5.4. Para valores de a y b, esto puede ser calculado de la tabla de
probabilidades Poisson en el Apéndice C. ////
EJEMPLO 5.6.3
a Si X tiene la distribución binomial con parámetros n = 8 y p = 0.5, entonces Pr (3
 X  5) = F(5) - F(3-) = 0.7109. Observe que F(5) - F(3) = 0.4922.
b Si X tiene la función de distribución
0 a 1

a
F (a )   1 a  2
2

1 a2
entonces Pr (X = 1) = F(1) - F(1-) = 0.5. Sin embargo, Pr (X = a) = 0 para a  1, puesto que

F es continua en toda a excepto a = 1. Esta variable ni es discreta ni es absolutamente
continua. ////
5.7 MEDIANAS Y MODAS1

Si X es cualquier variable aleatoria, entonces cualquier número m para el cual
Pr  X  m  12  Pr  X  m (7.1)
1
será denominado una mediana de X. Si F denota la función de distribución de X, entonces

(7.1) es equivalente a
F  m   12  F  m (7.2)
puesto que Pr (X  m) = 1 - F(m-) por (6.4). Cualquier número m que satisface (7.2) será
llamado una mediana de F. Si F es continua, entonces F(m-) = F(m), y así debemos tener
igualdad en (7.2) y (7.1). Eso es, si F es continua, entonces X es tan probable de estar arriba
como abajo de su mediana. En este sentido, una mediana puede ser pensada como un centro
de la distribución de X.
Una variable aleatoria puede tener más de una mediana. De hecho, una variable
aleatoria puede tener un intervalo entero de medianas. También, las desigualdades en (7.1) y
(7.2) pueden ser estrictas si F no es continua. Ejemplos serán dados abajo.
EJEMPLO 5.7.1
Si X tiene una densidad f que es simétrica en el sentido que f(x) = f(-x) para toda x, entonces
0 es una mediana para X. De hecho
F 0   f  x dx  0 f  x dx  1  F 0

0 
así que F(0) = ½. En particular, 0 es una mediana las distribuciones normal estándar y
Cauchy estándar. ////
EJEMPLO 5.7.2
Suponer que la longitud de tiempo X requerida para que una partícula radioactiva individual
decaiga tiene una distribución exponencial con parámetro  > 0. Entonces la mediana puede
ser encontrada resolviendo la ecuación
1
2  Pr  X  m  em
cuando m = (log 2)/. Si una sustancia radioactiva contiene N de tales partículas, donde N es
grande, y si las partículas decaen independientemente, entonces esperamos
aproximadamente la mitad de las N partículas haber decaído para el tiempo m. En
correspondencia, llamamos a m la vida-media de la sustancia. ////
EJEMPLO 5.7.3
a Si X tiene la distribución geométrica con parámetro p = 0.5, entonces
Pr  X  1  12  Pr  X  a 
164 MEDIANAS Y MODAS
para 1  a < 2. Así cualquier número m con 1 < m  2 es una mediana para X.
b Si X tiene la distribución geométrica con parámetro p = 0.4, entonces
Pr  X = 1  0.4 y Pr  X  2  0.24
Así F(2-) = 0 4 < 0.64 = F(2). Eso es, 2 es una mediana única, y hay desigualdad
estricta en (7.1) y (7.2). ////
Si X es una variable aleatoria discreta con función masa f o una variable aleatoria
absolutamente continua con densidad f, entonces cualquier número m en el cual f alcanza su
máximo es denominado una moda de X o una moda de f. En el caso discreto donde f(m) = Pr
(X = m), una moda es un valor más probable de X o uno de varios valores más probables.
Una densidad o función masa puede tener más de una moda.
EJEMPLO 5.7.4
a La única moda de la densidad normal estándar
1 
f  x 
1 2
x
e 2
2
es x = 0.
b La única moda de la distribución Cauchy estándar es también x = 0. ////
EJEMPLO 5.7.5
a Encontremos la moda de la densidad gama
1
f  x    x  1e x
 
para x > 0. Diferenciación muestra que
f '  x 
1
 

    1 x 2  x 1 e x 
Si   1, entonces f '(x) < 0 para toda x > 0, y así la moda m = 0. De hecho, si  < 1,
entonces f(x)   cuando x  0. Si  > 1, entonces f '(x) se hace cero cuando x = m =
(-1)-1.
b Similarmente, la moda de la densidad beta f con parámetros   1 y   1 y  + 
> 2 es
 1
m
  2
Si  < 1, entonces f(x)   cuando x  0, y si  < 1, entonces f(x)   cuando x 

1.
////
EJEMPLO 5.7.6
Tabla 9 da el ingreso x en miles de dólares de 1000 familias hipotéticas, donde y es el
número de familias. Si una familia es seleccionada al azar y su ingreso X registrado, ¿cuál es
la moda de X? ¿Cuál es la mediana de X?
El ingreso más probable es $9000, que es la moda. Al menos la mitad de las familias tienen
$11,000 o menos, y al menos la mitad de las familias tienen $11,000 o más, así que la
mediana es $11,000.
Tabla 9
x 8 9 10 11 12 15 20 25 50 100
y 126 186 175 152 121 113 74 42 9 2
5.8 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN1

En esta sección mostraremos que las funciones de distribución tienen ciertas propiedades
características. Como un corolario, veremos cómo construir un espacio de probabilidad sobre
el cual es definida una variable aleatoria que tiene una función masa, densidad, o función de
distribución preasignada, arbitraria. Usaremos el hecho de que si A1, A2,… es una sucesión
decreciente de eventos(eso es, si A1  A2  …), entonces
 
P  An   lim P An  (8.1a )
 n1  n
y si A1, A2,… es una sucesión creciente de eventos (eso es, si A1  A2  …), entonces
 
P  An   lim P An  (8.1b)
 n1  n
Ver Teorema 2.5.1.
Teorema 5.8.1 Sea X cualquier variable aleatoria, y denote F su función de
distribución. Entonces
1
166 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN
(i) F es no decreciente;
(ii) F es continua por la derecha; y
(iii) F satisface
lim F  a   0 cuando a   (8.2a )
lim F  a   1 cuando a   (8.2b)
PRUEBA Que F es no decreciente ha sido antes probado. Se sigue que los limites
por un solo lado F(a+) y F(a-) existen para cualquier - < a <, y la aseveración de
que F es continua por la derecha es equivalente a la aseveración de que F(a)= F(a+)
para cualquier a. Para ver esto, sea An el evento X  a + 1/n para n = 1,2,.… Entonces,
A1  A2  …, y la intersección de los An es simplemente el evento X  a. Por lo tanto,
 1
F a    lim F  a  
n  n
 lim P An 
n
 
 P  An 
 n1 
 Pr  X  a   F a 
como se dijo, donde hemos usado (8.1) para obtener la crucial igualdad de en medio.
Nos falta aún probar (8.2). Para establecer (8.2a), por ejemplo, observe primero que
cuando a  -, lim F(a) existe puesto que F es no decreciente. Para cualquier n =
1,2,... sea An el evento X  -n. Entonces, la sucesión A1, A2,… es decreciente y su
intersección es el conjunto vacío . Por lo tanto,
 
lim F   n  lim P An   P  An   P  0
n  n1 
como se estableció; (8.2b) puede ser establecida similarmente. ////

El Teorema 5.8.1 establece la Ecuación (6.1a). Un argumento similar establecerá (6.1b),
F(a-) = Pr (X < a). Dado a, sea An el evento X  a - 1/n para n = 1,2,.... Entonces An  An+1

para toda n, y la unión A = n1 An es el evento X < a. Así, F(a-)=lim F(a - 1/n)=lim P(An) =
P(A) = Pr (X < a) cuando n  .
La importancia del Teorema 5.8.1 deriva en parte del hecho que las propiedades derivadas
ahí son características de las funciones de distribución. Eso es, cualquier función F que tenga
las propiedades descritas por el Teorema 5.8.1 es la función de distribución de alguna
variable aleatoria.
Teorema 5.8.2 Sea F cualquier función no decreciente, continua por la derecha que
satisface (8.2). Entonces hay una variable aleatoria X cuya función de distribución es
F.
PRUEBA Debemos definir un espacio de probabilidad (S,,P) y una variable
aleatoria X y mostrar que la función de distribución de X es F. Sea S = (0,1), sean todos
los subintervalos de S los eventos, eso es, elementos de , y sea P(I) = longitud de I si I
es un subintervalo de S, como en el Ejemplo 2.2.5. Además, defina una función X sobre
S por
X  s  min x  R: F  x   s (8.3)
para cada s  S fijo. El conjunto sobre el lado derecho de (8.3) no es vacío por (8.2), y
el mínimo es alcanzado porque F es continua por la derecha.
Para ver que X es una variable aleatoria con función de distribución F, observe que X(s)
 a si y sólo si s  F(a) para cada a fija, - < a < . Eso es, el evento X  a es
simplemente (0, F(a)] para cualquier a. Por lo tanto, X es una variable aleatoria, y Pr (X
 a) = P((0, F(a)]) = longitud de (0, F(a)] = F(a), como se afirmó. ////
De aquí en adelante, usaremos el término “función de distribución” para referirnos a
cualquier función continua por la derecha, no decreciente F que satisface (8.2). El Teorema
5.8.2 garantiza que tales funciones son funciones de distribución de variables aleatorias.
EJEMPLO 5.8.1
a Si f es cualquier función de densidad, entonces su integral indefinida F definida
por
F a    f  y dy
a
es no decreciente y continúa por la derecha (de hecho, continua) y satisface (8.2). Por
lo tanto, F es la distribución de alguna variable aleatoria X. Por (6.2a), tenemos
entonces
Pr a  X  b  F b  F a   a f  x dx
b
siempre que a < b, así que X tiene densidad f. Por lo tanto, hemos probado el siguiente
corolario al Teorema 5.8.2. Dada cualquier función de densidad f, hay una variable
aleatoria X cuya densidad es f.
b Similarmente, dada cualquier función masa f, hay una variable aleatoria cuya
168 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN
función masa es f. ////

EJEMPLO 5.8.2
a La función F definida por F(a) = sen a, - < a < , no es monótona y no satisface
(8.2). Por lo tanto, no es la función de distribución de ninguna variable aleatoria.
b Si G y H son funciones de distribución y 0 <  < 1, entonces F = G + (1-)H es
también una función de distribución. Indudablemente, si G y H son no decrecientes y
continuas por la derecha y ambas satisfacen (8.2), entonces F también será no
decreciente y continua por la derecha y satisface (8.2). Si G es absolutamente continua
y H es discreta, entonces F no será ni absolutamente continua ni discreta. ////
5.9 PROBLEMAS
5.1 Sea S un conjunto, y para A  S sea IA la función indicadora de A. Verificar las siguientes
propiedades:
(a) IAB(s) = IA(s) IB(s)
(b) I A B (s) = IA(s) + IB(s)  IAB(s)
(c) IA´(s) = 1  IA(s)
para toda s  S.
5.2 Dos dados balanceados son lanzados. Representar el número total de puntos que
aparecen como una variable aleatoria X sobre un espacio muestral apropiado. Encontrar
Pr (X = 6).
5.3 Considere el espacio de probabilidad del Ejemplo 5.1.4, y sea X(s) = sen (s/2) s  S.
Encontrar Pr (X  0.5).
5.4 Considere el espacio de probabilidad del Ejemplo 5.1.4 y sea X(s) = sen 2s s  S.
Encontrar Pr (X  0.5).
5.5 Un punto s = (s1,s2) es seleccionado al azar del círculo unitario S de tal manera que la
probabilidad de que s pertenezca a la subregión de S es proporcional al área de la
subregión. Denote X la distancia del punto seleccionado desde el origen.
170 PROBLEMAS
(a) Represente a X como una función sobre un espacio muestral apropiado.

(b) Calcular Pr (X  r) para 0 < r < 1.
5.6 Sea (S,,P) un espacio de probabilidad, y sea X una función valuada en los reales
definida sobre S. Mostrar que si {s  S: X(s)  a} es un evento para cualquier número
real a, entonces X es una variable aleatoria .
5.7 Mostrar que la clase B del Teorema 5.1.1 es una -álgebra. Sugerencia: Por ejemplo, si
B  B, entonces X-1(B)  , así que X-1(B´) = X-1(B)´ está también en , porque  está
dada para ser una -álgebra.
5.8 Complete la prueba del Lema 5.1.1.
5.9 Sean dos dados balanceados lanzados, y sea X el número total de puntos que aparecen.
Encontrar la función masa de X.
5.10 Cartas son extraídas secuencialmente sin reemplazo de un paquete hasta que una espada
aparece. Denote X el número de cartas requeridas. Encontrar la función masa de X.
5.11 Cartas son extraídas secuencialmente sin reemplazo hasta que r espadas han aparecido.
Denote X el número cartas requeridas. Encontrar la función masa de X.
5.12 Sea X cualquier variable aleatoria que puede tomar sólo los valores 1, 2,. Mostrar que
si 0 < Pr (X > k) < 1 y si Pr (X > k + 1  X > k) = Pr (X > 1) para toda k = 1, 2,,
entonces X tiene la distribución geométrica con parámetro p = Pr (X = 1).
5.13 Sea f(x) = 1/x(x + 1) si x es un entero positivo, x = 1, 2,, y sea f(x) = 0 para otros
valores de x. Mostrar que f es una función masa. La distribución determinada por esta
función masa es conocida como distribución de Zipf.
5.14 Sea X una variable aleatoria que puede tomar sólo valores enteros positivos 1, 2,. Si
P(X > k +1  X > k) = (k + 1)/(k + 2), ¿cuál es la función masa de X?
5.15 Suponer que la demanda sobre un producto dado durante un día dado es una variable
aleatoria X que tiene la distribución Poisson con parámetro  = 5:
(a) Si el comerciante almacena 5 unidades del producto, ¿cuál es la probabilidad de que
la demanda excederá la oferta?
(b) ¿Cuántas unidades el comerciante debe almacenar si desea que la probabilidad de
que la demanda excederá la oferta sea a lo más 0.01?
5.16 Repita el Problema 5.15 bajo la suposición de que X tiene la distribución geométrica
con parámetro p = 0.2.
5.17 Repita el Problema 5.15 bajo la suposición de que X tiene la distribución binomial con
parámetros n = 10 y p = 0.5.
5.18 Si X es una variable aleatoria con función de distribución Poisson y Pr (X = 0) = Pr (X =

1), encontrar la Pr (X  2).
5.19 Si X tiene la función de distribución geométrica y Pr (X = 1) = 3 Pr (X = 2), evalúe Pr
(X sea impar).
5.20 Si X tiene la función de distribución Poisson con parámetro , mostrar que Pr ( X sea
par) = e- cosh  .
5.21 Para cada n  1, permita que Xn tenga la distribución binomial con parámetros n y p.
Además, sea n = Pr (Xn sea impar). Mostrar que 1 = p y n = (q  p)n –1 + p para n 
2. Concluya que n = (½ )[1  (q  p)n] para n = 1, 2,.
5.22 Mostrar que lo siguiente define una función masa:
f x  
2x
nn  1
para x = 1, 2,, n y f(x) = 0 para otros valores de x.

¿Para cuáles valores de  existe una constante c para la cual
f x   cx  x  1, 2,
y f(x) = 0 para otros valores de x define una función masa?

¿Cómo debe ser seleccionada c para que las siguientes funciones definan densidades?
cx 2 0 x2
f x   
(a) 0 otros valores de x
f x  
c
 x
(b) 1  x 
2
¿Para cuáles valores de  existe una c tal que f(x) = cx, x > 0 y f(x) = 0 para x  0 define una
densidad?
5.26 Mostrar que si f y g son densidades y 0 <  < 1, entonces h = f + (1  )g es también
una densidad.
5.27 Sea f(x) = (½)e-x,  < x < . Mostrar que f es una densidad. Esta densidad es
conocida como la densidad exponencial bilateral.
5.28 Mostrar que si X tiene la distribución exponencial con parámetro  > 0, entonces Pr (X
172 PROBLEMAS
> s + t  X > s) = Pr (X > t) para todas las selecciones de s > 0 y t > 0.

5.29 Si X tiene la distribución exponencial con parámetro  = 2, encontrar la probabilidad
que 1 < X  2.
5.30 Si X tiene la distribución Cauchy, ¿cuál es Pr (1  X  3)?
5.31 Si X tiene la distribución Cauchy, ¿cuál es la probabilidad de que 1 + X2 > 3?
5.32 La clase del Profesor Smith está programada para iniciar a las 10 A.M., pero el inicia su
clase en un tiempo X el cual está uniformemente distribuido sobre el intervalo 9:55 a
10:05 A.M. ¿Cuál es la probabilidad de que el iniciará (a) al menos 2 minutos antes; (b)
al menos 2 minutos tarde?
5.33 Suponer que el tiempo, en horas, requerido para dar servicio a una clase particular de
carro deportivo es una variable aleatoria X la cual tiene la distribución exponencial con
parámetro  = 1. ¿Cuál es la probabilidad de que más de 2 horas serán requeridas para
dar servicio al carro?
5.34 Si f es una densidad y a  R, mostrar que
I     f x  dx
a
a 
tiende a cero cuando   0. Sugerencia: Si f es acotada, digamos por b, cerca de a,

entonces I()  b ; y si f no está acotada cerca de a, entonces para b < a
f x  dx  lim  f x  dx
a c
b
c a
b
por la definición de la integral impropia de Riemann.

5.35 Sea k un entero impar. Exprese (k/2) en términos de factoriales y potencias de 2.
5.36 Mostrar que la densidad beta es, de hecho, una densidad. Eso es, muestre
  
 x 1  x ) dx     
1
 1  1
0
Sugerencia: Escriba ()() como una doble integral y haga un cambio apropiado de
variables, como en el Lema 4.4.1.
5.37 Para  > 0 y  > 0, sea ( + )/()(), y sea f(x) = cx -1/(1 + x) + para x > 0 y f(x)
= 0 para x  0. Mostrar que f es una densidad. Esta densidad es conocida como la
densidad Pareto y es algunas veces usada para describir la distribución de ingresos.
 1 
5.38 Mostrar que  exp    y  dy es finita (ver Sección 5.4.1).
1
2 
5.39 Usar el Problema 5.38 para mostrar que I nm  0 cuando n  .

5.40 Permita que X tenga una densidad f(x) =  x - 1 para 0 < x < 1 y f(x) = 0 para otros
valores de x, donde  > 0. Encontrar la función de distribución de X.
5.41 Permita que X tenga la densidad f(x) = /(1 + x) +1 para x > 0 y f(x) = 0 para x  0,
donde  > 0. Encontrar la función de distribución de X.
5.42 Encontrar la densidad de la variable aleatoria X del Ejemplo 5.1.4. Sugerencia:
Encontrar la función de distribución y diferenciar.
5.43 Encontrar la densidad de la variable aleatoria X del Problema 5.5.
5.44 Si X tiene la distribución gama con parámetros  = 3 y  = 1, encontrar Pr (X  a) para
a = 1, 2.
5.45 Suponer que el tiempo de vida de un foco en horas es una variable aleatoria X que tiene
la distribución exponencial con parámetro  = 0.02. Encontrar la probabilidad de que
30 < X < 60.
5.46 En el Problema 5.45 suponer que X tiene la distribución gama con parámetros  = 3 y 
= 0.05. Encontrar la probabilidad de que 30 < X < 60.
5.47 Suponer que el ingreso familiar en un área dada en unidades de $10,000 sigue la
distribución Pareto con parámetros  = 2 y  = 1. Eso es, suponer que si una familia es
seleccionada al azar del área y su ingreso X registrado, entonces X es una variable
aleatoria que tiene la distribución Pareto con parámetros  = 2 y  = 1. ¿Qué
proporción de las familias tienen ingresos entre $8,000 y $12,000, inclusive?
5.48 Suponer que la demanda por electricidad, en megawatt-horas, en una ciudad dada en un
día dado es una variable aleatoria X que tiene la distribución normal con parámetros  =
500 y  = 10. Encontrar constantes a y b para las cuales Pr (a < X < b) = 0.95.
5.49 En el Problema 5.48 ¿cuál es la probabilidad de que X > 530 megawatt-horas?
5.50 Mostrar que si m es una mediana (moda) de X, y si  > 0, entonces  m +  es una
mediana (moda) de Y =  X + .
5.51 Encontrar la moda de la función masa binomial con parámetros n y p. Sugerencia: Use
la Ecuación (1.3) del Capítulo 4.
5.52 Encontrar la moda de la distribución binomial negativa con parámetros r y p.
5.53 Encontrar la moda de la función masa Poisson con parámetro .
5.54 Encontrar la moda de la densidad Pareto con parámetros  > 1 y  > 0.
5.55 Sea F(x) = ex/(ex + e-x) para  < x < . Mostrar que F es una función de distribución y
encontrar su densidad. F es conocida como la función de distribución logística.
174 PROBLEMAS

5.56 Para  > 0, sea F(x) = 1  e  x para x > 0, y sea F(x) = 0 para x  0. Mostrar que F es
una función de distribución y encontrar una densidad para F.
5.57 Sea F(x) = exp (e-x) para  < x < . Mostrar que F es una función de distribución , y
encontrar la función de densidad de F. F es conocida como la función de distribución
doble exponencial.
5.58 Sean r1, r2, los números racionales en el intervalo [0,1], y sea X una variable aleatoria
para la cual Pr (X = rn) = 2-n para n = 1, 2,. Mostrar que la función de distribución de
X es discreta pero es constante sobre ningún subintervalo de [0,1].
5.59 Encontrar las medianas de (a) la función de distribución logística y (b) la función de
distribución doble exponencial.
6
6 VECTORES ALEATORIOS
6.1 DISTRIBUCIONES BIVARIADAS

Consideremos ahora el caso de dos variables aleatorias, X y Y digamos, que son definidas
sobre el mismo espacio de probabilidad (S,,P). Si I y J son intervalos, podemos desear
calcular ya sea Pr (X  I) o Pr (Y  J), o ambos, y hemos discutido técnicas para calcular
estas probabilidades en los capítulos previos. Podemos también desear calcular la
probabilidad de la ocurrencia simultánea (intersección) de los eventos X  I y Y  J.
Denotaremos esta probabilidad por Pr (X  I, Y  J). Así
Pr X  I ,Y  J   Ps  S : X ( s )  I yY s   J  (1.1)
Más generalmente, si B es un subconjunto de R2, el conjunto de todos los pares ordenados de

números reales, entonces podemos desear calcular la probabilidad de que el par ordenado
(X,Y) pertenezca a B. Denotaremos esta probabilidad por Pr ((X,Y)  B),así que
Pr X ,Y  B  Ps  S :  X s ,Y s  B (1.2)
Como en el capítulo previo, emplearemos simplificaciones naturales de la notación (1.1) y

(1.2) donde sea posible.
EJEMPLO 6.1.1
176 DISTRIBUCIONES BIVARIADAS
Considere una urna que contiene r bolas rojas, w bolas blancas, y b bolas negras. Si una
muestra aleatoria desordenada de tamaño k es tomada, entonces el número de bolas rojas X y
el número de bolas blancas Y en la muestra son variables aleatorias. Más aún, por el
Teorema 1.4.2,
 r  w  b 
   
i j k i  j 
Pr  X  i ,Y  j     
r  w  b
 
k 
donde i y j son enteros no negativos para los cuales i  j  k . ////

EJEMPLO 6.1.2
Sea un punto s  ( s1 , s2 ) seleccionado del cuadrado unitario
S  s  s1 ,s2  :0  s1 1,0  s2  1
de tal manera que la probabilidad de que s pertenezca a una subregión B  S es el área de B.

Entonces, las funciones coordenadas X1 s1 , s2   s1 y X 2  s1 , s2   s2 definen variables
aleatorias. En este caso es fácilmente verificado que Pr  X 1  X 2  12   18 dibujando una
gráfica apropiada (Figura 9). ////
Figura 9. El evento de que x + y ≤ 1/2

VECTORES ALEATORIOS 177
Si X y Y son variables aleatorias que están definidas sobre el mismo espacio de probabilidad,
entonces diremos que X y Y están conjuntamente distribuidas. Además, definimos esa
distribución conjunta Q de X y Y por
QB  Pr  X ,Y   B (1.3)
para todo B  R2, para el cual el lado derecho de (1.3) este definido. También referiremos a
Q como la distribución del par (X,Y). Como en el caso univariado, puede ser mostrado que Q
es una medida de probabilidad.
Si X y Y son variables aleatorias conjuntamente distribuidas las cuales son cada una discreta,
como en la Sección 5.2, entonces definimos la función masa conjunta f de X y Y por
f x , y   Pr  X  x ,Y  y  (1.4)
para – < x <  y – < y < . También referiremos a f como la función masa del par (X,Y).
Como en el caso univariado, entonces es fácilmente verificado que esa f debe tener las
siguientes propiedades:
f x , y   0 (1.5 a)
para – < x <  y – < y < ; hay un conjunto finito o infinito contable 1 C para el cual
f(x,y) = 0 si (x,y)  C; y
 f x , y   1 (1.5 b)
C
donde la suma se extiende sobre todos los (x,y)  C. También, como en el caso univariado,
es visto fácilmente que si X y Y tienen función masa conjunta f, entonces
Pr  X ,Y   B    f x , y  (1.6)
BC
para todo B  R2 para el cual el lado izquierdo de (1.6) este definido. En particular la función
masa conjunta f unívocamente determina la distribución conjunta de X y Y.
Nos referimos a cualquier función f que se desvanece fuera de un conjunto finito o infinito
contable C y satisface (1.5) como una función masa bivariada. Veremos abajo que si f es
cualquier función masa bivariada, entonces hay variables aleatorias discretas X y Y cuya
función masa conjunta es f.
Similarmente, definimos una densidad bivariada para ser una función real f que definida
sobre R2 satisface
1
1 Si D y E son conjuntos finitos o infinitos contables para los cuales Pr (X  D) = 1= Pr (Y  E), entonces el producto
cartesiano C = D  E es finito o infinito contable y Pr ((X,Y)  C)  Pr (X  D) + Pr (Y  E) =0.
f x , y   0 (1.7 a)
para – < x <  y – < y <  y


  f x , y dxdy  1 (1.7 b)

Además, si X y Y son variables aleatorias conjuntamente distribuidas, diremos que el par

(X,Y) es absolutamente continuo si y sólo si hay una densidad bivariada f para la cual
Pra  X  b,c  Y  d   c a f x , y dxdy

d b
(1.8)
siempre que a < b y c < d. Si (1.8) se cumple, entonces llamaremos a f una densidad
conjunta para X y Y o una densidad para el par (X,Y). Como en el caso univariado, puede ser
mostrado que si X y Y tienen densidad conjunta f, entonces
Pr X ,Y   B    f x , y dxdy (1.9)

B
para todo B  R2 para el cual ambos lados de (1.9) estén definidos. Más aún, una densidad
conjunta para dos variables aleatorias X y Y unívocamente determina su distribución
conjunta.
EJEMPLO 6.1.3
a Si g y h son densidades univariadas, entones su producto f definido por
f x, y   g xh y 
para - < x <  y - < y <  define una función de densidad bivariada, porque f es no
negativa y1

  
  f x , y dxdy   g x dx  h y dy  1  1

  2
Esta simple observación provee una clase grande de ejemplos.

b Similarmente, si g y h son funciones masa univariadas, entonces su producto f
1
2 Algunas reglas para manipular integrales múltiples serán dadas en la Sección 6.4. Aquí anticipamos algunas de las
reglas.
definido por f(x,y) = g(x)h(x) para - < x <  y - < x <  define una función masa
bivariada. ////
EJEMPLO 6.1.4
Sea una muestra aleatoria desordenada de tamaño k extraída de una urna que contiene r bolas
rojas, b bolas negras, y w bolas blancas, y denotemos por X y Y el número de bolas rojas y el
número de bolas blancas en la muestra , como en el Ejemplo 6.1.1. Entonces la función masa
conjunta de X y Y está dada por
 r  w  b 
   
 x  y  k  x  y 
f x , y  
r  w  b
 
 k 
para enteros no negativos x y y para los cuales x + y  k y f(x,y) = 0 para otros valores de x y
y. ////
EJEMPLO 6.1.5
Sea B una región de R2 con área positiva finita B. Suponer también que la frontera de B
tiene área cero.1 Entonces la función f definida por
1
 x , y   B
f x , y    B
0 de otro modo

es una función de densidad. Nos referiremos a f como la densidad uniforme sobre B, y si X y

Y tienen densidad conjunta f, diremos que X y Y son uniformemente distribuidas sobre B.
En el caso especial que B es el círculo unitario B = {(x,y): x2 + y2  1}, encontramos
 1 x 2  y 2  1
f x , y    ////
0de otro modo
Si X y Y son variables aleatorias distribuidas conjuntamente, definimos su función de

distribución conjunta F por
1
3 El requisito de que el área de la frontera sea cero asegura que IB es integrable. Ver Apostol (1957), p. 258.
F a ,b  Pr X  a ,Y  b (1.10)
para - < a <  y - < b < , y también nos referiremos a F como la función de distribución
del par (X,Y). Así, si X y Y tienen densidad conjunta f, entonces
F x , y     f x , y dxdy

b a
(1.11 a)
para toda a y b por (1.8) y
 
f a ,b   F a ,b  (1.11b)
a b
en los puntos de continuidad (a,b) de f.
Como en el caso univariado, es posible expresar la probabilidad de que (X,Y) pertenezca a
cualquier rectángulo en términos de su función de distribución. Por ejemplo, tenemos el
siguiente teorema.
Teorema 6.1.1 Permita que las variables aleatorias X y Y tengan función de distribución
conjunta F. Si a < b y c < d, entonces Pr (a < X  b, c < Y  d) = F(b,d) - F(a,d) - F(b,c) +
F(a,c).
PRUEBA Sea A (alternativamente B, C, y D) el evento de que X  a (alternativamente X 
b, Y  c, y Y  d). Entonces nosotros requerimos la probabilidad del evento (B - A)  (D -
C). Por aplicaciones repetidas del Teorema 2.3.1, se tiene lo siguiente
PB  A  D  C   PB  D  C   P A  D  C 
 PBD   PBC   P AD   P AC 
que es simplemente F(b,d) - F(a,d) - F(b,c) + F(a,c), como lo establecido. ////

Tomando límites, podemos ahora expresar la probabilidad que (X,Y) pertenezca a cualquier
rectángulo en términos de su función de distribución (Problemas 6.13 a 6.15). Sin embargo,
esta expresión es mucho menos útil en dos dimensiones que en una, puesto que las funciones
de distribución bivariadas son mucho más difíciles de evaluar o tabular en dos dimensiones
que en una y en dos dimensiones hay una variedad de regiones interesantes que no son
rectángulos.
Concluimos esta sección con el análogo en dos dimensiones de los Teoremas 5.8.1 y 5.8.2.
La prueba del Teorema 6.1.2, sin embargo, está más allá del alcance de este libro.
Teorema 6.1.2 Sea F una función que está definida sobre R2. Entonces F es la
función de distribución de un par (X,Y) de variables aleatorias si y sólo si:
(i) F es no decreciente y continua por la derecha en cada variable

separadamente;
(ii) lim F(a,b) = 0 (1.12a)
cuando a  - ó b  -, y
lim F(a,b) = 1 (1.12b)
cuando ambos a   y b  ; y
(iii) F(b,d) - F(a,d) - F(b,c) + F(a,c)  0 siempre que a < b y c < d.
EJEMPLO 6.1.6
a Si f es cualquier densidad bivariada, entonces hay variables aleatorias X y Y, cuya
densidad conjunta es f. Indiscutiblemente, dado f, defina F por medio de la Ecuación (1.11a).
Entonces es fácilmente verificado que F satisface las condiciones (i) a (iii) del Teorema
6.1.2. Por ejemplo, si a < b y c < d, entonces
F b,d   F a ,d   F b,c   F a ,c   c a f x , y dxdy

d b
(1.13)
la cual no es negativa puesto que f no es negativa. La verificación de (i) y (ii) se deja como
un ejercicio (ver Ejemplo 5.8.1a). Ahora se sigue que hay un par de variables aleatorias
(X,Y) cuya función de distribución es F. Finalmente, se sigue del Teorema 6.1.1 que para a <
b y c < d, Pr (a < X  b, c < Y  d) = F(b,d) - F(a,d) - F(b,c) + F(a,c), que es
c a f x , y dxdy
d b
por (1.13). Por lo tanto, X y Y tienen densidad conjunta f.

b Análogamente, si f es cualquier función masa bivariada, entonces hay variables
aleatorias X y Y cuya función masa conjunta es f. ////
6.2 DISTRIBUCIONES MARGINALES E INDEPENDENCIA

Si X y Y tienen una distribución conjunta, es razonable esperar que las distribuciones
individuales de X y Y deben estar relacionadas en alguna forma agradable a la distribución
conjunta de X y Y. Esto es, de hecho, el caso, y consideraremos esta relación en esta sección.
Denotemos por F la función de distribución conjunta de X y Y, y denotemos por G y H las
funciones de distribución individuales de X y Y, respectivamente. Entonces puesto que el
evento de que Y   es seguro que ocurra, tenemos formalmente
182 DISTRIBUCIONES MARGINALES E INDEPENDENCIA
Ga   Pr  X  a   Pr  X  a ,Y    F a , (2.1a)
para todo a, -  a  , y análogamente

H b  F ,b (2.1b)
para toda b, -  b  . Las relaciones (2.1a) y (2.1b) no son totalmente significativas

porque los símbolos F(a,) y F(,b) no han sido definidos. Sin embargo, ellos se vuelven
significativos y correctos si definimos
F a ,  lim F a ,n y F ,b  lim F n,b

n n
Ver Problema 6.16.

Ahora, suponer que X y Y tienen una densidad conjunta f. Entonces el lado derecho de la
Ecuación (2.1a) puede ser escrita
F a ,     f x , y dydx g x dx

a  a
donde (por definición)
g x    f x , y dy

(2.2 a)
para -  x  , y se sigue que G es absolutamente continua con densidad g. Por simetría,

encontramos también que H es absolutamente continua con densidad h, donde
h y    f x , y dx

(2.2 b)
para -  y  .
Relaciones similares pueden ser obtenidas si X y Y son variables aleatorias discretas. Denote
f la función masa conjunta de X y Y, y denoten g y h las funciones masa individuales de X y
Y, respectivamente. Además, sean D y E conjuntos contables para los cuales Pr (X  D) = 1
= Pr (Y  E). Entonces, para cualquier x, el evento de que X = x es la unión de los eventos
mutuamente exclusivos X = x y Y = y para y  E con el evento X = x y Y  E. Puesto que Pr
(X = x, Y  E)  Pr(Y  E) = 0, tenemos
Pr X  x    Pr X  x ,Y  y 
yE
Eso es, tenemos

g x    f x , y  (2.3 a)
yE
para toda x, -  x  . Similarmente,
h y    f x , y  2.3b
xD
para toda y, -  y  .
En el contexto de las Ecuaciones (2.1), (2.2), o (2.3), algunas veces referimos a G o g como
la función de distribución marginal, densidad, o función masa de X y a H o h como la
función de distribución marginal ,densidad, o función masa de Y. Resumimos nuestros
resultados.
Teorema 6.2.1 Si X y Y son variables aleatorias conjuntamente distribuidas con
función de distribución conjunta F, entonces las funciones de distribución de X y Y
están dadas por (2.1a) y (2.1b), respectivamente. Si X y Y tienen densidad conjunta f,
entonces X y Y tienen densidades g y h que están dadas por (2.2a) y
(2.2b),respectivamente, y si X y Y son discretas con función masa conjunta f, entonces
X y Y tienen funciones masa g y h que están dadas por (2.3a) y (2.3b), respectivamente.
EJEMPLO 6.2.1
Si X y Y son variables aleatorias discretas que pueden asumir solamente un número finito de
valores, entonces su función masa conjunta puede ser dada por una tabla. Las funciones
masa marginales de X y Y entonces pueden ser obtenidas sumando a través de las hileras y
hacia abajo sobre las columnas. Lo ilustramos en la Tabla 10.
Tabla 10
y
x 1 2 3 4 g(x)
1 0.05 0.05 0.10 0.00 0.20
2 0.10 0.10 0.05 0.05 0.30
3 0.05 0.05 0.00 0.00 0.10
4 0.15 0.05 0.05 0.15 0.40
h(y) 0.35 0.25 0.20 0.20
////
EJEMPLO 6.2.2
Las ecuaciones (2.1), (2.2) y (2.3) no son las únicas formas para calcular una función de
distribución marginal, densidad, o función masa. Por ejemplo, suponer que una muestra
aleatoria desordenada de tamaño k es seleccionada de una urna que contiene r bolas rojas, w
bolas blancas, y b bolas negras, y denoten X y Y el número de bolas rojas y el número de

bolas blancas en la muestra. La función masa conjunta de X y Y fue encontrada en el
Ejemplo 6.1.4. La función masa marginal puede ser calculada de (2.3), pero puede ser
también calculada directamente. De hecho,
 r  w  b 
  

g  x     
x k x
r  w  b
 
 k 
para x = 0, 1, ... , k por el Teorema 1.4.1. ////

EJEMPLO 6.2.3
Sean X y Y distribuidas uniformemente sobre el círculo unitario C ={(x2 + y2  1}. Entonces
X y Y tienen densidad f(x,y) = 1/, si x2 + y2  1 y f(x,y) = 0 de otro modo. Por lo tanto, la
densidad marginal de X es
g x    f ( x , y )dy  
 1 x 2 2
 1dy  1 x2
1 x

2
para -1  x  1. Por supuesto, g(x) = 0 si x > 1, puesto que entonces f(x,y) = 0 para toda y.
EJEMPLO 6.2.4
Considere la función f, definida por
f x , y   Cr exp  12 Qx , y 
donde -1 < r < 1,
1 x 2  2rxy  y 2
Cr  2 1  r 2 y Q( x , y ) 
1 r 2
para - < x <  y - < y < . Mostraremos que f es una densidad bivariada y calcularemos
las densidades marginales
Por simple álgebra tenemos
Qx , y   x 2  z 2 donde z   y  rx  / 1  r 2
Así,
 
g  x    Cr exp  12 x 2  z 2 dy


 12 x 2   12 z 2
 1  r 2 Cr e  e dz
 12 x 2 1  12 x2
 2 1  r 2 Cr e  e (2.4)
2
para - < x < . Aquí hemos usado el hecho de que la función de densidad normal estándar
tiene integral 1, y hemos usado la definición de Cr en los dos pasos finales. Ahora se sigue
que

  f x , y dydx   g x dx  1


otra vez porque la densidad normal estándar tiene integral total 1, y se sigue que f es una
densidad bivariada.
La densidad f es conocida como la densidad normal bivariada estándar con parámetro r. Se
sigue de (2.4) que si X y Y tienen la densidad normal bivariada estándar con parámetro r,
entonces X tiene la densidad normal (univariada) estándar. Por simetría, Y también tiene la
densidad normal estándar. ////
Diremos que variables aleatorias distribuidas conjuntamente X y Y son independientes si y
sólo si
Pr X  I ,Y  J   Pr X  I Pr Y  J  (2.5)
para todos los intervalos I  R y J  R. Eso es, X y Y son independientes si y sólo si los
eventos X  I y Y  J son independientes para todos los intervalos I y J. Independencia
puede ser interpretada como en el Capítulo 3: X y Y son independientes si y sólo si el valor
tomado por X no provee información acerca de no provee información acerca de Y y
recíprocamente.
Ahora nosotros daremos un criterio para determinar si las variables aleatorias son
independientes.
Teorema 6.2.2 Si X y Y tienen una función masa conjunta f, entonces X y Y son
independientes si y sólo si
f x , y   g x h y  (2.6 a)
para toda x y y, donde g y h denotan las funciones masa marginales de X y Y,

respectivamente. Similarmente, si X y Y son absolutamente continuas (individualmente)
con densidades g y h, entonces X y Y son independientes si y sólo si
f x , y   g x h y  (2.6 b)
define una densidad conjunta para el par (X,Y).

PRUEBA Anticipamos el resultado del Ejemplo (6.4.2). Suponer primero que X y
Y son independientes con densidades g y h, respectivamente. Si I y J son intervalos,
entonces
Pr X  I ,Y  J   Pr X  I PrY  J 

 
 I g x dx J h y dy 
 I J g x h y dydx
así que f ciertamente define una densidad conjunta para X y Y. Recíprocamente, si f

define una densidad conjunta para X y Y, entonces para todos los intervalos I y J ver
(1:9)
Pr  X  I ,Y  J   I J g  x h y dydx
 
 I g x dx J h y dy 
 Pr X  I  PrY  J 
así que X y Y son independientes. Esto establece la segunda aseveración del teorema, y
la prueba de la primera es similar. ////
EJEMPLO 6.2.5
Si X y Y tienen la distribución normal bivariada estándar con parámetro r, entonces X y Y son
independiente si y sólo si r = 0. Indiscutiblemente, las distribuciones marginales de X y Y
son ambas normal estándar (univariada), y el producto de sus densidades marginales es por
lo tanto
1
2

exp  12 ( x 2  y 2 )  (2.7)
Comparando (2.7) con la densidad conjunta de X y Y (Ejemplo 6.2.4), vemos que (2.7)
define una densidad para el par (X,Y) si y sólo si r = 0. ////
Otro criterio para independencia puede ser dado en términos de funciones de distribución.
Teorema 6.2.3 Permita que X y Y tengan función de distribución conjunta F. Entonces
X y Y son independientes si y sólo si
F a ,b  Ga H b (2.8)
para -  a   y -  b  , donde G y H denotan las funciones de distribución

marginales de X y Y, respectivamente.
PRUEBA La aseveración “sólo si” es fácil. Indiscutiblemente, si X y Y son
independientes, entonces Pr (X  a, Y  b) = Pr (X  a) Pr (Y  b) por (2.5), así que F(a,b) =
G(a)H(b) para toda a y b. Para establecer la aseveración “si”, argüimos como sigue. Sea a <
b y c < d. Entonces por el Teorema 6.1.1,
Pr a  X  b,c  Y  d   F b,d   F a ,d   F b,c  F a ,c
y si F es de la forma (2.8), entonces F(b,d) - F(a,d) - F(b,c) + F(a,c) = G(b) - G(a)H(d) -

H(c) = Pr (a < X  b) Pr (c < Y  d). De este modo, (2.8) implica lo siguiente
Pr a  X  b,c  Y  d   Pr a  X  b Pr c  Y  d  (2.9)
siempre que a < b y c < d. Esto establece (2.5) para intervalos de la forma I = (a,b] y J =
(c,d]. Ahora podemos mostrar que (2.5) se cumple para todos los intervalos I y J por simples
argumentos límites (Problema 6.17). ////
6.3 MAYORES DIMENSIONES

Las nociones simples de las dos secciones precedentes se extienden sin dificultad de dos
dimensiones a varias. Así, considere un espacio de probabilidad (S,,P) sobre el cual están
definidas n variables aleatorias X1,... Xn. Diremos que X1,... Xn son distribuidas
conjuntamente, y nos referiremos a X = (X1,... Xn) como un vector aleatorio. Si I1,... In son
intervalos de números reales, usaremos la notación Pr (X1  I1,... Xn  In) para denotar la
probabilidad de la ocurrencia simultánea (intersección) de los eventos Xj  Ij, j = 1,... n. De
este modo,
Pr  X 1  I1 ,..., X n  I n   Ps : X1 s   I1 ,..., y X n s   I n  (3.1)
Más generalmente, si B es un subconjunto de Rn, el conjunto de todas la n-adas ordenadas de

números reales, usaremos la notación Pr (X  B) para denotar la probabilidad del conjunto
de s  S para los cuales X(s) = (X1(s),... Xn(s))  B, provisto por supuesto, que el último
conjunto es un evento. Así,
188 MAYORES DIMENSIONES
Pr  X  B  Ps : X s  B (3.2)
Definimos la distribución conjunta Q de X1,... Xn por Q(B) = Pr(X  B), y también nos
referiremos a Q como la distribución del vector X = (X1,... Xn). Como en los casos univariado
y bivariado, podemos mostrar que Q es una medida de probabilidad.
Si X1,... Xn son todas variables aleatorias discretas, como las definidas en la Sección
5.2, definimos la función masa conjunta f de X1,... Xn por
f x1 ,..., xn   Pr X 1  x1 ,..., X n  xn 
para x = (x1,... xn)  Rn. También nos referiremos a f como la función masa del vector X =
(X1,... Xn). Es entonces fácilmente verificado que f tiene las siguientes propiedades:
f x   0 (3.3 a)
para toda x = (x1,... xn)  Rn; hay un subconjunto1 finito o infinito contable C  Rn para el
cual
f x   0 si x  C (3.3b)
 f x   1 (3.3 c)
C
donde la suma se extiende sobre toda x = (x1,... xn)  C. Más aún,
Pr  X  B    f x  (3.4)
BC
para cualquier B  Rn para el cual el lado izquierdo de (3.4) esté definido. En particular, la
función masa conjunta f unívocamente determina la distribución conjunta.
Nos referiremos a cualquier función f que satisface (3.3) como una función masa n-
variables.
Similarmente, definimos una densidad n-variables para ser una función real f que está
definida sobre Rn y satisface
1
4 Si Ci es un conjunto finito o infinito contable para el cual Pr (Xi  Ci)=1, entonces C = C1 x ... x Cn es un conjunto
finito o infinito contable para el cual Pr (X  C) = 1.
f x   0 (3.5 a)
para toda x = (x1,... xn)  Rn y

1
R f xdx  1
n (3.5b)
Si X1,... Xn son variables aleatorias distribuidas conjuntamente, diremos que X1,... Xn son
absolutamente continuas conjuntamente con densidad conjunta f si y sólo si
Pr X  B   B f x dx (3.6)
para todos los rectángulos B  Rn. En este caso también diremos que el vector X = (X1,... Xn)
es absolutamente continuo con densidad f. Si (3.6) se cumple para todos los rectángulos B 
Rn, entonces puede ser mostrado que (3.6) se cumple para todos los subconjuntos B  Rn
para los cuales ambos lados estén definidos (compare Teorema 5.3.1). Más aún, una
densidad conjunta f unívocamente determina la distribución conjunta de X1,... Xn.
EJEMPLO 6.3.1
a Considere una urna que contiene bolas de n diferentes colores, digamos ri  1
bolas de color i, i = 1,... n. Si una muestra de tamaño k  r = r1 + ··· + rn es
seleccionada de la urna sin reemplazo y permitimos a Xi ser el número de bolas de
color i en la muestra, i = 1,.., n, entonces X = (X1,... Xn) será un vector aleatorio para el
cual
 r1   rn 
 ... 
 x1   x n 
Pr  X 1  x1 ,..., X n  x n   (3.7)
r 
 
k 
siempre que x1,... xn sean enteros no negativos cuya suma sea k. Ver Teorema 1.4.2. La
Ecuación 3.7 define la función masa hipergeométrica de n-variables con parámetros
r1,... rn y k.
b Considere un dado de k lados, y sea pi la probabilidad de que la i-ésima cara
aparezca sobre cualquier lanzamiento dado, i=1,..,k (los pi no necesitan ser iguales). Si
n lanzamientos independientes del dado son hechos, y si dejamos a Xi ser el número de
lanzamientos sobre los cuales la i-ésima cara aparece, entonces X = (X1,... Xk) será un
1
5 Las integrales que aparecen en (3.5b) y (3.6) son integrales n-dimensionales, y dx denota el elemento volumen dx1,...
dxn. Reglas para evaluar integrales multiples serán dadas en la siguiente sección.
vector aleatorio para el cual
 n  x1
Pr  X 1  x1 ,..., X k  xk     p1 ... pkxk (3.8)
 x1 ,.., xk 
siempre que x1,... xk sean enteros no negativos cuya suma sea n. Ver Teorema 4.1.2.
Nos referiremos a (3.8) como la función masa multinomial con parámetros n  1 y p =
(p1,... pn). Ver problemas 6.24 a 6.27 para mayores propiedades de la distribución
multinomial. ////
EJEMPLO 6.3.2
Sea B una región de Rn con volumen Bfinito y positivo (n- dimensional). Suponer también
que la frontera de B tiene volumen cero (n-dimensional). Entonces, la función f definida por
1
 xB
f x    B (3.9)
0 xB

es conocida como la densidad uniforme sobre B. ////

Como en dos dimensiones, densidades individuales o funciones masa de variables aleatorias
X1,... Xn pueden ser obtenidas de una densidad o función masa conjunta. Daremos las
fórmulas relevantes únicamente para el caso absolutamente continuo puesto que las fórmulas
para el caso discreto pueden ser obtenidas reemplazando integrales por sumatorias. Si X1,...
Xn tiene una densidad conjunta f, entonces
f1 x    f x , x2 ,..., xn dx2 dxn

 
(3.10)
define una densidad para X1, y densidades para Xi, i  2, pueden ser obtenidas de (3.10) y un
renombramiento apropiado. Nos referiremos a (3.10) como la densidad marginal de X1. Más
generalmente, si k < n, entonces
g( x1 ,..., xk )   f x1 ,..., xn dxk 1 dxn

 
(3.11)
define una densidad conjunta para X1,... Xk. Algunas veces nos referiremos a g como la
densidad marginal de X1,... Xk.
EJEMPLO 6.3.3
a Permita a (X1,X2,X3) tener la densidad uniforme sobre el conjunto B de x =
(x1,x2,x3)  R3 para los cuales 0  x1  x2  x3  1. Así, f(x) = 6 para x  B. Encontremos

la densidad marginal de X1. Por la Ecuación (3.10) tenemos
f1 x   x x 6dx3dx2  x 61  x2 dx2  31  x 

1 1 1 2
2
para 0  x  1, y f1(x) = 0 para otros valores de x.

b La densidad conjunta de (X1,X2) es
g x1 , x2   x 6dx3  61  x2 

1
2
para 0  x1  x2  1, y g(x1,x2) = 0 para otros valores de (x1,x2). ////

EJEMPLO 6.3.4
a Si X1,... Xn tienen la distribución hipergeométrica de n-variables (Ejemplo 6.3.1a)
 r1   rn 
 ... 
f ( x1 ,..., xn )   1   n 
x x
r 
 
k 
entonces X1 tiene la distribución hipergeométrica univariada
 r1  r2  ...  rn 
  

f1  x     
x k x
r 
 
k 
x = 0,... k. De hecho, X1 es el número de bolas de color 1 en una muestra de tamaño k.

b Si X1,... Xn tienen la distribución multinomial
n  x1
f x1 ,..., xk     p1 ... pkxk
 x1 ,..., xk 
entonces X1 tiene la distribución binomial

 n
f1 x     p1x ( 1  p1 )n x
 x
x = 0,... n. De hecho X1 es el número de veces que un evento con probabilidad p1 ocurre
en n repeticiones independientes. ////
Si X1,... Xn son variables aleatorias distribuidas conjuntamente, diremos que X1,... Xn son
independientes por pares si y sólo si Xi y Xj son independientes siempre que i  j y diremos
que X1,... Xn son mutuamente independientes si y sólo si
Pr X 1  I1 ,..., X n  I n    Pr X j  I j 
n
(3.12)
j 1
siempre que I1,... In sean intervalos de números reales. Como en el caso de eventos, las dos
nociones de independencia no son equivalentes (ver Problema 6.29), y es la última la que es
más interesante. En concordancia, usaremos el término no adjetivado de “independiente”
para significar mutuamente independiente.
Ahora nosotros daremos un criterio para determinar si las variables aleatorias son
independientes.
Teorema 6.3.1 Si X1,... Xn son variables aleatorias discretas con función masa
conjunta f, entonces X1,... Xn son independientes si y sólo si
f x1 ,..., xn    f i xi 

n
i 1
para toda x = (x1,... xn)  Rn, donde fi denota la función masa marginal de Xi, i = 1,...
n. Similarmente , si X1,... Xn son individualmente absolutamente continuas con
densidades (marginales) f1,... fn, entonces X1,... Xn son independientes si y sólo si
f x1 ,..., xn    f i xi 

n
x  Rn
i 1
define una densidad conjunta para X1,... Xn.

La prueba del Teorema (6.3.1) es similar a esa del Teorema 6.2.2, que la generaliza, y por
tanto será omitida.
EJEMPLO 6.3.5
a Sean J1,... Jn intervalos finitos. Si Xi tiene la distribución uniforme sobre el
intervalo Ji, i = 1,... n y si X1,... Xn son independientes, entonces X = (X1,... Xn) tiene la
densidad uniforme sobre el rectángulo B = J1 x J2 x ... x Jn; porque una densidad

conjunta para X1,... Xn es
 f  xi   
n n 1 1

i 1 i 1 Ji B
si xi  Ji, i = 1,... n [eso es, si x = (x1,... xn)  B], y el producto es cero si x  B. La

aseveración en la otra dirección es también verdadera. Eso es, si X es uniformemente
distribuida sobre B, entonces X1,... Xn son independientes y Xi es uniformemente
distribuida sobre Ji, i = 1,... n (ver Problema 6.30).
b Si X1,... Xk tiene la función masa multinomial con parámetros n  1 y p = (p1,...
pk), donde 0 < pi < 1, i = 1,... k, entonces X1,... Xk no son independientes, porque
0  Pr X 1  n ,..., X k  n    pi   Pr X i  n 

k k
n
i 1 i 1
////
Una generalización final de la noción de independencia ahora puede ser obtenida

permitiendo que Xj de la ecuación (3.12) sean ellas mismas vectores aleatorios e
interpretando los símbolos Ij como rectángulos, j = 1,... n. Así , diremos que los vectores
aleatorios X1,... Xn son independientes si y sólo si la Ecuación (3.12) se cumple siempre que
I1,... In sean rectángulos e Ij sea de la misma dimensión que Xj, j = 1,... n. En este caso, el
Teorema 6.3.1 permanece cierto provisto que interpretamos las fj como las funciones masa y
densidades de los vectores aleatorios Xj, j = 1,... n.
EJEMPLO 6.3.6
Si X1,... Xn son variables aleatorias independientes, y si 1  k < n, entonces los vectores
aleatorios Y = (X1,... Xk) y Z = (Xk+1,... Xn), son independientes. Porque si A = I1 x ... x Ik y B
= Ik+1 x ... x In, son rectángulos arbitrarios (de dimensiónes k y n-k), entonces
Pr Y  A, Z  B   Pr  X 1  I1 ,..., X n  I n 
k  n 
  Pr X j  I j    Pr X j  I j  ////
 j 1   j k 1 
 Pr Y  A Pr Z  B 
194 EJEMPLOS
6.4 EJEMPLOS1
Muchas probabilidades interesantes son de la forma Pr (X  B), donde X es un vector
aleatorio y B es una región adecuada de Rn. Si X es absolutamente continua con densidad f,
entonces
Pr  X  B   B f x dx (4.1)
y si es X es discreta con función masa f, entonces
Pr X  B    f x 
B
El punto es que para evaluar estas probabilidades, debemos ser capaces de evaluar sumas e
integrales múltiples, y por ello dedicamos esta sección a una revisión de técnicas para
evaluar sumas e integrales múltiples. Por simplicidad, restringiremos nuestra atención a
integrales puesto que las técnicas para manejar sumas son similares .
La idea básica es la siguiente. Sea f una función integrable continua sobre R2 y sea B una
región cuya frontera tiene área cero. Entonces
B


 f x , y dxdy   B f x , y dy dx
x


=  B y f x , y dx dy

 (4.2)
donde para cada x, Bx denota el conjunto de y  R para las cuales(x,y)  B, y para cada y, By
denota el conjunto de x  R para los cuales (x,y)  B (ver Figura 10).
Por lo tanto, la evaluación de una doble integral puede ser realizada por la evaluación iterada
de integrales individuales, eso es, evaluando
hx   B f x , y dy
x
para cada x y después calculando
 hx dx


Por supuesto, los papeles de X y Y pueden ser intercambiados; y la suposición que f es

continua puede ser relajada.
1
Figura 10. Encontrando Bx
EJEMPLO 6.4.1
Considere dos partículas radioactivas que se desintegran independientemente a la misma
tasa, y denote por X y Y sus tiempos de vida. ¿Cuál es la probabilidad que la primera
partícula dure al menos dos veces el tiempo de la segunda antes de desintegrarse?. Denote
por X y Y los tiempos hasta que las dos partículas se desintegran. Entonces podemos suponer
que X y Y son variables aleatorias distribuidas exponencialmente, independientes con el
mismo parámetro , y requerimos la probabilidad de que X  2Y, eso es, Pr ((X,Y)  B),
donde B es el conjunto de (x,y)  R2 para los cuales x  2y  0. La densidad conjunta de X y
Y es
 2 e    x y  x  0, y  0
f x , y   
0 de otra manera
Así, debemos evaluar (4.1) con la f y B dadas. Usando la Ecuación (4.2), encontramos que ,
196 EJEMPLOS
B y  2 y ,
es el intervalo de 2y a . Por lo tanto, para y  0,
B f x , y dx  2 y  e
 2    x y  
y dx  e  y 2 y e  x dx
 e  y e 2 y  e 3 y
así que
B f x , y dxdy  0 e dy  13
 3 y
Por simetría, la probabilidad que la segunda partícula sobreviva al menos dos veces el
tiempo de la primera es Pr (Y  2X) = 13 . Por lo tanto, la probabilidad de que una partícula
dure al menos dos veces el tiempo de la otra es Pr(X  2Y) + Pr(Y  2X)= 23 . ////
EJEMPLO 6.4.2 Suponer que B es un rectángulo, digamos B = I x J, y que f(x,y) =

g(x)h(y), donde g y h son funciones integrables. Entonces Bx = J si x  I, y Bx = , el
conjunto vacío, si x  I. Así,
Bx f x , y dy  g x J h y dy (4.3)
si x  I, y el lado izquierdo de (4.3) es cero si x  I. Se sigue que
 f x , y dxdy  IJ f x , j dydx

IxJ
 
 J h y dy I g x dx 
Este hecho fue usado en el Ejemplo 6.1.3a y en la prueba del Teorema 6.2.2. ////
En dimensiones mayores, también es posible reducir integrales múltiples a integrales
individuales iteradas. Por simplicidad, nos limitamos al caso de tres variables x1, x2, y x3. La
fórmula básica es


B f x dx   B  f x1 , x2 , x3 dx3 dx2 dx1
x1
 (4.4)
donde Bx1 es el conjunto de (x2,x3) para los cuales (x1,x2,x3)  B. La integral interior sobre el
lado derecho de (4.4) es ahora una integral de dos dimensiones que puede ser manipulada
por las técnicas antes discutidas.

EJEMPLO 6.4.3
Sea X = (X1,X2,X3) uniformemente distribuida sobre el cubo unitario en R3. ¿Cuál es la
probabilidad que X1  2X2  3X3? Una densidad para X es
1 0  xi  1, i  1,2,3
f x1 , x2 , x3   
0 de otro modo
y deseamos calcular Pr (X  B), donde B es el conjunto de x  R3 para los cuales 0  3x3 

2x2  x1  1. Para cualquier valor fijo de x1, Bx1 es simplemente el conjunto (x2,x3) para los
cuales 0  x3  2x2/3  x1/3. Por lo tanto
Bx1
f  x1 , x2 , x3 dx3 d x2  0
1 / 2  x1

0
2 / 3  x2

dx3 dx2
 0 1 x dx2  121 x12

x /2 2
3 2
Por lo tanto,
B f x dx  0 121 x1 dx1  361

1 2
(4.4 a)
////
Las condiciones más generales, bajo las cuales (4.2 ) y (4.4) son válidas son algo más
complicadas1. Ellas son válidas, sin embargo, si todas las integrales que aparecen en ellas
existen como integrales (Riemann) ordinarias o como integrales impropias, absolutamente
convergentes. Uno por lo tanto automáticamente verifica la validez de las Ecuaciones (4.2) y
(4.4) haciendo los cálculos indicados.
1
7 Ver Thomas (1972), pp. 250-256, para una discusión elemental de (4.2); ver Apostol (1957), pp. 260-268, para una
discusión más completa de (4.2) y (4.4).
198 PROBLEMAS
6.5 PROBLEMAS
6.1 Sea seleccionada una muestra aleatoria ordenada de tamaño k sin reemplazo de una urna
conteniendo r bolas rojas, w bolas blancas y b bolas negras. Denoten X y Y el número de
bolas rojas y blancas en la muestra, respectivamente.
(a) Encontrar la función masa conjunta de X y Y.
(b) Encontrar la funciones masa marginales de X y Y, respectivamente.
(c) ¿Son X y Y independientes?
En el Problema 6.1 sea X el número de la extracción sobre la cual la primera bola roja es
extraída y sea Y el número de la extracción sobre la cual la primera bola blanca es extraída.
Responda las partes (a) a (c).
6.3 Mostrar que la función f, definida por f(x,y) = 1/2(1 + x2 + y2)3/2 para  < x <  y 
< y < , es una densidad bidimensional. Es conocida como la densidad Cauchy
bidimensional estándar.
(a) Mostrar que las densidades marginales son ambas Cauchy unidimensional estándar.
(b) Si X y Y tienen la función de distribución Cauchy bidimensional estándar, ¿son X y
Y independientes?
6.4 Mostrar que la función f, definida por f(x,y) = Cx -1 y -1(1  x  y) -1 para x > 0, y> 0, y
x + y  1, con C = ( +  + )/()()(), es una densidad bidimensional. Aquí  >
0,  > 0, y  > 0. Mostrar que las densidades marginales son densidades beta. ¿Son X y
Y independientes?
(a) Mostrar que la función f , definida por f(x,y) = (½ )(1 + x) exp (x  y), x > 0, y > 0, es
una densidad bidimensional. (b) Si X y Y tienen densidad f, encontrar las densidades
marginales de X y Y . (c) ¿Son X y Y independientes?
(a) Mostrar que la función f, definida por f(x,y) = (½)e-x para x > 0 y x < y < x es una
densidad bidimensional. (b) Si X y Y tienen densidad f, encontrar las distribuciones de X y Y.
(c) ¿Son X y Y independientes?
6.7 Permita que X y Y tengan la densidad del Problema 6.4. Encontrar la densidad conjunta
de W y Z, donde W = X/(1  X) y Z = Y/(1  Y). Sugerencia: Use (1.11b).
6.8 Permita que X y Y tengan densidad conjunta f. Si f(x,y) = g(x)h(y) para toda x y y, donde
g y h no son necesariamente las densidades de X y Y , mostrar que X y Y son
independientes.
6.9 Si X y Y tienen la densidad conjunta f(x,y) = 8xy para 0  x  y  1 y f(x,y) = 0 de otra
manera, ¿son X y Y independientes?
6.10 Sea g una densidad unidimensional continua, y sea f(x,y) = 2g(x)g(y) para x  y y f(x,y)
= 0 si x > y. Mostrar que f es una densidad bidimensional. Si X y Y tienen densidad
conjunta f, encontrar las densidades marginales de X y Y. ¿Son X y Y independientes?
6.11 Si X y Y tienen densidad conjunta, entonces Pr (X = Y) = 0. ¿Es el resultado
necesariamente cierto sólo si suponemos que X y Y tienen distribuciones absolutamente
continuas (unidimensionales)?
6.12 Permita que X y Y tengan una densidad conjunta continua f. Mostrar que
 2
f x , y   Pr  X  x ,Y  y 
xy
Permita que X y Y tengan función de distribución conjunta F, y sean a < b y c < d números
reales. Exprese F(b,d)  F(b,c)  F(a,d) + F(a,c) como una probabilidad.
6.14 Permita que X y Y tengan función de distribución conjunta F. Para  < a <  y  < b
<  exprese F(a,b)  F(a,b)  F(a,b) + F(a,b) como una probabilidad.
Permita que X y Y tengan función de distribución conjunta F, y sea a < b y c < d. Exprese Pr
(a  X  b, c < Y  d) en términos de F.
6.16 Permita que X y Y tengan distribución conjunta F, y denote G la función de distribución
marginal de X. Mostrar que G(a) = lim F(a,n), donde el límite es tomado cuando n 
. Sugerencia: Considere los eventos An que X  a y Y  n y aplique el Teorema 2.5.1.
200 PROBLEMAS
6.17 Complete la prueba del Teorema 6.2.3. Sugerencia: Por ejemplo,

Pr (a  X  b, c < Y  d) = lim Pr (a  1/n < X  b, c < Y  d) cuando n  .
6.18 Mostrar que la función f, definida por f(x,y,z) = 1/2(1 + x2 + y2 + z2)2 para (x,y,z)  R3
es una densidad tridimensional. Si X, Y, y Z tienen densidad conjunta f, encontrar las
densidades marginales de X y de (X,Y). Esta densidad es denominada como la densidad
Cauchy tridimensional estándar.
6.19 Sea i > 0, i = 1,, k, y sea C = (1 +  + k)/(1)  (k). Mostrar que la función
f, definida por
k 1
f x1 ,, xk 1   C  xi i 1 1  x1    xk 1 
 k 1
j 1
para xi > 0, i = 1,, k  1 y x1 +  + xk –1 < 1, es una función de densidad (k  1)-

dimensional. Un vector aleatorio (X1,, Xk) se dice que tiene la distribución Dirichlet
k-dimensional con parámetros 1,, k si y sólo si X1,, Xk –1 tiene la densidad f y Xk
= 1  X1    Xk –1.
6.20 Permita que X1,, Xk tengan la distribución Dirichlet k-dimensional con parámetros
1,, k, y sea j < k. Mostrar que la distribución marginal de X1,, Xj –1 y Xj +  + Xk
es Dirichlet j-dimensional con parámetros i´ = i, i < j, y j´ = j +  + k.
6.21 Probar el siguiente teorema: variables aleatorias X1,, Xn son mutuamente
independientes si y sólo si los eventos Xi  Bi, i = 1,, n, son mutuamente
independientes para cualquier selección de los intervalos B1,, Bn.
6.22 Permita que W, X, Y, Z tengan la densidad conjunta f(w,x,y,z) = 24 para 0 < w < x < y <
z < 1 y f(w,x,y,z) = 0 para otros valores de (w,x,y,z).
(a) Encontrar las densidades marginales de los vectores (W,X) y (Y,Z).
(b) ¿Son estos vectores independientes?
6.23 Permita que W, X, Y, y Z tengan densidad conjunta f(w,x,y,z) = 24/(1 + w + x + y + z)5
para w > 0, x > 0, y > 0, y z > 0 y f(w,x,y,z) = 0 para otros valores de (w,x,y,z). Encontrar
la densidad marginal de W y de (W,X).
(a) ¿Son W, X, Y, y Z independientes?
(b) ¿Son (W,X) y (Y,Z) independientes?
6.24 Considere un dado el cual está cargado de tal manera que la probabilidad de que
exactamente k puntos aparecerán cuando el dado es lanzado es pk = k/21, k = 1,, 6.
Sean n lanzamientos independientes del dado hechos, y sea Xk el número de veces que
exactamente k puntos aparecen.

(a) ¿Cuál es la distribución conjunta de X1,, X6?
(b) ¿Cuál es la distribución de X1 + X2 + X3?
(c) ¿Cuál es la distribución conjunta de (X1 + X2 + X3, X4,X5,X6)?
6.25 Permita que X1,, Xk tengan la distribución multinomial con parámetros n  1 y p =
(p1,,pk). Si j < k, mostrar que la distribución marginal de X1,, Xj y Y = Xj +1 +  +
Xk es multinomial con parámetros n y q = (q1,,qj +1), donde qi = pi para i  j y qj +1 = pj
+1 +  + pk. Sugerencia: Use inducción del Problema 6.24.
6.26 Mostrar que si X1,, Xk tienen la distribución multinomial con parámetros n y p =

(p1,,pk) y si j < k, entonces Y = X1 +  + Xj tiene la distribución binomial con
parámetros n y p1 +  + pj.
Permita que X1,, X4 tengan la distribución multinomial con parámetros p1 = 0.1, p2 = 0.2,
p3 = 0.3, y p4 = 0.4. ¿Cuál es la distribución de (a) X1, (b) X1 + X2, (c) (X1 + X2, X3,X4)?
6.28 Sea una muestra aleatoria desordenada extraída de una urna la cual contiene 4 bolas
rojas, 5 bolas blancas, 6 bolas negras, y 7 bolas verdes. Además denote Xi el número de
bolas rojas en la muestra, X2 el número de blancas, X3 el número de negras, y X4 el
número de verdes.
(a) ¿Cuál es la distribución conjunta de X1,, X4?
(b) ¿Cuál es la distribución de X1 + X2?
(c) ¿Cuál es la distribución conjunta de (X1 + X2, X3,X4)?
6.29 Sean A1,, An eventos los cuales son independientes por parejas pero no mutuamente
independientes (ver Ejemplo 3.3.5). Sea Xi = I A la indicadora de Ai para i = 1,, n.
i
Mostrar que X1,, Xn son independientes por parejas pero no mutuamente

independientes.
6.30 Mostrar que si X = (X1,, Xn) está uniformemente distribuido sobre el rectángulo B =
J1    Jn, donde Jk son intervalos finitos de longitud positiva, entonces X1,, Xn son
independientes y Xi está uniformemente distribuida sobre Ji, i = 1,, n.
6.31 Sean Y y Z variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1). Encontrar la probabilidad de que la ecuación x2 + 2xY + Z = 0
tenga raíces reales (en x).
6.32 Sean X, Y, y Z variables aleatorias independientes todas las cuales tienen la densidad
exponencial f(x) = e-x, x > 0. Encontrar la probabilidad de la ocurrencia simultánea de
los eventos X  2Y y X  2Z.
7
7 TEORÍA DE DISTRIBUCIONES
7.1 DISTRIBUCIONES UNIVARIADAS

A menudo seremos confrontados con el siguiente problema. Se nos da un vector o variable
aleatoria X y una función w, y deseamos encontrar la distribución del vector o variable
aleatoria Y = w(X). En este capítulo consideraremos varias técnicas para encontrar la
distribución de Y del conocimiento de la distribución de X y w.1 Comenzaremos con algunas
generalidades acerca de funciones.
Sea w una función de un conjunto D en otro conjunto T. Entonces D es conocido como el
dominio de w, y el rango de w es el conjunto
E   w x : x  D
Así, y  E si y sólo si hay una x  D para la cual w(x) = y.

Hay dos nociones de inversa que serán de interés para nosotros. Primero, recordemos de la
Sección 5.1 la notación
w1  B   x  D: w x   B
para B  T. Así, w-1 es una función de la clase de todos los subconjuntos de T en la clase de

11 Tácitamente suponemos a través del capítulo que w(X) es un vector o variable aleatoria, eso es, satisface (1.1) del
Capítulo V.
204 DISTRIBUCIONES UNIVARIADAS
todos los subconjuntos de D, y x  w-1(B) si y sólo si w(x)  B. El Lema 5.1.1 asegura que
w-1 conmuta con las operaciones de unión, intersección, y complementación.
w-1 no debe ser confundida con la función inversa, que denotaremos por v. Diremos que w es
uno a uno si y sólo si w(x1)  w(x2) siempre que x1  D, x2  D, y x1  x2. Si w es uno a uno,
entonces para cualquier y  E, el rango, habrá una única x  D para la cual w(x) = y, y
podemos definir una función v sobre E permitiendo v(y) = x si y sólo si w(x) = y. v es
conocida como la función inversa de w. Enfatizamos que v puede ser definida sólo si w es
uno a uno.
Si w es uno a uno con inversa v, entonces v es uno a uno y la inversa de v es w. Más aún, las
relaciones
v w x   x y w v y   y (1.1a )
se cumplen para x  D y y  D, respectivamente. Si D y E son subintervalos de R, y si w es

continuamente diferenciable, entonces la relación (1.1a) puede ser diferenciada para
producir
v'  w x  w'  x   1 y w'  v y  v'  y   1 (1.1b)
para x  D y y  D para las cuales w´(x)  0  v´ (y).

EJEMPLO 7.1.1
a Sea D = T = 0,), y sea w(x) = x2 para x  D. Entonces w es uno a uno, y v(y) =
y para y  E = 0,).
b Sea D = (-, ), y sea T = 0,), y sea w(x) = x2 para x  D. Entonces w no es
uno a uno. Tenemos w-1({0}) = {0} y w-1({y}) = { y ,- y } para y  0. ////
Retornemos ahora a la teoría de probabilidades. Consideraremos el caso que X es una
variable aleatoria y w es una función real definida sobre un subconjunto D  R para el cual
Pr (X  D) = 1. El caso D = R, por supuesto, no está excluido, pero en algunos casos será
conveniente tomar a D como un subconjunto propio de R. La relación básica entre X y Y =
w(X) puede ser ahora establecida.
Lema 7.1.1 Sea X una variable aleatoria, y sea Y = w(X), donde w está definida
sobre un subconjunto D  R para el cual Pr (X  D) = 1. Entonces

Pr Y  I   Pr X  w1  I  
para todos los intervalos I  R.
TEORÍA DE DISTRIBUCIONES 205
PRUEBA El lema es una tautología. Sin lugar a dudas, el evento Y = w(X)  I es

el mismo que el evento X  w-1(I), y así las probabilidades son iguales. ////
Si X es una variable aleatoria discreta, con función masa f digamos, entonces podemos dejar
que D sea el conjunto de posibles valores de X, eso es, una sucesión x0, x1, . . . para la cual
f(x0) + f(x1) + . . .=1, en cuyo caso los elementos de E también pueden ser arreglados en una
sucesión simple, digamos E={y0,y1,...}. Así, si X es discreta, entonces Y también será
discreta, y la función masa g de Y está dada por
g y    f  x (1.2)
xw1   y  
para - < y < . En particular, si w en uno a uno con función inversa v, entonces
g y   f  v y  (1.2a )
para y  E y g(y) = 0 para y  E.

EJEMPLO 7.1.2
a Si X tiene función masa f, entonces Y = X2 tiene función masa g, donde g(0) =
f(0), g(y) = f( y ) + f(- y ) para y > 0 y g(y) = 0 para y < 0. Si, en adición, Pr (X  0) =
1, entonces g(y) = f( y ) para y  0 y g(y) = 0 para y < 0.
b Si X tiene función masa f, entonces Y = eX tiene función masa g, donde g(y) =
f(log y) para y > 0 y g(y) = 0 para y  0. ////
Tiremos ahora la suposición que X es discreta y consideremos la función de
distribución de Y = w(X). Por el Lema 7.1.1
G( y )  Pr (Y  y )  Pr ( X  w1 (( , y ])) (1.3)
para - < y < . Nosotros ilustramos con algunos ejemplos, en todos los cuales tomamos D
= R.
EJEMPLO 7.1.3
a Sea X con función de distribución F, y sea Y = aX + b una función lineal de X. Si
a > 0, entonces Y  y si y sólo si X  (y - b)/a, así que (1.3) requiere
 y  b  y  b
G( y )  Pr  X    F 
 a   a 
para - < y < ; y si a < 0, entonces encontramos

 y  b  yb 
G( y )  Pr  X    1  F 
 a   a 
para - < y < .

b Sea X con función de distribución F, y haga Y =X. Entonces, para y < 0, el
evento Y  y es imposible, y para y  0, el evento Y  y ocurre si y sólo si -y  X  y.
Por lo tanto,
G( y ) = F ( y ) - F (- y-)
para y  0 y G(y) = 0 para y < 0. Si F tiene una densidad continua f, entonces G(y) =
F(y) - F(-y) para y > 0 y G tiene densidad g = G´, donde g(y) = f(y) + f(-y) para y > 0
por diferenciación. ////
Diremos que w es creciente si x < y implica w(x) < w(y), y diremos que w es decreciente si x
< y implica w(x) > w(y). Además, diremos que w es estrictamente monótona si w es creciente
o decreciente. Observe que si D es un intervalo y w tiene una derivada positiva en todos
lados w´, entonces w será creciente. De hecho, si x < y, entonces w(y) - w(x) = w´(z)(y - x),
donde x < z < y por el teorema del valor medio de cálculo diferencial así w(y) > w(x).
Asimismo, si D es un intervalo y w tiene una derivada negativa en todas partes, entonces w
será decreciente.
Si w es estrictamente monótona, entonces w será uno a uno y tendrá una función inversa v.
Más aún, si w es creciente, entonces tendremos w(x)  y si y sólo si x  v(y); y del mismo
modo, si w es decreciente, entonces w(x)  y si y sólo si x  v(y) (ver Figura 11). Así, si w es
creciente, la Ecuación (1.3) se simplifica a
G y   Pr  X  v y   F  v y  (1.4a )
para y  E; y si w es decreciente, entonces
G y   1  F  v y   (1.4b)
para y  E. El Ejemplo 7.1.3a trata el caso especial cuando w es una función lineal.
EJEMPLO 7.1.4
Permita que X tenga una función de distribución F que es continua y estrictamente creciente
sobre D. Entonces, Y = F(X) tiene la distribución uniforme sobre el intervalo (0,1). Sin lugar
a dudas, permitiendo que H denote la función inversa de F, encontramos de (1.4a) que G(y)
= F(H(y)) = y para 0 < y < 1. ////
Si F es absolutamente continua, y si la función v es razonablemente suave, las Ecuaciones
(1.4) pueden ser diferenciadas.
Figura 11. Una función w creciente.

Teorema 7.1.1 Sea D un intervalo abierto, y permita que X tenga una densidad
continua f sobre D. Suponer también que w tiene derivada continua w´ sobre D y que
w´(x)  0 para cualquier x  D. Entonces, Y = w(X) tiene densidad
g y   f  v y  v'  y  y E (1.5)
y g(y) = 0 para y  E. Aquí v denota la función inversa de w.

PRUEBA Puesto que w´ es continua y w´(x)  0 para cualquier x  D,
debemos tener o w´(x) > 0 para toda x  D o w´(x) < 0 para toda x  D. En ambos
casos w es estrictamente monótona, y E es un intervalo. Consideremos el caso cuando
w´(x) > 0 para toda x  D. En este caso, w es creciente, así la Ecuación (1.4a) es
aplicable. Más aún, por (1.1b) v es diferenciable con derivada v´(y) = 1/w´(v(y)), que es
positiva. Por lo tanto, podemos diferenciar (1.4a) para obtener
g y   G'  y   f  v y  v'  y 
que es (1.5) puesto que v´ es positiva. El caso de w decreciente puede ser manejado
análogamente, y podemos tomar g(y) = 0 para y  E puesto que la Pr (Y  E) = 1. ////
Tomando w(x) = ax + b, x  D, donde a  0, encontramos que w´(x) = a  0 y que v(y) = (y -
b)/a para y  E. Por lo tanto, tenemos el siguiente corolario, que extiende al Lema 5.5.1.
Corolario 7.1.1 Sea D un intervalo abierto, y permita que X tenga densidad f que
es continua sobre D. Además, haga Y = aX + b, donde a  0. Entonces Y tiene densidad
 y  b
g y   a
1
f  y E (1.6)
 a 
EJEMPLO 7.1.5
a Si X tiene la distribución normal con parámetros  y 2, 2 > 0, entonces Y = aX+
b tiene la distribución normal con parámetros a + b y a22. Para ver esto, permitamos
que
1  1  x   2
f  x  exp    
 2  2    
en (1.6) y encontremos
1  y  b 1  1  y  a  b  2 
g y   f  exp    
a  a  a  2  2  a  
por simple álgebra. En particular, Z = (X - )/ tiene la distribución normal estándar

(tome a =  -1 y b = -  -1).
b Del mismo modo, si X tiene la distribución gama con parámetros  y  (ver Sección
5.4), y si c > 0, entonces Y = cX tiene la distribución gama con parámetros  y c-1.
////
EJEMPLO 7.1.6
a Si X tiene la distribución exponencial con parámetro  > 0, entonces la
distribución de Y = X puede ser encontrada del Teorema 7.1.1. Indudablemente,
puesto que Pr (X > 0) = 1, podemos tomar D = (0,), y X tiene densidad
f  x   e x x0
que es continua sobre D. Haciendo w(x) = x , x > 0, encontramos fácilmente que E =

(0,), v(y) = y2, y > 0, v´(y) = 2 y, y > 0, y
 
g y   2 yf y 2  2ye  y
2
y0
g es conocida como la densidad Rayleigh con parámetro .

b Si X tiene la distribución uniforme sobre (0,1), entonces Y = -log X tiene la
distribución exponencial con parámetro  = 1. Indiscutiblemente, podemos tomar D =
(0,1) y w(x) = -log x, 0 < x < 1, en cuyo caso E = (0,) y v(y) = e-y, y > 0. Puesto que X
tiene densidad f(x) = 1, 0 < x < 1, se sigue del Teorema 7.1.1 que Y tiene densidad
 
g y   f e  y  e  y  e  y
para y > 0. ////

La hipótesis del Teorema 7.1.1 puede ser relajada. Por ejemplo, si w es creciente y f es
discontinua en cualquier número finito de puntos, entonces G(y) = F(v(y)) fallará en tener
derivada en un número finito de puntos pero aún será absolutamente continua con densidad
g, como se definió por (1.5) (ver Problema 7.18). Asimismo, w´ puede desvanecerse en
cualquier número finito de puntos, provisto que no cambia de signo, de manera que w es aún
monótona (ver Problema 7.18).
El Teorema 7.1.1 no aplica a funciones w que no son monótonas, sin embargo, y en
particular no puede ser aplicado directamente para encontrar la densidad de Y = X2 cuando X
tiene una densidad que es positiva sobre un intervalo abierto conteniendo al cero.
Desarrollaremos ahora una fórmula para encontrar la distribución de Y = w(X) cuando w es
simétrica, eso es, w(x) = w(-x) para todo x. La idea es totalmente simple. Si w es simétrica,
entonces w(X) = w(Z), donde Z = X. Aplicaremos el Teorema 7.1.1 a w y Z. Del Ejemplo
7.1.3b sabemos que si X tiene la función de distribución F, entonces Z tiene función de
distribución H, donde H(z) = F(z) - F(-z-) para z  0. Por lo tanto, si X tiene una densidad
continua f, entonces H(z) = F(z) - F(-z) y Z tiene densidad h(z) = H´(z) = f(z) + f(-z).
Corolario 7.1.2 Permita que X tenga una densidad continua f, y sea C = (0,a), 0 <
a  , un intervalo para el cual Pr (Z  C) = 1, donde Z = X. Si w es continuamente
diferenciable sobre C y w´(x)  0 para cualquier x  C, entonces Y = w(Z) tiene
densidad
g y   h v y  v'  y 
210 DISTRIBUCIONES MULTIVARIADAS
para y  E y g(y) = 0 para y  E. Aquí v denota la función inversa de w, y h(z) = f(z) +

f(-z), z  0.
El corolario se sigue directamente del Teorema 7.1.1. Consideremos un ejemplo.
EJEMPLO 7.1.7
Si X tiene una densidad continua f, entonces Y = X2 tiene densidad
f ( y )  f ( y )
g( y )  y0
2 y
y g(y) = 0 para y  0. De hecho, tenemos w(x) = x2, v(y) = y , y v´(y) = 1/2 y . En

particular, si X tiene la distribución normal estándar con densidad
1
 x2
e 2
f (x)   x 
2
entonces Y tiene la distribución ji-cuadrada con un grado de libertad, eso es,

1
 y
e 2
g( y )  y0
2y
(ver Ejemplo 5.4.2). ////
7.2 DISTRIBUCIONES MULTIVARIADAS

Las nociones simples de la sección precedente se extiende de una dimensión a varias. Así,
considere un vector aleatorio X = (X1,... Xn) con n  2, sean w1,... wk (k  1) funciones reales
definidas sobre una región D  Rn para la cual Pr (X  D) = 1; y sean
Yj  w j ( X1 ,..., X n )
variables aleatorias, j = 1,... k. Consideraremos técnicas para encontrar la distribución

conjunta de Y1,... Yk a partir de la distribución conjunta de X1,... Xn y las funciones w1,... wk.
Como en la sección previa, tenemos la relación básica
Pr (Y1  I1 ,..., Yk  I k )  Pr ( X  wj 1 ( I j ), j  1,..., k ) (2.1)

para todos los intervalos Ij  R, j = 1,... k, puesto que Y  Ij si y sólo si X  wj-1(Ij), j = 1,...
k. Más aún, dejando que w denote la función vectorial
w( x )  ( w1 ( x ),..., wk ( x ))
para x = (x1,... xn)  D, y siendo Y el vector aleatorio Y = w(X) = (Y1,... Yk), tenemos la
relación
Pr(Y  B)  Pr( X  w1 ( B)) (2.2)
para todos los subconjuntos B  Rk para los cuales el lado derecho de (2.2) sea significativo.
Consideremos ahora algunos ejemplos, en todos ellos tomaremos D = Rn.
EJEMPLO 7.2.1
a Sean X1,... Xn independientes con función de distribución común F, y Y = máx
(X1,... Xn) (en este caso tenemos k = 1). Entonces el evento Y  y ocurre si y sólo si
todos los eventos Xi  y, y = 1,... n ocurren. Por tanto, la función de distribución de Y
está dada por
G y   Pr Y  y 
 Pr  X1  y ,..., X n  y 
n
  Pr  X i  y   F  y 
n
i 1
para - < y < . Si F tiene una densidad f continua por piezas, entonces G tiene
densidad
g y   nF  y  f  y
n1
 y 
como puede ser visto por diferenciación.

b Sean X1,... Xn como antes, y Y1 = mín (X1,... Xn) y Y2 = máx (X1,... Xn). Entonces,
para y1 < y2, el evento Y1 > y1 y Y2  y2 ocurre si y sólo si y1 < Xi  y2, i = 1,... n. Así,
Pr Y1  y1 ,Y2  y2   Pr  y1  X i  y2 , i  1,..., n
n
  Pr  y1  X i  y2 
i 1

 F  y2   F  y1  
n
siempre que y1 < y2. De nuevo, si X tiene una densidad f continua por piezas, podemos
212 DISTRIBUCIONES MULTIVARIADAS
diferenciar para obtener una densidad para Y = (Y1,Y2). Una densidad para Y es

g y1 , y2   n n  1 F  y2   F  y1  f  y1  f  y2 
n 2
para y1 < y2 y g(y1, y2) = 0 si y1  y2 (ver Problema 6.12). ////

El Ejemplo 7.2.1a puede ser generalizado como sigue. Sean X1,... Xn variables aleatorias
distribuidas conjuntamente, y sean Y1,... Yn las X1,... Xn arregladas en orden creciente. Eso es,
sea Y1 el mínimo de X1,... Xn, sea Y2 el segundo más pequeño,... y sea Yn el máximo de X1,...
Xn Y1,... Yn son conocidos como los estadísticos de orden de X1,... Xn. Ahora derivaremos la
distribución de Yk para k en general, 1  k  n, en un caso especial.
Lema 7.2.1 Sean X1,... Xn independientes con función de distribución (marginal)
común F, y denotemos por Y1,... Yn a sus estadísticos de orden. Suponer que F tiene
una densidad f continua por piezas. Entonces para 1  k  n, Yk tiene densidad gk ,
donde
 n  1
g k  y   n  F  y  1  F  y  f  y 
k 1 n k
 k  1
para - < y < .
PRUEBA Denote Gk la función de distribución de Yk , y sea Ai el evento Xi 
y para y = 1,... n. Entonces Yk , el k-ésimo más pequeño de X1,... Xn, es menor que o
igual a y si y sólo si al menos k de los eventos A1,... An ocurren. Más aún, los A1,... An
son independientes con probabilidad común P(Ai) = Pr (Xi  y) = F(y) para i = 1,... n..
Por tanto, por el Corolario 4.1.1, tenemos
n  n
Gk  y      F  y  1  F  y 
i n i
(2.3)
i k  i 
Ahora diferenciamos, por la regla del producto, para obtener una densidad. Tenemos
n  n
Gk'  y    i  F  y  1  F  y  f  y 
i 1 ni
i k  i 
 n
   n  i  F  y  1  F  y 
n
f  y
i n  i 1
i k i 
 n   n  1  n
Ahora, (i + 1)   = n  = (n-i)   , así que el (i + 1)-ésimo término en la
 i  1  i  i 
primera suma cancela el i-ésimo término en la segunda, dejando
 n
Gk'  y   k   F  y  1  F  y  f  y 
k 1 n k
 k
 n  1
 F  y  1  F  y  f  y 
k 1 n k
 n
 k  1

EJEMPLO 7.2.2
Sean X1,... Xn variables aleatorias independientes que están uniformemente distribuidas sobre
el intervalo (0,1). Podemos entonces imaginar X1,... Xn como puntos sobre la línea entre 0 y
1. El k-ésimo punto desde la izquierda es simplemente el k-ésimo estadístico de orden Yk . La
densidad de Yk puede ahora ser obtenida adecuando el Lema 7.2.1 a la distribución uniforme
sobre (0,1). F(y) = y para 0  y  1, F(y) = 0 para y < 0, y F(y) = 1 para y > 1. El resultado es
que Yk tiene densidad
 n  1 k 1
g k  y   n  y 1  y 
n k
(2.4)
 k  1
para 0 < y < 1 y gk(y) = 0 para otros valores de y.

Reconocemos (2.4) como una densidad beta con parámetros  = k y  = n - k + 1. Así,
el k-ésimo (desde la izquierda) de n puntos seleccionados independientemente de (0,1) tiene
la distribución beta con parámetros  = k y  = n - k + 1. Más aún, ahora la Ecuación (2.3)
da una expresión para la función distribución-beta, es decir
n
Gk  y    y i 1  y 
ni
(2.5)
i k
para 0  y  1. Así, las funciones distribuciones-beta pueden ser evaluadas de la tabla de

probabilidades binomiales en el Apéndice C. ////
Concluimos esta sección con un resultado extremadamente útil, aunque intuitivamente
obvio, mostrando que funciones de diferentes variables aleatorias independientes (o
vectores) son ellas mismas independientes.
Teorema 7.2.1 Sean X1,... Xn variables aleatorias independientes, y sean w1,... wn
funciones reales que son definidas sobre R. Además, sean Yj = wj(Xj), j = 1,... n,
variables aleatorias. Entonces, Y1,... Yn son variables aleatorias independientes.
PRUEBA Probaremos el teorema en el caso especial n = 2 y las variables
aleatorias X1 y X2 son discretas. Sean y1 y y2 cualesquiera números reales arbitrarios, y
214 CONVOLUCIONES
sea Ai = wi-1({yi}) el conjunto de x  R para las cuales wi(x) = yi, i = 1,2. Entonces, por
(2.1),
Pr Y1  y1 ,Y2  y2    Pr  X1  x1 , X 2  x2  (2.6)
 x1 ,x2 A1 A2
Ahora, puesto que X1 y X2 son independientes, tenemos Pr (X1 = x1, X2 = x2) = Pr (X1 =
x1) Pr (X2 = x2), así que el lado derecho de (2.6) es simplemente
  
  Pr  X1  x1    Pr  X 2  x2 
 x1A1   x2 A2 
que es Pr (Y1 = y1) Pr (Y2 = y2), por (1.2). Por tanto, Pr (Y1 = y1, Y2 = y2) = Pr (Y1 = y1)
Pr(Y2 = y2) para todo y1 y y2, así que Y1 y Y2 son independientes por el Teorema 6.2.2.
////
El Teorema 7.2.1 es también cierto si las Xi o Yj son vectores aleatorios, pero su prueba en
este caso será omitida.
EJEMPLO 7.2.3
a Si X1 y X2 son independientes, entonces así son Y1 = X12 y Y2 = X22.
b Si X1, X2, X3, X4 son independientes, entonces así son Y1 = X1 + X2 y Y2 = X3 + X4
porque los vectores aleatorios (X1,X2) y (X3,X4) son independientes por el Ejemplo
6.3.6. ////
7.3 CONVOLUCIONES
Considere dos variables aleatorias independientes X y Y, y denote Z su suma Z = X + Y. ¿Qué
puede ser dicho acerca de la distribución de Z?
Si ambas X y Y son variables aleatorias valuadas en los enteros, entonces Z también estará
valuada en los enteros. Más aún, para cada entero fijo k, el evento Z = k es la unión sobre j
de los eventos mutuamente exclusivos X = j y Y = k - j. Por tanto, si f y g denotan las
funciones masa de X y Y, respectivamente, entonces la función masa de Z puede ser
calculada como sigue:
h k   Pr  Z  k 

  Pr  X  j ,Y  k  j  (3.1)
j 

  f  j  g k  j 
j 
para k = 0, 1, 2,.... El miembro final de (3.1) define una función que es conocida como la
convolución de f y g. Así hemos mostrado que la función masa de Z = X + Y es la
convolución de f, la función masa de X, y de g, la función masa de Y.
Hay una fórmula correspondiente para la suma de dos variables aleatorias independientes
absolutamente continuas. Es decir, si X y Y son independientes con densidades f y g,
respectivamente, entonces la suma Z = X + Y tiene densidad h, donde
h z    g z  x  f  x  dx

(3.2)
para - < z < , y h es conocida como la convolución de f y g. Para establecer (3.2) denote
H la función de distribución de Z. Entonces, H(z) = Pr ((X,Y)  B), donde B es el conjunto de
(x, y)  R2 para los cuales x + y  z. Por la Ecuación (4.2) del Capítulo 6, esto también puede
ser escrito
B


H  z    f  x  g y  dx dy    g y  f  x  dy dx
zx

El cambio de variable y´ = x + y en la integral interior ahora reduce H(z) a

H  z     g y'  x  f  x  dy' dx
 z

 
z



g y  x  f  x  dx  dy
  h y  dy
z
donde h está definida por (3.2). Así, h es una densidad para Z, como se aseguró.
Teorema 7.3.1 Si X y Y son variables aleatorias independientes, valuadas en los
enteros, con funciones masa f y g, entonces la función masa de Z = X + Y está dada por
la convolución (3.1). Asimismo, si X y Y son variables aleatorias independientes
absolutamente continuas con densidades f y g, entonces una densidad para su suma Z
= X + Y está dada por la convolución (3.2).
216 CONVOLUCIONES
EJEMPLO 7.3.1
Si X y Y tienen distribuciones binomiales con la misma p, 0 < p < 1, digamos
 m
Pr  X  k     p k q m k k  0,..., m
k 
 n
Pr Y  k     p k q n k k  0,..., n
 k
donde q = 1 - p, entonces Z = X + Y tiene distribución binomial con parámetros m + n y p.

Esto es intuitivamente obvio puesto que X puede ser pensada como el número de águilas que
resultan de m lanzamientos de una moneda que tiene probabilidad p de caer águila en cada
lanzamiento, Y puede ser pensada como el número de águilas en n lanzamientos de la misma
moneda, y por tanto Z puede ser pensada como el número de águilas en n + m lanzamientos.
Nosotros podemos también verificar la distribución de Z usando (3.1). Sin lugar a dudas,
tenemos

h k    Pr  X  j  Pr Y  k  j 
j 
k  n  k  j n k  j  m j m j
  p q  p q
j  0 k  j   j
k  n   m
 p k q m n k    
j  0 k  j   j 
 m  n k m n k
 p q
 k 
para k = 0,... m + n. Aquí hemos usado la identidad del Ejemplo 2.3.6a en el paso final.
Debemos también observar que la segunda igualdad arriba se sigue del hecho que Pr (X = j)
= 0 para j < 0 y Pr (Y = k - j) = 0 para j > k. Reducciones de este tipo son muy comunes en la
evaluación de convoluciones. ////
EJEMPLO 7.3.2
Ahora consideremos dos variables aleatorias Poisson independientes X y Y, digamos
e   k e   k
f k  y g k  
k! k!
para k = 0, 1,... donde  y  son positivos. Entonces la función masa de la variable Z = X +
Y es
k  1  1 
h k      j e     k  j e  
j  0 j!    k  j ! 
e      k  k  j k  j
    
k! j  0 j 
1
     k e     
k!
para k = 0, 1,.... (Usamos el teorema binomial en el paso final.) Así, la suma Z = X + Y tiene
la distribución Poisson con parámetro  + . ////
Más ejemplos de convoluciones discretas serán encontrados en los problemas al final de este
capítulo. Ahora consideremos el caso absolutamente continuo.
EJEMPLO 7.3.3
a Sean X y Y variables aleatorias independientes distribuidas exponencialmente,
digamos
f  x   g x   e x x0
y f(x) = g(x) = 0 para x  0. Entonces, Z = X + Y tiene densidad
h z    g z  x  f  x  dx

 0 e    z  x  e  x dx
z
  2 e  z 0 dx   2 ze  z
z
para z > 0 y h(z) = 0 para z  0. Así, la suma de dos variables aleatorias independientes
distribuidas exponencialmente (con el mismo parámetro ) tiene la distribución gama
con parámetros  = 2 y  (ver Sección 5.4).
b Más generalmente, si X y Y son independientes, X tiene la distribución gama con
parámetros 1 y , y Y tiene la distribución gama con parámetros 2 y (el mismo) ,
entonces Z = X + Y tiene la distribución gama con parámetros  = 1 + 2 y , como
puede ser visto por un cálculo semejante al dado en la parte a (ver también Secciones
7.4 y 8.4). En particular, si X tiene la distribución ji-cuadrada con j grados de libertad y
Y tiene la distribución ji-cuadrada con k grados de libertad, entonces Z = X + Y tiene la
distribución ji-cuadrada con j + k grados de libertad. Para ver esto, simplemente haga
1 = j/2, 2 = k/2, y  = ½. ////
218 CONVOLUCIONES
EJEMPLO 7.3.4
a Si X y Y son variables aleatorias independientes normal estándar, entonces Z = X
+ Y tiene la distribución normal con parámetros  = 0 y 2 = 2. Indiscutiblemente, X y
Y tienen la misma densidad f, donde f(x) = (1/ 2 ) exp (  12 x 2 ) , - < x < . Eso es, f
= g. Por tanto,
1  1 1 
g z  x  f  x   exp   z  x   x 2 
2
2  2 2 
1  1 2  z 
2
 exp  z   x   
2  4  2  
por simple álgebra. Por tanto,

2
1  1  1
 z2  x z  z2
4  2 
e  e e 4
h z    dx  (3.3)
2   2 
para - < z < , como se aseguro. [Puesto que el integrando es una densidad normal
con  = z/2 y  2 = ½, la integral en (3.3) es 1.]
b Más generalmente, si X y Y son independientes, X tiene la distribución normal con
parámetro de localidad  y parámetro de escala , y Y tiene la distribución normal con
parámetro de localidad  y parámetro de escala , entonces Z = X + Y tiene la
distribución normal con parámetro  +  y  2   2 por un cálculo similar al dado en
la parte a (ver también Sección 8.4). ////
EJEMPLO 7.3.5
Sean X y Y variables aleatorias independientes normal estándar y sea R = X 2  Y 2 la

distancia de (X,Y) desde el origen. Encontraremos la distribución de R combinando cálculos
previos. X2 y Y2 son independientes (por el Teorema 7.2.1), y ambas tienen distribuciones ji-
cuadrada con un grado de libertad (por el Ejemplo 7.1.7). Por tanto, X2 + Y2 tiene la
distribución ji-cuadrada con dos grados de libertad (por el Ejemplo 7.3.3b), que es
simplemente la distribución exponencial con parámetro  = ½. Finalmente, la raíz cuadrada
de una variable aleatoria exponencial tiene la distribución Rayleigh (por el Ejemplo 7.1.6a),
así que R tiene la distribución Rayleigh con parámetro  = ½. ////
Los Ejemplos 7.3.1 a 7.3.4 se extienden por inducción de dos sumandos a varios.
Teorema 7.3.2 Sean X1,... Xk variables aleatorias independientes, y haga S = X1 +
...
+ Xk .
(i) Si cada Xi tiene la distribución binomial con parámetros ni y (el mismo) p, i =

1,....,k, entonces S tiene la distribución binomial con parámetros n = n1 + . . . + nk
y p.
(ii) Si cada Xi tiene la distribución Poisson con parámetro i, i = 1,... k, entonces
S tiene la distribución Poisson con parámetro  = 1 + . . . + k .
(iii) Si cada Xi tiene la distribución gama con parámetros i y (el mismo) , i =
1,... k, entonces S tiene la distribución gama con parámetros  = 1 + . . . + k y
.
(iv) Si cada Xi tiene la distribución normal con parámetro de localidad i y
parámetro de escala i, i = 1,... k, entonces S tiene la distribución normal con
parámetro de localidad  = 1 + . . . + k y parámetro de escala , donde 2 = 12
+ . . . + k2.
PRUEBA El teorema se sigue fácilmente de los Ejemplos 7.3.1 a 7.3.4 e
inducción matemática. Dejamos la prueba al lector. ////
7.4 JACOBIANOS1
El útil, simple Teorema 7.1.1 se generaliza de una dimensión a varias, y consideraremos su
generalización en esta sección. Empezamos con unas pocas observaciones acerca de
transformaciones de Rn, n  2. Considere una región D  Rn, y sean w1,... wn funciones reales
definidas sobre D. Entonces, la función vectorial
w x    w1  x ,..., wn  x  (4.1)
está definida para x = (x1,... xn)  D. Denote E el rango de la función w. Entonces

referiremos a w como una transformación de D sobre E.
Si D es una región abierta y cada una de las funciones wi es continuamente diferenciable
sobre D, diremos que la transformación w es continuamente diferenciable, y en este caso
definimos el jacobiano de la transformación w por
  
J w  x   det  wi  x 
  x j 
para x  D. Así, Jw(x) es el determinante de la matriz cuya (i,j)-ésima entrada es la derivada
parcial de wi(x) con respecto a xj.
1
2 Esta sección trata un tópico especial y puede ser omitido sin pérdida de generalidad.
220 JACOBIANOS
Los jacobianos juegan el mismo papel en varias dimensiones que el que juegan las derivadas
en una.
Teorema 7.4.1 Sea w una transformación uno a uno, continuamente diferenciable de
una región abierta D  Rn sobre otra región E  Rn, y suponer también que Jn(x)  0
para cualquier x  D. Además, sea X = (X1,... Xn) un vector aleatorio absolutamente
continuo para el cual Pr (X  D) = 1, y suponer que X tiene una densidad f. Si Y =
w(X), entonces Y tiene densidad g, donde
g y   f  v y  J v  y 
para y  E y g(y) = 0 para y  E, donde v denota la función inversa de w.

PRUEBA El teorema se sigue fácilmente de la fórmula del cambio de
variable para integrales multidimensionales.1 Sea B un rectángulo cerrado y acotado, B
 E. Entonces,
 
Pr Y  B  Pr X  w1  B  w1  B f  x  dx
donde la última integral es n-dimensional y dx denota el elemento volumen en Rn. Por

la fórmula del cambio de variable para integrales multidimensionales, ahora nosotros
tenemos
w 1
 B
f  x  dx  B f  v y  J v  y  dy
así que
Pr Y  B  B g y  dy
para todos los rectángulos cerrados y acotados B  E. Puesto que Pr (Y  E) = Pr (X 

D) = 1, el teorema se sigue. ////
Hay muchas condiciones puestas sobre la función w en las hipótesis del Teorema 7.4.1. Sin
embargo, automáticamente las verificamos calculando g. Sin lugar a dudas, calculando una
transformación inversa v, mostramos que w es uno a uno; y puesto que Jv(y) = 1/Jw(v(y)) por
la regla de la cadena, Jw(x) no puede desvanecerse a menos que Jv tenga una singularidad en
y = w(x). Eso es, si Jv es continua, entonces Jw(x)  0 para cualquier x  D. Consideremos
ahora un ejemplo.
EJEMPLO 7.4.1
1
3 Ver Apostol (1957), p. 271, para el caso en el cual f es continua sobre D.
Permita que X1 y X2 tengan densidad conjunta
f  x1 , x2   4 x1 x2
para 0 < x1 < 1 y 0< x2 < 1 y f(x1,x2) = 0 para cualesquiera otros valores de x1 y x2, y defina
las variables
Y1  X1 y Y2  X1 X 2
Encontremos la distribución conjunta de Y1 y Y2.

En este ejemplo podemos tomar D para ser el cuadrado unitario abierto
D   x1 , x2 :0  x1  1,0  x2  1
y la función w para ser

w1 ( x1 , x2 ) = x1 y w2 ( x1 , x2 ) = x1 x2
para (x1,x2)  D. El rango de w es entonces fácilmente visto para ser

E = {( y1 , y2 ): 0 < y2 < y1 < 1}
Para y = (y1,y2)  E, la ecuación y = w(x) tiene una solución única x = (x1,x2), dada por
y2
x1 = v1 ( y1 , y2 ) = y1 y x2 = v2 ( y1 , y2 ) =
y1
Así, w es uno a uno, y v ha sido encontrada. Falta sólo calcular Jv(y) y aplicar el Teorema
7.4.1. Tenemos
 1 0 
J v  y   det  2
1
1   y1
 y2 y1 y1 
que es positiva y continua. Así, Jw(x)  0 para x  D, y por tanto la condición del teorema es
satisfecha. Por el Teorema 7.4.1 ahora obtenemos una densidad para el par aleatorio Y =
(Y1,Y2) como
 
g y1 , y2   f y1 , y2 y11 y11  4 y2 y11
para y = (y1,y2)  E y g(y1,y2) = 0 para otros valores de y.

222 JACOBIANOS
Suponer ahora que en lugar de la distribución conjunta de Y1 y Y2 deseábamos la distribución

de Y2. Podemos proceder como sigue. Definimos Y1 y encontramos la densidad conjunta de
Y1 y Y2, como antes. Entonces calculamos la densidad marginal de Y2 como

g2 ( y )   g( y1 , y ) dy1
////
 y 4 yy11 dy1  4 y log y 1
1
0 < y < 1
EJEMPLO 7.4.2
Sean X1 y X2 independientes, y permita que Xi tenga la distribución gama con parámetros i
y (la misma) , i = 1, 2. Así, las variables X1 y X2 tienen densidad conjunta
1
f  x1 , x2     x111 x2 2 1e    x1 x2 
  1   2 
para x1 > 0 y x2 > 0 y f(x1,x2) = 0 para otros valores de x1 y x2 donde  = 1 + 2.

Encontremos la densidad conjunta de Y1 = X1/(X1 + X2) y Y2 = X1 + X2.
Sea D el conjunto de (x1,x2) para las cuales x1 >0 y x2 >0. Entonces, Pr (X  D) = 1 y f es
continua sobre D. Más aún, podemos escribir Y = w(X), donde
x1
w1  x1 , x2   y w2  x1 , x2   x1  x2
x1  x2
para x = (x1,x2)  D. El rango de w es fácilmente encontrado para ser

E = {( y1 , y2 ): 0 < y1 < 1 y y2 > 0}
y la transformación inversa v [encontrada resolviendo las ecuaciones w1(x1,x2) = y1 y

w2(x1,x2) = y2 para x = (x1,x2)] es
v1 ( y1 , y2 ) = y1 y2 y v2 ( y1 , y2 ) = (1 - y1 ) y2
para y = (y1,y2)  E. Por tanto,
 y2 y1 
J v  y1 , y2   det    y2 y E

 2 y 1  y1
que es continua. Ahora se sigue que Y1 y Y2 tienen densidad conjunta g, donde

g( y1 , y2 ) = f ( y1 y2 , (1 - y1 ) y2 ) y2
1
  y111 1  y1  2 y2 1e  y2
 1

  1   2 
para y = (y1,y2)  E, donde  = 1 + 2.

Esto concluye la aplicación rutinaria del Teorema 7.4.1 para encontrar la densidad de Y1 y
Y2, pero algunos aspectos de este ejemplo particular merecen consideración, que ahora
damos. Habiendo encontrado una densidad conjunta para Y1 y Y2, ahora es un asunto sencillo
encontrar las densidades marginales de Y1 y Y2. Por ejemplo, haciendo c-1 = (1)(2),
encontramos que la densidad marginal de Y1 es
g1  y   cy 1 1 1  y 
 2 1    1  y
0  y2 e 2 dy2
  1   2  1 1
y 1  y  2
 1

  1   2 
para 0 < y < 1. (Para evaluar la integral, hacemos los cambios de variable u = y2 y usamos
la definición de la función gama.) Así, vemos que Y1 tiene la distribución beta con
parámetros 1 y 2. Asimismo, nosotros podemos encontrar la densidad marginal de la
variable Y2,
1
g2  y     y  1e  y
  
para y > 0, así que Y2 tiene la distribución gama con parámetros  = 1 + 2 y . Finalmente,
observamos que g(y1,y2) = g1(y1)g2(y2) para toda y1 y y2, así que Y1 y Y2 son variables
aleatorias independientes. Puesto que ambas Y1 y Y2 dependen de X1 y X2, la última
observación es algo sorpresiva. Depende del hecho de que las variables X1 y X2 tuvieran
distribuciones gama y no necesariamente sería cierto si ellas tuvieran alguna otra función de
distribución. ////
Ahora consideraremos transformaciones lineales, eso es, transformaciones de la forma
w( x ) = xA + b
para x  Rn, donde A = (aij) es una matriz n por n y b = (b1,... bn) es un vector de constantes.
Si A es no singular, entonces la transformación w es invertible con inversa v(y) = (y - b)A-1,
donde A-1 denota la matriz inversa de A. El jacobiano Jv de la transformación es la constante
Jv(y) = det A-1 = 1/(det A). Así, nosotros tenemos el siguiente corolario al Teorema 7.4.1.
224 JACOBIANOS
Corolario 7.4.1 Sea X = (X1,... Xn) un vector aleatorio con densidad f, y haga Y =
XA + b, donde A es una matriz n por n no singular y b  Rn. Entonces Y tiene densidad
g, donde
g y  
1
det A
f  y  b A 
1
para y  Rn.
EJEMPLO 7.4.3
Una matriz A n por n se denomina ortogonal si y sólo si AA´ = I = AÁ, donde la prima
denota la traspuesta e I denota la matriz idéntica n por n. Si A es ortogonal, entonces A-1 =
A´, así que A es no singular; más aún, det A2 = det AA´ = det I = 1, así que det A = 1.
Ahora decimos que si X1,... Xn son variables aleatorias independientes normal estándar y si
Y1,... Yn son definidas por Y = XA, donde A es ortogonal, X = (X1,... Xn), y Y = (Y1,... Yn),
entonces Y1,... Yn son de nuevo variables aleatorias independientes normal estándar.
Para ver esto, observe que una densidad para X está dada por
1  2 xi2  1   2 x12  ... xn2 

1 n 1
n
f  x1 ,..., x n    e   e
i 1 2  2 
para x = (x1,... xn)  Rn por independencia (Teorema 6.3.1). Puesto que xx´ = x12 + . . . + xn2, f
puede ser escrita en la forma
n
 1   2 xx'
1
f  x    e
 2 
para x  Rn. Ahora sea Y = XA, donde A es ortogonal. Entonces, por el Corolario 7.4.1, Y
tiene densidad
g y  
1
det A
 
f yA1  f  yA' 
n n
 1   2 yA' Ay'  1   2 yy'
1 1
  e   e
 2   2 
para y  Rn. Eso es, Y tiene la misma distribución como X, como se aseguró. ////
Concluimos esta sección con fórmulas generales para las densidades de sumas, diferencias,
cocientes, y productos de dos variables aleatorias absolutamente continuas conjuntas.
Corolario 7.4.2 Permita que X1 y X2 tengan una densidad conjunta f. Entonces X1

+ X2 y X1 - X2 tienen densidades
g  y    f  y  x , x  dx

g  y    f  y  x , x  dx

para - < y < , respectivamente. Más aún, si Pr (X2 > 0) = 1, entonces X1/X2 y X1X2
tienen densidades
h1  y   0 xf  xy , x  dx


h2  y   0 x 1 f yx 1 , x dx


PRUEBA Probaremos sólo la primera aseveración del corolario puesto que
las pruebas de los otros tres son semejantes. Sean Y1 = X1 + X2 y Y2 = X2. Entonces la
transformación inversa es X2 = Y2 y X1 = Y1 - Y2, el jacobiano de lo cual es Jv(y) = 1.
Así, Y1 y Y2 tienen densidad conjunta g(y1,y2) = f(y1 - y2, y2) para - < y1, y2 < . Así Y1
tiene densidad marginal
g1  y    f  y  y2 , y2  dy2

para - < y < , como se aseguró. ////

EJEMPLO 7.4.4
Sean X1 y X2 variables aleatorias independientes distribuidas exponencialmente con el
mismo parámetro , así que X1 y X2 tienen densidad conjunta
f  x1 , x2    2 e    x1 x2 
para x1 > 0 y x2 > 0 y f(x1,x2) = 0 para otros valores de x1 y x2. Encontraremos las
distribuciones de Y = X1 - X2 y Z = X1/X2.
a Primero encontremos la distribución de Y. Para y > 0, esta es
g  y    2 0 e    x  y  e  x dx

 
  2 e  y 0 e 2 x dx  e  y
2
y por simetría (Y tiene la misma distribución que -Y), debemos tener g  y   g   y  .

226 MUESTREO DE UNA DISTRIBUCIÓN NORMAL
Por lo tanto,
  y
g  y   e
2
para - < y < . g es conocida como la densidad exponencial bilateral con
parámetro .
b Asimismo, Z = X1/X2 tiene densidad
h1  z   0 x 2 e  xz e  x dx

1
 0 x 2 e   1 z  x dx 

1  z 2
para z > 0. ////
EJEMPLO 7.4.5
el intervalo (0,1), sea Y1 = mín (X1,... Xn), y sea Y2 = máx (X1,... Xn). Encontremos la
distribución del rango R = Y2 - Y1. Por el Ejemplo 7.2.1b, Y1 y Y2 tienen densidad conjunta
f  y1 , y2   n n  1 y2  y1 
n2
para 0  y1  y2  1 y f(y1,y2) = 0 para otros valores de y1 y y2. Por lo tanto, R tiene la

densidad
g r   0 n n  1r n2 dy  n n  11  r r n2

1r
para 0  r  1 y g r   0 para otros valores de r. ////
7.5 MUESTREO DE UNA DISTRIBUCIÓN NORMAL1

Como una aplicación de los resultados de las cuatro secciones previas, ahora consideramos
un problema práctico importante, el análisis de errores de medidas. Suponer que mediciones
repetidas son hechas para determinar alguna cantidad desconocida  donde cada medición
involucra un error. Más precisamente, denoten X1,... Xn las mediciones, y suponer que
pueden ser escritas en la forma
1
X i =   Zi (5.1)
donde Z1,... Zn son variables aleatorias independientes normal estándar. Aquí, los términos
Zi denotan los errores de medición, y  > 0 representa la precisión del dispositivo de
medida, con valores grandes de  correspondiendo a mediciones imprecisas. El parámetro 
puede o no ser conocido.
EJEMPLO 7.5.1
a Para determinar el contenido de nicotina promedio  en una marca particular de
cigarros n = 400 cigarros son fumados. Entonces dejamos que Xi denote la cantidad de
nicotina encontrada en el i-ésimo cigarro, i = 1,... n.
b Para determinar la ganancia de peso  que puede ser esperada de una nueva dieta,
n animales experimentales son alimentados con la dieta. En este ejemplo, permitimos a
Xi denotar la ganancia de peso del i-ésimo animal. ////
Para estimar la cantidad  de la Ecuación (5.1), parece natural tomar el promedio de las
observaciones
1
X  X1  X n 
n
Por tanto, la interrogante que confrontamos es: ¿Qué tan cerca podemos esperar que X esté
de ? Si el parámetro  de la Ecuación (5.1) es conocido, entonces la respuesta a nuestra
pregunta es fácil. Sin duda, tenemos

N
 X    nZ
donde Z = (Z1 + ... + Zn)/n. Ahora, por el Teorema 7.3.2, Z1 + ... + Zn tiene la función de
distribución normal con parámetro de localidad 0 y parámetro de escala n , así que nZ =
(Z1 + ... + Zn)/ n tiene la distribución normal estándar por el Ejemplo 7.1.5a. Se sigue
entonces que
 a a   
Pr  
 n
 X 
n
  Pr   a 
 
n
 X     a


 Pr  a  nZ  a 
   a      a   2  a   1
donde  denota la función de distribución normal estándar. Así, podemos especificar un

intervalo alrededor de ,
 a a 
I X  ,X   (5.2)
 n n
que contendrá la cantidad desconocida  con probabilidad 2(a) - 1. El intervalo Y de la

Ecuación (5.2) es conocido para los estadísticos como un intervalo de confianza para , y la
probabilidad de cobertura  = 2(a) - 1 es conocida como su coeficiente de confianza.
Típicamente, el valor de a es seleccionado para dar a  un valor deseado, tal como 0.95 o
0.99.
EJEMPLO 7.5.2
Si en el Ejemplo 7.5.1a se sabe que  = 1, y si encontramos que X = 9.32 miligramos de
nicotina por cigarro, entonces podemos estar 95 porciento confiados que 9.22 <  < 9.42 en
el sentido que (9.22,9.42) es un intervalo de confianza para  con coeficiente de confianza
0.95. Sin duda, tomando a = 1.96 produce  = 0.95 y a / n = 0.098. ////
Desafortunadamente, el parámetro  es usualmente desconocido, así que los puntos
extremos del intervalo (5.2) no pueden ser calculados. En este caso 2 debe también ser
estimado de las Xi y es usualmente estimado1 por
 Xi  X 
1 n 2
S2  (5.3)
n  1 i1
Ahora encontraremos la distribución de la variable aleatoria
n X  
T
S
que puede entonces ser usada en la misma forma que usamos la distribución de
 
n /   X    para ubicar cotas sobre el error X   .
1
5 La sumatoria es dividida por n - 1 en lugar de n porque los números Xi - X , i = 1,... n satisfacen una restricción
lineal, 
n
i 1  X i  X   0.
Teorema 7.5.1 Haga k = n - 1. Entonces T tiene densidad
 k  1
 
 2 
gk  t   1
 k 1
 k  t  2
2
k    1  
 2  k
para - < t < . En particular. Pr (T > t) = Hk(t) para t > 0, donde
H k t   2 t gk  s ds

Probamos el Teorema 7.5.1 abajo, pero primero indicaremos algunas aplicaciones. Se sigue
del Teorema 7.5.1 que
 aS aS 
Pr    X    Pr  T  a   1  H k a 
 n n
 
para cualquier a > 0. Así, el intervalo I = X  aS / n , X  aS / n es un intervalo de
confianza para  con coeficiente de confianza  = 1 - Hk(a). La Tabla 11 da los valores de a
para los cuales Hk(a) = 1 -  para valores seleccionados de k y .
EJEMPLO 7.5.3
Si en el Ejemplo 7.5.1b alimentamos n = 26 animales experimentales y observamos una
ganancia de peso promedio de X = 62.5 gramos con una  estimada de S = 3.16 gramos,
entonces podemos estar 95 porciento confiados que 61.2 <  < 63.8. Aquí tomamos a = 2.06
y encontramos que aS/ n = 1.3. ////
Ahora probaremos el Teorema 7.5.1. Comenzamos con un resultado preliminar que es
interesante en sí mismo.
Teorema 7.5.2 Sean Z1,... Zn variables aleatorias independientes normal estándar,
y defina R por
R    Zi  Z 
n 2
(5.4)
i 1
Entonces, R tiene la distribución ji-cuadrada con n -1 grados de libertad y es

independiente de Z .
PRUEBA Considere la matriz A = (aij), donde
1
ain  i  1,..., n
n
1
aij  i  1,..., j ; j  n
j j  1
j
a j  j 1  jn
j j  1
aij  0 i  j  1; j  n
Entonces, es fácilmente verificado que la matriz A es ortogonal, eso es, AA´ = I (la
idéntica n × n) = AÁ. Sea el vector aleatorio W = (W1,... Wn) definido por W = ZA,
donde Z = (Z1,... Zn). Eso es, sea
Wn  nZ
i1 Zi  jZ j 1
j
Wj  jn (5.5)
j j  1
Tabla 11
k
Hk(a) 5 10 25 
0.01 4.03 3.17 2.79 2.60
0.05 2.57 2.23 2.06 1.96
0.10 2.015 1.81 1.71 1.645
Entonces, puesto que Z1,... Zn son variables aleatorias independientes normal estándar,
y puesto que A es ortogonal, se sigue W1,... Wn son también variables aleatorias
independientes normal estándar (Ejemplo 7.4.3). Más aún, puesto que WW´ =
(ZA)(ZA)´ = ZAA´Z = ZZ´, tenemos
Wi 2  WW'  ZZ'   Zi2    Zi  Z   nZ 2

n n n 2
(5.6)
i 1 i 1 i 1
donde el último paso se sigue por simple álgebra. Puesto que Wn2 = n Z por (5.5),
tenemos
n 1
R   Wi 2
i 1
de la cual el teorema se sigue fácilmente. Sin duda, puesto que cada Wi tiene la
distribución normal estándar, cada Wi2 tiene la distribución ji-cuadrada con un grado de
libertad (Ejemplo 7.1.7), y por tanto R tiene la distribución ji-cuadrada con n-1 grados
de libertad [Teorema 7.3.2(iii)]. Más aún, puesto que R depende sólo de W1,... Wn-1
mientras que Z depende sólo de Wn, se sigue que R y Z son independientes (Teorema
7.2.1). ////
PRUEBA Del Teorema 7.5.1 Para aplicar el Teorema 7.5.2 a la prueba del
Teorema 7.5.1, escribimos X y S en términos de Z y R. Antes hemos observado que (
n /)( X -) = n Z , y un cálculo similar produce (n-1)S2 = 2R. Por tanto,
X  nZ
T n  (5.7)
S R /  n  1
es el cociente de dos variables aleatorias independientes.

La distribución de T puede ahora ser encontrada del Teorema 7.4.1. Sin duda, por
independencia, Y = ( n /)( X - ) y R tienen densidad conjunta
1
k 1 
1
r  y2 
f  y ,r   C r 2 e 2 r0
donde k = n - 1 y C -1 = 2 2k   k / 2 . Considere la transformación
k
T Y y UR
R
El rango de esta transformación es el conjunto de (t,u)  R2 para las cuales u > 0, y la

transformación inversa es
U
R U y Y T
k
El jacobiano de la transformación inversa es Jv(t,u) = u / k , u > 0, así que la densidad

conjunta de T y U es
1
C 2 k 1  1  t2  
gt ,u  u exp  1   u u0
k  2 k 
La densidad marginal de T es por tanto
232 DESCOMPOSICIÓN RADIOACTIVA
1
C  2 k 1  1  t2  
gk t    u exp  1   u du
k 0  2 k 
1
 k 1 
1
 k 1
C 22  t2  2 
1
 k 1
 1   0 v 2 exp  v dv
k  k
 k  1
 
 2 
 1
 k 1
 k  t 
2 2
k    1  
 2  k
para - < t < , como se aseveró. ////
La densidad gk encontrada en el Teorema 7.5.1 es conocida como la densidad t con k grados
de libertad. Tablas más extensas pueden ser encontradas en Beyer (1966).
7.6 DESCOMPOSICIÓN RADIOACTIVA1

En esta sección presentaremos un modelo para la emisión radioactiva. Imaginaremos que
una substancia radioactiva, tal como el radio o el uranio, contiene un gran número, digamos
N, de átomos inestables. Más aún, supondremos que cada uno de los átomos inestables puede
decaer emitiendo una partícula , una partícula , o un rayo , en cuyo momento el átomo se
hace estable y no es capaz por más tiempo de descomponerse. Imaginemos que los N átomos
inestables están identificados de alguna manera, y denote Xi el tiempo en que la partícula
identificada i decae, donde el tiempo es medido desde un punto de inicio fijo denominado
tiempo cero. Haremos las siguientes suposiciones acerca de la manera en que los N átomos
decaen:
A1 X1,... XN son variables aleatorias independientes que tienen una función de
distribución común F.
A2 F(t) = 0 para t < 0, y F(s) < 1 para toda s > 0.
A3 Para toda s > 0 y t > 0, Pr (X > s + tX > s) = Pr (X > t).
La primera suposición es en sí misma explicatoria, y la segunda asegura que las
probabilidades condicionales que están en A3 están bien definidas. La tercera suposición
requiere que el proceso de decaimiento sea espontáneo en el sentido que el decaimiento de
un átomo inestable particular no se hace más o menos verosímil cuando el tiempo
1
1
transcurre. De estas tres suposiciones, derivaremos una descripción exacta del
comportamiento observable de la substancia radioactiva.
Sea G(t) = Pr (X1 > t) = 1 - F(t), t  0. Entonces A2 requiere que G(s + t)/G(s) = G(t) para
toda s > 0 y t > 0 o, equivalentemente,
G( s + t ) = G( s)G( t ) ( 61
.)
para s > 0 y t > 0.

Lema 7.6.1 Hay una constante  > 0 para la cual G(t) = e t para t > 0.
PRUEBA La Ecuación (6.1) requiere que G(m/n) = G(1/n + . . . +1/n) =
G(1/n)m para enteros positivos m y n (por inducción matemática). En particular,
debemos tener G(1) = G(1/n)n, n = 1,2,.... Ahora, puesto que G(1)  0 por A2, podemos
definir un número  por e  = G(1), y se sigue que para todos los números racionales r
(= m/n, donde m y n son enteros positivos),
m
 1
G r   G   G1  e r
r
 n
Finalmente, si t > 0 es cualquier número real, entonces hay una sucesión de números
racionales r1, r2,... para los cuales rn  t cuando n   y rn > t para cualquier n =
1,2,.... Puesto que G es continua por la derecha (Teorema 5.8.1) y e t es continua,
ahora tenemos
G t   lim Grn   lim ern  et

n n
para t > 0 arbitraria. Finalmente,  > 0 puesto que G(t)  0 cuando t  . ////
Así, hemos mostrado que la función de distribución común F de X1,... XN es la función de
distribución exponencial
F ( t ) = 1  e- t t0
donde  > 0 es como en el Lema 7.6.1. La mediana de F [la solución de F(m) = 1/2],
m =  1log2
es conocida como la vida-media de la substancia, puesto que aproximadamente la mitad de

las partículas habrá decaído para el tiempo m.
1
7 Ver, por ejemplo, Blackwood, Osgood, y Ruark (1957), p. 271.
Sea Y1 el mínimo de X1,... XN , Y2 el segundo más pequeño,.... Así, Yi es el tiempo al cual el i-

ésimo decaimiento ocurre, i = 1, ..., N. Y1,... YN son los estadísticos de orden de X1,... XN. Las
distribuciones marginales de los estadísticos de orden de una función de distribución
arbitraria F fueron encontradas en el Lema 7.2.1. Aplicando este resultado donde F es la
función de distribución exponencial con parámetro  ahora produce la distribución de Yk
para k = 1, ..., N. De hecho, por el Lema 7.2.1, Yk tiene densidad
 N  1
hk  y   N   F  y  1  F  y  f  y
k 1 N k
 k 1 
 N  1
 
y k 1   N  k y
 N  1 e e e y
 k 1 
para y > 0 y hk(y) = 0 para y  0. En particular, Y1, el tiempo al cual el primer decaimiento
ocurre, tiene la distribución exponencial con parámetro  = N.
Ahora introduzcamos el proceso de conteo Nt, definido para t > 0 por
Nt = k si y sólo si Yk  t  Yk 1
donde (por convención) Y0 = 0 y YN +1 = . Así, Nt es el número de emisiones que han

ocurrido hasta el tiempo t.
Teorema 7.6.1 Para t  0, Nt tiene la distribución binomial con parámetros N y p =
1  et . Eso es,
 N
 
Pr ( N t  k )    1  et e  N k  t
k
(6.2)
k 
para k = 0,... N.
PRUEBA Sea Bi el evento Xi  t. Eso es, sea Bi el evento que la partícula
nombrada i ha decaído para el tiempo t. Entonces, la suposición A1 implica que B1,...
BN son independientes con probabilidad común P (Bi) = Pr (Xi  t) = F(t) = 1  et para
t  0. Más aún, Nt = k si y sólo si exactamente k de los B1,... BN han ocurrido.
Finalmente, por el Teorema 4.1.1, la probabilidad de que exactamente k de los B1,... BN
ocurrirán está dada por el lado derecho de (6.2). ////
Puesto que el número de átomos inestables es usualmente muy grande, parece natural
investigar la distribución de Nt cuando N   y   0 de tal manera que  = N
 
permanezca fijo. Haga pN = F(t); entonces NpN = N 1  e t  Nt   t, así
1
lim Pr  N t  k    t  k e   t k  01
, ,2,...
k!
por el Teorema 4.3.1. Así, Nt tiene aproximadamente la distribución Poisson con parámetro
t.  es algunas veces denominada la intensidad de la radiación.
Es también posible describir el proceso de decaimiento en términos de los tiempos entre
llegadas (los tiempos entre decaimientos),
Zi = Yi  Yi-1 i = 1,..., N
Teorema 7.6.2 Z1,... ZN son variables aleatorias independientes. Más aún, Zi tiene
la distribución exponencial con parámetro i = (N - i + 1) para i = 1,...., N.
Eso es, el tiempo de espera hasta que ocurra el primer decaimiento es distribuido
exponencialmente con parámetro  = 1 = N. De ahí en adelante, se inicia un nuevo
proceso con N - 1 átomos inestables, y el tiempo de espera hasta que el siguiente
decaimiento ocurra es distribuido exponencialmente con parámetro 2 = (N - 1). De ahí en
adelante, el proceso inicia de nuevo con N - 2 átomos inestables, etc.
PRUEBA Del Teorema 7.6.2 Por el Problema 7.22, Y1,... YN tienen densidad
conjunta

h y1 ,..., y N   N! N exp   y1 ... y N  
para 0 < y1 < y2 <  < yN <  y h(y1,... yN) = 0 para otros valores de y1,... yN. Haga
Wi = ( N  i  1)Zi = ( N  i + 1)( Yi  Yi-1 )
para i = 1,, N. Entonces

i Wj
Yi  
j 1 N  j 1
para i = 1,, N, así que la transformación es invertible y el jacobiano de la

transformación inversa es 1/N!. Más aún, por simple álgebra,
N N
Wi   Yi
i 1 i 1
Ahora se sigue fácilmente del Teorema 7.4.1 que W1,... WN tienen densidad conjunta

g w1 ,..., wN    N exp  w1  wN  
para wi > 0, i = 1,... N, y g(w1,... wN) = 0 para otros valores de w1,... wN. Eso es, W1,...
WN son variables aleatorias independientes, y Wi tiene la distribución exponencial con
parámetro  para i = 1,... N. Así,
Wi
Zi 
N  i 1
son independientes, por el Teorema 7.2.1, y Zi tiene la distribución exponencial con
parámetro i = (N - i +1), por el Ejemplo 7.1.5b. ////
REFERENCIAS
Para un desarrollo más completo de las ideas de la Sección 7.5, ver Hogg y Craig (1970),
cap. 6. Para un desarrollo diferente de la distribución Poisson como el modelo apropiado
para la descomposición radioactiva, ver Feller (1968), cap. 17.
7.7 PROBLEMAS
7.1 Una moneda no cargada es lanzada n veces. Cada vez que un águila aparece ganas un
dólar, y cada vez que un sol aparece pierdes un dólar. Denote X sus ganancias netas
(posiblemente negativas). Encontrar la función masa de X.
7.2 Permita que X tenga la distribución geométrica con parámetro p, 0 < p < 1. Encontrar la
función masa de Y = mín (X,10).
7.3 Sea X uniformemente distribuida sobre (0,1). Encontrar una densidad para Y = sen
(½)X.
7.4 Sea X uniformemente distribuida sobre (0,1). Encontrar densidades para Y = sen 2X y
Z = cos 2X.
7.5 Sea X uniformemente distribuida sobre (0,1). Encontrar una densidad para Y = X/(1 
X).
7.6 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar una densidad para
X, donde  > 0.
7.7 Tenga X la distribución normal con parámetro de localidad  y parámetro de escala .
Encontrar una densidad para Y = eX. La distribución de Y se denomina distribución log
normal.
7.8 Permita que X tenga la función de distribución normal estándar . ¿Cuál es la
238 PROBLEMAS
distribución de (X)?
7.9 Permita que X tenga la función de distribución normal estándar . ¿Cuál es la
distribución de (X)2?
7.10 Permita que X tenga la distribución normal con parámetro de localidad  y parámetro
de escala . Encontrar una densidad para Y = X2.
7.11 Permita que X tenga la distribución Cauchy estándar. Encontrar una densidad para Y =
X2 .
7.12 Mostrar que si X tiene la distribución Cauchy estándar con densidad f(x) = 1/(1 + x2)
para  < x < , entonces 1/X también tiene la densidad Cauchy estándar.
7.13 Permita que X tenga densidad f; sea Y = X si X < 0, y sea Y = 2X si X > 0. Encontrar
una densidad para Y.
7.14 Permita que X tenga la distribución exponencial con parámetro , y sea Y = [X] el
mayor entero que es menor o igual a X. Encontrar la función masa de Y.
7.15 Sean X y Y como en el Problema 7.14, y sea Z = X  Y. Encontrar una densidad para Z.
7.16 Sean Y y Z como en el Problema 7.15. Mostrar que Y y Z son independientes.
7.17 Sea G una función de distribución continua que tiene una derivada continua Gén todos
excepto un número finito de puntos, digamos a1,, an, donde G´ puede no existir.
Mostrar que
Gx    g  y  dy
x

para toda x,  < x < , donde g(y) = G´(y), y  ai, y g puede estar definida
arbitrariamente en los puntos a1,, an. Sugerencia: Para a1 < x < a2, escribir G(x) =
G(x)  G(a1 + ) + G(a1 + )  G(a1  ) + G(a1  ), use el teorema fundamental del
cálculo, y permita que   0. Entonces proceda por inducción.
7.18 Probar el Teorema 7.1.1:
(a) Bajo la suposición de que f es continua por piezas, eso es, continua en todos excepto
un número finito de puntos.
(b) Bajo la suposición de que la función w(x) = 0 en un número finito de puntos y w´ no
cambia de signo.
7.19 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1). Sea Y1 = mín (X1,, Xn), y Y2 = máx (X1,, Xn). Encontrar una
densidad conjunta para Y1 y Y2.
7.20 Encontrar densidades para Y1, Y2, y (Y1,Y2), como fueron definidas en el Problema 7.19,
cuando X1,, Xn son variables aleatorias independientes las cuales son distribuidas
exponencialmente con parámetro  > 0.
7.21 Sean X1,, X5 variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1), y denoten Y1,, Y5 los estadísticos de orden. Encontrar la
probabilidad de que 0.3 < Y3 < 0.7.
7.22 Sean X1,, Xn variables aleatorias independientes con densidad común f, y sean Y1,,
Yn los estadísticos de orden. Mostrar que una densidad conjunta para Y1,, Yn es
g(y1,, yn) = n! f(y1)  f(yn)

si  < y1 <  < yn <  y g(y1,, yn) = 0 para otros valores de y1,, yn. Sugerencia:
Suponer que f es continua, y considere h-n Pr (yi  h < Yi  yi, i = 1,, n) para h
pequeña.
7.23 (a) Sean X1,, Xn independientes con densidad común f y función de distribución F, y
denoten Y1,, Yn los estadísticos de orden. Además, sean 1  k1 < k2 <  < kr  n
enteros. Mostrar que Y1,, Yr tienen densidad conjunta
F  y1  1
n! k 1
k1  1!k 2  k1  1! n  k r !

 F  y 2  y1  2 1  F  y r  f  y1  f  y r 
k  k1 1 nkr
para  < y1 <  < yr < .

(b) Especialice la parte (a) al caso donde F es la distribución uniforme sobre (0,1).
7.24 Sean X1 y X2 variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1). Encontrar una densidad para Y = X1  X2. Sugerencia: Dibuje
una gráfica.
7.25 Sean X y Y variables aleatorias independientes las cuales tienen la distribución Poisson
con el mismo parámetro . Encontrar la función masa de Z = X  Y.
7.26 Sean X1,, Xk uniformemente distribuidas sobre la bola unitaria
B = {x  Rk : x12 +  + xk2  1}
Encontrar la función de distribución de R, donde R2 = X12 +  + Xk2.
7.27 Sean X y Y variables aleatorias independientes, y sean u y v funciones crecientes.
Mostrar directamente que u(X) y v(Y) son independientes.
7.28 Sean X y Y variables aleatorias independientes las cuales están uniformemente
240 PROBLEMAS
distribuidas sobre (0,1). Mostrar que Z = X + Y tiene la densidad triangular
z 0  z 1
f z   
2  z 1 z  2
7.29 Sean X y Y variables aleatorias independientes las cuales están geométricamente

distribuidas con el mismo parámetro p. Encontrar la función masa de X + Y.
7.30 Sean X1, X2, y X3 variables aleatorias normal estándar. Encontrar una función densidad
para R  X 1 2  X 2 2  X 3 2 .
7.31 Sean X1 y X2 variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1). Encontrar una densidad para X1X2. Sugerencia: Considere
logaritmos.
distribuidas sobre (0,1). Encontrar la distribución de Y = X1 X2  Xn.
7.33 Sean X y Y independientes con densidad común f(x) = (½)e-x,  < x < . Encontrar
una densidad para X + Y.
7.34 Mostrar que si X y Y son independientes con densidades f y g, respectivamente,
entonces Z = X/Y tiene densidad

hz    y f zy g  y  dy

para  < z < . Sugerencia: Calcule la función de distribución y diferencie.

7.35 Mostrar que si X y Y son variables aleatorias independientes normal estándar, entonces
Z = X/Y tiene la distribución Cauchy estándar.
7.36 Permita que X tenga la función de distribución F, sea Y uniformemente distribuida
sobre (a,a), a > 0, y sean X y Y independientes. Mostrar que la función de distribución
de Z = X + Y es
H z   F z  y  dy
1 a
2a  a
7.37 Si X y Y son independientes con funciones de distribución F y G, respectivamente,

mostrar que Z = X + Y tiene la función de distribución

H z    F z  y  dG y 

Si F es absolutamente continua, mostrar que H es también absolutamente continua, aun

si G es discreta.
7.38 Sean X1 y X2 variables aleatorias independientes normal estándar. Mostrar que X1  X2 y
X1 + X2 son también independientes.
7.39 Sean X y Y variables aleatorias independientes normal estándar. Encontrar la
distribución conjunta de R y , donde X = R cos  y Y = R sen .
7.40 Sean X, Y, y Z variables aleatorias independientes normal estándar. Definir R, , y 
por /2 <   /2,  <   , R  0, X = R cos  cos , Y = R cos  sen , y Z = R
sen .
(a) Mostrar que R, , y  tienen densidad conjunta f(r,,) = (1/2)3/2 cos  r2 exp
((½)r2) para /2 <   /2,  <   , r  0.
(b) Mostrar que (,) tienen densidad marginal g(,) = (1/4) cos  para /2 <  
/2,  <   .
(c) ¿Cuál es la distribución de R?
(d) ¿Son R, , y  independientes?
7.41 En la notación del Problema 7.40, sea U = cos  cos , V = cos  sen , y W = sen .
Mostrar que (U,V,W) tiene la distribución uniforme sobre la superficie de la esfera
unitaria en R3 en el sentido que Pr ((U,V,W)  B) = (área de la superficie de B)/4 para
subconjuntos B de la superficie de la esfera.
7.42 Sean X1, X2, y X3 variables aleatorias independientes exponencialmente distribuidas con
el mismo parámetro. Encontrar la distribución conjunta de Y1 = X1/(X1 + X2 +X3), Y2 =
X2/(X1 + X2 +X3), y Y3 = X1 + X2 +X3.
7.43 Más generalmente, sean X1,, Xk +1 independientes, y permita que Xi tenga la
distribución gama con parámetros i y , i = 1,, k. Encontrar la distribución conjunta
de Y1,, Yk +1, donde Yk +1 = X1 +  + Xk +1 y Yj = Xj/Yk +1, j = 1,, k.
7.44 Mostrar que la distribución marginal (conjunta) de Y1,, Yk y (1  Y1    Yk) en el
Problema 7.43 es la distribución Dirichlet con parámetros 1,, k +1.
7.45 Si X y Y tienen la distribución normal bidimensional estándar con parámetros r, 1 < r
< 1, encontrar densidades para X  Y y X + Y .
7.46 Sean X1 y X2 variables aleatorias independientes, y permita que Xi tenga la distribución
242 PROBLEMAS
gama con parámetros i y , i = 1, 2. Encontrar la distribución de X1/X2.

7.47 Denote gk la densidad de la distribución t con k grados de libertad. Mostrar que
1
1  2t2
lim g k t   e
2
cuando k   para toda t,  < t < .
7.48 Una matriz B es denominada una matriz proyección si y sólo si B´= B = B2. Mostrar que
si B es una matriz proyección y X1,, Xn son variables aleatorias independientes
normal estándar, entonces XBX´ tiene la distribución ji-cuadrada sobre r grados de
libertad, donde r es el rango de B. Sugerencia: Si B es cualquier matriz simétrica,
entonces hay una matriz ortogonal A tal que ABA´ es diagonal.
7.49 Para 0 < s < t < , encontrar la distribución de N(s,t) = Nt  Ns.
7.50 Mostrar que cuando N   de tal manera que  = N permanece fijo,
1 k
lim Pr (N(s,t) = k) =  (t  s)ke- (t  s)
k!
para cualquier k = 0, 1, fija.
7.51 Mostrar que si s1 < t1 < s2 < t2, entonces N(s1,t1) y N(s2,t2) son asintóticamente
independientes en el siguiente sentido. Cuando N   y   0 con  = N fija
 k j
lim PrN s1 , t1   j , N s 2 , t 2   k   t1  s1  j t 2  s 2 k e   t  s   t
1 1 2  s2 
j! k!
para toda j y k fijas.
8
8 ESPERANZA
8.1 ESPERANZA
Sea X una variable aleatoria discreta con función masa f, y sea C = {x0,x1, ...} un conjunto
infinito contable o finito para el cual Pr (X  C) = 1. Definimos la esperanza, o valor
esperado, de X para ser el número
E  X    xf x  (1.1)
C
provisto que la suma sobre el lado derecho de (1.1) converge absolutamente.1

Podemos interpretar la esperanza como sigue. Suponer, por sencillez, que C = {x0,x1,... xk} es
un conjunto finito, e imagine que el experimento a que X se refiere es repetido n veces,
donde n es grande. Además, denote Xj el valor de X sobre el j-ésimo ensayo (repetición).
Entonces podemos calcular el promedio empírico observado de X sobre las n repeticiones
como
 j  xi f n  xi 
1 n k
Xn  X 
n j 1 i 0
donde fn(xi) es la frecuencia relativa con la cual Xj = xi durante las n repeticiones. Eso es,
1
1 Recuerde que C xf(x) significa que los números xf(x), x  C, deben ser sumados. La suma converge absolutamente si
y sólo si C xf(x) es finita. Éste será siempre el caso si C es un conjunto finito pero puede fallar si C es infinito.
244 ESPERANZA
fn(xi) = 1/n (el número de veces Xj = xi), como en la Sección 2.1. Ahora de acuerdo a la
interpretación frecuentista de probabilidad, fn(xi) converge a Pr (X = xi) = f(xi) cuando n 
. Esto sugiere que X n convergerá a
 xi f xi    xf x   E  X 
k
i 0 C
cuando n  , y en la Sección 9.2 mostramos que este es, de hecho, el caso. Eso es, E(X)
representa un promedio empírico idealizado para X en la misma forma que las
probabilidades representan frecuencias relativas idealizadas.
EJEMPLO 8.1.1
a Si Pr (X = c) = 1, donde c es una constante, entonces nosotros podemos tomar C = {c}
y obtenemos E(X) = c  1 = c por la Ecuación (1.1). En particular, E(0) = 0 y E(1) = 1.
b Considere un apostador quien gana un dólar con probabilidad p y pierde un dólar
con probabilidad q = 1  p. Si X denota su ganancia (positiva o negativa), podemos
tomar C = {1,1} y obtenemos E(X) = 1  p  1  q = p  q.
c Si un dado balanceado de n lados es lanzado una vez y X denota el número de puntos
que aparece, entonces X tiene la distribución uniforme discreta; eso es, Pr (X = k) = 1/n,
k = 1,,n. Por tanto,
1 1 nn  1 n  1
EX    k
n
 
k 1 n n 2 2
En particular, si n = 6, entonces el número esperado de puntos es 3.5. Observe que en las

partes b y c, E(X) no necesariamente es un valor de X. ////
Consideremos ahora variables aleatorias absolutamente continuas. Si X es absolutamente
continua con densidad f, entonces por analogía con (1.1), definimos la esperanza, o valor
esperado, de X para ser
E  X    xf x dx

(1.2)
provisto que una integral que aparece en (1.2) converge absolutamente.1
EJEMPLO 8.1.2

 x f  x  dx
1
2 La integral converge absolutamente si y sólo si es finita; ver Apéndice B.
ESPERANZA 245
a Si X tiene la distribución uniforme sobre el intervalo (a,b), a < b, entonces X tiene

la densidad f(x) = 1/(b  a) para a < x < b y f(x) = 0 para x  (a,b). Por tanto,
xdx b 2  a 2 a  b
E  X   a  
b
b  a 2b  a  2
el punto intermedio del intervalo.

b Si X tiene una densidad simétrica f, eso es, f(x) = f(x ) para toda x, y si E(X)
está definida, entonces E(X) = 0; porque si f es simétrica, entonces
 xf x dx  0 xf x dx

0 
En particular, si X tiene la distribución normal estándar, entonces E(X) = 0.

c Si X denota el tiempo de espera hasta la primera emisión de una substancia radioactiva,
entonces X tiene la distribución exponencial con parámetro , la intensidad de la
radiación (ver Ejemplo 5.5.4). Por tanto,
E  X   0 xe  x dx  ye  y dy  2 
 1  1 1

0
 
d Si X tiene la distribución Cauchy [con densidad f(x) = 1/(1 + x2),  < x < ],
entonces
a xf x dx  2 log 1  b   log1  a 

b 1 2 2
la cual no se aproxima a ningún límite cuando a   y b   independientemente.

Por tanto, E(X) no está definida.
Las ecuaciones (1.1) y (1.2) pueden ser combinadas en una ecuación usando la integral de
Riemann-Stieltjes.1 Indiscutiblemente, si X es discreta o absolutamente continua, con
función de distribución F, entonces
E  X    xdF x 

(1.3)
provisto que la integral en (1.3) converge absolutamente. Más aún, la integral que aparece en
1
3 La integral de Riemann-Stieltjes es discutida en el Apéndice B. Los lectores quienes deseen hacerlo así pueden
 xdFx  C xf x 

considerar como una notación que significa si F es discreta con función masa f y significa
 xf x dx si F es absolutamente continua con densidad f.


246 ESPERANZA
(1.3) existirá para muchas funciones de distribución que no son ni discretas ni absolutamente
continua. Podemos por tanto extender la definición de esperanza como sigue. Si X es
cualquier variable aleatoria con función de distribución F, definimos la esperanza, o valor
esperado, de X por (1.3) provisto solamente que la integral en la Ecuación (1.3) converge
absolutamente.
Si X es una variable aleatoria, eso es, si Pr (X  0) = 1, entonces F(x) = 0 para x < 0, así
que (1.3) se reduce a
E  X   0 xdF x 

(1.4)
que es totalmente significativa aun si la integral diverge (necesariamente a ). Podemos por
tanto hacer una extensión final de la definición de esperanza permitiendo tener a las
variables aleatorias no negativas esperanza infinita. Eso es, si X es no negativa, definimos
E(X) por (1.4), aun si la integral diverge.
EJEMPLO 8.1.3
a Dejemos que X tenga la distribución uniforme sobre (0,2), y sea Y = máx(1,X).
Entonces la función de distribución de Y es
0 y 1
y

G y    1 y  2
2
1 y2
Por tanto,
E Y   1G1  G1   
1 2
1
xdx  12  34  5
4
2
b Si X y Y son variables aleatorias independientes distribuidas exponencialmente

(con el mismo parámetro ), entonces el cociente Z = X/Y tiene densidad f(z) = 1/(1 +
z)2 para z > 0 (ver Ejemplo 7.4.4b). Ahora, para a > 0,
1
0 zf z dz  2 1 z  1 dz  12 loga  1  log2
a 1 a
que diverge a  cuando a  . Por tanto, E(Z) = . Observe que E(Z) no es igual a
E(X)/E(Y) = 1. ////
ESPERANZA 247
1
Concluimos esta sección con una descripción geométrica útil e interesante de esperanza.
Teorema 8.1.1 Sea X cualquier variable aleatoria, y denote F su función de
distribución. Entonces
E  X   0 1  F x dx   F x dx

 0
(1.5)
en el siguiente sentido: si uno u otro lado de (1.5) es finito, entonces así es el otro y
ellos son iguales.
El Teorema 8.1.1 admite la siguiente interpretación geométrica. En la Figura 12 E(X) es el
área entre la gráfica de F y la línea de altura 1 para x  0 menos el área entre la gráfica de F
y la línea de altura 0 para x  0.
Figura 12. Una interpretación geométrica de E(X).
PRUEBA Para probar el teorema, integraremos por partes las dos integrales
que aparecen en la siguiente expresión para E(X):
E  X   0 xdF x    xdF x 

 0
(1.6)
La primera de éstas es el límite cuando b   de
1
4 El resto de esta sección trata un tópico especial y puede ser omitido.
248 ESPERANZA
0 xdF x   bF b   0 F x dx
b b
 bF b   1  0 1  F x dx
b
(1.7)
(ver Teorema B.5 del Apéndice B). Suponer que la primera integral en (1.6) es finita.
Entonces tenemos
0  b1  F b   b b dF x   b xdF x 
 
que tiende a cero cuando b  , puesto que es la cola de una integral convergente. Por
tanto, permitiendo b   en la Ecuación (1.7), encontramos que
0 xdF x   0 1  F x dx
 
(1.8)
si el lado izquierdo de (1.8) es conocido para ser finito. Si el lado derecho de (1.8) es
finito, entonces
0 xdF x   blim xdF  x 

 b

0
 lim 0 1  F  x dx
b
b 
 0 1  F  x dx  

así que (1.8) también se cumple. Así hemos mostrado que un lado de (1.8) es finito si y
sólo si el otro lo es, en cuyo caso ellos son iguales. Un argumento similar mostrará que
 xdF x    F x dx

0 0
en el mismo sentido. El teorema se sigue. ////

Los siguientes corolarios al teorema son útiles.
Corolario 8.1.1 Si X es una variable aleatoria no negativa con distribución F,
entonces
E  X   0 1  F x dx

finita o infinita.
ESPERANZA 249
Corolario 8.1.2 Si X es una variable aleatoria no negativa valuada en los

enteros, entonces

E  X    Pr  X  k 
k 1
finita o infinita.
PRUEBA El primer corolario se sigue directamente del teorema, y el
segundo entonces se sigue del hecho de que si X está valuada en los enteros, entonces
Pr (X > x) = Pr (X  k) para k  1  x < k.
EJEMPLO 8.1.4
Si X tiene la distribución geométrica con parámetro p, entonces Pr (X  k) = qk1, k = 1,2,,
así que E(X) = 1 + q + q2 +  = 1/(1  q) = 1/p. ////
8.2 PROPIEDADES DE LA ESPERANZA

En esta sección desarrollaremos varias propiedades generales de la esperanza, así como
desarrollamos las propiedades generales de la probabilidad en las Secciones 2.3, 2.4, y 2.5.
Comenzamos con un teorema importante.
Teorema 8.2.1 Sea X una variable aleatoria variables aleatorias con función de
distribución F, y sea D un subconjunto de R para el cual Pr (X  D) = 1. Además, sea
w una función valuada en los reales sobre D, y sea Y la variable aleatoria definida por
Y = w(X). Entonces
EY   D wx dF x  (2.1)
provisto que la integral apareciendo sobre el lado derecho de (2.1) converge

1
absolutamente.
PRUEBA Probaremos el teorema sólo en el caso de que X tenga una
distribución discreta, aunque es verdadero en la generalidad establecida. Denote f la
función masa de X, y, por simplicidad, sea D el conjunto de x  R para los cuales f(x)
> 0. Entonces
D wx dF x 
1
5 Lectores quienes no están familiarizados con la integral de Riemann-Stieltjes pueden considerar a
como una notación que significa D wx  f x  si F es discreta con función masa f y significa D wx  f x d x  si
F es absolutamente continua con densidad f.
250 PROPIEDADES DE LA ESPERANZA
D wx dF x    wx  f x  (2.2)

xD
es una serie absolutamente convergente (por suposición). Denote E el rango de Y, y

para cada y  E sea By = w-1({y}) el conjunto de x  D para las cuales w(x) = y.
Entonces puesto que los términos de una serie absolutamente convergente pueden ser
1
sumados en cualquier orden al mismo valor, escribimos
 
 wx  f x      wx  f x 
x D y E  x B y 
 
  y   f  x 
y  E  x B y 
  yPrY  y   E Y  (2.3)
y E
donde hemos usado la Ecuación (1.2) del Capítulo 7 en la tercera igualdad y la

definición de E(Y) en la igualdad final. Las Ecuaciones (2.2) y (2.3) claramente se
combinan para probar el teorema en el caso discreto. ////
En el caso absolutamente continuo (cuando F tiene densidad f), la Ecuación (2.1) toma la
forma
E Y   D wx  f x dx (2.4)
y una prueba de (2.4) es bosquejada en el Problema 8.14. Ahora consideremos algunos

ejemplos.
EJEMPLO 8.2.1
a Permita que X tenga la distribución uniforme sobre el intervalo (0,2], y sea Y =
sen X. Entonces, la función de distribución de Y es tediosa de calcular, pero la
esperanza de Y puede ser calculada fácilmente, ya que
E Y   0
sinx 1
2
dx  cos 0  cos 2   0
2 2
b Si X es cualquier variable aleatoria y Y = X2, entonces
E Y    x 2 dF x 

1
ESPERANZA 251
En particular, si X tiene la distribución exponencial con parámetro , entonces
 
E X 2  0 x 2 e  x dx  3 2  2 2

////
Las Ecuaciones (2.3) y (2.4) también permanecen válidas si X = (X1,... Xn) es un vector
aleatorio, f denota la función masa o densidad de X, y D denota el conjunto de x  Rn para
las cuales f(x) > 0 [y dx es interpretado como el elemento volumen en Rn en la Ecuación
(2.4)].
EJEMPLO 8.2.2
a Sean X1 y X2 variables aleatorias independientes distribuidas exponencialmente
con parámetro común  = 1, y sea Y = X1X2. Entonces
 
 

E Y   0 0 x1 x2 e  x1  x2  dx1dx2  0 xe  x dx  2  1
2 2
b Permita que (X, Y) tenga función masa conjunta f, y sea D un conjunto infinito
contable o finito para el cual f(x,y) = 0 si (x,y)  D. Si E(X) es finita, entonces
E  X    xf x , y 
D
donde la sumatoria se extiende sobre todo (x,y)  D. Esto se sigue del Teorema 8.2.1
tomando w(x,y) = x para (x,y)  D.
Regresamos ahora a algunas propiedades básicas de la esperanzasu linealidad y
monotonicidad como un operador sobre variables aleatorias.
Teorema 8.2.2 Sean X y Y cualesquiera dos variables aleatorias distribuidas
conjuntamente con esperanzas finitas, y sean  y  cualesquiera números reales.
Entonces
EX  Y   E X   EY 
Más aún, si Pr (X  Y) = 1, entonces E(X)  E(Y).

PRUEBA De nuevo, probaremos (2.5) sólo en el caso discreto, aunque es
verdadera en la generalidad establecida, Denote f la función masa conjunta de X y Y, y
denote D  R2 un conjunto infinito contable o finito para el cual f (x,y) = 0 si (x,y)  D.
Entonces, por el Teorema 8.2.1,
252 PROPIEDADES DE LA ESPERANZA
E X  Y    x  y  f  x , y 
D
   xf  x , y     yf x , y   E  X   E Y 
D D
donde la sumatoria se extiende sobre todo (x,y)  D. Esto establece la primera

aseveración del teorema.
La segunda aseveración del teorema es trivial si Y = 0, porque entonces Pr (X  x) = 0
para x < 0 [ver Ecuación (1.4)]. En general, podemos hacer X  = X  Y. Entonces, E(
X  )  0 y E( X  ) = E(X)  E(Y). ////
Corolario 8.2.1 Si X tiene esperanza finita y  y  son números reales, entonces
E(X + ) = E(X) + .
Corolario 8.2.2 Sean X1,... Xn variables aleatorias distribuidas conjuntamente con
esperanza finita, y sea S = X1 +  + Xn. Entonces
E S   E X 1     E  X n 
PRUEBA El Corolario 8.2.1 se sigue tomando Y = 1 en el Teorema 8.2.2, y

el Corolario 8.2.2 puede ser establecido por inducción. ////
EJEMPLO 8.2.3
a Denote X el número de águilas que resultan de n lanzamientos independientes de
una moneda que tiene probabilidad p de que una águila ocurra sobre cada lanzamiento.
Entonces podemos escribir X = X1 +  + Xn, donde Xi es 1 si el i-ésimo lanzamiento
resulta en águila y 0 si resulta en sol, i = 1,,n. Puesto que la E(Xi) = 1  p + 0  q = p,
i = 1,,n, se sigue ahora del Corolario 8.2.2 que E(X) = E(X1) +  + E(Xn) = p +  +
p = np. Observe que la variable X tiene la función de distribución binomial con
parámetros n y p.
b La independencia de X1,... Xn no es requerida por el Corolario 8.2.2. Así, si una
muestra de tamaño k es seleccionada sin reemplazo de una urna que contiene m bolas
rojas y n  m bolas blancas, el número esperado de bolas rojas es E(X) = km/n; porque
podemos escribir X = X1 +  + Xk, donde Xi = 1 si la i-ésima bola seleccionada es roja
y Xi = 0 si es blanca, y claramente, E(Xi) = m/n, i = 1,,k.
c Permita que la variable X tenga la función de distribución normal con parámetros  y
2. Entonces, por el Ejemplo 7.1.5a, Z = (X  )/ tiene la distribución normal
estándar, así que E(Z) = 0 por el Ejemplo 8.1.2b. Puesto que X = Z + , ahora se sigue
que E(X) =   0 +  = . Por tanto, el parámetro  de una distribución normal es la
esperanza. ////
ESPERANZA 253
La esperanza del producto de dos variables aleatorias independientes es el producto de sus

esperanzas.
Teorema 8.2.3 Sean X y Y variables aleatorias independientes con esperanzas
finitas. Entonces E(XY) = E(X) E(Y).
PRUEBA De nuevo, probaremos el Teorema 8.2.3 sólo en el caso en que X y
Y son variables aleatorias discretas, aunque es verdadero en la generalidad establecida.
Sean X y Y variables aleatorias discretas independientes con esperanzas finitas.
Denoten g y h las funciones masa (marginales) de X y Y, y sean D y E conjuntos
contables para los cuales Pr (X  D) = 1 = Pr (Y  E). Entonces la función masa
conjunta de X y Y es f, donde f(x,y) = g(x)h(y), y claramente f(x,y) = 0 a menos que (x,y)
 C = D  E. Por tanto,
E  XY    xyf  x , y 
C
  
  xg  x   yh y   E  X E Y 
D  E 
como se aseveró. Aquí las sumatorias se extienden sobre (x,y)  C, x  D, y y  E,

respectivamente. ////
El Teorema 8.2.3 se extiende por inducción de dos variables aleatorias a varias.
Corolario 8.2.4 Sean X1,... Xn variables aleatorias independientes con esperanza
finita, y sea Y = i 1 X i . Entonces
n
E Y    E  X i 
n
i 1
8.3 LA MEDIA Y LA VARIANZA

La esperanza de una variable aleatoria X es también conocida como la media de X, denotada
por . Así,
  E  X    xdF x 

(3.1)
donde F denota la función de distribución de X. Análogamente, la esperanza de la variable

aleatoria Y = (X  )2 es conocida como la varianza de la variable aleatoria X y denotada por
2 o D(X). Así, 2 = D(X) = E[(X  )2], donde  = E(X). Por el Teorema 8.2.1, nosotros
tenemos
254 LA MEDIA Y LA VARIANZA
 2  D X    x    dF x 
 2
(3.2)
donde F denota la función de distribución de X. La raíz cuadrada positiva  de la varianza es

conocida como la desviación estándar de X.
Por supuesto, las integrales Riemann-Stieltjes que aparecen en (3.1) y (3.2) se simplifican a
sumas si F es discreta y a integrales ordinarias si F es absolutamente continua.
La media y la varianza de una variable aleatoria proporciona información importante acerca
de su distribución. Como indicamos en la Sección 8.1, la media  = E(X) puede ser pensada
como un promedio de largo plazo de X a través de muchos ensayos del experimento al que X
se refiere. Análogamente, la varianza 2 = E[(X  )2] puede ser pensada como un promedio
de largo plazo de (X  )2.. Así, la varianza 2 proporciona una medida de la tendencia
de X para desviarse de su media. Eso es, valores grandes de 2 indican una tendencia hacia
desviaciones apreciables, mientras que valores pequeños de 2 indican que la distribución de
X se concentra cercanamente alrededor de . En la Sección 9.1 daremos, de hecho, una
desigualdad que acota a Pr (X    a) por una función sencilla de a y 2
Ilustraremos la diferencia entre varianzas pequeñas y grandes en la Figura 13.
Otra, complementaria forma de considerar la media y la varianza es proporcionada por el
siguiente lema.
Lema 8.3.1 Sea X cualquier variable aleatoria para la cual E(X2) es finita.
Entonces entre todos los números reales a, E[(X  a)2] es minimizada tomando a =  =
E(X), en cuyo caso el mínimo es 2 = E[(X  )2].
PRUEBA Para cualquier a tenemos E[(X  a)2] = E(X2)  2aE(X) + a2 por el
Teorema 8.2.2. La derivada de esta expresión con respecto a a es 2E(X) + 2a, que se
hace cero si y sólo si a =  = E(X). Más aún, la segunda derivada es 2 > 0, y así el
extremo es un mínimo. ////
Podemos replantear el lema como sigue. Suponer que teníamos que predecir el valor de X
por un simple número a, y suponer que por así hacerlo incurrimos en una pérdida de (X a)2.
Si deseamos minimizar nuestra pérdida esperada, entonces debemos predecir X por su media
a =  = E(X), en cuyo caso incurrimos en la pérdida 2 = E[(X  )2]. Así, la media  puede
ser pensada como la mejor suposición constante o predictor para la variable aleatoria X, y 2
como una medida de nuestra habilidad para predecir.
Para nuestros ejemplos, los siguientes lemas serán convenientes.
Lema 8.3.2 Sea X cualquier variable aleatoria para la cual E(X2) es finita.
Entonces la varianza de X es
ESPERANZA 255
 2  E X 2    2
donde  = E(X). Eso es, 2 es la del cuadrado de X menos el cuadrado de la esperanza

de X.
PRUEBA Tenemos
 
 2  E  X   2  E X 2   2E  X    2
   
 E X 2  2 2   2  E X 2   2
Figura 13. Distribuciones normales con diferentes varianzas. (a). σ2 = 1; (b). σ2 = 9.

256 LA MEDIA Y LA VARIANZA
Lema 8.3.3 Sea X una variable aleatoria con media  y varianza 2. Entonces, la
media y la varianza de la variable aleatoria Y = aX + b son  = a + b y 2 = a22,
respectivamente.
PRUEBA  = E(Y) = E(aX + b) = aE(X) + b = a + b por el Corolario 8.2.1. Por
tanto,
    
 2  E Y  2  E aX  a 2  a 2 E  X   2  a 2 2
por el mismo corolario. ////
EJEMPLO 8.3.1
a Permita que X tenga la distribución uniforme sobre (0,1). Entonces
E  X   0 xdx 
1 1
2
 
E X 2  0 x 2 dx  13
1
así que 2 = 1/3  (1/2)2 = 1/12.

b Si X tiene la distribución exponencial con parámetro , entonces E(X) =  -1 por el
Ejemplo 8.1.2c, y análogamente, E(X2) = 2 -2 por el Ejemplo 8.2.1b. Así, 2 = 2 -2   -2 =
 -2.
c Más generalmente, si X tiene la distribución gama con los parámetros  y , entonces
x k   x 1  x
 
E X k  0

  
e dx
 y k  1  y  k   k 
  k 0 e dy 
     
para k = 1,2,. En particular,  = E(X) = ( + 1)/() = /, y E(X2) = ( + 1)/2,
así que se obtiene 2 = /2. En particular, la media y la varianza de una función de
distribución Ji-cuadrada con k grados de libertad ( = k/2 y  = 1/2) son  = k y 2 =
2k. ////
EJEMPLO 8.3.2
Si Z tiene distribución normal estándar , entonces Z tiene media E(Z) = 0 por el Ejemplo
8.1.2b y Z2 tiene la distribución Ji-cuadrada con un grado de libertad por el Ejemplo 7.1.7.
Eso es, Z2 tiene la distribución gama con parámetros  = ½ y  = 1/2. Por lo tanto, la
varianza de Z es E(Z2) = 1 por el Ejemplo 8.3.1. Más generalmente, si X tiene la distribución
ESPERANZA 257
normal con parámetros  y , entonces X = Z + , donde Z = (X  )/ tiene la

distribución normal estándar (ver Ejemplo 7.1.5a). Así, la media y la varianza de la variable
aleatoria X son E(X) =  y 2, respectivamente, por el Lema 8.3.3. Eso es, los parámetros 
y  de la distribución normal son su media y desviación estándar, respectivamente. ////
Para variables aleatorias independientes, no sólo la media sino también la varianza es
aditiva.
Teorema 8.3.1 Sean X1,... Xn variables aleatorias independientes con varianzas
1 ,,n , respectivamente. Entonces la varianza de la suma S = X1 +  + Xn es
2 2
 2   12     n 2
PRUEBA Probaremos el teorema en el caso especial de n = 2. El caso

general entonces se sigue fácilmente por inducción matemática. Denoten 1 y 2 las
medias de X1 y X2, respectivamente, y sea Yi = Xi  i, i = 1,2. Entonces, E(Yi) = 0, i =
1,2, y la varianza de Xi es E(Yi2) = i2, i = 1,2. Más aún, puesto que la media de S es  =
1 + 2 por el Teorema 8.2.2, nosotros tenemos S   = Y1 + Y2. Por lo tanto, la
varianza de S es
  
 2  E S   2  E Y1  Y2 2
 E Y   2 E Y Y   E Y 
2 2
1 1 2 2
Ahora Y1 y Y2 son independientes, así que E(Y1Y2) = E(Y1)E(Y2) = 0 por el Teorema

8.2.3. Por tanto,
   
 2  E Y12  E Y2 2   12   2 2

EJEMPLO 8.3.3
Sean X1,... Xn variables aleatorias independientes para las cuales Pr (Xi = 1) = p y Pr (Xi = 0)
= q = 1  p, i = 1,,n. Entonces, la suma S = X1 +  + Xn tiene la distribución binomial con
parámetros n y p. Calculemos la varianza de S del Teorema 8.3.1. Nosotros tenemos E(Xi) =
p y E(Xi2) = E(Xi) = p, así que la varianza de cada una de las variables Xi es i2 = p  p2 = pq,
i = 1,,n. Por lo tanto, la varianza de la variable S es 2 = npq por el Teorema 8.3.1. ////
258 LA FUNCIÓN GENERATRIZ DE MOMENTOS
8.4 LA FUNCIÓN GENERATRIZ DE MOMENTOS

Sea X cualquier variable aleatoria, y denote F su función de distribución. Entonces los
números
 k  E X k  (4.1)
k = 1, 2, son denominados los momentos de X. Más precisamente, k es denominado el k-

 
ésimo momento de X, provisto que E X k < . Así, el primer momento es simplemente la
media  = E(X), y la varianza de X es 2 = 2  12 por el Lema 8.3.2.
Denote F la función de distribución de X. Entonces, por el Teorema 8.2.1, tenemos
 k   x k dF x 

(4.1a)
provisto que la integral que aparece sobre el lado derecho de (4.1a) converge absolutamente.
Por supuesto, la integral de Riemann-Stieltjes en (4.1a) simplifica a una integral ordinaria si
F es absolutamente continua y a una suma si F es discreta.
EJEMPLO 8.4.1
a Permita que X tenga la distribución beta con parámetros  y . Entonces
     1 k  1  1
k   x x 1  x  dx
     0
       k   

       k   
       k    k  1k
 
       k      k  1 k
donde para el real x, (x)k = x(x  1)(x  k + 1). En particular, la media y la varianza
son  = 1 = /( + ) y 2 = 2  12 = /( + )2  ( +  + 1) por simple álgebra.
b Análogamente, si X tiene la distribución gama con parámetros  y , entonces
  k  1k
k 
k
por el Ejemplo 8.3.1c. ////
De nuevo, sea X cualquier variable aleatoria. Definimos la función generatriz de momentos
ESPERANZA 259
de X por
 
M t   E e tX (4.2)
provisto que la esperanza que define a M(t) es finita para todo t en algún intervalo no
degenerado (a,b), a < b. Si F denota la función de distribución de X, entonces
M t    e tX dF x 

(4.2a)
por el Teorema 8.2.1, provisto que la esperanza sobre el lado derecho de (4.2a) converge
absolutamente. Otra vez, la integral de Riemann-Stieltjes en (4.2a) se simplifica a una
integral ordinaria si F es absolutamente continua y a una suma si F es discreta.
Tanto los momentos como la función generatriz de momentos de una variable aleatoria X
dependen solamente sobre la función de distribución de X por (4.1) y (4.2). Algunas veces
nos referiremos a la función generatriz de momentos de X como la función generatriz de
momentos de F. El nombre función generatriz de momentos se deriva del hecho de que los
momentos de X pueden ser calculados diferenciando M(t) en t = 0.
Teorema 8.4.1 Sea X cualquier variable aleatoria con una función generatriz de
momentos que es finita sobre algún intervalo abierto que contiene al cero, digamos
M(t) <  para -h < t < h, donde h > 0. Entonces X tiene momentos
 k  M ( k ) 0
la k-ésima derivada de M en t = 0, k = 1, 2,.

PRUEBA La idea es que puesto que ambas esperanza y diferenciación son
operadores lineales, ellos deben conmutar. Eso es, debemos tener
 d k tX 
dk
k
dk
  
M t   k E e  E  k e   E X k e tX
tX

dt dt  dt 
de lo cual el teorema se sigue haciendo t = 0. Por supuesto, la igualdad crucial
(segunda) requiere justificación puesto que un intercambio de límites está involucrado.
Regresaremos a este punto en la siguiente sección. ////
Tomando logaritmos podemos obtener un método simple para calcular la media y la varianza
de una variable aleatoria.
Corolario 8.4.1 Sea X una variable aleatoria con función generatriz de momentos
que es finita sobre un intervalo abierto que contiene a cero. Además, sea   t  = log
M(t). Entonces la media y la varianza de X están dadas por
   ' 0 and  2   ' ' 0

PRUEBA Primero observamos que M(0) = E(e0X) = E(1) = 1. Por tanto, por
la regla de la cadena,  0 = M 0 M 0 = 1 = , y
M ' ' 0M 0  M ' 0

2
 ' ' 0    2  1   2
2
M 0
2

Consideremos ahora algunos ejemplos.
EJEMPLO 8.4.2
Si X tiene la distribución binomial con parámetros n y p, entonces
n n n
 
M t    e kt   p k q nk     pet q nk  q  pet  
n k n
k 0 k  k  0 k 
para - < t < , donde la igualdad final se sigue del teorema binomial. Por diferenciación
podemos rederivar el resultado que  = np y 2 = npq. ////
EJEMPLO 8.4.3
Si X tiene la distribución Poisson con parámetro , entonces
 
  1
M t    e kt
1 k 
 e  e    e t  e   e e  e  ( e 1 )
k t t
k 0 k! k 0 k !
para todo t,  < t < . En este ejemplo,   t  = log M(t) = (et  1) es fácil de diferenciar, y
encontramos que  =   0 =  y 2 =   0 = . Por tanto, la media y varianza de la
distribución Poisson son ambas . ////
EJEMPLO 8.4.4
a Si X tiene la distribución binomial negativa [con función masa f(k) =
 k  1 r k r
  p q ,k  r , r  1,... ], entonces
 r 1
ESPERANZA 261
  k  1 r k  r
M t    e kt   p q
k r  r  1 
 pe    k  1 r k r
t
      p1 q1 (4.3)
 1 k r  r  1 
p
donde hemos hecho q1 = qet y p1 = 1  q1. Ahora, si q1 < 1, entonces la suma final en
(4.3) es la suma de probabilidades binomiales negativas con parámetros r y p1 y es por
tanto 1. Se sigue que
r
 pet 
M t    
 1  qe
t

para t < log q, eso es, q1 < 1. La suma diverge si t  log q.

La media y varianza de la distribución binomial negativa puede ahora ser calculada por
diferenciación. Sin lugar a dudas, haciendo   t  = log M(t), encontramos
rqet rqet
 ' t   r  and  ' ' t  
1  qet 1  qe  t 2
así que  = r + rq/(1  q) = rp-1 y 2 = rq/(1  q)2 = rqp-2.

b La distribución geométrica es un caso especial de la binomial negativa con r = 1.
La media y varianza son  = qp-1 y 2 = qp-2. ////
EJEMPLO 8.4.5
a Si X tiene una distribución gama con parámetros  y , entonces
  x 1e  x
M t   0 e tx

dx
  
   x 1   t x
 0 e dx
  
 
    y  1e  y   
   0 dy   
  t       t 
para t < , y la integral diverge si t  . La tercera igualdad de arriba se sigue del

cambio de variable y = (  t)x, y la igualdad final de la definición de la función gama.
La media y varianza de la distribución gama fueron encontradas en el Ejemplo 8.3.1b

para ser  =  -1 y 2 =  -2. Este resultado puede ser verificado por diferenciación.
b La distribución exponencial es un caso especial de la gama con  = 1. Así, la
función generatriz de momentos de la distribución exponencial es

M t  
 t
para t < . La media y varianza son  =  -1 y 2 =  -2. ////

Para nuestro siguiente ejemplo, será conveniente tener el siguiente lema.
Lema 8.4.1 Sea X una variable aleatoria con función generatriz de momentos M,
y sean a y b números reales. Entonces, la función generatriz de momentos de Y = aX +
b es N(t) = ebtM(at).
PRUEBA Tenemos
   
N t   E e tY  E e atX bt  e bt E e atX  e bt M at   
para toda t para la cual M(at) sea finita. ////
EJEMPLO 8.4.6
Si Z tiene la distribución normal estándar, entonces Z tiene función generatriz de momentos
M t   e 2
1 2
t
(4.4.)
para  < t < . Indiscutiblemente, puesto que x2  2tx = (x  t)2  t2, tenemos
 12 x 2
M t    e tx
 e  1  12 x 2 tx
dx   e dx
2 2
 12  x t 2
1 2
t  e
e 2
 dx
2
y la última integral es simplemente la integral de una densidad normal con media  = t y

varianza 2 = 1 y es, por tanto, 1. Esto establece (4.4).
Ahora suponer que X tiene la distribución normal con media  y varianza 2. Entonces
podemos escribir X = Z + , donde Z = (X  )/ tiene la distribución normal estándar (ver
Ejemplo 7.1.5a). Por tanto, denotando por N y M las funciones generatrices de momentos de
X y Z, respectivamente, tenemos
ESPERANZA 263

N t   e t M t   exp t  12  2 t 2  ////
Hemos visto que la función generatriz de momentos es una herramienta útil para calcular
medias y varianzas. Es también útil para encontrar la distribución de una suma de variables
aleatorias independientes. La técnica depende de los siguientes dos resultados.
Teorema 8.4.2 Sean X y Y variables aleatorias con funciones de distribución F y
G, respectivamente. También, permita que X tenga una función generatriz de
momentos M, y permita que Y tenga una función generatriz de momentos N. Si M(t) =
N(t) (finita) para todo t en algún intervalo no degenerado, entonces F(x) = G(x) para
toda x,  < x < .
Eso es, si X y Y tienen la misma función generatriz de momentos , ellas tienen la misma
distribución. Así, podemos determinar la distribución de una variable aleatoria encontrando
su función generatriz de momentos.
La prueba del Teorema 8.4.2 está fuera del alcance del libro; probaremos un resultado
relacionado en la Sección 8.4.1, sin embargo.
En aplicaciones del Teorema 8.4.2, será útil tener el siguiente teorema.
Teorema 8.4.3 Sean X1,... Xn variables aleatorias independientes con funciones
generatrices de momentos M1,... Mn, respectivamente. Si M1,... Mn son todas finitas
sobre el mismo intervalo (a,b), a < b, entonces la suma S = X1 +  + Xn tiene función
generatriz de momentos
M t    M i t 
n
i 1
para a < t < b.

PRUEBA Para cualquier t, las variables aleatorias
e tX 1 , ,e tX n
son independientes por el Teorema 7.2.1. Por tanto, por el Corolario 8.2.4,
     n  n
 
E e tS  E e t  X1  X n   E   e tX i    E e tXi   M i t 
n
 i 1  i 1 i 1
para a < t < b, como se aseveró. ////

Podemos ahora derivar de nuevo los resultados del Teorema 7.3.2.
EJEMPLO 8.4.7
Si X1,... Xn son variables aleatorias independientes, normalmente distribuidas, entonces la
función generatriz de momentos de Xi es

M i t   exp ti  12  i t 2
2

para  < t < , donde y denota la media y i2 la varianza de Xi, i = 1,,n.
Ahora se sigue del Teorema 8.4.3 que la función generatriz de momentos de S = X1 +  +
Xn es

M t   exp t  12  2t 2 
para  < t < , donde  = 1 +  + n y 2 = 12 +  + n2. Puesto que M es la función
generatriz de momentos de una distribución normal con media  y varianza 2, se sigue
ahora del Teorema 8.4.2 que S tiene la distribución normal con media  y varianza 2. ////
De manera semejante uno puede establecer las siguientes aseveraciones.
Teorema 8.4.4 Sean X1,... Xk variables aleatorias independientes, y sea S la suma
S = X1 +  + X k .
(i) Si cada Xi tiene la distribución binomial con parámetros ni y la misma p,
entonces S tiene la distribución binomial con parámetros n = n1 +  + nk y p.
(ii) Si cada Xi tiene la distribución binomial negativa con parámetros ri y la
misma p, entonces S tiene la distribución binomial negativa con parámetros r =
r1 +  + rk y p.
(iii) Si Xi tiene distribución Poisson con parámetro i, entonces S tiene la
distribución Poisson con parámetro  = 1 +  + k.
(iv) Si cada Xi tiene la función de distribución gama con parámetros i y la
misma , entonces S tiene la distribución gama con parámetros  = 1 +  + k
y .
1
8.4.1 Funciones Generatrices
Sea a0, a1, a2, una sucesión de números reales. Entonces definimos la función generatriz
de la sucesión a0, a1, a2, para ser

At    a k t k (4.5)
k 0
1
7 En esta sección probamos un caso especial de los Teoremas 8.4.1 y 8.4.2. Los resultados de esta sección son usados
sólo en las Secciones 10.6 y 12.5, y puede ser omitida sin pérdida de continuidad.
ESPERANZA 265
provisto que la serie converge para toda t en algún intervalo no degenerado alrededor de
cero, digamos para h < t < h. Si X es una variable aleatoria no negativa valuada en los
enteros, y si
ak  Pr  X  k 
para k = 0, 1, 2,, entonces referiremos a A como la función generatriz de X. En este caso

A(1) = 1, puesto que a0, a1, a2, son probabilidades y la serie (4.5) converge para 1  t  1.
También, si A es la función generatriz de X, entonces
 
At   E t X (4.6)
para 1  t  1. Así, si A denota la función generatriz de X, y si M denota la función

generatriz de momentos de X, entonces
 
M t   A e t (4.7)
EJEMPLO 8.4.8
a Si ak = 1 para k = 0, 1, 2,, entonces la función generatriz de a0, a1, a2, es A(t)
= 1/(1  t) para 1 < t < 1 por el Ejemplo 1.7.3b.
b Si ak = 1/k! para k = 0, 1, 2,, entonces la función generatriz de a0, a1, a2, es
A(t) = et para  < t <  por el Ejemplo 1.7.3a.
c Si X tiene la distribución binomial con parámetros n y p, entonces X tiene la función
generatriz A(t) = (q + pt)n para  < t <  por (4.7) y el Ejemplo 8.4.2.
d Análogamente, si X tiene la distribución Poisson con parámetro , entonces X
tiene función generatriz A(t) = e(t  1) para  < t < .
e Si X tiene la distribución binomial negativa con parámetros r y p, entonces X tiene
función generatriz A(t) = [pt/(1  qt)]r para q -1 < t < q -1. ////
Las funciones generatrices tienen propiedades semejantes a aquellas de las funciones
generatrices de momentos, pero puesto que sólo variables aleatorias discretas están
involucradas, las funciones generatrices son más simples que las funciones generatrices de
momentos, y será posible tratarlas más ampliamente; en particular, probaremos análogos a
los Teoremas 8.4.1 y 8.4.2.
Usamos el hecho de que una serie de potencias puede ser diferenciada término a término.1
Así si A es la función generatriz de a0, a1, a2,, y si A(t) converge para h < t < h, donde h >
0, entonces
1

A' t    kak t k 1 (4.8)
k 1
y A(t) también converge para h < t < h. Más generalmente, la j-ésima derivada de A existe
y está dada por

A j  t    k  j a k t k  j (4.9)
k j
para h < t < h, donde (k)j = k(k  1) (k  j + 1). Observe que A(j) es la función generatriz
de la sucesión a0 , a1 ,..., donde ak  k  j  j ak  j para k = 0, 1,.
Teorema 8.4.5 Sea X cualquier variable aleatoria no negativa valuada en los

enteros, y denote A su función generatriz. Entonces
E  X   A1 (4.10)
el límite de A(t) cuando t  1 con t < 1. La Ecuación (4.10) es válida ya sea que E(X)
sea finita o infinita.
PRUEBA Tenemos ak = Pr (X = k)  0 para k = 0, 1, 2,, y así A es una
función no decreciente, por (4.8). Por tanto, A(1) existe. Ahora
 
A' t    kak t k 1   kak  E  X 
k 0 k 0
para todo t < 1. así que A(1)  E(X). Más aún, para cualquier n = 1, 2,

A1    lim  kak t k 1  lim  kak t k 1   kak
n n
k 0 k =0 k 0
donde el límite es tomado cuando t  1 con t < 1. Finalmente


 kak   kak  E  X 
n
k 0 k 0
cuando n  , y así el teorema se sigue. ////

Teorema 8.4.6 Permita que a0, a1, a2, tenga una función generatriz A, y permita
que b0, b1, b2, tenga una función generatriz B. Si A(t) = B(t) para h < t < h para
algún h > 0, entonces ak = bk para toda k = 0, 1, 2,.
PRUEBA Si A(t) = B(t) para h < t < h, entonces por (4.9)
ESPERANZA 267
A 0  B k  0  bk
1 k  1
ak 
k! k!
para toda k = 0, 1, 2,. ////

Si a0, a1, a2, y b0, b1, b2, son dos sucesiones de números reales, entonces definimos su
convolución para ser la sucesión c0, c1, c2,, donde
n
cn   a k bnk (4.11)
k 0
para n = 0, 1, 2,. Si ak = Pr (X = k) y bk = Pr (Y = k) para k  0, donde X y Y son variables

aleatorias independientes no negativas valuadas en los enteros, entonces cn = Pr (X + Y = n)
para n  0 por el Teorema 7.3.1. Sin embargo, no requerimos que las sucesiones a0, a1, a2,
y b0, b1, b2, sean probabilidades en la definición (4.11).
Teorema 8.4.7 Permita que a0, a1, a2, tenga la función generatriz A, y permita
que b0, b1, b2, tenga la función generatriz B. Si ambas A(t) y B(t) convergen para h
< t < h, entonces c0, c1, c2, tiene función generatriz C, donde C(t) = A(t)B(t) para h
< t < h.
PRUEBA Supongamos primero que ak y bk son no negativas para k  0.
Entonces, puesto que términos negativos pueden ser sumados en cualquier orden al
mismo límite, tenemos
 
C t    c n t n    a k bn k t n
n
n 0 n 0 k 0

   
  a k t k   bn k t n k   Bt   a k t k  At Bt  (4.12)
k 0  nk  k 0
para h < t < h, como se aseveró.

Para el caso general, reemplace ak y bk por ak y bk en (4.12), y deduzca que la serie
converge absolutamente para h < t < h. El intercambio del orden de las sumatorias puede
entonces ser justificado por la convergencia absoluta. ////
EJEMPLO 8.4.9
Sean X1 y X2 variables aleatorias independientes, y permita que Xi tenga distribución
geométrica con parámetro pi, i = 1, 2 donde p1  p2. ¿ Cuál es la distribución de Y = X1 + X2?
La función generatriz de Xi es
268 COVARIANZA Y CORRELACIÓN
pi t
Ai t  
1  qi t
para qi-1 < t < qi-1 para i = 1, 2. Así, la función generatriz de Y es
p1 p2 t 2
C t  
1  q1t 1  q2t 
y C converge para 1 < t < 1. Expandamos C como una fracción parcial como
p1 p 2 t 2  q1 q2 
C t     
q1  q 2  1  q1t 1  q 2 
t
=
p1 p 2  k 1

 q1  q 2k 1 t k  2
q1  q 2 k 0

El coeficiente de tk en la expansión de C(t) es simplemente ck = Pr (Y = k). Así
Pr Y  k  
p1 p2
q1  q2

q1k 1  q2k 1 
para k = 2, 3,. ////
8.5 COVARIANZA Y CORRELACIÓN1

En la Sección 8.3 caracterizamos la media  de una variable aleatoria X como el número
(constante a) que minimiza E[(X  a)2], y describimos a  como el mejor predictor constante
de X. Ahora suponer que se nos permite predecir a X por una función lineal de alguna otra
variable aleatoria Y. Por ejemplo, este problema puede surgir si X fuera el estado no
observable de algún sistema y Y = X + Z, donde Z representa un error de observación. Sobre
la base de observar Y, desearíamos estimar o predecir el valor de X. Si nos restringimos a
estimaciones que sean funciones lineales de Y, digamos aY + b, y si medimos el error de
estimación por el error cuadrático medio

E  X  aY  b
2

entonces el problema puede ser establecido como sigue. Encuentre constantes a y b que
minimicen E[(X  aY  b)2].
1
9 Esta sección trata un tópico especial y puede ser omitida.
ESPERANZA 269
Teorema 8.5.1 Sean X y Y variables aleatorias conjuntamente distribuidas con

medias  y  y varianzas 2 y 2, respectivamente. Si 2 > 0, entonces E[(X  aY  b)2]
es minimizado tomando b =   a, donde
E X   Y   
a (5.1)
2
PRUEBA Por el Lema 8.3.1 sabemos que para cualquier a, E[(X  aY  b)2]
es minimizada tomando b = E(X  aY) =   a. Con esta selección de b, tenemos
  
E  X  aY  b  E  X 1  aY1 
2 2
 (5.2)
donde X1 = X   y Y1 = Y  . Expandiendo (5.2), ahora encontramos que
   
E  X 1  aY1   E X 1  2aE X 1Y1   a 2 E Y1
2 2
 
2
  2  2aE X 1Y1   a 2 2
Diferenciando, ahora encontramos que el mínimo ocurre cuando a = E(X1Y1)/2, como

se aseveró. ////
Si 2 > 0, entonces encontramos del Teorema 8.5.1 que el mínimo de E[(X  aY  b)2] es
 2  2aE X 1Y1   a 2 2   2  E  X 1Y1  2   2 1  r 2  (5.3)

donde (por definición)
E X   Y   
r (5.4)

Así si predecimos X por una función lineal de Y, es posible reducir el error esperado por un
factor de r2 [de 2 a 2(1  r2)] del error que habría sido incurrido si sólo hubiéramos
predicho X por su media . Por tanto podemos pensar de r como una medida de la
dependencia lineal entre X y Y. Denominaremos a r el coeficiente de correlación de X y Y.
Además, definimos la covarianza de X y Y para ser
C  X ,Y   E X   Y    (5.5 a)
así que
C  X ,Y 
r (5.5 b)

Ambas covarianza y correlación son simétricas en X y Y.

Antes que consideremos ejemplos, observemos que el valor de (5.3) debe siempre ser no
negativo, puesto que es simplemente E[(X  aY  b)2]. Por tanto, siempre debemos tener r2 
1, o equivalentemente,
1  r  1 (5.6 a)
En términos de la covarianza y varianzas, (5.6a) puede también ser escrita

C Y , X    (5.6 b)
donde 2 y 2 denotan las varianzas de X y Y, respectivamente. La expresión (5.6b) es un

caso especial de la desigualdad de Schwarz, que es discutida con más detalle en el Problema
8.18.
En los cálculos de covarianzas y correlaciones, la identidad
C X ,Y   E XY   E X EY  (5.7)
es completamente útil. Su prueba es similar a esa del Lema 8.3.2 y será dejada como un
ejercicio.
La Ecuación (5.7) tiene una consecuencia teórica interesante, es decir, si X y Y son variables
aleatorias independientes, entonces C(X,Y) = 0, y consecuentemente r = 0 también. De
hecho, si X y Y son independientes, entonces E(XY) = E(X)E(Y) por el Teorema 8.2.3. Puesto
que hemos interpretado a r como una medida de dependencia entre X y Y, debemos
ciertamente anticipar este resultado. Es posible, sin embargo, para variables aleatorias
dependientes no estar correlacionadas, eso es, tener correlación cero, como veremos en los
siguientes ejemplos.
EJEMPLO 8.5.1 Permita que X y Y tengan densidad conjunta
2 0  x  y  1
f x , y   
0 de otro modo
Entonces, cálculos simples producen  = 1/3,  = 2/3, 2 = 1/18 = 2, y
E  XY   20 0 xydxdy  0 y 3 dy  14
1 y 1
así que
ESPERANZA 271
 13  23  1
1
r 4
 ////
18 2
EJEMPLO 8.5.2
Sean X y Z variables aleatorias independientes con medias cero y varianzas 2 y  2,
respectivamente. Si Y = X + Z, entonces la varianza de Y es r2 = 2 +  2 por el Teorema
8.3.1, y
 
C  X ,Y   E  XY   E X 2  E  XZ    2
Por tanto, la correlación es r = 2/  2   2 = /  2   2 . El mejor predictor lineal de X

es aY, donde a = C(X,Y)/2 = 2/(2 +  2). ////
EJEMPLO 8.5.3
Es posible para variables aleatorias dependientes no estar correlacionadas. Por ejemplo,
permita que X tenga la distribución uniforme sobre (1,1), y sea Y = X2. Entonces, X y Y son
altamente dependientes puesto que Y es, de hecho, una función de X. Sin embargo,
EX  
1 1
 xdx  0
2 1
 
E  XY   E X 3  1 x 3 dx  0
1 1
2
así que C(X,Y) = 0 y consecuentemente r = 0. ////

Para los ejemplos restantes, encontraremos útil el siguiente lema.
Lema 8.5.1 Sean X y Y variables aleatorias distribuidas conjuntamente con
coeficiente de correlación r, y sea X = aX + b y Y = cY + d, donde ac  0. Entonces,
el coeficiente de correlación de X y Y es r = acr/ac. En particular, r = r.
La prueba del Lema 8.5.1 es semejante a esa del Lema 8.3.3 y, por tanto, será omitida.
EJEMPLO 8.5.4
a Permita que X y Y tengan la distribución normal bivariada estándar con parámetro
r, 1 < r < 1. Eso es, permita que X y Y tengan la densidad conjunta
 1 x 2  2rxy  y 2 
f x , y  
1
exp   
2 1  r 2  2 1  r 2

para  < x,y < . Entonces r es la correlación entre X y Y. Para ver esto observe
primero que X y Y ambas tienen la distribución normal univariada estándar por el

Ejemplo 6.2.4, así que E(X) = E(Y) = 0 y D(X) = D(Y) = 1 por el Ejemplo 8.3.2. Por
tanto, la correlación entre X y Y es simplemente C(X,Y) = E(XY). Ahora, puesto que x2
 2rxy + y2 = (x  ry)2 + (1  r2)y2,

1  1 x 2  2rxy  y 2 
E  XY     xy exp   dxdy
  2 1  r
2
 2 1 r2 

   1  1  x  ry  2  
   x exp   dx
 
2 1  r 2  2 1  r 2
 
1  1 y2
 ye 2 dx
2
Más aún, la integral interior es simplemente la media de una distribución normal con
media  = ry y varianza 2 = 1  r2, eso es, ry. Así,
E  XY    ry 2
 1  12 y 2
e dy  r
2
como se aseveró.
b Más generalmente, permita que W y Z tenga la distribución normal bivariada
estándar con parámetro r, 1 < r < 1, y sea
X  W   y Y  Z  
donde  < ,  < ,  > 0, y  > 0. Entonces, por una simple aplicación del Corolario
7.4.1, X y Y tienen densidad conjunta
 1 Q x , y  
g x , y  
1
exp 
2 1  r 2  2 1  r 
2
x x   y   y  
2 2
dondeQx, y      2r  
        .
La densidad g es conocida como la densidad normal general bivariada con parámetros

, , , y r.
Los parámetros son completamente fáciles de interpretar. Por el Lema 8.3.3 y el
Ejemplo 8.3.2,  y 2 son la media y la varianza de X, y  y 2 son la media y la
ESPERANZA 273
varianza de Y. Más aún, por la parte a y el Lema 8.5.1, la correlación entre X y Y es r.

////
EJEMPLO 8.5.5
Sea X cualquier variable aleatoria con una varianza positiva finita 2, y sea Y = aX + b,
donde a  0. Entonces la correlación entre X y Y es 1 o 1. Indiscutiblemente, es obvio que
la correlación entre X y X es simplemente 2/2 = 1, así que la correlación entre X y Y =
a/a por el Lema 8.5.1. El recíproco de este enunciado también es cierto. Si X y Y son
variables aleatorias con coeficiente de correlación r que es 1 o 1, entonces hay constantes a
y b para las cuales Pr (Y = aX + b) = 1 (ver Problema 9.3). ////
Teorema 8.5.2 Sean X1,... Xm y Y1,... Yn variables aleatorias distribuidas
conjuntamente con varianzas finitas. Además, sea S = X1 +  + Xm y T = Y1 +  + Yn.
Entonces
C S ,T     C X i ,Y j 
m n
(5.8 a)
i 1 j 1
En particular, si i2 denota la varianza de Xi, i = 1,,m, entonces la varianza de S es
 2    i 2  2   C X i , X j 
m m i 1
(5.8 b)
i 1 i  2 j 1
PRUEBA Tenemos
m n  m n
E ST   E    X iY j     E X iY j 
 i 1 j 1  i 1 j 1
 n  m n
E S E T    E  X i    E Y j     E  X i E Y j 
m
i 1   j 1  i 1 j 1
así que
C S ,T   E ST   E S E T 
 
   E X i Y j   E  X i E Y j     C X i ,Y j 
m n m n
i 1 j 1 i 1 j 1
Esto establece (5.8a), de la cual (5.8b) se sigue tomando m = n y Xi = Yi, i = 1,,m. ////
274 EJEMPLOS
Como un corolario al Teorema 8.5.2, podemos rederivar el resultado de que la varianza de

una suma de variables aleatorias independientes es la suma de sus varianzas. Sin lugar a
dudas, si X1,... Xm son independientes, entonces C(Xi,Xj) = 0 para i  j, así que el resultado se
sigue de (5.8b). Como una segunda aplicación del Teorema 8.5.2, calcularemos la varianza
de la distribución hipergeométrica.
EJEMPLO 8.5.6
Tómese una muestra aleatoria ordenada de tamaño k sin reemplazo de una urna que contiene
m bolas rojas y n  m bolas blancas, donde k  n. Además sea Xi = 1 si la i-ésima bola
tomada es roja, y sea Xi = 0 si la i-ésima bola tomada es blanca. Entonces S = X1 +  + Xk da
el número total de bolas rojas en la muestra, así que S tiene la distribución hipergeométrica
con parámetros m, n, y k (ver Ejemplo 5.2.2). Ahora, tenemos que
mm  1
EX i  
m
n
 E Xi 
2
y E X i X j  
nn  1
para i = 1,,k, j = 1,,k, e i  j. Así, la media y varianza de Xi son  = p y 2 = pq, donde p

= m/n y q = 1  p. Más aún, por (5.7) la covarianza entre Xi y Xj es C(Xi,Xj) = E(XiXj) 
E(Xi)E(Xj) = pq/(n  1). Por lo tanto, por el Teorema 8.5.2, la media y la varianza de S están
dados por
nk
E S   kp y DS   kpq (5.9)
n 1
respectivamente. Puesto que S tiene la distribución hipergeométrica, y puesto que la media y

varianza de una variable aleatoria depende sólo sobre su función de distribución, hemos
mostrado que la media y varianza de la distribución hipergeométrica están dadas por (5.9).
////
8.6 EJEMPLOS1
EJEMPLO 8.6.1 Muestreo estratificado
Considere una población que consiste de t estratos, t  2, como en el Ejemplo 3.3.6.
Deseamos conducir una encuesta de opinión para aprender, por ejemplo, cuál proporción de
la población favorece a un candidato político o tema particular. Denote ni el tamaño del i-
ésimo estrato, y denote mi el número de personas en el i-ésimo estrato quienes favorecen al
1
ESPERANZA 275
candidato o tema en cuestión. Entonces el tamaño de la población total es n = n1 +  + nt,

del cual m = m1 +  + mt favorece al candidato o tema. Además, sea i = ni/n la proporción
de la población en el i-ésimo estrato, y sea pi = mi/ni la proporción de aquellos individuos en
el i-ésimo estrato quienes favorecen al candidato o tema. Entonces la proporción de la
población quienes favorecen al candidato o tema es
p  1 p1   2 p2     t pt
Por supuesto, 1 +  + t = 1.
Suponer ahora que 1,,t son conocidos, que p1,,pt y p son desconocidos, y que
deseamos conducir una encuesta de opinión para saber acerca de ellos. Suponer también que
tenemos suficientes recursos para tomar una muestra de tamaño k de la población.
Dos posibilidades presentan ellos mismos. Podemos tomar una muestra aleatoria simple.
Eso es, podemos tomar una muestra aleatoria de la población entera. Si hacemos eso, y si
denotamos por X el número de personas en la muestra quienes favorecen al candidato o
tema, entonces podemos estimar p por
1
p̂  X
k
la proporción de la muestra quienes favorecen al candidato o tema. Por el Ejemplo 8.5.6, la

media y varianza de p son entonces
nk
E  p̂   p D p̂  
1
y pq (6.1)
k n 1
donde q = 1  p.
Otra posibilidad es tomar una muestra estratificada. Eso es, dividimos el tamaño de la
muestra k en grupos de tamaños k1,,kt, donde k1 + k2 +  + kt = k, y tomamos una muestra
de tamaño ki del i-ésimo estrato para i = 1,,t. Si denotamos por Xi el número de personas
en la muestra del i-ésimo estrato quienes favorecen al candidato o tema, entonces podemos
estimar pi por p i  X i k i y p por
ˆp̂  1 p̂1     t p̂t
La media y varianza de ˆp̂ son entonces E( ˆp̂ ) = 1 E p̂1    2 E p̂2      t E p̂t  

1 p1   2 p2     t pt  p y
276 EJEMPLOS
t 1 n  ki
D ˆp̂     i pi qi i
2
(6.2)
i 1 k i ni  1
por el Ejemplo 8.5.6, el Lema 8.3.3, y el Teorema 8.3.1.

¿Cómo podemos comparar estos dos esquemas de muestreo? ¿Cuál de los dos es mejor?
La respuesta a la primera de estas preguntas es completamente simple. Puesto que ambos p̂
y ˆp̂ tienen media p, y puesto que la varianza mide la tendencia de una variable aleatoria a
desviarse de su media, parece razonable compararlos sobre la base de las varianzas. Eso es,
una estimación será juzgada mejor que la otra si y sólo si tiene una varianza más pequeña.
La segunda pregunta es más sutil, pero puede ser respondida como sigue. Si los tamaños de
muestra k1,,kt son seleccionados para ser proporcionales a los tamaños de los estratos
n1,,nt, entonces el muestreo estratificado es mejor que el muestreo aleatorio simple. Para
ver porqué, haremos la suposición simplificante de que n es grande comparada con k y que ni
es grande comparado con ki, así que los factores (n  k)/(n  1) y (ni  ki)/(ni  1) pueden ser
quitados en (6.1) y (6.2). Encontramos que
D p̂   D ˆp̂   
1 t 1 2
pq y  i pi qi
k i 1 k i
Seleccionemos ahora los tamaños de muestra ki para ser proporcionales a los tamaños de los
estratos. Eso es, sea ki = ik para i = 1,,t. Entonces tenemos
D ˆp̂  
1 t
  i pi qi
k i 1
Simple álgebra ahora muestra que
1 t 1 1 t

 i i i     i  pi  p 
2
p q pq
k i 1 k k i 1
Esto es estrictamente menor que (1/k)pq  D( p̂ ) a menos que p1 = p2 =  = pt. Así, tenemos
D( p ) < D( p̂ ) a menos que p1 = p2 =  = pt, en cuyo caso D( ˆp̂ )  D( p̂ ). ////
EJEMPLO 8.6.2 Un problema de inventario
Un comerciante tiene que almacenar una cantidad de bienes z para satisfacer una demanda
aleatoria X. El comerciante compra sus bienes a un costo fijo c y las vende a un precio fijo p
> c. ¿Cuánto debe el ordenar si desea maximizar su ganancia esperada?
Supondremos, por simplicidad, que la demanda X tiene una función de distribución
ESPERANZA 277
absolutamente continua F con densidad f, que es positiva sobre (0,). También suponemos
que la demanda no es negativa, así que F(x) = 0 para x  0. Si el comerciante ordena z
unidades de inventario, su ganancia es
Y  p min  X , z   cz
Así, su ganancia esperada es
E Y   0 pxf x dx  pz1  F z   cz

z
Aquí hemos usado el Teorema 8.2.1 para calcular la esperanza del mín (X,z). Si ahora
diferenciamos E(Y) con respecto a z, encontramos
E Y   p1  F z   c
d
dz
que es cero si y sólo si F(z) = (p  c)/p. Más aún, puesto que la segunda derivada de E(Y) es
pf(z), que es negativo, vemos que el extremo es un máximo. Así, el comerciante debe
ordenar z0 unidades, donde z0 es la solución a la ecuación
pc
F z  
p
En el caso especial que F sea la distribución exponencial con parámetro , encontramos z0 =
(log p  log c)/. ////
REFERENCIAS
Si X es cualquier variable aleatoria, entonces la función característica de X está definida por
(t) = E(eitX) para  < t < , donde i denota  1 . Las funciones características tienen
propiedades semejantes a aquellas de las funciones generatrices de momentos y tienen la
ventaja que cada variable aleatoria tiene una función característica. Por otro lado, ellas son
más complicadas puesto que exponenciales complejos están involucrados. Para los lectores
interesados en las funciones características, recomendamos Parzen (1960), capítulo 9, para
un tratamiento elemental y Feller (1966), chap. 15, para un tratamiento más detallado.
Si X es una variable aleatoria no negativa, entonces M(t) = E(e-tX), t > 0, es conocida como
la Transformada de Laplace de X. Las transformadas de Laplace tienen varias propiedades
adicionales importantes que son discutidas en Feller (1966), capítulo 13.
Para un tratamiento más completo del muestreo estratificado y otros esquemas de muestreo
interesantes, ver Cochran (1963). Lectores interesados en modelos de inventarios (Ejemplo
8.6.2) deben consultar Arrow, Karlin, y Scarf (1958, 1962).
278 PROBLEMAS
8.7 PROBLEMAS
8.1 Permita que X tenga la distribución Rayleigh [con densidad f(x) = 2x exp (x2), x > 0,
y f(x) = 0 para x  0]. Encontrar E(X).
8.2 Permita que X tenga la distribución exponencial bilateral [ con densidad f(x) = (/2)e-
x
, x  R]. Encontrar E(X).
8.3 Sean dos dados balanceados tirados, y denote X el número total de puntos que aparecen.
Encontrar E(X).
8.4 Dos dados balanceados son tirados. Si X denota el número máximo de puntos que
aparecen, encontrar E(X).
8.5 ¿Estaría dispuesto a jugar el siguiente juego repetidamente? Dos dados balanceados son
tirados. Ganas 3 dólares si 2, 7, ó 12 puntos aparecen y pierdes 1 dólar de otro modo.
8.6 Considere el siguiente juego. Una moneda balanceada es lanzada hasta que un águila
aparece. Si un águila aparece en el primer lanzamiento, ganas 1 dólar. De otro modo,
ganas n dólares, donde n es el número de lanzamientos requerido para obtener un
águila. ¿Cuál es tu ganancia esperada?
8.7 Sean X1,, Xn variables aleatorias independientes las cuales son uniformemente
distribuidas sobre (0,1). Encontrar el valor esperado de mín (X1,, Xn) y máx (X1,,
Xn).
ESPERANZA 279
8.8 Sean X1,, Xn como en el Problema 8.7. Encontrar el valor esperado de Yk, el k-ésimo
más pequeño de X1,, Xn.
8.9 Sea X cualquier variable aleatoria acotada, eso es, cualquier variable aleatoria para la
cual Pr (a < X  b) = 1 para algunas constantes a y b. Para n = 1, 2,, defina una
variable aleatoria Xn por
Xn = k2n si k  1 < X2n  k
Mostrar que lim E(Xn) = E(X) cuando n  . Sugerencia: Esto se sigue fácilmente de
la definición de la integral de Riemann-Stieltjes.
8.10 Sea X cualquier variable aleatoria para la cual E(X) está definida, y para cualquier
entero n = 1, 2, sea Xn = X si X  n y Xn = 0 si X > n. Mostrar que lim E(Xn) = E(X)
. Sugerencia: De nuevo, esto se sigue fácilmente de la definición de la integral de
Riemann-Stieltjes.
8.11 Permita que X tenga una función de distribución F, donde F(x) = 0 para x < 0 y F(x) = 1
 (1 + x)2 para x  0. Encontrar la E(X).
8.12 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar las esperanzas de
cos 2X y cos (2X)2.
8.13 Permita que X tenga la distribución gama con parámetro  = 2 y  = 1. Encontrar la
esperanza de 1/X. Comparar su respuesta con 1/E(X).
8.14 Sea X una variable aleatoria, y sea D un intervalo para el cual Pr (X  D) = 1. Permita
que X tenga densidad f la cual es continua sobre D, y sea w una función continuamente
diferenciable para la cual w´(x)  0 para cualquier x  D. Sea Y = w(X). Mostrar
directamente que
E Y    wx  f x  dx
D
8.15 Probar el Teorema 8.2.2 en el caso especial que X y Y tengan una densidad conjunta.
8.16 Si k bolas son ubicadas en n celdas de acuerdo a la estadística de Maxwell-Boltzmann
(cualquier bola es igualmente verosímil para ir dentro de cualquier celda), encontrar:
(a) El número esperado de bolas en la primera celda.
(b) El número esperado de celdas vacías.
8.17 Repita el Problema 8.16 para la estadística de Bose-Einstein (ver Sección 1.6).
8.18 Derive la desigualdad de Schwarz. Si X y Y son cualesquiera variables aleatorias para
las cuales E(X2) y E(Y2) son ambas finitas, entonces E(XY)2  E(X2)E(Y2). Sugerencia:
E[(X  tY)2] es no negativa para toda t  R. Encontrar su mínimo por diferenciación.
8.19 Derive la desigualdad de Minkowski. Si X y Y son variables aleatorias para las cuales
280 PROBLEMAS
E(X2) <  y E(Y2) < , entonces

E[(X + Y)2]1/2  E(X2)1/2 + E(Y2)1/2
Sugerencia: Use la desigualdad de Schwarz.
8.20 Si (X,Y) tiene la distribución uniforme sobre el cuadrado unitario en R2, encontrar la
esperanza de XY. Sugerencia: X y Y son independientes.
8.21 N partículas radioactivas decaen independientemente. Si el tiempo hasta el decaimiento
de la i-ésima partícula tiene la distribución exponencial con parámetro , encontrar la
esperanza del tiempo en el cual el primer decaimiento es observado. Sugerencia: Ver
Sección 7.6.
8.22 En el Problema 8.21 encontrar la esperanza del tiempo en el cual el k-ésimo
decaimiento es observado.
8.23 En la notación del Problema 8.21, encontrar el número esperado de partículas que
decaen en el intervalo de tiempo (0,t).
8.24 Encontrar la media y varianza de X cuando X tiene la distribución exponencial bilateral
[ con densidad f(x) = (/2)e- x,  < x < ].
8.25 Encontrar la media y varianza de X cuando X tiene la distribución Rayleigh [con
densidad f(x) = x exp(x2/2), x > 0].
8.26 Encontrar la media y varianza de X cuando X tiene la distribución Pareto [con densidad
Cx - 1/(1 + x) + , x > 0, donde C = ( + )/()()].
distribuidas sobre (0,1). Sea Y = máx (X1,, Xn). Encontrar la media y varianza de Y.
8.28 Sean X1,, Xn como en el Problema 8.27. Sea Y1 = mín (X1,, Xn), y sea Y2 = máx
(X1,, Xn). Encontrar la media y varianza de Y2 – Y1.
8.29 Sean X1,, Xn variables aleatorias independientes con media común  y varianza
común 2. Encontrar la media y varianza de X = (X1 +  + Xn)/n.
8.30 Sean X1,, Xn como en el Problema 8.29, y sea
n
n  1S 2    X i  X
2
i 1
Encontrar E(S2) en términos de  y 2.

8.31 Sean X y Y variables aleatorias independientes con varianzas positivas finitas 2 y 2,
respectivamente. Encontrar el número  el cual minimiza la varianza de Z = X + (1 
)Y.
ESPERANZA 281
8.32 Sean X1,, Xn variables aleatorias independientes con varianzas positivas finitas
12,, n2, respectivamente. Encontrar 1,, n las cuales minimizan la varianza de
1X1 +  + nXn, sujeto a la restricción 1 +  + n = 1.
Sea X una variable aleatoria positiva con media finita  y varianza 2. Entonces, el cociente
/ es conocido como el cociente señal-a-ruido. Encontrar el cociente señal-a-ruido para las
distribuciones (a) gama; (b) Rayleigh; (c) Pareto; y (d) Poisson. Sus respuestas involucrarán
a los parámetros de estas distribuciones.
8.34 Si X tiene una distribución exponencial con varianza 2 = 1, encontrar Pr (X  1).
Sugerencia: Encontrar .
8.35 Considere tres básculas. Si un objeto es pesado en cualquiera de las tres básculas, el
resultado es una variable aleatoria normalmente distribuida cuya media es el verdadero
peso del objeto. Las varianzas de las tres máquinas son diferentes. De hecho, ellas son
12 = 1, 22 = 2, y 32 = 3. ¿Obtendría una estimación más precisa del verdadero peso
de un objeto pesándolo en la báscula 1 o pesándolo en las básculas 2 y 3 y usando el
promedio? (Suponga que los errores cometidos por las tres básculas son
independientes.)
8.36 Considere dos marcas de focos. La marca A se funde con una longitud de tiempo
normalmente distribuida con media A = 100 horas y desviación estándar A = 1 hora.
La marca B se funde con una longitud de tiempo distribuida normalmente con media B
= 102 horas y desviación estándar B = 10 horas. ¿Cuál marca tiene la mayor
probabilidad de fundirse para más de 90 horas?
8.37 Sea X una variable aleatoria con esperanza finita. Mostrar que E(X  a) es mínima
cuando a es una mediana de X.
8.38 Suponer que la masa es distribuida sobre el intervalo I = (0,1] de acuerdo a una
distribución masa F. Eso es, suponer que la cantidad de masa en el intervalo (a,b] es
F(b)  F(a) para 0  a  b  1, donde F es una función continua por la derecha no
decreciente. El centro de gravedad está definido para ser ese número a que minimiza
 x  a  dF x  . Derive una expresión para el centro de gravedad. Comente sobre
1 2
0
cualquier analogía con la teoría de probabilidad.

8.39 En el Problema 8.38 denote m el centro de gravedad. Entonces  2   x  m2 dF x  es
1
denominado el momento de inercia. Mostrar que
2
 2   x 2 dF x    x dF x  F 1  F 01
1 1
0  0 
282 PROBLEMAS
8.40 Si X es una variable aleatoria con momentos 1, 2,, definimos los momentos
centrales de X por k = E[(X   )k], k = 1, 2,, donde  = 1 es la media de X. Exprese
los momentos centrales como combinaciones lineales de los momentos ordinarios 1,
2,.
8.41 La asimetría y curtosis de una variable aleatoria X son definidos para ser
s = 3  -3 y k = 4 -4  3
donde k denotan los momentos centrales de X y 2 = 2 denota la varianza de X.
Derive las siguientes dos propiedades de asimetría y curtosis:
(a) Si Y = aX + b, donde a y b son constantes, entonces Y tiene la misma asimetría y
curtosis como X.
(b) Si X tiene una distribución normal entonces s = 0 = k.
Asimetría y curtosis pueden ser pensadas como medidas de que tanto la distribución de
X se desvía de la normalidad.
8.42 Calcular la asimetría y curtosis de X cuando X tiene cada una de las siguientes
propiedades:
(a) Binomial con parámetros n y p.
(b) Poisson con parámetro  > 0.
(c) Uniforme sobre el intervalo (a,b) con a < b.
(d) Beta con parámetros  y .
(e) Exponencial con parámetro .
8.43 Exprese los momentos de la función de distribución normal estándar en términos de la
función gama.
8.44 Permita que X tenga la distribución exponencial bilateral [con densidad f(x) = (/2)e- x,
 < x < ].
(a) Encontrar la función generatriz de momentos de X.
(b) Encontrar los primeros cuatro momentos.
8.45 Si X tiene la función generatriz de momentos M(t) = (senh t)/t para t  0 y M(0) = 1,
¿cuál es la distribución de X?
8.46 Si X tiene una función generatriz de momentos M(t) = cosh t para  < t < , ¿cuál es
la distribución de X?
8.47 Si X tiene función generatriz de momentos M(t) = exp (t + t2), ¿cuál es la función de
distribución de X?
ESPERANZA 283
8.48 Probar las aseveraciones (iii) y (iv) del Teorema 8.4.4.

8.49 Sean X1,, Xn variables aleatorias independientes distribuidas geométricamente con
distintos parámetros p1,, pn. Encontrar la función masa de S = X1 +  + Xn.
8.50 Sean X1 y X2 variables aleatorias independientes exponencialmente distribuidas con
distintos parámetros 1 y 2. Encontrar una densidad para S = X1 + X2.
8.51 Sean X1,, Xn variables aleatorias independientes exponencialmente distribuidas con
parámetros distintos 1,, n. Encontrar una densidad para S = X1 +  + Xn.
8.52 Permita que X tenga función generatriz A. Mostrar que
E[(X)k] = A(k)(1)
finita o infinita para k = 1, 2,. Los números fk = E[(X)k] son denominados los
momentos factoriales de X.
8.53 Sea X una variable aleatoria valuada en los enteros, y suponer que los momentos
factoriales f1, f2, y f3 son finitos. Mostrar que los momentos usuales 1, 2, y 3 están
dados por 1 = f1, 2 = f2 + f1, y 3 = f3 + 3f2 + f1.
Encontrar los momentos factoriales para las distribuciones (a) binomial, (b) geométrica, y
(c) Poisson.
Use los resultados de los Problemas 8.53 y 8.54 para encontrar la media y varianza de las
distribuciones (a) binomial, (b) geométrica, y (c) Poisson.
 k 
n
8.56 Evaluar k j j para n y j arbitrarias.
8.57 Permita que U tenga la distribución uniforme sobre (0,1), y sea X = sen 2U y X = cos
2U. Mostrar que var (X + Y) = var X + var Y. ¿Son X y Y independientes?
8.58 Permita que X y Y tengan la densidad conjunta f(x,y) = 120xy(1  x  y) para x > 0, y >
0, y x + y  1. Encontrar la correlación entre X y Y.
8.59 Más generalmente, permita que X y Y tengan la densidad conjunta f(x,y) = Cx - 1 y - 1(1
 x  y) - 1 para x > 0, y > 0, y x + y  1, donde C = ( +  + )/()()(). Mostrar
que la correlación entre X y Y es          .
8.60 Probar la Ecuación (5.7).
8.61 Probar el Lema 8.5.1.
8.62 Sean X y Y variables aleatorias independientes con media  y  y varianzas 2 y 2,
respectivamente. Sea W = X + Y y Z = X  Y. Encontrar la correlación entre X y Z.
8.63 Permita que X1,, Xn tenga la distribución hipergeométrica multivariada (Ejemplo
284 PROBLEMAS
6.3.1a). Encontrar la covarianza y correlación entre Xi y Xj para i  j.

8.64 Permita que X1,, Xk tenga la distribución multinomial con parámetros n y p = (p1,,
pk), como en el Ejemplo 6.3.1b. Mostrar que la covarianza entre Xi y Xj es pipj para i 
j.
8.65 Si A1,, An son eventos con unión A = A1    An, entonces 1  IA =  1  I  .
n
k 1 Ak
8.66 Use el resultado del Problema 8.65 para dar una prueba independiente del Teorema
2.4.1. Sugerencia: P(A) = E(IA).
9
9 TEOREMAS LÍMITES
9.1 ALGUNAS DESIGUALDADES ÚTILES

Hay varias desigualdades importantes que relacionan esperanzas y probabilidades. Muchas
son variaciones de la siguiente desigualdad básica, conocida como la desigualdad de
Markov.
Teorema 9.1.1. Sea X cualquier variable aleatoria, y sean  y r cualesquiera números
reales positivos. Entonces
 
Pr  X       r E X
r
(1.1)
PRUEBA Permita que A denote el evento donde X  , y denote IA la

función indicadora de A. Eso es, sea IA = 1 si A ocurre, y sea IA = 0 de otro modo.
Entonces rIA  Xr, puesto que X   si IA = 1 e IA = 0 de otro modo. Así, E(Xr) 
E(rIA) = rE(IA) = rP(A) = r Pr (X  ), como se aseveró. ////
Como un caso especial de la desigualdad de Markov, obtenemos la desigualdad de
Chebyshev.
Corolario 9.1.1 Sea X una variable aleatoria con media  y varianza 2.
Entonces para cualquier  > 0
286 ALGUNAS DESIGUALDADES ÚTILES
2
Pr  X       2 (1.2)

PRUEBA Aplicamos la desigualdad de Markov a Y = X   con r = 2 y
encontramos que Pr (|X    )   –2E{X  2} =  –22. ////
EJEMPLO 9.1.1
a Denote X el número de águilas que resultan de n lanzamientos independientes de
una moneda que tiene probabilidad p de ocurrir en águila sobre cada lanzamiento, así
que X tiene la distribución binomial con parámetros n y p. Sea Y = X/n la frecuencia
relativa de águilas. Entonces
Pr  Y  p  01
.   Pr  X  np  01
. n 
npq 100 pq
2
 (1.3)
0.01n n
puesto que la media y varianza de X son np y npq, respectivamente. Más aún, puesto
que pq = p(1  p)  1/4, 0  p  1, (1.3) puede ser además acotada por 25/n. Así, si n 
1000, la probabilidad que Y difiera de p por más de 0.1 es a lo más 0.025 para cualquier
p posible.
b Si X tiene la distribución normal estándar, entonces Pr (X  2) = 1  Pr (2 < X <
2) = 0.046  1/20 por el Ejemplo 5.6.1a. La desigualdad de Chebyshev proporciona
sólo que Pr (X  2)  1/4, sin embargo. ////
Como este ejemplo indica, la desigualdad de Chebyshev puede horrorosamente sobreestimar
Pr (X    ). De hecho, horrorosamente sobreestima Pr (X    ) para la mayoría de las
distribuciones, aunque hay situaciones en las cuales es exacta (Problema 9.4). La virtud de la
desigualdad de Chebyshev es su generalidad, no su exactitud. La desigualdad de Chebyshev
es válida para cualquier variable aleatoria con una varianza finita, mientras que la estimación
más exacta Pr (X  2)  1/20 del Ejemplo 9.1.1b depende sobre X que tiene la distribución
normal estándar.
La desigualdad de Chebyshev apoya la interpretación de la varianza como una medida de la
tendencia de una variable aleatoria para desviarse de su media (Sección 8.3). En verdad, la
desigualdad de Chebyshev provee una cota sobre la probabilidad de que X se desvíe de su
media por más que  en términos de  y 2, la varianza de X.
En el caso extremo que 2 = 0 tenemos el siguiente corolario.
Corolario 9.1.2 Sea X una variable aleatoria con varianza 2 = 0. Entonces, Pr
(X = ) = 1, donde  = E(X).
PRUEBA Si 2 = 0, entonces Pr (X    ) = 0 para cualquier  > 0 por la
desigualdad de Chebyshev. Dejando   0, tenemos entonces Pr (X   > 0) = 0,
TEOREMAS LÍMITES 287
como se aseveró.
Otra variación útil sobre la desigualdad de Markov, la desigualdad de Bernstein, puede ser
establecida como sigue.
Teorema 9.1.2 Sea S cualquier variable aleatoria con una función generatriz de
momentos M. Entonces para cualquier s y cualquier t > 0, tenemos
Pr  S  s  e st M t  (1.4)
PRUEBA Aplicamos la desigualdad de Markov a la variable aleatoria Y = eS

con r = t y  = es. Tenemos
   
Pr  S  s  Pr e S  e s  e  st E etS  e  st M t 

Para una s dada, la desigualdad (1.4) es válida para toda t > 0. Parece natural usar la t que
minimiza el lado derecho de (1.4), pero desafortunadamente esta t puede raramente ser
encontrada explícitamente. Sin embargo, si E(S) = 0, puede ser encontrada aproximadamente
de la siguiente manera. Sea m(t) = log M(t), y recuerde que m(t) = E(S) = 0 y m(t) = 2 =
D(S). Así, por el teorema de Taylor, podemos aproximar m(t) por m(0)t + (½)m(0)t2 =
(½)2t2 para t pequeña. Se sigue que podemos aproximar M(t) = exp m(t) por exp (½)2t2 y
e–stM(t) por exp (st + (½)2t2). El valor mínimo de exp ((½)2t2 st) es fácilmente visto
para ocurrir cuando t = t0, donde
s
t0  (1.5)
2
Así, t0 parece una selección razonable de t en la Ecuación (1.4) y produce la desigualdad
 s 
P S  s  e  s / 2
2
M 2 
 
En el caso especial que S sea la suma de variables aleatorias independientes, la desigualdad
de Bernstein produce cotas sorprendentemente bajas.
Corolario 9.1.3 Sean X1,... Xn variables aleatorias independientes con función
generatriz de momentos M0, y sea S = X1 +  + Xn. Entonces
Pr  S  ns  e nst M0 t 
n
para toda s > 0 y toda t > 0.

PRUEBA La función generatriz de momentos de S es M(t) = M0(t)n por el
288 LA LEY DÉBIL DE LOS GRANDES NÚMEROS
Teorema 8.4.3, así que
Pr  S  ns  e  nst M 0 t 
n
para s > 0 y t > 0, como se aseveró. ////

EJEMPLO 9.1.2
Sean X1,... Xn variables aleatorias independientes con la distribución común
Pr  X i  1  1
2
Tabla 12
n
 10 25 50 100
0.1 0.9512 0.8823 0.7785 0.6060
0.2 0.8177 0.6045 0.3655 0.1336
0.5 0.2728 0.0389 0.0015
y sea S = X1 +  + Xn. La función generatriz de momentos de X1 es
 
E etX1  12 et  12 e  t  cosh t
para  < t < , así que la función generatriz de momentos de S es M(t) = (cosh t)n
(Teorema 8.4.3). También, la media y varianza de X1 son 0 y 1, respectivamente, así que la
media y varianza de S son 0 y n. Haciendo s = n, ahora encontramos que t0 = n/n = , y por
tanto
 
n
Pr  S  n   e   cosh 
2
(1.6)
para  > 0. El lado derecho de (1.6) está dado en la Tabla 12 para varios valores de n y . ////
9.2 LA LEY DÉBIL DE LOS GRANDES NÚMEROS

En la Sección 8.1 indicamos que la media  de una variable aleatoria X puede ser
considerada como el promedio empírico de largo plazo de X sobre muchas repeticiones del
experimento al que X se refiere. En esta sección probaremos dos teoremas que apoyan esta
interpretación de la media. Consideraremos variables aleatorias independientes X1,... Xn con
una media común , y pensaremos de X1,... Xn como los sucesos de n repeticiones de un
experimento. Mostraremos que el promedio empírico
1
Xn   X1  X n 
n
converge a  cuando n  , en el sentido que abajo es definido.

Empezamos observando que si X1,... Xn son variables aleatorias independientes con una
media común  y una varianza común 2, entonces la media y varianza de la suma Sn = X1 +
 + Xn son
E S n   n y D S n   n 2
por el Teorema 8.3.1. Por tanto la media y varianza de X n = Sn/n son

2
     1
2
1
E Xn  E S n    y D Xn    D S n   (2.1)
n  n n
por el Lema 8.3.3. El punto para ser observado es que la varianza de X n es substancialmente
menor que esa de cada una de las Xi individuales si n es grande. Si recordamos que la
varianza es una medida de la tendencia de una variable aleatoria para desviarse de su media,
entonces vemos que el promedio X n tiende a desviarse mucho menos de  que lo que las Xi
lo hacen. Esta simple observación es la base para los resultados de esta sección.
Decimos que una sucesión de variables aleatorias Y1, Y2, converge en probabilidad a otra
variable aleatoria Y cuando n   si y sólo si
lim Pr Yn  Y     0 (2.2)

n
para cualquier  > 0. Por supuesto, (2.2) es equivalente a
lim Pr  Yn  Y     1 (2.2a )
n
para cualquier  > 0. Eso es, Yn converge a Y en probabilidad cuando n   si y sólo si Yn es

arbitrariamente cercana a Y con probabilidad arbitrariamente alta para n suficientemente
grande.
El mayor uso de esta terminología será en casos donde Y sea una constante.
EJEMPLO 9.2.1
(0,1), y sea Yn = máx (X1,... Xn) para n = 1, 2,. Entonces, Yn  1 en probabilidad cuando n
 . En verdad, Pr (Yn > 1) = 0, y para 0 <  < 1
290 LA LEY DÉBIL DE LOS GRANDES NÚMEROS
Pr Yn  1     1   
n
que tiende a cero cuando n   (ver Ejemplo 7.2.1a). ////

Ahora estableceremos dos teoremas que afirman la convergencia de X n a  en probabilidad.
Teorema 9.2.1 Sean X1,... Xn variables aleatorias independientes que tienen una
media común  y una varianza (finita) común 2, y sea
X1  X n
Xn  1 n 1
n
Entonces X n   en probabilidad cuando n  .

PRUEBA El Teorema 9.2.1 se sigue fácilmente de la Ecuación (2.1) y la
desigualdad de Chebyshev. En verdad, para  > 0
2

Pr X n       1
2
D X n  
n 2
que tiende a cero cuando n  . ////

Mientras que el Teorema 9.2.1 es adecuado para muchas aplicaciones, tiene un defecto en
que la varianza 2 es supuesta para ser finita. Suponiendo que las variables aleatorias X1,...
Xn tienen una función de distribución común, podemos eliminar la condición de que 2 < .
La hipótesis de que X1,... Xn tengan la misma función de distribución es ciertamente
razonable si pensamos a X1,... Xn como los sucesos de ensayos independientes del mismo
experimento. Diremos que X1,... Xn son idénticamente distribuidas si ellas tienen la misma
función de distribución.
Teorema 9.2.2 Sean X1,... Xn variables aleatorias independientes que tienen una
misma función de distribución F. Si la media
   x dF  x 

(2.3)
es finita, entonces X n converge a  en probabilidad cuando n  .

El Teorema 9.2.2 es conocido como la ley débil de los grandes números. Probaremos este
teorema abajo, pero primero discutimos algunas de sus implicaciones.
Primero, hace precisa la interpretación dada a la media en la Sección 8.1 como el valor
límite de X n. En particular, apoya la interpretación frecuentista de probabilidad prediciendo
el tipo de comportamiento sobre el cual la interpretación frecuentista está fundamentada. En
verdad, si A es un evento que puede ocurrir sobre cada uno de n ensayos independientes,
entonces la frecuencia relativa con la cual A ocurre es simplemente fn(A) = X n, donde Xi = 1
si A ocurre sobre el iésimo ensayo y Xi = 0 de otro modo, i = 1,,n,. Puesto que X1,... Xn
son independientes con una distribución común, el Teorema 9.2.2 afirma la convergencia de
X n a la media  = E(Xi), que es simplemente P(A). Puesto que E(X1 ) es finita en este
2
ejemplo, la convergencia de X n a  = P(A) también se sigue del Teorema 9.2.1.

Puesto que es casi un axioma de teoría de probabilidad que cualquier teorema realmente
interesante debe tener aplicaciones al juego, veamos que tiene que decir el Teorema 9.2.2
acerca del juego. Considere un jugador quien juega n repeticiones de un juego fijo, y denote
Xi su ganancia (posiblemente negativo) sobre el iésimo juego, i = 1,,n. Entonces su
ganancia total es simplemente Sn = X1 +  + Xn. Si ahora suponemos que X1,... Xn son
independientes con función de distribución común, entonces el Teorema 9.2.2 tiene las
siguientes implicaciones.
Si la ganancia esperada  = E(Xi) en cada jugada es positiva, entonces

Pr  S n  12 n   Pr X n    12  
que tiende a 1 cuando n   por el Teorema 9.2.2. Eso es, jugando el juego suficientemente
(n grande), el jugador ganará una cantidad arbitrariamente grande (al menos n/2) con
probabilidad arbitrariamente alta. En este caso,  > 0, decimos que el juego es favorable.
Análogamente, si  < 0, el jugador perderá una cantidad arbitrariamente grande con
probabilidad arbitrariamente alta jugando el juego suficientemente y decimos que el juego es
desfavorable. Si  = 0, es sugerente llamar al juego limpio, y lo haremos así, aunque esta
terminología es algo cuestionable en los casos donde la varianza es infinita.1
Ahora regresamos a la prueba del Teorema 9.2.2. Sean X1,... Xn como descritas en sus
hipótesis, variables aleatorias independientes con una función de distribución común F y una
media finita . Debemos mostrar que, dada una  > 0 arbitraria y  > 0, la desigualdad
 
Pr X n      
se cumple para toda n suficientemente grande.

Sea  > 0 y  > 0 dadas; sea  = E(X1), que es finita por suposición; sea  = 2/8; y defina
Y1,... Yn por
 Xk si  n  X k  n
Yk  
0 de otro modo
Entonces Y1,... Yn son independientes con media común

1
1 Ver Feller (1968), p. 249.
292 VARIACIONES DE LA LEY DÉBIL DE LOS GRANDES NÚMEROS
 n  n y dF  y 
n
y varianza
 n 2  n y 2 dF  y    n 2
n
(2.4)
Ahora, cuando n  , n  , así que n   por definición de la integral de Riemann-

Stieltjes impropia en (2.3). Por tanto hay una n0 para la cual n    (1/2) para toda n 
n0. Por tanto, para n  n0 tenemos
  
Pr X n      Pr X n   n  12  
 Pr  Y n  n  1
2    Pr  X n  Yn  (2.5)
Ahora, por la desigualdad de Chebyshev , Pr ( Yn  n  (1/2))  4n2/n. Más aún, por
(2.4),
 n 2  n y 2 dF  y   n n y dF  y   ny
n n
donde (recordamos)  = E(X1). Por tanto, por definición de , tenemos
 
Pr Yn   n  12   4 2  12  (2.6)
para toda n = 1, 2,. Más aún,
Pr  X n  Yn    Pr X k  Yk 
n
k 1
 n Pr X1  n
 n  x n dF  x    1  x n x dF  x 
que tiende a cero cuando n  , puesto que es la cola de una integral convergente. Así, hay
una n1 para la cual Pr ( X n  Yn )  (1/2) para toda n  n1. Combinando esta información con
(2.5) y (2.6), ahora vemos que Pr ( X n    )   siempre que n  máx(n0,n1). ////
9.3 VARIACIONES DE LA LEY DÉBIL DE LOS GRANDES NÚMEROS

Hay muchas variaciones sobre las leyes de grandes números dadas en la sección previa, y
presentamos tres de ellas en esta sección. Comenzamos por observar que el Teorema 9.2.1
no usó realmente la independencia de las Xi muy fuertemente. Sólo usó el hecho de que ellas
no estaban correlacionadas, que se sigue de la independencia pero es una condición mucho
más débil (ver Ejemplo 8.5.3). De hecho, todo lo que realmente es necesario es que las Xi
sean asintóticamente no correlacionadas en el sentido de que

lim C X i , X j  0  (3.1)
donde el límite es tomado cuando i  j  .

Teorema 9.3.1 Sean X1,... Xn variables aleatorias distribuidas conjuntamente con
media común  y varianzas acotadas 12,,n2, digamos i2  b, i = 1,,n, donde b es
independiente de n. Si (3.1) se cumple, entonces X n   en probabilidad cuando n 
.
PRUEBA Por la desigualdad de Chebyshev, tenemos

Pr X n       1
2
D X n 
para toda  > 0, así que será suficiente mostrar que
lim D X n   0 (3.2)
n
Ahora
2
 1 n n
D X n       C X i , X j
 n  i1 j 1
 
por el Teorema 8.5.2. Dada  > 0, hay por (3.1) un entero m para el cual C(Xi,Xj)  /2
provisto sólo que i  j  m. Más aún, por la desigualdad de Schwarz (Sección 8.5),
tenemos también
 
C X i , X j   i j  b
para toda i y j. Por tanto, para n  2mb/,

294 VARIACIONES DE LA LEY DÉBIL DE LOS GRANDES NÚMEROS
 1  
2

D X n       b   C X i , X j 
 n   i j m

i j m 
nmb n n  m
 2  
n 2n 2
y (3.2) se sigue. ////
Si requerimos que las Xi en el Teorema 9.3.1 de hecho no sean correlacionadas, la suposición
de que sus varianzas sean acotadas puede ser relajada.
Teorema 9.3.2 Sean X1,... Xn variables aleatorias no correlacionadas con media
común  y varianzas 12,,n2, respectivamente. Si hay constantes  > 0 y  < 1 tal
que
 k 2  k  k  1,, n n 1
entonces X n converge a  en probabilidad cuando n  .

Dejamos la prueba del Teorema 9.3.2 como un ejercicio (Problema 9.13). Ahora
consideremos algunos ejemplos.
EJEMPLO 9.3.1
Sea Y uniformemente distribuida sobre el intervalo (1,1), y sea Xk = sen kY, k = 1, 2,.
Entonces
1 1
E X k    sin ky dy  0
2 1
  1 1
 1 sin ky  dy 
2
E Xk2 1
2
2

y E X j Xk    
 cos  j  k y   cos  j  k y  dy  0 para j  k . Por tanto, las X i no
1 1
4 1
están correlacionadas y tienen media común  = 0 y varianza común 2 = 1/2. Ahora se
sigue del Teorema 9.3.1 o del Teorema 9.3.2 que X n converge a  = 0 en probabilidad, aun
cuando las Xk son altamente dependientes. ////
EJEMPLO 9.3.2
Sean X0,... Xn–1 no correlacionadas con media común E(Xi) = 0 y varianza E(Xi2) = 2, y
defina
k
Yk   2  j X k  j
j 1
para k = 1,,n. La sucesión Y1,... Yn es denominada un promedio móvil de la sucesión X0,...

Xn–1. Entonces
 
k
E Yk    2  j E X k  j  0
j 1
    1  4 
k k
E Yk 2   4  j E X k2 j   4  j  2  1
3
k 2
j 1 j 1
para k = 1,,n. Más aún, haciendo m = mín(j,k) da
   
m
C Yj ,Yk  E Yj Yk  2 k  j  4 i
i 1
que tiende a cero cuando k  j  . Por tanto, el Teorema 9.3.1 se aplica y afirma que Yn
converge a 0 en probabilidad cuando n  . ////
Otra aplicación de la ley débil de los grandes números consiste en usar métodos
probabilísticos para probar un teorema famoso de análisis, el teorema de aproximación de
Weierstrass, que afirma que cualquier función continua sobre el intervalo cerrado [0,1]
puede ser uniformemente aproximada a cualquier grado deseado de exactitud por un
polinomio.
Teorema 9.3.3 Sea g cualquier función continua definida sobre el intervalo
cerrado [0,1]. Entonces hay una sucesión de polinomios gn, n = 1, 2,, para la cual
lim gn(p) = g(p) uniformemente en 0  p  1 cuando n  .
PRUEBA Permita que Sn tenga la distribución binomial con parámetros n y
p, sea X n = Sn/n, y defina gn por
  
g n  p  E g X n
para 0  p  1. Cada gn es un polinomio, puesto que

 k   n
 
E g X n    g     p k 1  p
n
n k
k 0  n   k 
n n k
 k   n  n  k 
  1 p
j k j
   g    
k 0 j 0  n   k   j 
para 0  p  1 y n = 1, 2,. Así sólo necesitamos mostrar que gn converge a g
uniformemente cuando n tiende a infinito, eso es, para cada  > 0, hay un entero n0 para
el cual gn(p)  g(p)   para toda n  n0 y toda p, 0  p  1. Puesto que g es continua, g
es acotada y uniformemente continua. Por tanto, hay una constante b para la cual g(p)
 b, 0  p  1, y dada  > 0, hay una constante  para la cual g(p1)  g(p2)  /2
296 EL TEOREMA DEL LÍMITE CENTRAL
siempre que p1  p2  . Más aún, tenemos

Pr X n  p     pq
n 2

1
4n 2
para toda n = 1, 2, por la desigualdad de Chebyshev. Sea An el evento  X n  p < , y
sea I An la función indicadora de An, así que I An = 1 o 0 de acuerdo a  X n  p <  o  X n
 p  . Entonces I An g( X n)  g(p)  /2 por la selección de , así que
 
g n  p  g p  E g X n  g p 
  
 E I An g X n  g p 
  
+ E 1  I An  g X n  g p 


2
  
Pr X n  p    2b Pr X n  p   
 2b
 
2 4n 2
que es menor que  provisto que n  b/ 2. ////
Los polinomios gn son conocidos como los polinomios de Bernstein, en honor a S. Bernstein,
a quien se debe esta prueba.
9.4 EL TEOREMA DEL LÍMITE CENTRAL

En esta sección presentamos un teorema, conocido como el teorema del límite central, que
simultáneamente provee una aproximación efectiva, simple a probabilidades determinadas
por sumas de variables aleatorias independientes y explica la gran importancia de la
distribución normal en la teoría de probabilidades. Su enunciado preciso es el siguiente: sean
X1,... Xn variables aleatorias independientes idénticamente distribuidas con media  y
varianza finita positiva 2. Además, sea Sn = X1 +  + Xn y
S n  n
S n 
 n
S n* es el número de desviaciones estándar por las cuales Sn difiere de su media. La media y
desviación estándar de S n* son 0 y 1, respectivamente, por el Lema 8.3.3.
Teorema 9.4.1 Sean X1,... Xn variables aleatorias independientes con función de
distribución común F, media , y varianza finita positiva 2. Entonces
lim Pr S n  a   a 


(4.1)
n
para toda a,  < a < , donde  denota la función de distribución normal estándar
 12 x 2
e
 a   
a
dx
2
Eso es, si substraemos la media n = E(Sn) de Sn y dividimos la diferencia por la desviación
estándar  n  D S n  , obtenemos una variable aleatoria S *n cuya función de distribución
Pr (Sn  a) es aproximadamente la función de distribución normal estándar  (a). Se sigue
que
 a  n 
Pr  S n  a   Pr  S n  
  n 
es aproximadamente  [(a  n)/(  n )]. En correspondencia diremos que la función de

distribución de Sn es aproximadamente normal con media n y varianza n2. Observe que la
aproximación a la función de distribución de Sn depende sobre la distribución común de
X1,... Xn sólo a través de la media común  y la varianza común 2.
Aún es posible ubicar una cota sobre la tasa de convergencia en (4.1). El resultado es
conocido como el teorema de BerryEsseen.
Teorema 9.4.2 Si, en adición a las hipótesis del Teorema 9.4.1,  = E(Xi3) es
finita, entonces
5
 
Pr S n  a  a  
n 3
para toda a,  < a < , y n = 1, 2,.

Daremos un argumento plausible para el teorema del límite central al final de esta sección.
No probaremos el teorema de BerryEsseen.
Antes de ir a los ejemplos, observemos que (4.1) implica que
 
lim Pr a  S n  b  b  a 
n
(4.2)
para toda a < b, puesto que Pr (a < S *n  b) = Pr ( S *n  b)  Pr ( S *n  a).

EJEMPLO 9.4.1
El teorema del límite central contiene al teorema límite de la integral de DeMoivreLaplace

de las Secciones 4.5 y 4.6 como un caso especial. En verdad, si Sn tiene la distribución
binomial con parámetros n y p, entonces Sn tiene la misma distribución que X1 +  + Xn,
donde las Xi son independientes con distribución común Pr (Xi = 1) = p y Pr (Xi = 0) = q = 1
 p. Puesto que estas variables aleatorias son idénticamente distribuidas con media común 
= p y varianza común 2 = pq, (4.2) afirma que
 S  np 
lim Pr    n           (4.3)
n  npq 
para toda  < . Por supuesto, (4.3) es simplemente el teorema límite de la integral de
DeMoivreLaplace, del cual aplicaciones prácticas fueron dadas en la Sección 4.5.
EJEMPLO 9.4.2
Suponer que n números son aproximados al entero más cercano y después sumados. Qué tan
grande podemos esperar encontrar una diferencia entre la suma de los números aproximados
y la suma de los números originales; eso es, ¿qué tan grande será el error total debido a la
aproximación?
Denote Xi el error introducido por la aproximación del iésimo número, i = 1,,n, y suponer
que X1,... Xn son independientes con una distribución uniforme común sobre el intervalo
(1/2,1/2]. Entonces X1,... Xn son idénticamente distribuidas con
1 1
  21 x dx  0 y  2  21 x 2 dx  121
2 2
Puesto que el error total es Sn = X1 +  + Xn, el teorema del límite central provee una
respuesta a nuestra pregunta. Por ejemplo, si n = 12, este afirma que Pr (1 < Sn  1) = Pr
(1 < S *n  1) es aproximadamente  (1)   (1) = 0.683. Más generalmente, muestra que
 n
Pr  

n
12
 Sn  
12 

  Pr   S n   
es aproximadamente  ()   (), que es casi 1 para   3. Por tanto, el error de
aproximación crece como n en lugar de n. ////
El teorema del límite central puede ser visto como un suplemento a la ley débil de los
grandes números. En verdad, en la notación de la sección previa, tenemos
S n  n

n
X n 
 
 n
 S n
Así, si X1,... Xn son independientes e idénticamente distribuidas con media  y varianza 2,
entonces X n converge a  a la tasa 1/ n en el sentido de que ( n /  )( X n  ) tiene una
1
distribución que se aproxima a la normalidad.
El teorema del límite central también tiene implicaciones que conciernen a la clasificación
de juegos como limpios en la Sección 9.2. En verdad, si X1,... Xn denota las ganancias de n
jugadas de un juego, si la ganancia esperada  = E(Xi) sobre cada jugada es  = 0, y si la
varianza 2 = E(Xi2) es finita , entonces para cada  > 0 tenemos, para n grande,
  
Pr S n  a n  Pr  S n  

a

 a
 1   
 
 a

      Pr S n   a n
  
así que la probabilidad de ganar al menos a n es aproximadamente la misma que la de
perder al menos a n .
En adición a las aplicaciones arriba citadas, el teorema del límite central tiene algunas
implicaciones importantes para la construcción de modelos. En verdad, establece que
cualquier variable aleatoria que está determinada como la suma de un número grande de
variables aleatorias independientes, idénticamente distribuidas con varianza finita tendrá
aproximadamente una distribución normal. Más aún, el requisito de que los sumandos sean
idénticamente distribuidos puede ser relajado al requisito de que cada uno contribuya
insignificantemente a la suma (Sección 9.4.1). Muchos fenómenos que ocurren naturalmente
pueden ser pensados de esta manera, eso es, como la suma de muchas desviaciones
independientes, cada una de las cuales contribuye poco. Por ejemplo, tales atributos como
las alturas y los coeficientes de inteligencia de los individuos son determinados por muchos
factores ambientales y genéticos independientes o casi independientes cada uno de los cuales
contribuye sólo en una pequeña cantidad. Del mismo modo, muchos errores de producción y
medida son la suma de varios errores independientes más pequeños.
Suponer ahora que deseamos construir un modelo para algún fenómeno del tipo de anterior.
Probablemente desearemos hacer algunas suposiciones acerca de la distribución del
fenómeno, y en vista del teorema del límite central, normalidad parece ser la suposición
natural. Por ejemplo, en los ejemplos antes mencionados, alturas, coeficientes de
1
2 Para un resultado relacionado, ver Sección 11.8.
inteligencia, y errores de producción y medida son comúnmente supuestos para seguir

distribuciones normales por gentes quienes trabajan con ellos.
Permítasenos ahora indicar la prueba del teorema del límite central. Considere n variables
aleatorias independientes idénticamente distribuidas X1,... Xn con media común  y varianza
2, 0 < 2 < , y suponer también que X1,... Xn tienen una función generatriz de momentos
común M que está definida (finita) sobre algún intervalo abierto (–h,h) que contiene al cero.
Mostraremos que la función generatriz de momentos de S *n   S n  n  /  n converge a la
función generatriz de momentos de la distribución normal estándar, es decir,
M0 t   e 2
1 t2
t 
(Ejemplo 8.4.6). Esto es aceptadamente algo diferente de la conclusión del Teorema 9.4.1,
que asegura que la función de distribución de S *n converge a la función de distribución
normal estándar, pero al menos debe rendir la conclusión del Teorema 9.4.1 de manera
altamente plausible.
La función generatriz de momentos de Sn es M(t)n por el Teorema 8.4.3, y por tanto la
función generatriz de momentos de S *n es
 n  t 
n
M n  t   exp   t  M 
    n
para t  < h n por el Lema 8.4.1. En términos de logaritmos, tenemos
 t  n
log M n t   n    t (4.4)
 n 
donde   log M . Expandamos  en una serie de Taylor alrededor de t = 0, recordando que

(0) =  y (0) =  2 (Corolario 8.4.1). Tenemos
 t    t 
2 3
 t   t 
2
        16  t1  
 n  n 2  n  n
donde t1  t/ n . Substituyendo la expansión de la serie de Taylor en (4.4),

encontramos que
t 2 16  t1 t
3
log M n  t    (4.5)
2 3 n
Ahora, el último término en (4.5) contiene el factor 1/ n y por tanto tiende a cero cuando n
tiende a infinito, así que lim logM n t   t 2 2 cuando n   o, equivalentemente,
1 2
lim M n  t   lim exp  log M n  t   e
t
2
n n
como se aseguró.
1
9.4.1 El Teorema de Lindeberg-
Hay una versión más general del teorema del límite central que permite a las variables
aleatorias X1,... Xn tener distribuciones diferentes. Es conocido como el teorema de
LindebergFeller y puede ser establecido como sigue.
Teorema 9.4.3 Sean X1,... Xn variables aleatorias independientes con funciones de
distribución F1,... Fn, medias 1,... n, y varianzas finitas 12,... n2. Sea
 n  1     n  n 2   12     n 2
y S *n = (Sn – n)/n para n  1. Si
n 2
lim  n 2   x   x   k  dFk  x   0 (4.6)
n
k i
cuando n   para cualquier  > 0, entonces para cualquier a,  < a < ,
 
lim Pr S *n  a  a 
n
(4.7)
La condición (4.6) es conocida como la condición de LindebergFeller. En particular,

requiere que n2   cuando n  .
EJEMPLO 9.4.3
a Si hay una constante c para la cual Pr (Xk  k   c) = 0 para k = 1,... n, n  1, y si n2
  cuando n  , entonces la condición de LindebergFeller se satisface. Sin lugar a
dudas, si  > 0 es dada, entonces hay una n0 para la cual n > c para n  n0. Así, para n  n0,
tenemos
1
 x   x   k  dFk  x   0
2
n
para k = 1,... n, así que el lado izquierdo de (4.6) es de hecho igual a cero para n  n0.
b Sean Y1,... Yn variables aleatorias independientes con función de distribución
común F, media común , y varianza positiva finita común 2, y sea Xk = kYk, k = 1,...
n. Entonces, la condición LindebergFeller es satisfecha.
Por simplicidad, consideramos sólo el caso donde  = 0 y 2 = 1. En este caso k2 = k2,
así que
 n 2   12     n 2 ~ 0 x 2 dx  13n3
n
cuando n  . Más aún, tenemos
 x  n x dFk  k  x  / k  n x dF  x 

2 2 2
 k 2  x   / n  x 2 dF  x 
n
para k = 1,... n, así que

n
 n 2   x  x 2 dFk  x 
n
k 1
 n 
  n 2   k 2   x   / n  x 2 dF  x    x   / n  x 2 dF  x 
 k 1  n n
que tiende a 0 cuando n  , puesto que (1/n)n   cuando n  . ////

La condición LindebergFeller requiere que cada sumando contribuya de modo no
significativo a la suma Sn = X1 +  + Xn en el siguiente sentido.
Lema 9.4.1 Sean X1,... Xn como en el Teorema 9.4.3. Si la condición (4.6) es
satisfecha, entonces

lim max  n 2 k 2  0
k n
 (4.8)
cuando n  .
PRUEBA Podemos suponer que k = 0, k = 1,... n. Si  es dada, 0 <  < ½,
entonces tenemos
 k 2   x 2 dFk  x    n x 2 dFk  x    x  x 2 dFk  x 

 
n n
n
  2 n 2    x  x 2 dFj  x  (4.9)
n
j 1
para k = 1,... n. Ahora, por (4.6), hay una n0 para la cual el segundo término en la
última línea de (4.9) es a lo más 2n2 para n  n0. Por tanto, para n  n0, tenemos
 n 2 max  k 2  2 2  
k n
El lema se sigue. ////

EJEMPLO 9.4.4
Sean X1,... Xn independientes, y sea Pr (Xk = ±2k–1) = ½, k = 1,... n. Entonces k2 = 4k–1, así
que

 n 2   4 k 1  13 4 n  1
n
k 1
para n  1. Por tanto, n2/n2  ¾  0 cuando n  , y la condición Lindeberg–Feller es

violada.
////
Observamos que en este ejemplo Xn y Sn son ambos del orden de magnitud 4n, así que Xn no
contribuye insignificantemente a Sn.
La condición LindebergFeller implica que S n* tiene una distribución normal aproximada
para valores grandes de n y que cada uno de los sumandos contribuye de modo insignificante
a la suma. De hecho, la condición LindebergFeller es equivalente a estos dos enunciados.
Un enunciado completo del teorema LindebergFeller es el siguiente.
Teorema 9.4.4 Sean X1,... Xn como en el enunciado del Teorema 9.4.3. Entonces la
condición (4.6) es equivalente a (4.7) y (4.8).
Omitimos la prueba.
9.5 DISTRIBUCIONES DE VALORES EXTREMOS1

En la sección previa presentamos una simple aproximación a la función de distribución de
sumas normalizadas de variables aleatorias independientes . En esta sección presentaremos
1
304 DISTRIBUCIONES DE VALORES EXTREMOS
una aproximación similar a la función de distribución de máximos normalizados de variables

aleatorias independientes. El tratamiento de máximos es semejante al de las sumas pero más
sencillo.
Sean X1,... Xn variables aleatorias independientes con función de distribución común F, y sea
M n  max  X1 ,..., X n 
La función de distribución de Mn es entonces F n (Ejemplo 7.2.1). Así, si an > 0 y bn son

constantes, entonces la función de distribución de
M n  bn
M n* 
an
Gn  x   F an x  bn 
n
es
para  < x < . Ahora mostraremos como escoger las constantes an y bn de tal manera que
Gn se aproxime a un límite cuando n  . Por simplicidad, consideraremos sólo el caso
donde F(x) < 1 para toda  < x < . El caso donde F(b) = 1 para algún b (finito) es tratado
en los problemas al final de este capítulo.
Consideremos algunos ejemplos.
EJEMPLO 9.5.1
Suponer que F(x) = 1  x  para x  1. En este caso podemos asignar an = n y bn = 0 para
obtener
n
 x  
Gn  x   1  
 n 
para anx  1, y se sigue fácilmente que

lim Gn  x   exp  x 
n

para toda x > 0 (ver Lema 4.3.1).
EJEMPLO 9.5.2
Sea F la función de distribución exponencial F(x) = 1  e–x para x  0. En este caso podemos
asignar an = 1 y bn = log n para obtener
n
 e x 
Gn  x   1  
 n 
para x  –log n, así que

lim Gn  x   exp e  x
n

para – < x < . ////
Estos ejemplos son más generales de lo que ellos puedan parecer en principio. De hecho,
tenemos el siguiente teorema.
Teorema 9.5.1 Suponer que existen constantes positivas c y  para las cuales
1 F  x  ~ cx 
cuando x  . Defina an y bn por an = cn y bn = 0. Entonces
lim Gn  x   exp  x  x
n
  (5.1)
para toda x > 0.

Teorema 9.5.2 Suponer que hay constantes , , c, y d para las cuales c, d, y  son
positivas y

1 F  x  ~ cx  exp  dx   (5.2)
cuando x  . Defina an y bn por

dbn   log n   1 log  log n   1 log d  log c
dbn 1an  1
Entonces
lim Gn  x   exp e 
n
 
para toda x, – < x < .
PRUEBA La prueba del Teorema 9.5.1 es semejante a esa del Ejemplo 9.5.1 y
será omitida. Para probar el Teorema 9.5.2, observe primero que
1
1  1
bn ~  log n  y an bn 1  0
d  dbn 
cuando n  . En particular, para cualquier x, – < x < ,
an x  bn ~ bn  
cuando n  , así que


1 F an x  bn  ~ can x  bn  exp  d an x  bn 

 (5.3)
306 DISTRIBUCIONES DE VALORES EXTREMOS
cuando n  . Si ahora expandimos (anx + bn) en una serie de Taylor alrededor de bn,
encontramos que
an x  bn   bn   cn 1an x
donde cn es un valor intermedio y bn – cn  anx. En particular, puesto que anbn–1 
0, debemos también tener que cn  bn y dcn 1an  1 cuando n   por definición de
an. Exponenciando y usando las definiciones de an y bn, ahora encontramos que

1  F  an x  bn  ~ c an x  bn  exp  dbn  dcn 1an x


donde exp   dc  1
n 
an x  e x

c an x  bn  exp  dbn


1     1
c an x  bn  exp  log  log n  log d  log c ~


n     n
cuando n  . Por tanto, cuando n  ,
1 x
1  F  an x  bn  ~ e
n
y
n
  
Gn  x   1  1  F  an x  bn 
 1 
 
n
~ 1  e  x   exp e  x
 n 
EJEMPLO 9.5.3
Si F es la función de distribución normal estándar, entonces
1
1  F x ~
 1 x2
e 2
x 2
cuando x   (ver Lema 4.4.2). Ésta es de la forma (5.2) con c  1 2 , d = ½,  = 1, y

 = 2. Así, las selecciones apropiadas de an y bn son
bn  2 log n  log  log n  log 4

////
an  bn 1
Las funciones de distribución límite de (5.1) y (5.2) son conocidas como las funciones de
distribución doble exponencial y Weibull, respectivamente. Ambas son referidas como
distribuciones de valores extremos, ya que ellas surgen en el contexto de extremos
muestrales (máximos y mínimos).
REFERENCIAS
La prueba usual del teorema del límite central usa funciones características. Parzen (1960),
caps. 9 y 10, da tal prueba del Teorema 9.4.1 junto con los resultados preliminares sobre
funciones características. Feller (1966), cap. 15, da pruebas de los Teoremas 9.4.1, 9.4.3, y
9.4.4 vía funciones características.
308 PROBLEMAS
9.6 PROBLEMAS
distribuidas sobre (1,1). Use la desigualdad de Chebyshev para estimar Pr ( X n   0.05).
¿Qué tan grande debe ser n para que la cota sea menor o igual a 0.05?
9.2 Permita que X tenga la distribución binomial con parámetros n y p, 0 < p < 1.
(a) Use la desigualdad de Chebyshev para estimar Pr ( X  p   0.1), donde X = X/n.
(b) ¿Qué tan grande debe ser n para que la cota sea menor o igual a 0.05 para p, 0 < p <
1?
9.3 Sean X y Y variables aleatorias conjuntamente distribuidas con varianzas finitas y
coeficiente de correlación r. Si r = 1, entonces hay constantes a y b para las cuales Pr
(Y = aX + b) = 1. Mostrar esto y encontrar las constantes a y b. Sugerencia: Encontrar a
y b para las cuales X  aY  b tenga varianza cero.
9.4 Mostrar que si X es una variable aleatoria la cual es igual a  >0 con probabilidad p y es
igual a 0 con probabilidad q = 1  p, entonces la desigualdad de Markov es, de hecho,
una igualdad. Mostrar que si X es igual  cada una con probabilidad p < ½ y X = 0 con
probabilidad 1  2p, entonces la desigualdad de Chebyshev es una igualdad.
9.5 Sean X1,, Xn independientes con media , varianza 2, y cuarto momento central
finito  = E[(X1  )4]. Mostrar que E[(X1  )4]  34/n2 + /n3.
 Pr  X n        para

9.6 Sean X1,, Xn como en el Problema 9.5. Mostrar que n 1
cualquier  > 0.
9.7 Sean X1,, Xn variables aleatorias independientes con función de distribución común
F. Mostrar que si hay un número b para el cual F(b) = 1 y F(a) < 1 para cualquier a < b,
entonces máx (X1,, Xn)  b en probabilidad cuando n  .
9.8 Sean Xn y Yn variables aleatorias conjuntamente distribuidas. Mostrar que si Xn  X y
Yn  Y en probabilidad cuando n  , entonces Xn + Yn  X + Y en probabilidad
cuando n  .
9.9 Si Xn y Yn son variables aleatorias conjuntamente distribuidas para las cuales Xn  X y
Yn  Y en probabilidad cuando n  , mostrar que XnYn  XY en probabilidad
cuando n  .
9.10 Sean X1,, Xn variables independientes con media finita  y varianza 2. Mostrar que
S n2 
1
 X i  X n    2
n
en probabilidad cuando n  . Sugerencia: Use el Problema 9.8.

9.11 Sean X1,, Xn variables aleatorias independientes no negativas idénticamente
distribuidas con esperanza finita. Mostrar que X n   en probabilidad en el sentido
que Pr ( X n  a)  1 cuando n   para cualquier constante finita a.
9.12 Sea g una función continua sobre R. Mostrar que si X n  X en probabilidad, entonces
g(Xn)  g(X) en probabilidad. Sugerencia: Dados , ´> 0, seleccionar r tal que Pr (X
 r  1)  ´/2; entonces puesto que g es uniformemente continua sobre [r,r], hay una
, 0 <  < 1, tal que x  r, y  r, y x  y   implica g(x)  g(y)  . Ahora se sigue
que Pr (g(Xn)  g(X)  )  Pr (Xn  X  ) + Pr (X  r  1), lo cual es a lo más ´/2 +
´/2 = ´ para n suficientemente grande.
9.13 Probar el Teorema 9.3.2.
9.14 Sea g(x) = sen 2x, 0 < x < 1, y sea gn la aproximación polinomial de Bernstein de g.
Encontrar una n para la cual g(x)  gn(x)  0.05 para toda x, 0 < x < 1.
9.15 Sean X1,, Xn variables aleatorias independientes, y permita que Xk tenga la
distribución Poisson con parámetro k , k = 1,, n. Describir el comportamiento de
X n cuando n  .
9.16 Sea un dado balanceado lanzado 100 veces, y denote X la suma total de puntos. Use el
teorema central del límite para estimar la probabilidad que 300 < X < 400.
310 PROBLEMAS
9.17 Repita el Problema 9.1 usando el teorema central del límite en lugar de la desigualdad
de Chebyshev.
9.18 Repita el Problema 9.2 usando el teorema central del límite en lugar de la desigualdad
de Chebyshev.
9.19 Permita que Xn tenga la distribución Poisson con parámetro  = n, y sea Yn = (Xn  n)/
n . Mostrar que la función generatriz de momentos de Yn converge a la función
generatriz de momentos de la distribución normal estándar. ¿Qué sugiere esto?
9.20 Si X tiene la distribución Poisson con parámetro 100, estimar la probabilidad que 85 
X  110.
9.21 Si X tiene la distribución gama con parámetros  = 400 y  = 1, estimar la probabilidad
que 390  X  450.
distribuidas sobre (0,1), y sea Yn = máx (X1,, Xn). Mostrar que la función de
distribución de Zn = n(1  Yn) se aproxima a un límite, y evaluar ese límite.
Sea F una función de distribución, y sea b un número real para el cual F(b) = 1 y F(x) < 1
para x < b. Suponer también que hay números positivos c y  para los cuales 1  F(x)  c(b
 x) cuando x  b. Sean X1,, Xn independientes con función de distribución común
F, y sea Gn la función de distribución de an(b  Mn), donde Mn = máx (X1,, Xn) y an
= n. Encontrar el límite de Gn cuando n  .
9.24 Sean X1,, Xn variables aleatorias independientes las cuales tienen la distribución gama
con parámetros  = k, un entero positivo, y  = 1, y sea Mn = máx (X1,, Xn). ¿Cómo
deben an y bn ser escogidas para que la función de distribución de Mn* = (Mn  bn)/an se
aproxime a un límite cuando n  .
9.25 Sean X1,, Xn variables aleatorias independientes para las cuales Xk = k, cada una
con probabilidad ½, donde  > 0, k = 1,, n. Mostrar que la condición Lindeberg-
Feller es satisfecha.
9.26 Sea Xk uniformemente distribuida sobre el intervalo (ak,ak), donde ak > 0, k = 1,, n.
Suponer también que ak  1, k = 1,, n, n  1. Mostrar que la condición Lindeberg-
Feller es satisfecha si y sólo si a12 +  + an2   cuando n  .
10
10 ESPERANZA Y DISTRIBUCIONES CONDICIONALES
10.1 FUNCIONES MASA Y DENSIDADES CONDICIONALES

Sean X y Y variables aleatorias discretas, conjuntamente distribuidas con función masa f, y
denoten g y h las funciones masa (marginales) de X y Y, respectivamente. Además, sea D el
conjunto de x  R para las cuales g(x) = Pr (X = x) > 0. Entonces para x  D definimos la
función masa condicional de Y dado que X = x por
f  x , y
h y x    y (1.1a )
g x 
Eso es, definimos h(y  x) para ser la probabilidad condicional del evento Y = y dado que X =
x. Análogamente, si h(y) > 0, definimos la función masa condicional de X dado que Y = y por
la fórmula
f  x , y
g x y    x  (1.1b)
h y 
Observamos que para cualquier x  D, la función h( x) define una función masa. En verdad,
permitiendo ser a E el conjunto infinito contable o finito para el cual h(y) > 0, encontramos
que f(x,y)  h(y) = 0 para y  E. Más aún,
312 FUNCIONES MASA Y DENSIDADES CONDICIONALES
g x 
 h y x  
1
 f  x , y  1
yE g x  yE g x 
para x  D por la Ecuación (2.3) del Capítulo 6. Más aún, si X y Y son variables aleatorias
independientes, entonces f(x,y) = g(x)h(y) para toda x y y, así que
h y x   h y  (1.2)
para  < y <  y x  D. En cualquier caso (aun si X y Y no son independientes), tenemos la

factorización
f  x , y   h y x  g x  (1.3)
para  < y <  y x D. Por supuesto, los papeles de X y Y pueden ser intercambiados en la
discusión anterior.
EJEMPLO 10.1.1
a Sea un dado balanceado rolado n veces, denote X el número de ases que aparecen,
y denote Y el número de seises. Entonces
n x  y
   1   1   4
x y
n
f  x , y        
 x , y , n  x  y  6   6   6 
para todos los enteros no negativos x y y para los cuales x + y  n (ver Teorema 4.1.2).
También,
n x
 n  1   5 
x
g x        
 x  6  6
para x = 0,,n, por el Teorema 4.1.1. Se sigue que
n x  y
 n  x  1   4 
y
h y x       
 y   5  5 
y = 0,,n  x y x = 0,,n. Así, la distribución condicional de Y dado que X = x es
binomial con parámetros n  x y 1/5. Podemos interpretar este resultado como sigue:
dado que habían x ases, Y tiene la distribución del número de seises en n  x
lanzamientos de un dado de cinco lados (sin ases).
b Sean X y Y variables aleatorias independientes que tienen distribuciones
binomiales, digamos
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 313
 m
Pr  X  x     p x q m x x  0, , m
x 
 n
Pr Y  y     p y q n y y  0, , n
 y
y sea Z = X + Y. Entonces, la distribución condicional de X, dado que Z = z donde z =
0,,m + n, es hipergeométrica. Indudablemente, tenemos
 m  n z m n z
Pr  Z  z    p q
 z 
para z = 0,, m + n, así que
Pr  X  x , Z  z 
g x z  
Pr  Z  z 
Pr  X  x  Pr Y  z  x 

Pr  Z  z 
 m x m x  n  z  x n z  x  m  n 
 p q  p q   
x   z  x  x   z  x
 
 m  n z m n z  m  n
 p q  
 z   z 
 n
para x = 0,, m y z = 0,, m + n. [Recuerde que    0 si k < 0 ó k > n.] ////
 k
Ahora consideremos el caso absolutamente continuo. Así, permita que X y Y tengan densidad
conjunta f, y denoten g y h las densidades marginales de X y Y, respectivamente. Sea D el
conjunto de x  R para los cuales g(x) > 0. Entonces para x  D definimos la densidad
condicional de Y dado que X = x por la fórmula
f x , y
h y x    y  (1.4a )
g x 
y análogamente, si h(y) > 0 definimos la densidad condicional de X dado que Y = y por la
fórmula
f x , y
g x y    x  (1.4b)
h y 
Como en el caso discreto, h(·|x) define una densidad para cada x  D, y
f  x , y   h y x  g x  (1.5)
para  < y <  y x  D. Más aún, si X y Y son independientes, entonces f(x,y) = g(x)h(y)
define una densidad para X y Y, en cuyo caso
h y x   h y  (1.6)
para  < y <  y x  D. Por supuesto, los papeles de X y Y pueden ser intercambiados en la
discusión anterior.
Hay dos elementos inusuales en el caso absolutamente continuo. Primero, h(y | x) no da ya la
probabilidad condicional del evento Y = y dado el evento X = x. Ambos eventos tienen
probabilidad cero. Más aún, hay alguna ambigüedad en la definición de h(y | x) y g(x | y),
puesto que hay alguna ambigüedad en la selección de f (recuerde que una densidad puede ser
cambiada sobre un conjunto finito sin afectar su integral). Realmente debemos referir a h(·|
x) y g(·| y) como densidades condicionales con respecto a f, pero la frase nominadora será
omitida.
EJEMPLO 10.1.2
Permita que (X,Y) tenga la distribución uniforme sobre el círculo unitario. Eso es, permita
que X y Y tengan la densidad conjunta
f  x , y    1 x2  y2  1
y f(x,y) = 0 para otros valores de x y y . Entonces, la densidad marginal de X es
g x   2 1 1  x 2 1  x  1
y g(x) = 0 para otros valores de x (ver Ejemplo 6.2.3). Se sigue que para 1 < x < 1,
h y x  
1
 1 x2  y  1 x2
2 1 x 2
Así, la distribución condicional de Y dado X = x es uniforme sobre el intervalo (a,a), donde

a  1 x2 . ////
EJEMPLO 10.1.3
Sean X y Y variables aleatorias independientes distribuidas exponencialmente con el mismo
parámetro  > 0. Entonces la distribución condicional de X dado que Z = X + Y = z es
uniforme sobre el intervalo (0,z) para z > 0.
Para ver esto debemos primero encontrar una densidad conjunta para X y Z y la densidad
marginal de Z. Una densidad conjunta para X y Y es
d  x , y    2e x  y 
para x > 0 y y > 0, y d(x,y) = 0 para otros valores de x y y por independencia. Así, por el
Teorema 7.4.1, una densidad conjunta para X y Z es f(x,z) = d(x, z  x), la cual se simplifica a
f  x , z    2 e z
para 0 < x < z y f(x,z) = 0 para otros valores de x y z. La densidad marginal de Z puede ser
ahora calculada por una integración directa (fue también encontrada en las Secciones 7.3 y
8.4) como
h z    2 ze z
para z > 0. Así,
g x z  
1
z
para 0 < x < z, como se aseveró. ////
EJEMPLO 10.1.4
Permita que X y Y tengan la distribución normal bivariada estándar con parámetro
(coeficiente de correlación) r, 1 < r < 1. Entonces la distribución condicional de Y dado que
X = x es normal con media rx y varianza 1  r2. Para ver esto recuerde del Ejemplo 6.2.3
 12 Q  x , y 
f  x , y   Cr e  x 
 y 
1  12 x 2
g x   e  x 
2
donde Cr1  2 1  r 2 y
x 2  2rxy  y 2
Q x , y  
1 r2
Podemos escribir Q x , y   x 2  z 2 , donde
y  rx
z
1 r2
así que
 1  y  rx  2 
h y x   2 Cr e
 12 z 2 1
 exp  2 

2 1  r 2   2 1  r 
para  < x <  y  < y < , como se aseveró. Por supuesto, los papeles de X y Y pueden
ser intercambiados en este ejemplo. ////
Retornemos brevemente a las Ecuaciones (1.3) y (1.5). Por ejemplo, (1.5) establece que si X
y Y tienen densidad conjunta f, entonces
f  x , y   h y x  g x  (1.5)
 < y <  y x  D, donde g y h denotan la densidad marginal de X y la densidad

condicional de Y dado X, respectivamente, y D denota el conjunto de x  R para las cuales
g(x) > 0. Eso es, podemos determinar una densidad conjunta para X y Y especificando una
densidad marginal para X y una densidad condicional para Y dado X. En muchos problemas
ésta es la forma más natural para introducir una densidad conjunta . La densidad marginal de
Y y la densidad condicional de X dado Y = y pueden ser calculadas de
h x   D h y x g x dx  y  (1.7)
h y x  g x 
g x y   (1.8)
h y 
para x  D y h(y) > 0. Las Ecuaciones (1.7) y (1.8) pueden ser consideradas como
extensiones del teorema de Bayes para el caso absolutamente continuo, y la discusión
general del teorema de Bayes (Sección 3.2) se aplica a (1.7) y (1.8). Las fórmulas
correspondientes en el caso discreto,
f  x , y   h y x  g x  x D (1.3)
h y    h y x g x  (1.7a )
x D
h y x  g x 
g x y   (1.8)
h y 
para h(y) > 0 son, de hecho, simplemente restablecimientos del teorema de Bayes.
EJEMPLO 10.1.5
Permita que X tenga la distribución uniforme sobre el intervalo (0,1), y condicionalmente,
dado X = x, permita que Y tenga la distribución uniforme sobre el intervalo (0,x). Eso es, sea
g x   1 0  x 1
h y x  
1
y 0 y x
x
Entonces
11
h y   y dx   log y
x
para 0 < y < 1, y
g x y   
1
log y
x
para y < x < 1. Es interesante observar que la distribución condicional de X dado Y = y no es
uniforme, aun cuando la distribución condicional de Y dado X = x es uniforme.
10.1.1 Distribuciones Mezcladas1

En esta sección extenderemos las nociones de la sección previa al caso de distribuciones
mezcladas, por lo cual entendemos distribuciones conjuntas donde una variable es discreta y
la otra es absolutamente continua. Así, sean X y Y variables aleatorias conjuntamente
distribuidas, y suponer que X es discreta con función masa g y que Y es absolutamente
continua con densidad h. Además, denote D el conjunto finito o infinito contable de x  R
para las cuales g(x) > 0, y sea E un intervalo para el cual h(y) > 0 cuando y  E y h(y) = 0
1
cuando y  E. Entonces, para cualquier x  D y y  R, podemos calcular

Pr Y  y , X  x 
H  y x   Pr Y  y X  x  
Pr  X  x 
y llamaremos a H(· | x) la función de distribución condicional de Y dado que X = x. En

concordancia, definimos la densidad condicional de Y dado X = x para ser la derivada
h y x   H  y x
d
dy
para  < y <  y x  D, siempre que la derivada exista. Además, definimos la función
1
masa condicional de X dado Y = y por medio de una variación sobre el teorema de Bayes.
Eso es, definimos
h y x  g x 
g x y   (1.9)
h y 
para x  D y y  E. Se sigue fácilmente que
g x y  h y 
h y x   (1.10)
g x 
para x  D y y  E.
Como en los casos absolutamente continuo y discreto, las relaciones
g x   E g x y h y dy x D (1.11)
h y    h y x g x  y E (1.12)
xD
pueden ser obtenidas (ver Problema 10.21). Se sigue fácilmente que h(· | x) es una densidad
para cualquier x  D y que g(· | y) es una función masa para toda y  E. Más aún, si X y Y
son independientes, entonces Pr (Y  y | X =x) = Pr (Y  y) para  < y <  y x  D, así que
h y x   h y  y E
x D (1.13)
por diferenciación, y
1
2 Es suficiente que la derivada exista en todos excepto un número finito de puntos.
g x y   g x  x D
y E (1.14)
por (1.9).
EJEMPLO 10.1.6
Sea Z una variable aleatoria absolutamente continua, y suponer que Z tiene una densidad
continua f la cual es positiva en todas partes. Calcularemos Pr (Z > 0 | |Z | = y) para y > 0.
Sea X la indicadora del evento Z > 0. Eso es, sea X = 1 si Z > 0, y sea X = 0 si Z  0.
También, sea Y = |Z |. Entonces, X tiene la función masa
g0  F 0 y g1  1  F 0
donde F denota la función de distribución de Z; y Y tiene densidad
h y   f  y   f   y  y0
por el Ejemplo 7.1.3b. Encontremos h(y  0). Ahora,
H  y 0  Pr Y  y X  0
 Pr  Z  y Z  0
Pr   y  Z  0 F  0  F   y 
 
Pr  Z  0 F  0
para y > 0. Por tanto,
f  y
h y 0  y0
F  0
por diferenciación y análogamente,
f  y
h y 1  y0
1  F 0
 
Pr Z  0 Z  y  Pr X  1 Y  y   g1 y  puede ser ahora encontrada de la Ecuación
(1.9). Sin duda, tenemos
h y 1r1 f  y
g1 y   
h y  f  y  f  y
para y > 0. En particular, g(1  y) = ½ para toda y > 0 si f es simétrica, eso es, f(x) = f(x) para
toda x. ////
Algunas veces es natural describir una distribución mezclada conjunta especificando la
distribución incondicional de una variable y la distribución condicional de la otra. En tales
casos muchas probabilidades y probabilidades condicionales interesantes pueden ser
calculadas directamente de (1.9) a (1.12). Ilustraremos este procedimiento con algunos
ejemplos.
EJEMPLO 10.1.7
a Sea Y un punto seleccionado del intervalo unitario de acuerdo a la distribución
uniforme, y entonces permita que una moneda con probabilidad Y de ocurrir en águila
sea lanzada hasta que un águila aparezca. Denote X el número de lanzamientos
requeridos para obtener un águila. Entonces parece más natural describir una
distribución conjunta para X y Y especificando primero la densidad marginal de Y y
entonces la función masa condicional de X dado Y = y. De hecho, estamos dando que Y
tiene la distribución uniforme, así que
h y   1 0  y 1
Más aún, dado Y = y, X es simplemente el número de lanzamientos requeridos para

obtener un águila, así que X debe tener la distribución geométrica con parámetro y. Eso
es,
g x y   y1  y 
x 1
para x = 1, 2, y 0 < y < 1. La función masa incondicional de X ahora puede ser
calculada de (1.11) para ser
1
g x   0 y1  y  dy  0 1  uu x 1du 
1 x 1 1
x x  1
para x = 1, 2,. (Aquí hicimos el cambio de variable u = 1  y.) La densidad
condicional de Y dado que X = x ahora puede ser calculada de (1.10) para ser
g x y  h y 
h y x    x x  1 y1  y 
x 1
g x 
para 0 < y < 1 y x = 1, 2,.
b Ahora permita que Y tenga la distribución beta con parámetros  > 0 y  > 0, y
sea X el número de águilas en n lanzamientos independientes de una moneda que tiene
probabilidad Y de ocurrir en águila sobre cada lanzamiento. En este caso estamos
dando que Y tiene densidad
      1
h y   y 1  y 
 1
     
para 0 < y < 1, y que X tiene función masa condicional
g x y    y y x 1  y 
n n x
 
para x = 0,, n y 0 < y < 1. Haciendo      x y      x , se sigue que
1  n     
g x   0   y  ' 1 1  y  dy
 ' 1
 x      
 n       '   ' 
 
 x         '  ' 
para x = 0,, n y que

  '  '  ' 1
h y x   y 1  y 
' 1
 '   ' 
para 0 < y < 1 y x = 0,, n. Así, la distribución condicional de Y dado X = x es de
nuevo beta , pero con nuevos parámetros,      x y       n  x  .
////
10.2 PROBABILIDAD CONDICIONAL

Si X y Y son variables aleatorias discretas, si x es un número real para el cual g(x) = Pr (X =
x) > 0, y si B es un subconjunto infinito contable o finito de R, entonces por el Teorema
3.1.1, tenemos
Pr Y  B X  x    Pr Y  y X  x    h y x  (2.1)
yB yB
donde h(·  x) denota la función masa condicional de Y dado X = x. Sin embargo, si X y Y son
absolutamente continuas (conjuntamente), entonces la probabilidad condicional de que Y 
B dado que X = x no está definida porque el último evento tiene probabilidad cero. Ahora
definiremos la notación Pr (Y  B | X = x) en el caso absolutamente continuo por una
fórmula análoga a (2.1). Sean X y Y conjuntamente absolutamente continuas , denote g la
densidad marginal de X, y denote h(·  x) la densidad condicional de Y dado que X = x. Si B

es un subconjunto de R y g(x) > 0, entonces definimos
Pr Y  B X  x   B h y x  dy (2.2)
provisto que la integral sobre el lado derecho de (2.2) existe.

Podemos también definir la notación Pr (Y  B | X = x) en el caso que X y Y tengan una
distribución mezclada. De hecho, si X es absolutamente continua y Y es discreta, definimos
Pr (Y  B | X = x) por (2.1); y si X es discreta y Y es absolutamente continua, definimos Pr (Y
 B | X = x) por la Ecuación (2.2). La única diferencia es que la densidad o función masa
condicional es calculada como en la Sección 10.1.1. En cualquiera de los cuatro casos,
nosotros definimos la función de distribución condicional de Y dado X = x por la siguiente
fórmula1
H  y x   Pr Y  y X  x  (2.3)
para  < y <  provisto que g(x) > 0.

Por supuesto, los papeles de X y Y pueden ser intercambiados en la discusión anterior para
producir la definición de Pr (X  B | Y = y).
Consideremos ahora algunos ejemplos.
EJEMPLO 10.2.1
a Permita que X y Y tengan la distribución uniforme sobre el círculo unitario en R2,
como en el Ejemplo 10.1.2. Entonces, para 1 < x < 1, la distribución condicional de Y
dado X = x es uniforme sobre el intervalo (a,a), donde a  1  x 2 , de manera que
tenemos
Pr Y  0 X  x  
1 a
 dy 
2a 0
1
2
para 1 < x < 1.

b Permita que X y Y tengan distribución normal estándar bivariada con coeficiente
de correlación r, 1 < r < 1. Entonces, por el Ejemplo 10.1.4, la distribución
condicional de Y dado que X = x es normal con media rx y varianza 1  r 2 . Por tanto, se
obtiene que
1
3 Que esta definición de H es consistente con la dada en la Sección 10.1.1 se sigue de (1.9) y (1.10).
 y  rx 
Pr Y  y X  x     
 1 r2 
donde  denota la función de distribución normal estándar. ////

Ahora desarrollaremos algunas propiedades generales de probabilidad condicional. Por
simplicidad, los resultados serán establecidos y probados únicamente para variables
absolutamente continuas conjuntamente. Los resultados análogos para variables discretas y
mezcladas pueden ser obtenidos intercambiando las palabras “densidad” y “función masa” y
los símbolos  y  en los lugares apropiados tanto en los enunciados como en las pruebas
de los Teoremas 10.2.1 a 10.2.3. El Teorema 10.2.4 es interesante solamente en el caso de
variables mezcladas y absolutamente continuas.
El primer elemento del negocio es mostrar que la probabilidad condicional obedece los
axiomas de probabilidad.
Teorema 10.2.1 Sean X y Y absolutamente continuas conjuntamente y denote g la
densidad marginal de X. Si g(x) > 0, entonces 0  Pr (Y  B | X = x)  1 para todos los
intervalos B  R, y
Pr Y  A  B X  x   Pr Y  A X  x   Pr Y  B X  x 
siempre que A y B sean intervalos disjuntos.

El teorema es una consecuencia obvia de la definición (2.2). El tercer axioma de
probabilidad es también verdadero en el caso discreto (ver Teorema 3.1.1).
Teorema 10.2.2 Sean X y Y variables aleatorias independientes absolutamente
continuas, y denote g la densidad marginal de X. Si g(x) > 0, entonces
Pr Y  B X  x   Pr Y  B
para todos los intervalos B  R.
PRUEBA De hecho, si X y Y son independientes, y g(x) > 0, entonces h(y  x) =

h(y) para toda y por la Ecuación (1.6), donde h(·  x) y h denota la densidad condicional
de Y dado que X = x y la densidad marginal de Y, respectivamente. Por tanto,
Pr Y  B X  x   B h y x dy  B h y dy  Pr Y  B (2.4)
para todo B, como se aseveró. ////

Como en la Sección 3.2, podemos usar probabilidades condicionales como herramientas en

el cálculo de probabilidades incondicionales.
Teorema 10.2.3 Sean X y Y conjuntamente absolutamente continuas; denote g la
densidad marginal de X; y denote D el conjunto de x  R para los cuales g(x) > 0. Si B
es una subregión de R2, entonces
Pr   X ,Y   B  D Pr Y  Bx X  x  g x dx
donde para cada x  D , Bx denota el conjunto de y  R para los cuales  x , y   B.
PRUEBA Claramente, Pr  X  D  1, así que
Pr   X ,Y   B  Pr   X ,Y   B, X  D
Más aún (ver Sección 6.4),

Pr   X ,Y   B , X  D  D B f  x , y  dy dx
x

  
D Bx
h y x  dy  g x  dx
 D Pr Y  Bx X  x  g x  dx

El Teorema 10.2.3 tiene algunos corolarios interesantes.
Corolario 10.2.1 Si A y B son intervalos, entonces
Pr  X  A,Y  B  AD Pr Y  B X  x  g x dx (2.5)
En particular,
Pr Y  B  D Pr Y  B X  x  g x dx (2.6)
PRUEBA Puesto que (2.6) se sigue de (2.5) tomando A = D, será suficiente

probar (2.5). Ahora Pr  X  A,Y  B  Pr   X ,Y   A  B , donde A  B denota el
producto cartesiano de A y B. Más aún, (A  B)x = B si x  A y (A  B)x =  si x  A.
Así (2.5) se sigue directamente del Teorema 10.2.3. ////
Corolario 10.2.2 Si Pr Y  B X  x   Pr Y  B para toda x  D y cualquier
intervalo B, entonces X y Y son independientes.
PRUEBA Por el Corolario 10.2.1
Pr  X  A,Y  B  AD Pr Y  B X  x  g x  dx
 Pr Y  B AD g x  dx
 Pr  X  AD Pr Y  B
 Pr  X  A Pr Y  B
para todos los intervalos A y B. Por tanto X y Y son independientes. ////

El Ejemplo 10.2.1a muestra que es posible tener Pr Y  B X  x   Pr Y  B para toda
x  D para un B particular, aun si X y Y son dependientes.
EJEMPLO 10.2.2
Como una aplicación de los Teoremas 10.2.2 y 10.2.3, rederivaremos la fórmula de
convolución de la Sección 7.3. Sean X y Y variables aleatorias independientes con
densidades g y h, respectivamente. Primero calcularemos la probabilidad de que
Z  X  Y  z para un arbitrario valor de z. Denote B el conjunto de (x,y) para los cuales
x  y  z . Entonces Bx es simplemente el intervalo (, z  x], y Pr (Y  Bx | X = x) = Pr (Y
 Bx) = H(z  x) por el Teorema 10.2.2. Aquí H denota la función de distribución de Y. Por
tanto, por el Teorema 10.2.3, tenemos
Pr  Z  z   Pr   X ,Y   B  D H  z  x g x dx
donde D denota el conjunto de x  R para las cuales g(x) > 0. Diferenciación ahora muestra
que Z tiene densidad
f  z   D h z  x  g x dx
para   z  .
En el caso absolutamente continuo, donde Pr (X = x) = 0, es natural esperar Pr (Y  B | X =
x) para ser el límite cuando   0 de Pr (Y  B | |X  x|  ) = Pr (Y  B, |X  x|  )/ Pr (|X
 x|  ). Ahora mostraremos que esto es de hecho el caso bajo algunas modestas
condiciones de regularidad.
Teorema 10.2.4 Sean X y Y variables aleatorias absolutamente continuas
conjuntamente, denote g la densidad marginal de X, y denote D el conjunto de x  R
para las cuales g(x) >0. Además, sea B  R y defina la función w sobre D por
w x   Pr Y  B X  x  x D
Si a  D, y si ambas w y g son continuas en a, entonces
wa   lim Pr Y  B X  a   
cuando   0.
PRUEBA Puesto que g en a y g(a) > 0, tenemos (a  , a + )  D para  > 0
suficientemente pequeña. Más aún, para tal , tenemos
Pr  Y  B, X  a     a  w x  g x dx
a 
por el Teorema 10.2.3. También,
Pr  X  a     a  g x dx
a 
por la definición de una densidad. Ahora, por el teorema fundamental del cálculo,
1 a 
lim  g x dx  ga 
2 a 
 o
así que Pr (|X  a|  )/2  g(a) cuando   0. Análogamente, Pr (Y  B, |X  a| 

)/2  w(a) g(a) cuando   0, de nuevo por el teorema fundamental del cálculo. Por
tanto,
w a  ga 
Pr Y  B X  a      w a 
g a 
cuando   0. ////
El Teorema 10.2.4 es también válido si una variable es absolutamente continua y la otra es
discreta. Ilustramos con un ejemplo.
EJEMPLO 10.2.3
Reconsideremos el Ejemplo 10.1.6. Así, sea Z una variable aleatoria absolutamente continua
con densidad continua f positiva en todas partes; sea Y = |Z |; y sea X la indicadora del evento
Z > 0 (eso es, X = 1 si Z > 0 y X = 0 si Z  0). Calculemos Pr (X = 1 | Y =y) por el Teorema
10.2.4. Para a > 0 y   a/2, tenemos
Pr  X  1, Y  a     Pr  Z  a     a  f  z dz
a 
así que Pr (X =1, |Y  a|  )/2  f(a) cuando   0. También,

Pr  Y  a     Pr  Z  a     Pr  Z  a   
así que Pr (|Y  a|  )/2  f(a) + f(a). Por tanto,
Pr  X  1, Y  a    f a
Pr  X  1 Y  a     
Pr  Y  a    f a  f  a ////
10.3 ESPERANZA CONDICIONAL

Sean X y Y variables aleatorias conjuntamente distribuidas, y sea Z una variable aleatoria que
está determinada como una función de X y Y, digamos
Z  w X ,Y 
Definiremos la esperanza condicional de Z dado X = x.

Suponer primero que X y Y son discretas con la función masa conjunta f, y denoten g y h las
funciones masa marginales de X y Y, respectivamente. Además, denoten D y E el conjunto
de x  R para las cuales g(x) > 0 y el conjunto de y  R para las cuales h(y) > 0. Para x  D
definimos la esperanza condicional de Z dado X = x para ser
E Z X  x    w x , y  h y x  (3.1)
yE
provisto que la suma converge absolutamente. Aquí h(·  x) denota la función masa
condicional de Y dado X = x.
Análogamente, si X y Y son conjuntamente absolutamente continua, si g denota la densidad
condicional de X, y si D denota el conjunto de x  R para las cuales g(x) > 0, entonces
definamos la esperanza condicional de Z dado X = x para x  D por
E Z X  x    w x , y h y x dy


(3.2)
provisto que la integral converge absolutamente. Aquí h(·  x) denota la densidad condicional
de Y dado X = x.
Si X y Y tienen una distribución mezclada, entonces nosotros podemos también definir la
esperanza condicional de Z dado X = x por una versión apropiada de (3.1) o (3.2). De hecho,
si X es absolutamente continua y Y es discreta, entonces definimos E(Z | X = x) por (3.1); y si
328 ESPERANZA CONDICIONAL
X es discreta y Y absolutamente continua, entonces definimos E(Z | X = x) por (3.2).

Los cuatro casos pueden ser sintetizados bajo una ecuación escribiendo
E Z X  x    w x , y dH  y x 

(3.3)
donde H(· | x) denota la función de distribución condicional de Y dado X = x. Las

condiciones bajo las cuales E(Z | X = x) está definida pueden también ser establecidas
sucintamente como sigue: H(·  x) debe estar definida, y la integral que aparece en (3.3) debe
converger absolutamente.
Un caso especial importante ocurre cuando tomamos Z = Y. Así,
EY X  x    ydH  y x 


(3.4)
sujeta a las condiciones arriba establecidas.

EJEMPLO 10.3.1
a Permita que X y Y tengan la distribución normal bivariada estándar con
coeficiente de correlación r, 1 < r < 1. Entonces, por el Ejemplo 10.1.4, la
distribución condicional de Y dado X = x es normal con media rx y varianza 1  r2. Por
tanto, E(Y | X = x) = rx.
b Análogamente, si X y Y denotan el número de ases y seises en n lanzamientos de
un dado balanceado, entonces la distribución condicional de Y dado X = x es binomial
con parámetros 1/5 y n  x, x = 0,, n (ver Ejemplo 10.1.1a). Por tanto, E(Y | X = x) =
(n  x)/5, puesto que la media de una distribución binomial con parámetros n y p es np.
c Permita que Y tenga la distribución uniforme sobre (0,1); sea una moneda con
probabilidad Y de ocurrir en águila lanzada hasta que un águila aparezca; y denote X el
número de lanzamientos requeridos, como en el Ejemplo 10.1.7a. Entonces, por el
Ejemplo 10.1.7a,
h y x   x x  1 y1  y 
x 1
para 0 < y < 1 y x = 1, 2,. Por tanto,
EY X  x   x x  1 0 y 2 1  y  dy
1 x 1
que se reduce a 2/(x + 2) después de algunas manipulaciones.

d Sea B una región de R2 y sea Z = IB(X,Y). Así, Z = 1 si (X,Y)  B y Z = 0 si (X,Y)
 B. Además, denote Bx el conjunto de y  R para las cuales (x,y)  B. Entonces IB(x,y)

= 1 si y  Bx y 0 si y  Bx, así que
E  Z X  x    I B  x , y  dH  y x 

 B 1dH  y x   Pr Y  Bx X  x 
x
para toda x para la cual H(·  x) este definida. ////
Como la esperanza ordinaria (incondicional), la esperanza condicional disfruta de varias

propiedades útiles e interesantes, que ahora desarrollaremos. Las primeras dos son linealidad
y monotonicidad.
Teorema 10.3.1 Sean X y Y conjuntamente distribuidas; sean Z1= w1(X,Y) y Z2 =

w2(X,Y); y sean 1 y 2 números reales. Si E(Z1 | X = x) y E(Z2 | X = x) están ambas
definidas, entonces
E 1Z1   2 Z2 X  x    1 E Z1 X  x    2 E Z2 X  x 
Más aún, si w1(x,y)  w2(x,y) para toda y  R, entonces E(Z1 | X = x)  E(Z2 | X = x). En
particular, |E(Z1 | X = x)|  E(|Z1| | X = x).
PRUEBA Las propiedades enunciadas para la esperanza condicional son

propiedades bien conocidas de las operaciones suma e integración que definen la
esperanza condicional (compare con el Teorema 8.2.2). ////
Nuestro siguiente teorema es también anticipado.

Teorema 10.3.2 Sean X y Y independientes, y sea Z = v(Y), donde v es una función
sobre R. Si E(|Z|) < , entonces
E Z X  x   E Z 
para toda x para la cual la esperanza condicional este definida.
La prueba es dejada como un ejercicio. Nuestro siguiente teorema asegura que dado X = x,
las funciones de X actúan como escalares en esperanzas condicionales.
Teorema 10.3.3 Sean X y Y conjuntamente distribuidas, y sea Z = u(X)w(X,Y), donde

u y w son funciones sobre R y R2, respectivamente. Si E[w(X,Y) | X = x] está definida,

entonces así lo está E(Z | X = x) y

E Z X  x   u x  E w X ,Y  X  x 
PRUEBA Nosotros daremos la prueba en el caso absolutamente continuo. En este
caso
E  Z X  x    u x w x , y  h y x  dy

 u x   w x , y h y x  dy


 u x  E w X ,Y  X  x 
Nuestro siguiente teorema y su corolario son los resultados más importantes de esta sección.
Teorema 10.3.4 Sean X y Y variables aleatorias conjuntamente distribuidas, y sea D
un subconjunto de R para el cual Pr (X  D) = 1. También, sea Z = w(X,Y) una
variable aleatoria para la cual E(Z | X = x) está definida para cualquier x  D. Si E(Z)
es finita, entonces
E Z   D E Z X  x dG x  (3.5)
donde G denota la función de distribución de X, provisto que la integral en (3.5)

converge absolutamente.
PRUEBA Probaremos el teorema únicamente en el caso discreto, aunque es
verdadero en la generalidad establecida. Denote f la función masa conjunta de X y Y y
denote g la función masa marginal de X, y sea D el conjunto de x  R para las cuales
g(x) > 0. Además sea E cualquier conjunto infinito contable o infinito para el cual Pr (Y
 E) = 1. Entonces
E Z    w x , y  f  x , y 
 x , y D E
  w x , y  h y x  g x 
 x , y D E
  [  w x , y h y x ]g x 
x D y E
  E  Z X  x g x   D E  Z X  x  dG x 
x D

Combinando los Teoremas 10.3.3 y 10.3.4 se produce el siguiente corolario.

Corolario 10.3.1 Sea Z como en el Teorema 10.3.4, y sea U = u(X), donde u es una
función sobre R. Entonces
EUZ   D u x E Z X  x dG x 
provisto que la integral converge absolutamente.
PRUEBA Simplemente observe que E(UZ | X = x) = u(x)E(Z | X = x), x  D, y

aplique el Teorema 10.3.4 a la variable aleatoria UZ. ////
El Teorema 10.3.4 es establecido más naturalmente en una notación ligeramente diferente.

Sean X, Y y Z como en el enunciado del Teorema 10.3.4, y para cada x  D, sea (x) = E(Z |
X = x). Entonces,  es una función bien definida sobre D, así que (X) es una variable
aleatoria. Denotaremos esta variable aleatoria por E(Z | X). Así,
E Z X    X  (3.6)
donde (x) = E(Z | X = x) para cada x  D. El resultado del Teorema 10.3.4 ahora puede ser
establecido

E Z   E E Z X   (3.5' )
porque el lado derecho de (3.5) es simplemente la esperanza de la variable aleatoria (X) =

E(Z | X).
EJEMPLO 10.3.2
a Permita que X tenga la distribución uniforme sobre (0,1), y condicionalmente
dado X = x, permita que Y tenga la distribución uniforme sobre (0,x), 0 < x < 1, como
en el Ejemplo 10.1.5. Entonces, h(y  x) = 1/x, 0 < y < x < 1, así que
EY X  x  
1 x
0
ydy  12 x
x
0 < x < 1. Eso es, E(Y | X) = 1 X. Puesto que E(X) = 1 , ahora se sigue que
2 2
 
EY   E EY X   E 12 X   1
4
b Permita que Y tenga la distribución beta con parámetros  > 0 y  > 0, y

condicionalmente dado Y = y, permita que X tenga la distribución binomial con
parámetros n y y, 0 < y < 1. Entonces, E(X | Y = y) = ny, 0 < y < 1, y E(Y) = /( + )
por el Ejemplo 8.4.1a. Por tanto, E(X) = E[E(X | Y)] = nE(Y) = n/( + ). ////
Denominaremos a la función  de la Ecuación (3.6) la media condicional de Z dado X y la
función  2 definida por
 2  x   E{[Z   x ]2 X  x}
para x  D la varianza condicional de Z dado X = x, provisto, por supuesto, que es finita

para toda x  D. Entonces es fácilmente verificado que
 2  x   E Z 2 X  x    x 
2
(3.7)
para x  D. Nuestro corolario final relaciona a la varianza incondicional de Z a su media y

varianza condicionales. En esto, hemos denotado a la variable aleatoria  2(X) por D(Z | X).
Corolario 10.3.2 Permita que Z tenga varianza finita, y sean la media y varianza
condicionales de Z bien definidas. Entonces
  
D Z   E D Z X   D E Z X  
En palabras, la varianza de Z es la esperanza de su varianza condicional más la
varianza de su esperanza condicional
PRUEBA Podemos suponer que E(Z) = 0, en cuyo caso D(Z) = E(Z2) = E[E(Z2 |
X)]. Más aún, por (3.7) E(Z2 | X) =  2(X) + (X)2, así que
    
E Z 2  E  2  X   E  X 
2
 (3.8)
Finalmente, E[(X)] = E(Z) = 0, por el Teorema 10.3.4, así que E[(X)2] = D[(X)]. El
teorema se sigue. ////
10.4 DIMENSIONES MAYORES1

Las nociones de las tres secciones precedentes se extienden fácilmente del caso de dos
variables aleatorias al caso de varias. De hecho, las definiciones y teoremas de las Secciones
10.1 a 10.3 permanecen válidos cuando X o Y, o ambas, son vectores aleatorios, provisto
que una concesión propia es hecha para la dimensión del dominio de las densidades
marginales y condicionales y funciones masa que aparecen en las Secciones 10.1 a 10.3.
Describiremos estas extensiones únicamente en el caso absolutamente continuo. El caso
discreto es análogo y generalmente más simple, y el mezclado es también análogo.
Sean X1,... Xm y Y1,... Yn variables aleatorias distribuidas conjuntamente. Además, sea f una
densidad conjunta para el vector aleatorio (X1,... Xm Y1,... Yn), y denoten g y h las densidades
marginales de los vectores X = (X1,... Xm) y Y = (Y1,... Yn), respectivamente. Finalmente,
denote D el conjunto de x = (x1,... xm)  Rm para los cuales g(x) > 0. Para x  D, definimos la
densidad condicional de Y dado que X = x por
f  x , y
h y x   y  Rn (4.1)
g x 
Más aún, si B es una región de Rn, y si x  D, entonces definimos la probabilidad

condicional de que Y  B dado que X = x por
Pr Y  B X  x   B h y x dy (4.2)
Y finalmente, si Z = w(X,Y) es una variable aleatoria que está determinada como una función
de X y Y, entonces nosotros definimos la esperanza condicional de Z dado que X = x para x 
D por
E Z X  x   Rn w x , y h y x dy (4.3)
provisto que la integral (ndimensional) que aparece en (4.3) converge absolutamente.

Alternativamente, la esperanza condicional de Z dado que X = x puede ser calculada de la
fórmula
E Z X  x    zdK  z x 

(4.4)
donde K(· | x) denta la función de distribución condicional de Z dado X = x . Eso es, K(z | x)
= Pr (Z  z | X = x) para z  R y x  D. La equivalencia de (4.3) y (4.4) puede ser establecida
aplicando el Teorema 8.2.1 a la distribución condicional de Y dado X = x y la función Z =
1
334 DIMENSIONES MAYORES
w(x,Y) para cada x  D.

Ahora es fácilmente verificado que los Teoremas 10.2.1 a 10.2.4 y 10.3.1 a 10.3.4 y sus
corolarios permanecen válidos con las definiciones extendidas de esperanza y probabilidad
condicional, provisto sólo que una concesión propia es hecha para las dimensiones de los
dominios de las densidades condicionales y funciones masa que aparecen en ellos. Ambos,
los enunciados y las pruebas, de estos resultados en el caso de dimensiones mayores son tan
semejantes a aquellos del caso de dos dimensiones que ellos no necesitan ser reproducidos
aquí.
El teorema de Bayes es también válido para densidades condicionales multivariadas. Eso es,
en la notación de (4.1) a (4.4),
h y   D h y x g x dx (4.5)
y
h y x  g x 
g x y   (4.6)
h y 
si h(y) > 0.
EJEMPLO 10.4.1
a Permita que X1,,Xm y Y1,,Yn tengan la distribución multinomial, digamos
f  x1 ,..., x m , y1 ,..., y n 
 N  x1
  p1  pmm q1 1 qn n
x y y
 x1 , , x m , y1 , , y n 
para enteros no negativos x1,,yn con x1 + ··· + yn = N. Aquí p1,,pm,q1,,qn son no

negativos, y p1 + ··· + pm + q1 + ···+ qn = 1. Suponer también que q1 + ··· + qn > 0. Por
el Problema 6.25 la función masa marginal de X1,... Xm es
 N  x1
g x1 , , x n     p1  pmm r
x k
 x1 , , x m , k 
para x1 + ··· + xm  N, donde k = N  x1  ···  xm y r = q1 + ··· + qn. La función masa

condicional de Y1,,Yn dado X1,,Xm es
f  x1 , , x m , y1 , , y n 
h y1 , , y n x1 , , x m  
g x1 , , x m 
que se simplifica a
 k   q1  y1  qn  yn
     
 y1 , , y n   r   r
Así, la distribución condicional de Y1,,Yn es multinomial con parámetros nuevos

qi
k  N  x1  x m y qi 
r
para i = 1,, n.
b Análogamente, si X1,,Xm y Y1,,Yn tienen la distribución hipergeométrica
multinomial, digamos
 s1   sm   r1   r1 
       
 x   x m   y1   y1 
f  x1 , , x m , y1 , , y n   1
 s1  sm  r1  rn 
 
 k 
para enteros no negativos x1,, xm, y1,,yn con x1 + ··· + yn = k, entonces
 r1   rn 
   
 y   yn 
h y1 , , y n x1 , , x m   1
 r1    rn 
 
 k 
donde k = k  x1  ···  xm.

////
Un nuevo fenómeno en dimensiones mayores es la noción de independencia condicional.
Así, sean X = (X1,,Xm) y Y = (Y1,,Yn) conjuntamente distribuidos, vectores aleatorios
absolutamente continuos conjuntamente con densidades g y h, respectivamente. Además, sea
D el conjunto de x  Rn para las cuales g(x) > 0, y para x  D denoten h(· | x) h1(· | x),,hn(·
| x) las densidades condicionales de Y y Y1,,Yn dado X = x. Si
h y1 , , y n x    hi yi x 
n
i 1
para toda y = (y1,,yn)  Rn y toda x  D, entonces diremos que Y1,,Yn son independientes
condicionalmente dado X. En este caso, la densidad marginal de Y será
336 DIMENSIONES MAYORES
h y1 ,, y n   D  hi  yi x g x  dx
n
i 1
así que Y1,,Yn no necesitan ser independientes incondicionalmente. La noción de

independencia condicional nos conduce, de hecho, a una nueva clase de modelos.
EJEMPLO 10.4.2
Permita que X tenga la distribución exponencial con parámetro  = 1, y condicionalmente
dado X = x > 0, sean Y1,,Yn variables aleatorias independientes, distribuidas
exponencialmente con parámetro  = x (en este caso m = 1). Eso es, sea
g x   e  x x0
y h y1 ,, yn x   x n e x  y1  yn 
para yi > 0, i = 1,, n. La densidad marginal de Y = (Y1,,Yn) es entonces
h y1 , , y n   0 x n e  x  y1  yn  e  x dx

n!
 0 x n e  x 1 y1  yn  dx 

1  y1  yn  n1
para yi > 0, i = 1,, n. [La igualdad final se sigue del cambio de variables x = x(1 + y1 + 
+ yn) y la definición de la función gama.] Haciendo z = y1 +  + yn, ahora se sigue de (4.6)
que la densidad condicional de X dado Y = y = (y1,,yn) es
g x y  
1  z  x n e 1 z  x
n 1
n!
para x > 0 y yi > 0, i = 1,, n. Eso es, la distribución condicional de X dado Y = y es gama
con parámetros  = n + 1 y  = 1 + z. Por tanto,
n 1
E X Y  y   ////
1 z
Ahora consideraremos una extensión del Teorema 10.3.4. Sea X, Y y Z vectores aleatorios
absolutamente continuos conjuntamente, y denoten f, h, y g la densidad conjunta de X, Y, y
Z, la densidad marginal de X dado Y, y la densidad marginal de X, respectivamente. Además,
sea
W  w X ,Y , Z 
una variable aleatoria que está determinada como una función de X, Y, y Z, y suponer que las
esperanzas condicionales
 x   EW X  x 
v x , y   E W X  x ,Y  y 
existen siempre que g(x) > 0 y h(x,y) > 0. Como en la sección previa, denotaremos a las
variables aleatorias (X) y v(X,Y) por E(W | X) y E(W | X,Y), respectivamente, así que el
Teorema 10.3.4 (como extendido a dimensiones mayores) asegura que

EW   E EW X   E EW X ,Y    (4.7)
Teorema 10.4.1 Con las notaciones y suposiciones del párrafo previo, nosotros
tenemos

E EW X ,Y  X  x  EW X  x  
siempre que g(x) > 0. Eso es, E[E(W | X,Y) | X] = E(W | X).
PRUEBA Denote k(· | x,y) y l(·,· | x) la densidad condicional de Z dado X = x y Y
=y y la densidad condicional de Y y Z dado X = x, respectivamente. Entonces
f  x , y , z  f  x , y , z  g x  l  y , z x 
k z x , y   
h x , y  h x , y  g x  h y x 
siempre que g(x) > 0 y h(x,y) > 0. Por tanto,
v x , y    w x , y , z  k  z x , y  dz
 w x , y , z l  y , z x dz
1

h y x 
si h(y | x) > 0. Más aún,

E EW X ,Y  X  x 
 
 E v X ,Y  X  x   v x , y  h y x  dy
338 TEORÍA DE DECISIÓN
donde la integral se extiende sobre las y para las cuales h(y  x) > 0. Combinando estas
expresiones, encontramos
 
E E W X ,Y  X  x   w x , y , z l  y , z x dydz
 EW X  x 
10.5 TEORÍA DE DECISIÓN1

En esta sección consideraremos un modelo matemático para el problema de tomar decisiones
frente a condiciones de incertidumbre. El desarrollo de este modelo descansa fuertemente
sobre las nociones de las cuatro secciones precedentes y puede ser considerado como una
aplicación de ellos. Por supuesto, estaremos posibilitados sólo a esbozar la superficie de esta
rica área, y referimos a los lectores interesados a las referencias al final del este capítulo.
Nuestro modelo involucra los siguientes elementos. Primero, supondremos que el estado de
la naturaleza es desconocido para nosotros pero que hay un conjunto conocido D de posibles
estados de la naturaleza. Consideraremos aquí sólo el caso donde D es un intervalo de
números reales, ya que la teoría puede ser extendida al caso donde D es una región de
espacios euclidianos de mayores dimensiones. Denotaremos a los elementos de D, eso es, los
estados posibles de la naturaleza, por x. También, suponemos que estamos obligados a tomar
una de un conjunto específico de acciones A y que si tomamos la acción a  A cuando el
estado de la naturaleza es de hecho x  D, entonces incurrimos en una pérdida L(a,x), donde
L es una función continua2 sobre el producto cartesiano A  D. Finalmente, suponemos que
antes de tomar cualquier acción se nos permite realizar un experimento para aprender acerca
del estado desconocido de la naturaleza. El resultado de este experimento se supone que es
un vector o variable aleatoria Y cuya distribución depende del estado desconocido de la
naturaleza x. La pregunta que deseamos responder es la siguiente: ¿Si nosotros observamos
Y = y, cuál acción debemos tomar?
Para responder esta pregunta, especificaremos una densidad g que representa nuestra opinión
a priori acerca del estado de la naturaleza antes del experimento. Eso es, consideraremos el
estado desconocido de la naturaleza como una variable aleatoria X con densidad g, donde g
es seleccionada de modo que
Pr  X  B  B g x dx
1
2
6 Si A es finito, esto significa que L(a,x) debe ser continua debe ser continua en x para cada a.
nos de nuestra probabilidad subjetiva de que X pertenece a cualquier subintervalo B  D

anterior al experimento. Referiremos a g como la densidad a priori, y supondremos que g es
positiva sobre D y se desvanece fuera de D. Ahora acordamos tratar a X y Y como variables
distribuidas conjuntamente de la siguiente manera. La función masa o densidad condicional
de Y dado que X = x, digamos h(·  x), es supuesta conocida para cada x  D, y la densidad
marginal de X es g. La función masa o densidad marginal de Y entonces será
h y   D h y x g x dx
Después de que el experimento es realizado y el valor de Y observado, podemos calcular la

densidad condicional de X dado Y. La última densidad entonces describe nuestra nueva
opinión acerca de X, el estado de la naturaleza desconocido, después de que el experimento
ha sido realizado y a menudo es referida como la densidad a posteriori de X. Por el teorema
de Bayes es
h y x  g x 
g x y  
h y 
para x  D y h(y) > 0.
Sea E el conjunto de y para las cuales h(y) > 0, así que Pr (Y  E) = 1. Definimos una
política de decisión para ser una función, digamos , de E dentro de A, el espacio de
acciones. Una política de decisión es una regla que nos dice toma la acción (y) cuando
observamos el resultado Y = y. En este caso nuestra pérdida esperada es

R   E L  Y , X  
donde la esperanza es tomada con respecto a la distribución conjunta de X y Y. Por supuesto,
debemos suponer que la política  es suficientemente regular para que la esperanza
definiendo a R( ) exista. Llamaremos a tales políticas políticas regulares, y consideraremos
sólo políticas regulares.
Una política regular 0 será denominada óptima si minimiza la pérdida esperada. Eso es, 0
es óptima si y sólo si
R 0   R 
para cualquier otra política regular  . La cuestión obvia entonces es: ¿Cómo podemos
determinar una política óptima? La respuesta la provee el siguiente teorema.
Teorema 10.5.1 Si la política regular 0 tiene la propiedad
  
E L  0  y , X  Y  y  min E La , X  Y  y
aA
 (5.1)
para cualquier y  E, entonces 0 es óptima. Eso es, la política óptima puede ser
determinada permitiendo que 0(y) sea esa acción a  A que minimiza la pérdida
esperada condicional dado Y = y para cada y  E.
PRUEBA La prueba del teorema es fácil. Indudablemente, si  es cualquier
política regular, entonces se sigue de (5.1) que
  
E L  0  y  , X  Y  y  E L   y , X  Y  y 
para cualquier y  E. Por tanto, por el Teorema 10.3.4,

R 0   E E L  0  y  , X  Y  y h y  dy
 E E L   y  , X  
Y  y h y  dy  R  (5.2)
como se aseveró. [Si Y es discreta, la integral en (5.2) debe ser remplazada por una
sumatoria, pero el resultado es el mismo.] ////
EJEMPLO 10.5.1
Suponer que deseamos determinar la probabilidad de que una moneda caiga en águila. Aquí
podemos tomar al estado de la naturaleza para ser la probabilidad en cuestión, en cuyo caso
D = (0,1), el intervalo unitario abierto. Más aún, puesto que nos piden suponer el estado de
la naturaleza, podemos tomar el espacio de acciones para ser A = D = (0,1). Para la función
pérdida L, parece natural tomar
La , x   c x  a 
2
(5.3)
o posiblemente
La , x   c x  a
donde c es una constante positiva. Consideraremos sólo la función pérdida (5.3) en este
ejemplo, dejando la otra función pérdida para un problema. Para aprender acerca del estado
de la naturaleza desconocido, podemos lanzar la moneda varias veces y contar el número de
águilas. Si lanzamos la moneda n veces y denota Y el número de águilas, entonces la
distribución condicional de Y dado X = x será binomial con parámetros n y x. Eso es,
tendremos
 n
h y x     x y 1  x 
n y
 y
para y = 0,, n y 0 < x <1.

Finalmente, debemos especificar la densidad a priori g. Por razones de operatividad
matemática, supondremos que nuestra opinión a priori está adecuadamente representada por
una densidad beta, digamos
      1
g x   x 1  x 
 1
     
para 0 < x < 1, donde  > 0 y  > 0. Los parámetros  y  quizá sean seleccionados para
representar nuestra opinión a priori. Por ejemplo, la selección  =  = 6 puede ser apropiada
si tuviéramos una fuerte creencia de que X está cerca de ½, mientras que la selección  =  =
1 (la distribución uniforme) puede ser apropiada si tuviéramos muy poca opinión a priori
acerca de X.
Habiendo especificado el problema completamente, ahora lo resolveremos. El primer
paso es encontrar la distribución condicional de X dado Y. Por el Ejemplo 10.1.7b, esta es
beta con parámetros   =  + y y   =  + n  y. Eso es,
 '  '  ' 1

g x y   x 1  x 
' 1
 '   ' 
para 0 < x < 1 y = 0,... n. Enseguida, nosotros debemos minimizar la pérdida esperada
condicional
 
E La , X  Y  y  c 0  x  a  g x y dx
1 2
con respecto a a. Por el Lema 8.3.1 sabemos que esto es hecho tomando
a  E X Y  y   0 xg x y dx
1
Finalmente, del Ejemplo 8.4.1a, sabemos que la esperanza de la densidad beta es /( + ).
Por tanto, la política óptima es
y
 0  y   E X Y  y  
 n
Observamos que la estimación 0(y) es diferente de la frecuencia real de águilas y/n.

El hecho de que la política óptima de decisión fuera hacer 0(y) = E(X | Y = y), y  E, en el
Ejemplo 10.5.1 dependió únicamente de la función pérdida (5.3) y no de otras
especificaciones del problema. ////
EJEMPLO 10.5.2
Supongamos que deseamos decidir si una cantidad desconocida x es positiva o negativa. Más
precisamente, supongamos que todos los valores reales de x son posibles, en cuyo caso D =
R, y que se nos pide tomar una de las dos acciones a0 y a1, donde a0 representa la decisión de
que x  0 y a1 la decisión de que x > 0. También nosotros supondremos que no hay pérdida
por tomar una decisión correcta y que la pérdida por una decisión incorrecta es proporcional
a |x|. Eso es, nosotros tomamos nuestra función pérdida para ser
0 si a  a0 y x  0 o a  a1 y x  0
La , x   
c x de otra manera
donde c es una constante positiva. Finalmente, nosotros suponemos que se nos permiten
hacer n mediciones sobre x, digamos Y1,,Yn, que están sujetas a error de medición. De
hecho, suponemos que dado X = x, Y1,,Yn son independientes y tienen la distribución
normal con media x y varianza 2. Finalmente, suponemos que nuestra opinión a priori
acerca de X está adecuadamente descrita por una distribución normal con media  y varianza
2.
Sea L0(a,x) = L(a,x)  L(a0,x), a  A, x  R. Entonces minimizamos E[L( (y),X)] con
respecto a  si y sólo si minimizamos
    
E L0   Y , X   E L  Y , X   E La0 , X 
con respecto a , porque la diferencia es independiente de . Ahora L(a0,x) = 0 para toda x 
R, y L0(a1,x) = cx para todo x  R. Por tanto,

E L0 a0 , X  Y  y  0  (5.4a )
E L a , X 
0 1 Y  y   cE  X Y  y (5.4b)
para toda y  Rn. Por el Teorema 10.5.1, una política óptima es hacer  (y) = a1 si y sólo si
(5.4b) es menor que (5.4a). Eso es,
a1 si E  X Y  y   0
 0  y   (5.5)
ao si E  X Y  y   0
[De hecho, cual decisión es admisible si E(X | Y = y) = 0.]

Todo lo que queda es encontrar E(X | Y = y), y esto será dejado como un ejercicio (Problema
10.41). La respuesta es
 2  nz 2
E X Y  y  
 2  n 2
donde z = y = (y1 +  + yn)/n.
Como en el problema anterior, el resultado (5.5), la forma general de la política óptima,
depende sólo de la función pérdida y no de otras especificaciones del problema.
10.6 PROCESOS RAMIFICADOS1

En esta sección consideramos un modelo para el crecimiento de una población. Suponemos
que al principio de la primera generación una población tiene X0 miembros. Durante la
primera generación cada uno de estos X0 miembros tiene un número aleatorio de progenie, y
al final de la primera generación todos los miembros X0 originales mueren o abandonan la
población. Sea Z1i el número de progenie del i-ésimo de los miembros X0 originales.
Entonces el número de progenie al final de la primera generación es
X0
X1   Z1i (6.1)
i 1
En generaciones posteriores este proceso se repite a sí mismo. Si hay Xn-1 miembros en la

población al final de la (n  1)-ésima generación, donde n  2, y si la i-ésimo de estos tiene
progenie Zni durante la n-ésima generación, entonces el tamaño de la población al final de la
n-ésima generación es
X n 1
X n   Zni (6.2)
i 1
Interpretamos Xn como cero si Xn-1 = 0.

Si Xn = 0 para alguna n, entonces Xm = 0 para toda m  n por (6.2). En este caso diremos que
la población se extinguió. Deseamos calcular la probabilidad de que la población se extinga.
Para hacer eso, tendremos que hacer algunas suposiciones acerca de la evolución de la
población. Supondremos que para cada n, Zn1,,Znk son condicionalmente independientes
dado X0 = k0, X1 = k1,, Xn-1 = kn-1. También supondremos que la función masa condicional
de Zni no depende de n, i, o k0,,kn-1. Así,
f  j   Pr  Zni  j X 0  k0 ,, X n1  kn1 
es la probabilidad de que un miembro de la población tenga exactamente j progenie para j =

0,1,2,, y esta probabilidad se supone independiente de la generación n, el miembro de la
1
344 PROCESOS RAMIFICADOS
población i, y los tamaños de las generaciones previas k0,,kn-1. Supondremos que f(0) > 0,
puesto que de otra manera la probabilidad de extinción es trivialmente cero.
Es fácil calcular E(Xn). Denote  el número esperado de progenie de un sólo individuo. Eso
es, sea

   jf  j 
j 0
Lema 10.6.1 E(Xn) = X0n para n = 1,2,.

PRUEBA Por (6.1), tenemos E(X1) = X0. Más aún, por (6.2) y la independencia
condicional de las Zni, tenemos E(Xn | X0,,Xn-1) = Xn-1. Por tanto, por el Teorema
10.3.4, tenemos E(Xn) = E(Xn-1) = 2E(Xn-2) =  = n-1E(X1) = X0n. ////
Una técnica similar puede ser usada para calcular la función generatriz de Xn. Denote Gn la
función generatriz de Xn,
 

Gn t   E t X n   Pr X n  j t n
j 0
para 1  t  1. También, denote F la función generatriz de las Zni,
 

F t   E t Zni   f  j t j
j 0
para 1  t  1. Entonces G1(t) = F  t 

X0
por (6.1), el Teorema 8.4.7, y la independencia de
Z11,, Z1 X 0 . Más aún,
 
E t X n X 0 ,, X n1  F t 
X n 1
por (6.2) y la independencia condicional de Zn1,, ZnX n1 dado Xn-1.
Lema 10.6.2 Para n = 1,2,, tenemos Gn(t) = Gn-1F(t) = Gn-1(F(t)) para 1  t 

1.
PRUEBA Por el Teorema 10.3.4, tenemos
  
Gn  t   E t X n  E E t X n X 0 , , X n1 

= E F t 
X n 1
G n 1  F  t 
para 1  t  1. ////
Definamos Fn recursivamente por F1(t) = F(t), F2(t) = F  F(t), y Fn(t) = Fn-1° F(t) para 1  t
 1. Puesto que la composición es asociativa, podemos escribir Fn(t) = F ° F °° F, la

composición de F consigo mismo n veces, y se sigue que Fn(t) = F ° Fn-1(t) para 1  t  1 y
n  1.
Para n = 1,2, y 1  t  1, Gn(t) = Fn  t  0 .
X
Corolario 10.6.1
PRUEBA Cuando n = 1, esta relación ha sido antes observada; y si es cierta
cuando n = m  1, entonces Gm(t) = Gm-1 °F(t) =  Fm1  F t   Fm  t  0 . El corolario
X0 X
se sigue por inducción. ////

Sea n = Pr (Xn = 0). Entonces, puesto que Xn = 0 implica Xn+1 = 0, debemos tener n  n+1
para cualquier n  1. Se sigue que
  lim  n
n
existe. Denominaremos a  la probabilidad de extinción.

Teorema 10.6.1 Si   1, entonces  = 1; y si  > 1, entonces  =  X 0 , donde  es
la solución positiva más pequeña de la ecuación
  F  (6.3)
Sea n = Fn(0), así que n = Gn(0) = Fn 0 0   nX0 . También, sea  =

X
PRUEBA
lim n cuando n  , así que  =  X0 . Entonces n = Fn(0) = F(Fn-1(0)) = F(n-1), y la
Ecuación (6.3) puede ser obtenida permitiendo n  . Para ver que  es la solución
positiva más pequeña a (6.3), sea  cualquier otra solución positiva. Entonces, puesto
que F es una función no decreciente, debemos tener 1 = F(0)  F() = . Por
inducción, entonces tenemos n = F(n-1)  F() = , y por tanto  = lim n   cuando
n  .
Queda demostrar que  = 1 si   1. Postulamos que si   1, entonces F (t) < 1 para 0
< t < 1. Para ver esto escribir

F' t    jf  j t j 1
j 1
para 0 < t < 1. Si f(j) > 0 para alguna j  2, entonces f(j)tj-1 < f(j) y consecuentemente F (t) <
F (1) =   1 para 0 < t < 1; y si f(j) = 0 para toda j  2, entonces F (t) = f(1), que es menor
que 1 porque f(0) > 0. Ahora, si  < 1, entonces 1   = 1  F() = F ()(1  ) con  <  <
1 por el teorema del valor medio. Se sigue que F () = 1, contradiciendo la suposición de
que   1 (ver Figura 14).
346 PROCESOS RAMIFICADOS
Figura 14. La ecuación β = F(β)

REFERENCIAS
Un tratamiento general completo de esperanza y probabilidad condicional requiere la teoría

de la medida abstracta. Lectores quienes estén interesados en este enfoque pueden consultar
Neveu (1965), cap. 4.
Para una presentación más detallada de la teoría de decisión (Sección 10.5), ver DeGroot
(1970) o Blackwell y Girshick (1954). Para un tratamiento más detallado de procesos
ramificados (Sección 10.6), ver Karlin (1966), cap. 11.
El tipo de dependencia exhibido para procesos ramificados es un caso especial de
dependencia markoviana. No daremos una exposición sistemática de este tema. Referimos a
los lectores interesados a Karlin (1966), caps. 2 a 5, y Feller (1968), caps. 15 y 16.
348 PROBLEMAS
10.7 PROBLEMAS
10.1 Sea una muestra aleatoria de tamaño k extraída sin reemplazo de una urna que
contiene r bolas rojas, b bolas negras, y w bolas blancas (k  n = r + b + w). También,
denoten X y Y el número de bolas blancas y rojas en la muestra, respectivamente.
Encontrar la función masa condicional de Y dado X = x para todos los posibles valores
de x. Interpretar sus resultados.
10.2 Sean X y Y variables aleatorias independientes que tienen la distribución Poisson con
parámetros  > 0 y  > 0, respectivamente. También, sea Z = X + Y. Mostrar que la
función masa condicional de X dado Z = z es binomial con parámetros n = z y p =
/( + ) para z = 0, 1, 2,.
10.3 Sean X y Y variables aleatorias independientes las cuales están geométricamente
distribuidas con el mismo parámetro p, 0 < p < 1, y sea Z = X + Y. Para z = 2, 3,,
encontrar la función masa condicional de X dado Z = z.
10.4 Sean dos dados balanceados lanzados, y sean X y Y la suma y el número máximo de
puntos que aparecen sobre los dos dados, respectivamente. Para y = 1, 6, encontrar
la función masa condicional de X dado Y = y.
10.5 Generalice el Problema 10.4 a tres dados.
10.6 Permita que X y Y tengan densidad Cauchy bidimensional


f x , y   1 2 1  x 2  y 
3  ,  < x, y < . Encontrar la densidad condicional de X

dado Y = y para  < y < .

10.7 En el Problema 10.6 mostrar que Y y Z  X 1  Y 2 son independientes.
Permita que X y Y tengan la densidad Dirichlet bidimensional f(x,y) = cx –1y -1(1  x  y) -1
para 0 < x, y < 1 y x + y < 1, donde , , y  son positivos y c = ( +  + )/()()().
Encontrar la densidad condicional de X dado Y = y para 0 < y < 1.
10.9 En el Problema 10.8 mostrar que Y y Z = X/(1  Y) son independientes.
10.10 Sean X y Y variables aleatorias independientes normal estándar, y sea Z = X + Y.
Encontrar la densidad condicional de:
(a) X dado Z = z para z  R.
(b) Z dado X = x para x  R.
10.11 Sean X1,, Xn variables aleatorias independientes las cuales tienen una densidad
común f, y sean Y = mín (X1,, Xn) y Z = máx (X1,, Xn). Encontrar la densidad
condicional de Z dado Y = y para todos los posibles valores de y. Interprete sus
resultados.
10.12 Condicionalmente, dado que X = x, 0 < x < 1, permita que Y tenga la distribución
geométrica con el parámetro x, y permita que X tenga la distribución beta con los
parámetros  > 0 y  >0. Encontrar la función masa (incondicional) de Y en términos
de funciones gama y factoriales.
10.13 Condicionalmente, dado X = x, permita que Y tenga la función de distribución normal
con media x y varianza 2. También, permita que X tenga la función de distribución
normal con media  y varianza 2. Mostrar que la distribución marginal de Y es
normal con media  y varianza 2 + 2.
10.14 Condicionalmente, dado que X = x > 0, permita que Y tenga la distribución Poisson
con parámetro x, y permita que X tenga la distribución gama con parámetros  > 0 y 
> 0. Encontrar la función masa de Y, y simplificar su resultado en el caso especial
donde  = 1 y  = 1.
10.15 Condicionalmente, dado X = x > 0, permita que Y tenga la distribución gama con
parámetros  > 0 y x, y X tenga la distribución exponencial estándar. Encontrar la
función de densidad de Y.
10.16 Condicionalmente, dado que X = x, permita que Y tenga la distribución uniforme
sobre (0,x), y permita que X tenga la densidad g(x) = 1/x2 para x  1. Encontrar la
densidad de Y.
10.17 Encontrar la distribución condicional de X dado Y = y en los Problemas 10.14 y 10.15.
350 PROBLEMAS
10.18 Encontrar la distribución condicional de X dado Y = y en el Problema 10.16.

10.19 Permita que X tenga la distribución normal con media  y varianza 2. Encontrar la
distribución condicional de X, dado X2 = z > 0. Simplificar su resultado en el caso
especial que  = 0.
10.20 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar la distribución
condicional de X dado que sen 4X = ½.
10.21 Derivar las Ecuaciones (1.11) y (1.12).
10.22 Permita que X y Y tengan la distribución Cauchy bidimensional (Problema 10.6).
Encontrar la esperanza condicional de Y dado X = x para x  R.
10.23 Sean X y Y variables aleatorias independientes absolutamente continuas. Denote f una
densidad para X, denote G la función de distribución de Y, y suponga que f(x) > 0 si y
sólo si x > 0. Permita ser Z = Y/X. Mostrar que la función distribución condicional de
Z dado X = x > 0 es Pr (Z  z  X = x) = G(xz) para z  R. Use este resultado y el
Teorema 10.2.3 para derivar la función de distribución y densidad de Z.
10.24 ¿Cómo cambiarían tus respuestas al Problema 10.23 si f(x) fuera supuesta para ser
positiva para toda x,  < x < ?
10.25 Permita que X y Y tengan la distribución normal bidimensional estándar con
parámetro r, 0 < r < 1. ¿Qué tan grande debe de ser x para que Pr (Y  0  X = x) 
0.95?
10.26 Permita que X tenga la distribución uniforme sobre (0,1), y condicionalmente dado X
= x, 0 < x < 1, permita que Y tenga la distribución geométrica con parámetro x.
Encontrar Pr (X > ½  Y = y) para y = 1, 2,.
10.27 Permita que X y Y tengan la distribución uniforme sobre el disco unitario en R2.
Encontrar E(Y  X = x) y E(Y2  X = x) para 1 < x < 1.
10.28 Permita que X y Y tengan la distribución Dirichlet bidimensional con parámetros , ,
y  (ver Problema 10.8). Encontrar la media y varianza condicional de Y dado X = x
para 0 < x < 1.
10.29 Permita que X y Y tengan la distribución hipergeométrica bidimensional (Ejemplo
6.1.4). Encontrar E(Y  X = x) para todos los posibles valores de x.
10.30 Sean X y E variables aleatorias independientes distribuidas binomialmente con los
parámetros m, n, y (la misma) p. Además, sea Z = X + Y. Encontrar E(X  Z = z) para z
= 0,, m + n.
10.31 Condicionalmente, dado X = x, permita que Y tenga la distribución Poisson con
parámetro x, y permita que X tenga la distribución gama con parámetros  > 0 y  > 0
(como en el Problema 10.14). Encontrar la media y varianza incondicional de Y.

10.32 Si la distribución condicional de Y dado X = x es exponencial con parámetro x, y si la
distribución incondicional de X es gama con parámetros  > 2 y  > 0, encontrar la
media y varianza incondicional de Y.
10.33 Permita que X tenga la distribución beta con parámetros  y , y condicionalmente
dado X = x, permita que Y tenga la distribución binomial con parámetros n y x, como
en el Ejemplo 10.1.7. Encontrar la media y varianza incondicional de Y.
10.34 Sean X y Y independientes ambas con medias cero y varianza común 2. Sea Z = X +
Y. Mostrar que E(Z2  X = x) = x2 + 2 para toda x para la cual la esperanza
condicional está definida.
10.35 Sean X y Y variables aleatorias discretas, y sea Z = w(X,Y). Si E(Z  X = x) está
definida, entonces E(Z  X = x) =  z Pr (Z = z  X = x), donde la sumatoria se extiende
sobre todas las z para las cuales Pr (Z = z  X = x) > 0.
10.36 Sean X y Y variables aleatorias conjuntamente distribuidas, y suponer que E(Y  X = x)
está definida para toda x  D, donde D es un intervalo para el cual P(X  D) = 1.
Suponer también que E(Y  X = x) = ax + b, x  D, donde a y b son constantes.
Exprese a y b en términos de las medias y varianzas de X y Y y la correlación entre las
variables aleatorias X y Y.
10.37 Si X y Y son variables aleatorias conjuntamente distribuidas para las cuales E(Y) = 0 y
E(Y2) = E[E(Y  X)2], ¿qué puede ser dicho acerca de la distribución conjunta de X y
Y?
10.38 En el Ejemplo 10.4.1a, encontrar la media y varianza condicional de Y1, dado Xi = xi, i
= 1,, m.
10.39 En el Ejemplo 10.4.1a encontrar la media y varianza condicional de Y1 + Y2 dado Xi =
xi, i = 1,, m.
10.40 En el Ejemplo 10.4.1b, encontrar la media y varianza condicional de Y1 + Y2 dado Xi
= xi, i = 1,, m.
10.41 Permita que X tenga la distribución normal con media  y varianza 2, y
condicionalmente dado X = x, sean Y1,, Yn variables aleatorias independientes
normalmente distribuidas con media x y varianza 2. Mostrar que la distribución
condicional de X, dado Yi = yi, i = 1,, n es normal con media ´ = ( -2 + z -2)/( -2
+ n -2) y varianza 1/( -2 + n -2), donde z = y1 +  + yn.
10.42 Sean X1, X2, y X3 variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1), y denoten Y1, Y2, y Y3 los valores ordenados de X1, X2, y X3.
Encontrar la densidad condicional de Y1 y Y3 dado Y2 = y para 0 < y < 1.
352 PROBLEMAS
10.43 Sean X1,, Xn independientes con densidad común f, y denoten Y1,, Yn los valores
ordenados de X1,, Xn. Encontrar la densidad condicional de Y2,, Yn -1 dado Y1 = y1
y Yn = yn para todos los posibles valores de y1 y yn.
10.44 En el Problema 10.43 sea 1 < k < n, y encontrar la densidad condicional de Y1,, Yk -
1, Yk +1,, Yn dado Yk = y para todos los posibles valores de y. Comente sobre su
resultado.
10.45 Probar el siguiente resultado: si X1,, Xn son independientes con una función de
distribución común F, y si S = X1 +  + Xn, entonces E(Xi  S) = (1/n)S para i = 1,,
n.
10.46 Para estimar la intensidad x > 0 con la cual una substancia radiactiva decae, la
substancia es observada por t > 0 unidades de tiempo y el número de emisiones Y es
registrado. Suponer que la función masa condicional de Y dado X = x es h(y  x) =
(1/y!)(tx)ye-tx para y = 0,1, 2, (ver Sección 7.6) y que la distribución a priori de X es
gama con parámetros  > 0 y  > 0. Si la pérdida por estimar x con a es (x  a)2,
encontrar la política óptima y la pérdida esperada total incurrida por usar la política
óptima.
10.47 En el Problema 10.46 sea  = 1 y  = 1, y suponer que tú debes decidir si x  1 ó x >
1. Si hay pérdida unitaria para una decisión incorrecta y ninguna pérdida para una
decisión correcta, y si es observado que Y = 0, ¿cuál decisión haría?
10.48 Para estimar la probabilidad X con la cual una moneda cae águila, la moneda es
lanzada hasta que una águila aparece y el número de lanzamientos Y es registrado. Si
la distribución a priori de X es uniforme sobre el intervalo (0,1), y si la pérdida por
estimar X con a es (X  a)2, ¿cómo estimaría X?
10.49 En el Problema 10.48 suponer que deseamos decidir si X  ½ ó X > ½ y que la pérdida
para una decisión errónea es X  ½ con ninguna pérdida para una decisión correcta.
Describe la política óptima.
10.50 Condicionalmente, dado X = x sean Y1,, Yn distribuidas normalmente con media x y
varianza 1, y sea X normalmente distribuida con media  y varianza 2. Si la pérdida
incurrida por estimar X con a es X  a, encontrar la estimación óptima de X.
10.51 En el Problema 10.50 encontrar la pérdida esperada en la que se incurre cuando la
política óptima es usada.
10.52 Mostrar que si Y y Z son condicionalmente independientes dado X, entonces E[w(Z) 
X = x, Y = y] = E[w(Z)  X = x] para todas las selecciones de x y y para las cuales las
esperanzas condicionales están definidas.
11
11 CAMINATAS ALEATORIAS1
11.1 SUCESIÓN INFINITA DE VARIABLES ALEATORIAS

En lo que resta de este libro estaremos interesados con sucesiones infinitas de variables
aleatorias, Eso es, consideraremos variables aleatorias X1, X2,, todas ellas definidas sobre
el mismo espacio de probabilidad (S,,P). En este caso X1,,Xn tendrán una distribución
conjunta para toda n = 1, 2,. Diremos que las variables aleatorias X1, X2, son
independientes si y sólo si X1,,Xn son (mutuamente) independientes para cualquier n. Eso
es, X1, X2, son independientes si y sólo si
n
Pr ( X 1  I1 , , X n  I n )   Pr ( X i  I i )
i 1
para cualquier selección de los intervalos I1,,In para cualquier n = 1, 2,. También,
diremos que las variables aleatorias X1, X2, son idénticamente distribuidas si ellas tienen la
misma función de distribución.
Si X1, X2, son independientes e idénticamente distribuidas, denominaremos a la sucesión
de sumas parciales S0, S1, S2, , definida por S0 = 0 y
Sn  X1    X n
1
1 Este capítulo trata un tópico especial y puede ser omitido.
354 SUCESIÓN INFINITA DE VARIABLES ALEATORIAS
para n = 1, 2,, una caminata aleatoria. Podemos considerar la sucesión S0, S1, S2, como
las alturas sucesivas de una partícula que se mueve una distancia vertical Xk en cada tiempo
total k, y es esta interpretación la que inspira el nombre de caminata aleatoria (ver Figura
15). Podemos también considerar a S0, S1, S2, como las ganancias acumuladas de un
jugador quien juega una sucesión de juegos independientes y gana Xk en el k-ésimo juego
para cualquier k = 1, 2,.
En el caso especial de que la distribución común de X1, X2, este dada por
Pr ( X k  1)  p y Pr ( X k  1)  q
donde 0 < p < 1 y q = 1  p, la caminata aleatoria será denominada simple. En este caso la
caminata aleatoria se puede mover por saltos unitarios. Hemos graficado una posible
realización de una caminata aleatoria simple en la Figura 15.
Figura 15. Interpolación lineal de una caminata aleatoria simple
En este capítulo estudiaremos caminatas aleatorias en algún detalle. Comenzaremos con dos
observaciones útiles simples.
CAMINATAS ALEATORIAS 355
Lema 11.1.1 Sea S0 , S1 , S2 ,  una caminata aleatoria; sea n cualquier número

positivo; y defina S0 , S1 , por
S k  Sn k  Sn
para k = 0, 1, 2,. Entonces S0 , S1 , S2 ,  es de nuevo una caminata aleatoria, y (
S1 , , Sk ) tiene la misma distribución como ( S1 , , Sk ) para cualquier k. Además, (
S1 , , Sk ) es independiente de ( S0 , , Sn ) para cualquier k.
PRUEBA Por hipótesis, Sk  X 1    X k , donde X1, X2, son independientes

con una función de distribución común, digamos F. Sea X k  X nk , k = 1, 2,.
Entonces X 1 , X 2 ,  son de nuevo independientes con función de distribución común F.
Además, Sk  Snk  Sn  X n1    X nk  X 1    X n para k = 1, 2,, así que
S0 , S1 , S2 ,  es una caminata aleatoria. Más aún, ( S1 , , Sk ) tiene la misma distribución
como ( S1 , , Sk ), puesto que ( X 1 , , X k ) tiene la misma distribución como ( X 1 , , X k ).
Finalmente, ( S1 , , Sk ) está determinado por ( X 1 , , X k ) = ( X n1 , , X nk ) y es por
tanto independiente de ( S1 , , Sn ), que está determinado por ( X 1 , , X n ).
Puesto que, por definición, Snk  Sk  Sn para k = 1, 2,, el resultado del Lema 11.1.1
puede ser parafraseado diciendo que en cualquier tiempo entero n, la caminata aleatoria
inicia de nuevo pero inicia desde la posición Sn.
Lema 11.1.2 Sea S0 , S1 , S2 ,  una caminata aleatoria, y sea n un entero positivo.

Defina
S k  Sn  Sn k
para k = 1,, n. Entonces ( S1, , Sn ) tiene la misma distribución como ( S1 , , Sn ), y (

S1, , Sn ) es independiente de ( S1 , S k ) para k = 1, 2,.
PRUEBA El Lema 11.1.2 se sigue de la observación que Sk  X n    X nk 1 por

un argumento similar a ese dado en la prueba del Lema 11.1.1.
Regresemos brevemente a un punto técnico. No hemos mostrado como construir un espacio
muestral sobre el cual una sucesión de variables aleatorias independientes pueda ser
definidas. No daremos esta construcción porque los detalles nos guiarían dentro de la esencia
de la teoría de la medida abstracta y lejos del comportamiento de las caminatas aleatorias. Le
solicitamos al lector aceptar sin prueba el siguiente hecho. Dada cualquier sucesión F1, F2,
de funciones de distribución univariadas, hay una sucesión de variables aleatorias
independientes X1, X2, con funciones de distribución F1, F2,, respectivamente. Eso es,
356 EL PROBLEMA DE LA RUINA DEL JUGADOR
sucesiones de variables aleatorias independientes existen. De hecho, más es cierto y puede

ser encontrado en los Problemas 11.1 a 11.6.
11.2 EL PROBLEMA DE LA RUINA DEL JUGADOR

Considere la caminata simple aleatoria de la sección previa. Eso es, sean X1, X2, variables
aleatorias independientes con distribución común dada por
Pr ( X 1  1)  p y Pr ( X 1  1)  q (2.1)
donde q = 1 – p, y sea S0  0 y Sn  X 1    X n para n = 1, 2,. En esta sección

consideraremos a S0 , S1 , como las ganancias acumuladas de un jugador quien gana un
dólar con probabilidad p y pierde un dólar con probabilidad q en cada uno de una sucesión
de juegos independientes. El oponente del jugador será llamado la casa. Suponemos que el
jugador inicia con a dólares y la casa inicia con b dólares, donde a y b son enteros no
negativos. El capital total c = a + b es un entero positivo fijo que no cambia de juego a
juego. Finalmente, suponemos que el jugador y la casa aceptan continuar jugando hasta que
uno de ellos haya ganado todo el dinero, y se nos pide la probabilidad de que el jugador
eventualmente gane todo el dinero de la casa.
Estableceremos el problema matemáticamente. Para n = 0, 1, 2,, sea Bna el evento
 a  Sk  b para k  0, , n  1 y Sn  b
que el jugador gane todo el dinero de la casa después de exactamente n juegos del juego.
Requerimos la probabilidad del evento

Ba   Bna
n0
que el jugador gane después de un número no especificado de juegos (después de

exactamente n juegos para alguna n = 0, 1, 2,). Denote  a la probabilidad en cuestión.
Entonces

 a  P( Ba )   P( Bna ) (2.2)
n0
puesto que los eventos B1a , B2a , son mutuamente excluyentes. En particular, tenemos
0  0 y c  1 (2.3)
puesto que B0c es cierto y Bn0 es imposible para cualquier n. Para 0 < a < c, calcularemos  a
por el siguiente nuevo método. Derivaremos una ecuación diferencia que la  a debe
satisfacer, y entonces resolveremos la ecuación diferencia sujeta a las condiciones frontera
(2.3).
Lema 11.2.1 Para 0 < a < c = a + b, tenemos  a  p a 1  q a 1 .
PRUEBA La idea es muy simple. Ba es el evento de que un jugador quien inicia

con a dólares eventualmente gane. Además, si X1 = 1, entonces el jugador
efectivamente inicia encima con a + 1 dólares (ver Lema 11.1.1). Así,
Pr ( Ba | X 1  1)  P( Ba 1 )   a 1
y análogamente, PrBa X 1  1  PBa 1    a 1 . Por tanto,
 a  P( Ba )
 Pr ( Ba | X 1  1) Pr ( X 1  1)
 Pr ( Ba | X 1  1) Pr ( X 1  1)
 p a 1  q a 1
Puesto que infinitamente muchas variables aleatorias entran en la definición de Ba , el

enunciado de que PrBa X 1  1   a 1 no requiere mayor justificación que la que hemos
dado. Los detalles de esta justificación están descritos en los Problemas 11.13 y 11.14.
////
Ahora resolveremos la ecuación diferencia del Lema 11.2.1.
Teorema 11.2.1 Sea  = q/p. Si  = 1 (p = q), entonces  a  a a  b ; y si 
entonces
1  a
a  (2.4)
1   a b
PRUEBA Se sigue del Lema 11.2.1 e inducción que

 a 1   a    a   a 1     1   0  para a = 0,,c = a + b. Además,  0  0 por (2.3), así
a
que
a 1 a 1
 a   a   0   ( k 1   k )   1   k (2.5)
k 0 k 0
para a = 0,, c. Por tanto, si  = 1, entonces  a  a 1 para a = 0,, c, y puesto que  c  1

por (2.3), se sigue que  1  1 c y  a  a c  a a  b para a = 0,, c. Si   1, entonces
(2.5) produce
1  a
 a  1
1 

para a = 0,,c. Más aún, tenemos de nuevo  c  1 , así que  1  1    1   c . La 
Ecuación (2.4) ahora se sigue por substitución. ////
Ahora consideraremos la fortuna de un jugador quien juega contra un oponente infinitamente
rico. Sea  a ,b  1   a . Mostraremos abajo que  a ,b es la probabilidad de que el
jugador pierda todo su dinero con la casa (vaya a la ruina) cuando la casa inicia con b
dólares y el jugador inicia con a dólares. Eso es, mostraremos que la probabilidad de que el
juego termine es 1 cuando ambos jugadores inician con capital finito. Esperamos que la
probabilidad de que el jugador vaya a la ruina cuando juegue contra un oponente
infinitamente rico sea el límite cuando b de  a ,b . Puesto que  ab  0 o  cuando
b   de acuerdo a si  < 1 o  > 1, se sigue fácilmente del Teorema 11.2.1 que
1 si p  12
 a  lim  (a ,b)   a (2.6)
b
 si p  12
donde (2.6) define a a. Eso es, un jugador inexperto (p < ½) con certeza pierde todo su
dinero contra una casa infinitamente rica, pero un jugador experimentado perderá con
probabilidad  a  donde  = q/p y a es la fortuna inicial del jugador.
La Tabla 13 da los valores de a para ciertos valores de p y a.
Por ejemplo, un jugador quien inicia con a = 12 dólares y gana con probabilidad p = 0.6 es
virtualmente cierto para prosperar contra una casa infinitamente rica.
Ahora mostraremos que (2.6) da, de hecho, la probabilidad deseada. El primer elemento del
negocio es mostrar que  a ,b es la probabilidad de que el jugador pierda cuando la casa
inicia con b dólares.
Lema 11.2.2 Sean a y b enteros positivos, y sea D el evento –a < Sn < b para
cualquier n = 1, 2,. Entonces P(D) = 0.
PRUEBA Para n = 1, 2,, sea Dn el evento que –a < Sk < b para k = 1,, n. Entonces
la ocurrencia de D implica la ocurrencia de Dn para cualquier n, así que P(D)  P(Dn) para
cualquier n = 1, 2,. Sea c = a + b. Entonces
Pr (| Sc | c)  p c  q c  0
Sea Zk = Skc – Skc-c para k = 1, 2,. Entonces Z1, Z2, son independientes e idénticamente
distribuidas (Lema 11.1.1), y Pr (|Zk|  c) = p c + q c = d, digamos, para cualquier k = 1, 2,.
Por tanto,
P( Dnc )  Pr (  a  S k  b , k  1, , nc)
 Pr (  a  S kc  b , k  1, , n )
 Pr (  c  Z k  c , k  1, , n )
n
  Pr (  c  Z k  c )  (1  d ) n
k 1
para cualquier n = 1, 2,. Se sigue que P(D)  (1 – d)n para cualquier n = 1, 2,, y
consecuentemente, que P(D) = 0. ////
Para a > 0 y b > 0, sea Cab el evento para alguna n = 1, 2,
 a  Sk  b para k  1, ,n y Sn   a
Así, Cab es el evento que el jugador pierda cuando la casa inicia con b dólares.
Corolario 11.2.1 P(Cab) =  a ,b  1   a .
PRUEBA Sean Ba y D como en el Teorema 11.2.1 y Lema 11.2.2,
respectivamente. Entonces Ba, Cab, y D son eventos exhaustivos mutuamente
excluyentes, así que P(Ba) + P(Cab) + P(D) = 1. Además, P(D) = 0 por el Lema 11.2.2,
así que P(Cab) = 1 – P(Ba) = 1   a , como se aseveró. ////
Ahora probaremos que a proporciona la probabilidad de perder contra una casa
infinitamente rica. Sea Ca el evento que
S n  a para alguna n  1,2,
Así, Ca es el evento de que el jugador pierda contra una casa infinitamente rica.
Teorema 11.2.2 P(Ca) = a, donde a está definida en (2.6).
PRUEBA Defina los eventos Cab como en el anterior corolario. Entonces para a
fija, Cab implica Ca(b+1) para cualquier b, así que Ca1, Ca2, es una sucesión creciente
de eventos. Más aún, la unión de Ca1, Ca2, es simplemente Ca. Por tanto, por el
Teorema 2.5.1, tenemos
P(Ca )  lim PCab   lim  (a ,b)   a ////

b b
Es posible ver el resultado del Teorema 11.2.2 en otra forma. Diremos que la caminata
aleatoria S0 , S1 , S2 ,  pasa a través o visita un entero a si
Sn  a para alguna n  1,2,
Puesto que el jugador pierde contra una casa infinitamente rica si y sólo si S0 , S1 , S2 ,  pasa
a través de –a, donde a es la fortuna inicial del jugador, se sigue del Teorema 11.2.2 que si a
es un entero positivo y p ½, entonces la probabilidad de que S0 , S1 , S2 ,  pase a través de –
a es 1. Por simetría, si a es un entero positivo y p  ½, entonces la
Tabla 13
a
p 2 4 6 8 12
0.600 0.444 0.198 0.088 0.039 0.008
0.667 0.250 0.063 0.016 0.004
0.750 0.111 0.012 0.001
probabilidad de que S0 , S1 , S2 , pase a través de a es 1. En particular, si p = ½ y a  0,

entonces la probabilidad de que S0 , S1 , S2 ,  pase a través de a es 1.
Diremos que la caminata aleatoria regresa al origen si y sólo si Sn = 0 para alguna n = 1,
2,. Observe que si la caminata aleatoria pasa a través de ambos 1 y –1, entonces debe
regresar al origen. Así, si p = ½, entonces la probabilidad de que la caminata aleatoria
regrese al origen es 1.
Resumimos la discusión anterior.
Teorema 11.2.3 Sea S0 , S1 , S2 ,  una caminata aleatoria simple. Si p  ½ y a es un

entero positivo, entonces la probabilidad de que la caminata aleatoria pase a través de
a es 1. Si p = ½, entonces la probabilidad de que la caminata aleatoria regrese al
origen es 1.
11.3 LOS LEMAS DE BOREL-CANTELLI

Si A1, A2, es cualquier sucesión infinita de eventos, podemos formar una nueva sucesión
B1, B2, haciendo

Bn   Ak (3.1)
k n
para n = 1, 2,. De este modo, Bn es el evento que Ak ocurra para alguna k  n. Por lo tanto,
el evento

B   Bn (3.2)
n 1
es el evento que infinitamente muchos de los eventos A1, A2, ocurran, porque B ocurre si y
sólo si Ak ocurre para alguna k  n para cualquier n = 1, 2,. Denominaremos a B el evento
que An ocurre infinitamente a menudo, y escribiremos B = {An, i.m.}. La terminología B =
lim sup An es también usada.
En esta sección probaremos dos teoremas que relacionan la probabilidad de B a las
probabilidades de los eventos A1, A2,. Estos teoremas son conocidos como los lemas de
Borel-Cantelli.
Teorema 11.3.1 Sea A1, A2, cualquier sucesión infinita de eventos, y B = {An,
i.m}. Si

 P( An )   (3.3)
n 1
entonces P(B) = 0.
PRUEBA Para cualquier n, tenemos así que B1, B2, es una sucesión
decreciente. Se sigue del Teorema 2.5.1 que
P( B)  lim P( Bn )
n
Además,

P( Bn )   P( Ak )
k n
para cualquier n, así que la convergencia de la serie (3.3) implica que lim P(Bn) = 0
362 LOS LEMAS DE BOREL-CANTELLI
cuando n  . El teorema se sigue.

EJEMPLO 11.3.1
Sea S0 , S1 , S2 , una caminata aleatoria simple, y sea p = Pr (S1 = 1). Si An denota el evento
de que S2n = 0, entonces
 2n  1
P( An )    p n q n ~ (4 pq) n
n n
cuando n   por la fórmula de Stirling (Sección 1.8). Si p ½entonces 4pq < 1, así que
P(A1) + P(A2) + Eso es, si p  ½, entonces la probabilidad de que la caminata
aleatoria S0 , S1 , S2 ,  regrese a 0 infinitamente a menudo es cero. Si p = ½, entonces 4pq = 1
y la serie P(A1) + P(A2) + diverge. De hecho, si p = ½, entonces
Pr ( Sn  0, i.m.)  1
como mostraremos en la siguiente sección. ////

Hay un contrario al Teorema 11.3.3. Si A1, A2, es cualquier sucesión infinita de eventos ,
entonces diremos que son independientes si y sólo si A1,An, son (mutuamente)
independientes para cualquier n = 1, 2,Se verifica fácilmente que si X1, X2, son
variables aleatorias independientes, y si An está determinado por Xn, entonces A1, A2, son
eventos independientes.
Teorema 11.3.2 Si A1, A2, son eventos independientes, y si


 P( An )   (3.4)
n 1
entonces Pr (An, i.m.) = 1.
PRUEBA Probaremos el Teorema 11.3.2 mostrando que sus hipótesis implican

PB  0 , donde B está definido por (3.2) y el apóstrofe denota complemento. Como
en la prueba del Teorema 11.3.1, tenemos PB  lim PBn  cuando n  , y así será
suficiente mostrar que PBn   0 para cualquier n = 1, 2, Ahora

Bn   Ak
k n
así que
nm
Bn   Ak
k n
para cualquier n y m. Por tanto,

n m nm
P( Bn )   P( Ak )  [1  P( Ak )]
k n k n
Para cualquier número real x, se tiene la desigualdad 1 – x < e-x, ya que el segundo
término en la expansión de la serie de Taylor de ex en x = 0 es positivo. Por tanto,
nm nm
P( Bn )   e  P ( Ak )  exp   P( Ak ) (3.5)
k n  k n 
para cualquier n y cualquier m. Finalmente, si las serie en (3.4) diverge, entonces el

exponente en (3.5) debe divergir a –  cuando m   para cualquier n. Puesto que la
desigualdad (3.5) es válida para cualquier n y cualquier m, se sigue que
 nm 
P( Bn )  lim exp   P( Ak )   0
m  k n 
para cualquier n, como se requería. ////

EJEMPLO 11.3.2
Sean X1, X2, variables aleatorias independientes que tienen una densidad exponencial
común
f ( x)  e  x
para x > 0 y f(x) = 0 para x  0. Sea An el evento que Xn > a log n, donde a > 0. Entonces An
ocurre infinitamente a menudo con probabilidad 1 si a  y An ocurre infinitamente a
menudo con probabilidad 0 si a > 1. De hecho, A1, A2, son independientes (puesto que An
está determinado por Xn), y
P( An )  Pr ( X n  a log n) = exp ( a log n) = n  a
para n = 1, 2,. Es bien conocido que la serie 1– a + 1– a + 1– a +  es finita o infinita de

acuerdo con a > 1 o a  1. ////
Es interesante que si A1, A2, son eventos independientes, entonces Pr (An, i.m.) es 0 o 1,
364 RECURRENCIA
puesto que la serie P(A1) + P(A2) +  es finita o infinita.
11.4 RECURRENCIA
En esta sección justificaremos el enunciado del Ejemplo 11.3.1 que una caminata aleatoria
simétrica (p = ½), simple regresa a 0 infinitamente a menudo. De hecho, mostraremos que
una caminata aleatoria simétrica simple visita cualquier entero infinitamente a menudo.
Teorema 11.4.1 Sea S0 , S1 , S2 ,  una caminata aleatoria simétrica, simple.

Entonces
Pr (Sn = a, i.m.) = 1 (4.1)
para cualquier entero a.
PRUEBA La idea es la siguiente. Sabemos de la Sección 11.2 que la caminata

aleatoria pasará a través de a al menos una vez (con probabilidad 1). Además, si
primero pasa a través de a en el tiempo n, entonces Sk  Snk  Sn ,k  0,1,2, , será de
nuevo una caminata aleatoria simétrica simple la cual debe por tanto pasar a través de 0
(con probabilidad 1). Puesto que Sn = a, esto significa que la caminata aleatoria debe
visitar a al menos dos veces. Continuando de esta manera, estamos forzados a la
conclusión de que la caminata aleatoria pasa a través de a arbitrariamente a menudo.
Podemos hacer esta idea precisa como sigue. Para enteros positivos n y j, sea Bnj
el evento que la caminata aleatoria pasa a través de a por j-ésima vez después de
exactamente n movimientos. Eso es, sea Bnj el evento que Sn = a y exactamente j – 1 de
S1,,Sn-1 son igual a a. Más aún, sea
 
B j   Bnj y B   Bj
n 1 j 1
Así, Bj es el evento que la caminata aleatoria pase a través de a al menos j veces, y B

es el evento que Sn = a para infinitamente varios valores de n.
Mostraremos que P(B) = 1. Sabemos de la Sección 11.2 que una caminata aleatoria
simétrica simple pasa a través de cualquier entero a con probabilidad 1. Así, P(B1) = 1.
Suponer inductivamente que P(Bj) =1, y demostremos que P(Bj+1) = 1. Puesto que Bj+1
implica Bj, debemos tener

P( B j 1 )   P( Bnj  B j 1 )
n 1
Además, puesto que Bnj implica Sn = a, Bnj y Bj+1 ocurrirán simultáneamente si y sólo si
Bnj ocurre y
S k  S nk  S n  0 para alguna k  1,2, (4.2)
Sea Cn el evento definido por (4.2). Entonces P(Cn) = 1 por el Lema 11.1.1 y los
resultados de la Sección 11.2. Más aún, Bnj  B j 1  Bnj  Cn , así que
P( Bnj  B j 1 )  P( Bnj  Cn )  P( Bnj )  P( Bnj  Cn )  P( Bnj )

puesto que PBnj  Cn   PCn   0 . Por tanto,

P( B j 1 )   P( Bnj )  P( B j )  1
n 1
donde el último paso se sigue de la hipótesis de inducción. Por tanto, P(Bj) = 1 para
toda j = 1, 2, por inducción matemática.
Ahora se sigue fácilmente que P(B) = 1. De hecho, PB  PB1   PB2    =
0 + 0 +  = 0, así que P(B) = 1.
////
11.5 CONVERGENCIA CON PROBABILIDAD1

En esta sección introduciremos y estudiaremos un nuevo modo de convergencia. Sea X, X1,
X2, una sucesión infinita de variables aleatorias, todas ellas definidas sobre el mismo
espacio de probabilidad (S,,P). Diremos que Xn converge a X con probabilidad 1 cuando n
  si y sólo si
Pr (lim X n  X )  1 (5.1)
n
Eso es, Xn converge a X con probabilidad 1 si y sólo si P(C) = 1, donde C denota el conjunto
de s  S para las cuales lim Xn(s) = X(s) cuando n  . Equivalentemente, Xn converge a X
con probabilidad 1 si y sólo si P(D) = 0, donde D = C  denota el conjunto1 de s  S para las
cuales Xn(s) falla a converger a X(s) cuando n  .
Teorema 11.5.1 Sean X, X1, X2, variables aleatorias que están definidas sobre
el mismo espacio de probabilidad. Entonces Xn converge a X con probabilidad 1
cuando n   si y sólo si
1
2 Que C y D son eventos es mostrado en la prueba del Teorema 11.5.1.
366 CONVERGENCIA CON PROBABILIDAD1
Pr (| X n  X |  , i.m.)  0 (5.2)
para cualquier  > 0.

PRUEBA Para cualquier s, Xn(s) no convergerá a X(s) si y sólo si hay una  = (s)
> 0 para la cual |Xn(s) – X(s)|   para infinitamente muchos valores de n, y podemos
restringir nuestra atención a  de la forma 1/j, donde j es un entero positivo. Así, el
conjunto de s S para las cuales Xn(s) no converge a X(s) cuando n   es

D   Dj
j 1
donde Dj denota el evento que |Xn – X|  1/j infinitamente a menudo. Puesto que 1/j >
1/(j + 1) para cualquier j = 1, 2,debemos tener Dj  Dj+1 para cualquier j. Eso es,
D1, D2, es una sucesión creciente de eventos. Como consecuencia del Teorema 2.5.1
se tiene que
P ( D j )  P ( D j 1 ) y P( D)  lim P( D j )
j 
Así, P(D) = 0 si y sólo si P(Dj) = 0 para cualquier j = 1, 2,, y esto es equivalente a

(5.2). ////
El Teorema 11.5.1 tiene varios corolarios interesantes. Sean X, X1, X2, variables aleatorias
que están definidas sobre el mismo espacio de probabilidad, y sea  > 0. Entonces el evento
que |Xn – X|   para infinitamente muchos valores de n es

D   Bn
n 1
donde Bn es el evento que |Xk – X|   para alguna k  n. Además, B1, B2, es una sucesión
decreciente de eventos , así que P(D) = lim P(Bn) cuando n  . Por tanto, tenemos el
siguiente corolario.
Corolario 11.5.1 Sean X, X1, X2, variables aleatorias que están definidas sobre el
mismo espacio de probabilidad. Entonces Xn converge a X cuando n   si y sólo si
lim Pr | X k  X |  para alguna k  n   0 (5.3)

n

La comparación de convergencia con probabilidad 1 y convergencia en probabilidad es

ahora fácil. Si X, X1, X2, son variables aleatorias que están definidas sobre el mismo
espacio de probabilidad, entonces Xn converge a X en probabilidad si y sólo si
lim Pr |X n  X|  ε   0 (5.4)

n
para cualquier  > 0 (Sección 9.2). Puesto que (5.3) implica (5.4), tenemos otro corolario.
Corolario 11.5.2 Sean X, X1, X2, variables aleatorias que están definidas sobre el
mismo espacio de probabilidad. Si Xn converge a X con probabilidad 1 cuando n  ,
entonces Xn converge a X en probabilidad cuando n  .
Un ejemplo de una sucesión X1, X2, para la cual Xn converge a 0 en probabilidad y Xn no

converge a 0 con probabilidad 1 cuando n   será dado abajo.
El Teorema 11.5.1 nos permite usar los lemas de Borel-Cantelli para decidir cuestiones de
convergencia con probabilidad 1.
EJEMPLO 11.5.1
Sean X1, X2, variables aleatorias independientes e idénticamente distribuidas, y denote F
la función de distribución común de X1, X2,. Entonces Xn/n converge a 0 con
probabilidad 1 cuando n   si y sólo si

m   |x| dF(x)  
Para ver esto observe que Xn/n  0 con probabilidad 1 cuando n   si y sólo si
Pr (| X n | n , i.m.)  0 para cualquier  > 0 por el Teorema 11.5.1. Además puesto que X1,
X2, son independientes, la última condición es equivalente a

 Pr (| X n | n)   (5.5)
n 1
por los Teoremas 11.3.1 y 11.3.2. Así, necesitamos sólo mostrar que (5.5) es equivalente a la
finitud de m.
Sea Y el entero más grande que es menor que o igual a |X1–1|. Entonces 0  |X1–1| – Y < 1,
así que E(Y) es finita si y sólo si m = E(|X1|) es finita. Ahora
Pr (| X n | n)  Pr (| X 1 | n)  Pr (Y  n)
así que
368 ALGUNAS DESIGUALDADES
 
 Pr (| X n | n)   Pr (Y  n)  E (Y )
n 1 n 1
por el Corolario 8.1.2. La equivalencia de (5.5) y la finitud de m se sigue. ////

EJEMPLO 11.5.2
Sean X1, X2, variables aleatorias independientes e idénticamente distribuidas para las
cuales E(|X1|) = . Entonces Xn/n no converge a cero con probabilidad 1 cuando n  ,
por el ejemplo previo. Sin embargo, Pr (|Xn| ) = Pr (|X1| ), la cual tiende a 0
cuando n   para cualquier > 0. Por tanto, Xn/n converge a cero en probabilidad cuando
n. ////
11.6 ALGUNAS DESIGUALDADES

En la siguiente sección mostraremos que la convergencia en la ley de los grandes números
es, de hecho, convergencia con probabilidad 1. En esta sección desarrollaremos algunas
desigualdades relevantes. Primero, mostraremos como la desigualdad de Chebyshev puede
ser mejorada en la presencia de independencia. El resultado es conocido como desigualdad
de Kolmogorov.
Teorema 11.6.1 Sean X1,... Xn variables aleatorias independientes con medias E(Xi)
= 0, i = 1, n, y varianzas finitas i2 = E(Xi2), i = 1,, n. Entonces para cualquier 
> 0,
2
Pr (max | S k |  ) 
k n 2
donde  2 = 12 +  + n2 es la varianza de Sn.
Observe que la desigualdad de Chebyshev da la misma cota para la probabilidad del evento
más pequeño, |Sn|  .
PRUEBA Para k = 1,, n, sea Ak el evento que |Sk|   y |Sj| <  para j = 1,, k –
1. Entonces A1,,An son mutuamente excluyentes, y la unión A = A1    An es el
evento que |Sk|   para alguna k = 1,, n. Por tanto,
n
Pr (max | S k |  )   P( Ak ) (6.1)
k n k 1
Denote I Ak la función indicadora del evento Ak, k = 1,, n. Eso es, sea I Ak = 1 si Ak
ocurre, y sea I Ak = 0 si Ak no ocurre. Entonces 2 I Ak  Sk2 I Ak para todas las posibles
realizaciones de X1,... Xn. Por tanto,
P( Ak )  E ( I Ak )   2 E (S k2 I Ak ) (6.2)
para k = 1,, n. Ahora declaramos que
E (S k2 I Ak )  E ( S n2 I Ak ) (6.3)
para k = 1,, n. Para ver esto observe que Ak está determinado por X1,... Xk y es por lo
tanto independiente de Sn – Sk = Xk+1 +  + Xn. Así,
E[ I Ak S k (S n  S k )]  E ( I Ak S k ) E (S n  S k )  0
Por tanto,
E ( I Ak S n2 )  E ( I Ak S k2 )  E[ I Ak (S n  S k ) 2 ]  E ( I Ak S k2 )
para k = 1,, n, como se aseveró.

Si ahora combinamos (6.1) a (6.3) y usamos el hecho que I A1 +  + I An = I A  1,
encontramos que
n
Pr (max | S k |  )   2  E ( S n2 I Ak )   2 E ( S n2 I A )   2 2
k n k 1

Hay otra desigualdad interesante que relaciona la distribución del máx (S1,... Sn) a esa de Sn
en el caso especial que X1,... Xn tengan distribuciones las cuales sean simétricas alrededor de
0. El resultado, conocido como desigualdad de Levy, ahora será presentado.
Si F es una función de distribución, F es simétrica alrededor de 0 si y sólo si
F ( x )  1  F ( x ) (6.4a)
para toda x, – < x < . Si X es una variable aleatoria con función de distribución F,
entonces (6.4a) es equivalente a
Pr ( X  x)  Pr ( X   x) (6.4b)
para toda x, – < x < . Así, X tiene una función de distribución simétrica (alrededor de 0) si
y sólo si X y –X tienen la misma función de distribución.
EJEMPLO 11.6.1
Si F tiene una densidad f para la cual f(x) = f(–x) para toda x, – <x< , entonces F es
simétrica. De hecho,

F ( x)   f ( y) dy   x f ( y) dy  1  F ( x)
x
para – < x < , y F es continua. En particular, las distribuciones normal estándar y Cauchy
sin simétricas alrededor de cero. ////
EJEMPLO 11.6.2
Si X1,... Xn son variables aleatorias independientes, todas las cuales tienen distribuciones
que son simétricas alrededor de 0, entonces (X1,... Xn) y (–X1,... –Xn) tienen las mismas
distribuciones. Consecuentemente, S = X1 +  +Xn y –S = –X1 –  –Xn tienen las mismas
distribuciones. Eso es, S tiene una distribución que es simétrica alrededor de 0. ////
Teorema 11.6.2 Sean X1,... Xn variables aleatorias independientes cuyas

distribuciones son todas simétricas alrededor de 0. Además, sea Sk = X1 +  +,Xk para
k = 1,, n. Entonces
Pr (max S k   )  2 Pr ( Sn   )
k n
para cualquier  >
PRUEBA Por simplicidad de notación, sea M = máx (S1,... Sn). Entonces Sn  

implica M  , así que
Pr ( M   )  Pr ( M   , Sn   )  Pr ( M   , Sn   )
 Pr ( Sn   )  Pr ( M   , Sn <  ) (6.5)
Por tanto, será suficiente mostrar que
Pr ( M   , Sn <  )  Pr ( Sn   ) (6.6)
Para k = 1,n, sea Ak el evento que Sk   y Sj <  para j = 1,, k – 1. Entonces,

como en la prueba del Teorema 11.6.1, A1,,An son mutuamente excluyentes, y la
unión A = A1    An es el evento que M  . Por tanto,
n
Pr ( M   , S n <  )   Pr ( Ak , S n <  ) (6.7)
k 1
Ahora Ak está determinada por X1,,Xk y es por lo tanto independiente de Sn  Sk.

Aunque todavía, Ak y Sn <  implican Ak y Sn  Sk < 0. Se sigue que
Pr ( Ak , S n <  )  Pr ( Ak , S n  S k < 0)  Pr ( Ak ) Pr ( S n  S k < 0)

 P( Ak ) Pr ( S n  S k > 0)  Pr ( Ak , S n  S k > 0)
 Pr ( Ak , S n   )
Aquí la igualdad de en medio se sigue del hecho que Sn  Sk tiene una distribución
simétrica (Ejemplo 11.6.2), y la desigualdad final se sigue del hecho que Ak y Sn  Sk >
0 implican Ak y Sn  .
Substitución en (6.7) ahora produce
n
Pr ( M   , S n <  )   Pr ( Ak , S n   )
k 1
 Pr ( M   , S n   )  Pr ( S n   )
Esto establece (6.6), de lo cual el teorema se sigue. ////

Por supuesto, el Teorema 11.6.2 puede ser aplicado a X1,, Xn para producir
Pr (min S k   )  2 Pr (S n   ) (6.8)
k n
para  > 0. Cuando se combina con la conclusión del Teorema 11.6.2, (6.8) produce el
siguiente corolario.
Corolario 11.6.1 Sean X1,,Xn como en el enunciado del Teorema 11.6.1. Entonces
para cualquier  > 0,
Pr (max | S k |  )  2 Pr (| S n |  )
k n
En el caso de una caminata aleatoria simétrica simple, los argumentos usados en la prueba
del Teorema 11.6.2 producen la siguiente igualdad.
Teorema 11.6.3 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y escriba
Mn = máx(S0, S1,,Sn) para n = 1, 2,. Entonces
Pr (M  a)  Pr (S n  a)  Pr( S n  a)
para enteros positivos n y a.

PRUEBA Como en la prueba del Teorema 11.6.2, nosotros tenemos Pr (Mn  a)
= Pr (Sn  a) + Pr (Mn  a, Sn < a), y así será suficiente mostrar que Pr (Mn  a, Sn <
a) = Pr (Sn > a). También, como en la prueba del Teorema 11.6.2, nosotros podemos
escribir
n
Pr ( M n  a, S n  a)   Pr ( Ak , S n  a) (6.9)
k 1
donde Ak denota el evento de que Sk  a y Sj < a para j = 1, , k  1. En el caso de una

caminata aleatoria simétrica simple Ak implica Sk = a, así que Ak y Sn < a ocurrirán
simultáneamente si y sólo si Ak ocurre y Sn Sk < 0. Por lo tanto,
Pr ( Ak , S n  a)  Pr ( Ak , S n  S k  0)  P( Ak ) Pr ( S n  S k  0)
 P( Ak ) Pr ( S n  S k  0)  Pr ( Ak , S n  S k  0)
 Pr ( Ak , S n  a)
Substitución en (6.9) ahora produce Pr (Mn  a, Sn < a) = Pr (Mn  a, Sn > a) = Pr (Sn >
a), como se aseveró. ////
El Teorema 11.6.3 tiene una aplicación interesante. Sea S0, S1, S2, una caminata aleatoria
simétrica simple. Si a es cualquier entero, entonces la probabilidad que S0, S1, S2, pase a
través de a es 1 por los resultados de la Sección 11.2. De hecho, la caminata aleatoria
visitará a infinitamente a menudo (Sección 11.4). Sea Na el tiempo en el cual la caminata
aleatoria pasa primero a través de a. Eso es,
N a  al menos n  1 para la cual S n  a
Hacemos Na =  si Sn  a para toda n = 1, 2,. Puesto que el último evento tiene

probabilidad 0, no requiere preocuparnos. Llamaremos a Na el tiempo del primer paso a
través de a.
Encontraremos la distribución exacta de Na en la Sección 12.5. Aquí derivaremos una
aproximación simple que es válida para a grande. Para a > 0 tenemos la relación
Pr ( N a  n)  Pr (M n  a)  Pr (S n  a)  Pr (S n  a)
por el Teorema 11.6.3, puesto que Na  n si y sólo si Mn  a. Si permitimos ser a n el mayor

entero que es menor que o igual a a2t, donde t > 0, y aplicamos el teorema del límite central
(Sección 4.5 y 9.4), encontramos
S a   1 
Pr ( S n  a)  Pr  n    1   
 n n  t
cuando a  . Más aún, el mismo límite es obtenido para Pr (Sn > a). Por lo tanto, hemos
encontrado la distribución límite de Na. Resumimos nuestros resultados en el siguiente
teorema.
Teorema 11.6.4 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y sea Na
el tiempo del primer paso a través de a. Entonces cuando a  ,
  1 
lim Pr ( N a  a 2 t )  21    
  t 
para t > 0, donde  denota la función de distribución normal estándar.
11.7 LA LEY FUERTE DE LOS GRANDES NÚMEROS

Sean X1, X2variables aleatorias independientes con medias finitas 1, 2,, y sea
X n   X 1    X n  n y  n  1     n  n para n = 1, 2,. En esta sección daremos
condiciones las cuales aseguren que
lim ( X n   n )  0 con probabilidad 1

n
En particular, mostraremos que la convergencia en la ley de los grandes números (Teorema

9.2.2) es convergencia con probabilidad 1.
Teorema 11.7.1 Sea X1, X2, variables aleatorias independientes con medias 1,
2, y varianzas finitas 12, 22,. Si
  k2
  (7.1)
k 1 k2
entonces li m ( X n   n )  0 con probabilidad 1 cuando n  .

PRUEBA Sin pérdida de generalidad, podemos asumir que k = 0 para k = 1,
2,, en cuyo caso debemos mostrar que
374 LA LEY FUERTE DE LOS GRANDES NÚMEROS
Pr (| X n |  , i.o.)  0
para cualquier  > 0. Sea  > 0 dado, y permita An sea el evento que X n   . Además,
permita ser a Bn el evento que X k   para alguna k, 2n-1 < k  2n. Entonces la
ocurrencia de An infinitamente a menudo implica la ocurrencia de Bn infinitamente a
menudo, y así será suficiente mostrar que Pr (Bn, i.m.) = 0. Ahora Bn implica que Sk =
X1 +  + Xk k para cualquier k, 2n-1 < k  2n, lo cual (a su vez) implica que Sk  
2n-1 para alguna k  2n. Se sigue de la desigualdad de Kolmogorov (Teorema 11.6.1)
que
2n
P( Bn )  Pr (max | S k |  2 n1 )  4 2 4 n   k2
k n k 1
Por lo tanto,1
   2n    
2
 P ( Bn )  4    4 n k2   4 2    4 n  k2
n 1 n 1 k 1  k 1 2n k 
Sea j = jk el entero más pequeño el cual es mayor que o igual a log2 k, el logaritmo de k
en base 2. Entonces

 4 n   4 n  ( 34 )4  j  2k 2
2n  k n j
Por lo tanto,

2
  k2
 P( Bn )  8 
n 1 k 1 k2
la cual es finita por suposición. Por lo tanto, Pr (Bn, i.m.) = 0 por los lemas de Borel-
Cantelli (Teorema 11.3.1). El Teorema 11.7.1 se sigue. ////
En particular, la condición (7.1) es satisfecha si X1, X2, tienen la misma varianza 12 = 2
para toda k = 1, 2,.
Corolario 11.7.1 Sean X1, X2, variables aleatorias independientes con media 
común y varianza (finita) 2 común. Entonces X n   cuando n   con
probabilidad 1.
1
3 El intercambio en el orden de las sumatorias está justificado porque los sumandos son no negativos. Ver Apóstol
(1957), p. 374.
Enseguida mostramos que si X1, X2, son idénticamente distribuidas, la suposición de que
ellas tienen una varianza finita puede ser omitida.
Lema 11.7.1 Sea a1, a2, una sucesión de números reales. Si lim ak = a cuando n
 , entonces lim an  a cuando n  , donde an  (a1    an ) / n para n = 1,
2,.
La prueba del Lema 11.7.1 será dejada como un ejercicio. El siguiente teorema es conocido
como la ley fuerte de los grandes números.
Teorema 11.7.2 Sean X1, X2, variables aleatorias independientes idénticamente
distribuidas, y denote F su función de distribución común. Si la media

   x dF ( x)
es finita, entonces X n   con probabilidad 1 cuando n  .

PRUEBA Usamos el método de truncamiento. Sea Yk = Xk si –k  Xk  k, y sea Yk
= 0 de otro modo. Además, permita a k y k2 denotar la media y la varianza de Yk,
respectivamente, para k = 1, 2,. Entonces podemos escribir
X n    ( X n  Yn )  (Yn  n )  (n   )
y discutiremos los tres términos separadamente.

Tenemos
 k  k x dF ( x)  
k
cuando n   por definición de integral impropia de Riemann-Stieltjes (Apéndice B).

Por lo tanto,  n   cuando n   por el Lema 11.7.1. Análogamente, en el Ejemplo
11.5.1 mostramos que Pr (|Xn|  n, i.m.) = 0 si X1, X2, son independientes e
idénticamente distribuidas y tienen una media finita. Se sigue que X n  Yn  0 con
probabilidad 1 cuando n  , de nuevo por el Lema 11.7.1.
Para mostrar que Yn   n  0 con probabilidad 1 cuando n  , usaremos el Teorema
11.7.1. Debemos verificar la condición (7.1). Para k = 1, 2,, sea Bk el conjunto de x
para las cuales k  1 < |x|  k. Entonces
376 LA LEY DEL LOGARITMO ITERADO
k
 k2  E (Yk2 )  k y 2 dF ( y)   B y 2 dF ( y)
k
j
j 1
así que
  k
 k 2 k2    k 2 B y 2 dF ( y ) j
k 1 k 1 j 1
   
    k 2  B y 2 dF ( y )
j 1 k  j  j
Más aún,
  
 k 2  j 1   k 2  j 1  j 1 x 2 dx  2 j 1
k j k  j 1
Se sigue que
  2
 k 2 k2   B y 2 dF ( y )
k 1 j j 1
j

  2B | y | dF ( y )
j
j 1

  2 | y | dF ( y )  2 E (| X 1 |)
la cual es finita por suposición. Por lo tanto, Yn   n converge a 0 con probabilidad 1

por el Teorema 11.7.1. ////
Las implicaciones de la ley fuerte de los grandes números para juegos y para la
interpretación frecuencial de la teoría de probabilidades son semejantes a aquellas de la ley
débil de los grandes números (Sección 9.2). Una aplicación de la ley fuerte de los grandes
números a la teoría de números está esbozada en los Problemas 11.35 a 11.38.
11.8 LA LEY DEL LOGARITMO ITERADO

En esta sección investigaremos la tasa de convergencia en la ley fuerte de los grandes
números. Sean X1, X2, variables aleatorias independientes e idénticamente distribuidas con
media finita . Entonces sabemos de la ley fuerte de los grandes números (Teorema 11.7.2)
que
1
( S n  n )  X n    0 (8.1)
n
con probabilidad 1 cuando n  . Postulamos que si X1, X2, tienen una varianza positiva
finita 2, entonces la convergencia en (8.1) toma lugar a la tasa
an  2 2 n log (log n)
para n  3. Con mayor precisión, postulamos que
Pr (( S n  n )  (1   )an , i.o.)  0 (8.2 a)
Pr (( S n  n )  (1   )an , i.o.)  1 (8.2 b)
para cualquier  > 0. Este resultado es conocido como la ley del logaritmo iterado.
Por supuesto, el resultado (8.2) se aplica a Sn también como a Sn. Combinando los
resultados para Sn entonces produce
Pr (| S n  n |  (1   )an , i.o.)  0 (8.3 a)
Pr (| S n  n |  (1   )an , i.o.)  1 (8.3b)
Teorema 11.8.1 Sean X1, X2, variables aleatorias independientes e idénticamente
distribuidas con media  y varianza positiva finita 2. Entonces (8.2) se cumple.
PRUEBA Probaremos el Teorema 11.8.1 sólo en el caso que X1, X2, tengan
una distribución normal común. Además, no hay pérdida de generalidad en suponer que
 = 0 y 2 = 1. En este caso Sn tendrá la distribución normal con media 0 y varianza n
para cualquier n (Ejemplo 8.4.7). Denote  la función de distribución normal estándar.
Usaremos la relación
1  1 x2
1   ( x) ~ e 2 (8.4)
x 2
cuando x   (Lema 4.4.2).

Nosotros comenzamos con la prueba de (8.2a). Sea  > 0 dado, y sea c > 1 tan cercano a 1
que (1 + )2/c > 1 + 2. Además para cualquier entero k, sea nk un entero para el cual ck  nk
< ck + 1 y observe que nk   cuando k  . Para k = 1, 2,, sea Ak el evento que
S n  (1   )an para alguna n nk 1  n  nk
Entonces puesto que Sn > (1 + )an infinitamente a menudo implica la ocurrencia de Ak

para infinitamente muchos valores de k, será suficiente mostrar que Pr (Ak, i.m.) = 0.
Ahora para n  3, an es una función creciente de n, así que Ak implica
max S n  (1   )ank 1
nnk
Por lo tanto, por la desigualdad de Levy (Teorema 11.6.2)
 
P Ak   2 Pr S nk  1   ank 1  21  d k  (8.5)
1

donde d k  nk 1   ank 1 . Ahora, cuando k  ,
2
d k2  (1   ) 2 nk1an2k 1 ~ 2 (1   ) 2 c 1 log (log c k 1 )

~ 2 (1   ) 2 c 1 log k
puesto que nk ~ ck y log (log ck-1) = log[(k  1) + log c] ~ log k cuando k  . Por la
selección de c tenemos (1 + )2c –1 > 1 + 2. Por lo tanto, tenemos
d k2  2(1   ) log k (8.6)
para todos los valores de k suficientemente grandes. Ahora se sigue de (8.4) y (8.6) que
1
1
1   d k  
1
 
dk 2  k 
para k suficientemente grande. Por lo tanto, k 1 P Ak    . Así, Pr (Ak, i.m.) = 0 por
el Teorema 11.3.1. Esto establece (8.2a).
Ahora probaremos (8.2b). Sea  > 0 dado y seleccione ´ > 0 tan pequeño y c > 1 tan grande
que
c 2
(1   ) 2 1 y 1     1  (8.7)
c 1 c
Para cada entero k = 1, 2, sea nk un entero para el cual ck  nk  ck + 1, y sea Ak el

evento que
S nk  S nk 1 1  (1   )ank
Entonces A1, A2, son eventos independientes, puesto que diferentes A´s son
determinadas por diferentes X´s.
Como en la prueba de (8.2a), encontramos que P(Ak) = 1  (dk), donde
(1   ) 2 an2k 2(1   ) 2 c k log ( log c k )

d 
2
~
nk  nk 1 c k  c k 1
k
c
~ 2(1   ) 2 log k
c 1
cuando k  . Se sigue que dk  2 log k para valores de k suficientemente grandes. Por

lo tanto, por (8.4),
1 1
1   (d k )  1   (2 log k ) ~
dk 2 k
para k suficientemente grande. Se sigue que k 1 P Ak    y consecuentemente, que

Pr (Ak, i.m.) = 1.
Así, la probabilidad es 1 de que
S nk  S nk 1 1  (1   )ank
para infinitamente muchos valores de k. Más aún, por (8.2a) aplicada a X1, X2,, la
probabilidad es 1 de que
S nk 1 1   32 ank 1 1
para todos excepto un número finito de k. Cuando k  , ank1ank 1 1  c 1 por simple

álgebra, así que
(1   )ank  32 ank 1 1  (1     2c 1 )ank  (1   )ank
para todos los valores de k suficientemente grandes por la selección de ´ y c. Así, la

probabilidad es 1 de que S nk  1   ank para infinitamente muchos valores de k.
Puesto que esto implica que Sn > (1  )an para infinitamente muchos valores de n,
(8.2b) se sigue. ////
Mientras que hemos probado el Teorema 11.8.1 sólo en el caso de variables aleatorias
distribuidas normalmente, su conclusión debe ser plausible para sucesiones arbitrarias de
variables aleatorias independientes e idénticamente distribuidas con una varianza positiva
finita. Indudablemente, por el teorema central del límite (Sección 9.4), Sn tendrá una
distribución normal aproximada para cualquiera de tales sucesiones.
REFERENCIAS
Para un tratamiento más detallado de caminatas aleatorias simples, incluyendo un desarrollo
más completo del problema de la ruina del jugador, ver Feller (1968).
11.9 PROBLEMAS
11.1 Sea X1, X2, cualquier sucesión infinita de variables aleatorias todas las cuales están
definidas sobre el mismo espacio de probabilidad. Además, denote Fn la función de
distribución conjunta de X1,, Xn para n = 1, 2,. Mostrar que
Fn(x1,, xn) = Fn+1(x1,, xn,) (P.1)
para todo (x1,, xn)  Rn y toda n = 1, 2,.
11.2 Una sucesión de funciones de distribución Fn, n = 1, 2,, que satisface la condición
(P.1) es denominada una sucesión consistente. Mostrar que si G1, G2, son funciones
de distribución univariadas y si Fn(x1,, xn) = G1(x1)G2(x2)  Gn(xn) para todo (x1,,
xn)  Rn y toda n = 1, 2,, entonces Fn es una sucesión consistente.
11.3 Un teorema famoso, conocido como el teorema de la consistencia de Kolmogorov,1
asegura que si F1, F2, es cualquier sucesión consistente de funciones de
distribución, entonces hay una sucesión de variables aleatorias X1, X2, tal que la
función de distribución conjunta de X1,, Xn es Fn para cualquier n. Use el teorema
de la consistencia de Kolmogorov y el Problema 11.2 para mostrar la existencia de
una sucesión infinita de variables aleatorias independientes que tengan funciones de
distribución preasignadas arbitrariamente.
1
4 Para una prueba, ver Neveu (1965), cap. 3.
382 PROBLEMAS
11.4 Para n = 1, 2,, sea fn una función de densidad n-dimensional, y denote Fn la función
de distribución de fn. Si

f n x1 , , x n    f n 1 x1 , , x n , y dy (P.2)

para todo (x1,, xn)  Rn y toda n = 1, 2,, entonces F1, F2, es una sucesión
consistente de funciones de distribución.
11.5 Para cada y  R, sea gy una función de densidad univariada. Suponer también que
gy(x) está acotada y conjuntamente continua en (x,y). Sea H cualquier función de

distribución univariada, y defina fn(x1,, xn) =  g y x1 g y x 2  g y x n  dH  y  para

(x1,, xn)  R y n = 1, 2,. Mostrar que f1, f2, satisfacen la condición (P.2).
n
11.6 Use el resultado del Problema 11.5 para deducir la existencia de variables aleatorias
Y, X1, X2, con las siguientes propiedades. La distribución de Y es normal y
condicionalmente dado Y = y, la distribución de X1,, Xn es esa de variables
aleatorias normales independientes con media común y y varianza común 1.
11.7 Encontrar una densidad conjunta para X1,, Xn en el Problema 11.6.
11.8 Mostrar la existencia de variables aleatorias X1, X2, con la siguiente propiedad. Para
cualquier n = 1, 2,, X1,, Xn tienen la densidad conjunta fn, donde fn(x1,, xn) =
n!/(1 + x1 +  + xn)n +1 si xi > 0 para i = 1,, n y fn(x1,, xn) = 0 para otros valores
de (x1,, xn).
NOTA: Los Problemas 11.9 a 11.14 se refieren al problema de la ruina
del jugador, descrito en la Sección 11.2.
11.9 Sea N el tiempo en el cual el juego termina. Eso es, sea N = mínima n  0 para la cual
ya sea Sn = a ó Sn = b ó  si tal n no existe. Observe que Pr (N < ) = 1 por el Lema
11.2.2. Mostrar que E(N) < .
Sea a = E(N). Mostrar que a = 1 + pa+1 + qa –1 para 0 < a < c.
11.11 Mostrar que E(N) = ab si p = ½.
11.12 Mostrar que
c 1  a
E N  
a

q  p q  p 1  c
si p  ½.
Mostrar que PrBna X 1  1  PBna11  y que PrBna X 1  1  PBna11  para 0 < a < c y n = 1,
2,.
Use el Problema 11.13 y la Ecuación (2.2) para mostrar que P(Ba  X1 = 1) = P(Ba+1) y P(Ba 
X1 = 1) = P(Ba -1) para 0 < a < c.
11.15 Sea X1, X2, cualquier sucesión de variables aleatorias independientes e
idénticamente distribuidas para las cuales Pr (X1 = 0) < 1. Mostrar que Pr (a < Sn < b
para toda n = 1, 2,) = 0 para cualquier a > 0 y b > 0.
NOTA: Los problemas 11.16 a 11.22 estudian la probabilidad de que una
caminata aleatoria simple siempre retorne al origen.
11.16 Sea S0, S1, S2, una caminata aleatoria simple, y sea B el evento que Sn = 0 para
alguna n = 1, 2,. Mostrar que P(B) = 1  p  q. Sugerencia: Escriba P(B) = Pr (B 
X1 = 1) Pr (X1 = 1) + Pr (B  X1 = 1) Pr (X1 = 1).
11.17 Sea un = Pr (S2n = 0), y sea vn = Pr (Sk  0 para k = 1,, 2n  1 y S2n = 0) para n = 1,
2,. Además, sea u0 = 1 y v0 = 0. Mostrar que
n
u n   vk u nk (P.3)
k 1
para n = 1, 2,. La Ecuación (P.3) es conocida como la ecuación de la renovación.

11.18 Denoten U y V las funciones generatrices de u0, u1, u2, y v1, v2, respectivamente.
Use (P.3) para mostrar que U(s)  1 = U(s)V(s) para 0 < s < 1.
11.19 Mostrar que U(s) = (1  4pqs) –1/2 para 0 < s < 1. Sugerencia: Use el Problema 1.60.
11.20 Mostrar que V s   1  1  4 pqs para 0 < s < 1.
11.21 Use el Problema 11.20 para derivar otra vez el resultado del Problema 11.16.
1 / 2 
 1 4 pq  para n = 1, 2,.
n 1
11.22 Mostrar que v n  
n
 n 
11.23 Sea A1 , A2, una sucesión infinita de eventos. Nosotros definimos
 
lim inf An  n 1 k  n Ak . Mostrar que (lim sup An )  = lim inf An .
11.24 Sea S = (0,1) el intervalo unitario abierto. Sea A2n = (0, 1  1/n) y A2n –1 = (0, 1/n) para
n = 1, 2,. Encontrar lim sup An y lim inf An.
11.25 Sea X1, X2, variables aleatorias independientes, sean J1, J2, intervalos, y sea An el
evento Xn  Jn para n = 1, 2,. Mostrar que A1, A2, son eventos independientes.
11.26 Sean X1, X2, variables aleatorias independientes que son uniformemente
distribuidas sobre (0,1). ¿Cuál es la probabilidad de Xn < 1/n, i.m.; cuál es la
probabilidad de Xn < 1/n2, i.m.?
384 PROBLEMAS
11.27 Sean X1, X2, variables aleatorias independientes las cuales tienen la distribución
exponencial estándar. Sea Ba el evento Xn > log n + a log (log n), i.m. para a > 0.
¿Para cuáles valores de a se cumple P(Ba) = 1?
11.28 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y sea Nk el tiempo del k-
ésimo retorno al origen. Mostrar que N1 y N2  N1 son variables aleatorias
independientes.
11.29 Encontrar la función generatriz de N2. Encontrar Pr (N2 = n) para n = 1, 2,.
11.30 Mostrar que Xn  X con probabilidad 1 cuando n   si y sólo si sup k n X k  X  0
en probabilidad cuando n  .
11.31 Mostrar que Xn  X con probabilidad 1 cuando n   si y sólo si la siguiente
condición es satisfecha. Para cualquier  > 0 y  > 0, hay un entero n0 = n0(,) para el
cual Pr (Xk  X   para alguna k = n0,, n)   para toda n  n0.
11.32 Sea U una variable aleatoria que está uniformemente distribuida sobre (0,1). Sea Ank
el evento k  1 < nU < k para k = 1,, n y n = 1, 2,. Además, permita que X1, X2,
sean I A , I A , I A , . Mostrar que Xn  0 en probabilidad pero Xn no converge a 0
11 21 22
con probabilidad 1 cuando n  .

11.33 Probar el Lema 11.7.1.
11.34 Sean X1, X2, variables aleatorias independientes, y sea Xk = k cada uno con
probabilidad ½. Mostrar que X n  0 con probabilidad 1 cuando n   si y sólo si 
< ½. Sugerencia: Use el teorema de Lindeberg-Feller para mostrar que si   ½,
entonces X n no converge a 0 en probabilidad cuando n  .
NOTA: Los Problemas 11.35 a 11.38 esbozan una aplicación de la ley
fuerte de los grandes números a la teoría de números. Para x > 0, sea w(x) el
entero más grande que es menor que o igual a x.
11.35 Para 0 < x < 1, sea w1(x) = w(10x) y para k  2, sea
  k 1 
wk x   w10 k  x  10  j w j x  
 
  j 1 
Mostrar que x  k 110  k wk x  para 0 < x < 1. wk(x) es el k-ésimo decimal en la
expansión decimal de x.
11.36 Sea S = (0,1), sea  la clase de subconjuntos de Borel de S, y sea P(A) la longitud de
A para cualquier subintervalo A  S. Además, sea Wk = wk(s) para s  S. Mostrar que
W1 y W2 tienen la distribución uniforme discreta sobre los enteros 0, 1,, 9. Mostrar
también que W1 y W2 son independientes. (Sugerencia: Ver Ejemplo 3.3.3c.)

11.37 Mostrar que W1, W2, son independientes e idénticamente distribuidas.
11.38 Para j fija, 0 < j < 9, sea Xk = 1 si Wk = j y sea Xk = 0 de otro modo. Además, sea Sn =
X1 +  + Xn para n = 1, 2,. Así, Sn es el número de j´s entre los primeros n
decimales de un número seleccionado aleatoriamente. Mostrar que Sn/n  0.1 con
probabilidad 1 cuando n  . Eso es, si un número es seleccionado al azar del
intervalo (0,1), la proporción de j´s entre los primeros n decimales converge a 0.1 con
probabilidad 1 cuando n   para j = 0,, 9.
12
12 MARTINGALAS1
12.1 SISTEMAS DE JUEGO

En esta sección consideraremos estrategias de juego, o sistemas de juego como los
nombraremos. Dado un sistema particular, definiremos variables aleatorias para representar
la fortuna del jugador como ésta se desarrolla en el tiempo, y probaremos que a menos que el
jugador tenga una cantidad de tiempo ilimitado, ningún sistema de juego convertirá una
sucesión de juegos limpios en un juego favorable.
Considere un jugador quien puede jugar una sucesión de juegos cada uno de los cuales el
gana con probabilidad ½ y pierde con probabilidad ½. Sean X1, X2, variables aleatorias
independientes con distribución común
Pr  X i  1  1
2  Pr  X i  1 (1.1)
e interprete el evento Xi = 1 (Xi = 1) como aquel evento donde el jugador gana (pierde) el i-
ésimo juego para i = 1, 2,. Observe que cada juego es limpio en el sentido de que si el
jugador apuesta cualquier cantidad w en el i-ésimo juego, sus ganancias esperadas en el i-
ésimo juego son w Pr (Xi = 1)  w Pr (Xi = 1) = 0.
Permitamos que el jugador empleé un sistema por lo cual entendemos una regla para
1
1 Este capítulo trata un tópico especial y puede ser omitido.
388 SISTEMAS DE JUEGO
cambiar sus apuestas de acuerdo a su fortuna. La única restricción a la que sujetaremos al

jugador es que no le es permitido averiguar el futuro. Eso es, la cantidad que el apueste en el
i-ésimo juego puede depender en los resultados de los primeros i  1 juegos, pero no puede
depender del resultado del i-ésimo o cualquier juego posterior. Definimos un sistema de
juego para ser una sucesión de funciones no negativas w1, w2,, donde w1 es una constante,
y, para k  2, wk es una función cuyo dominio es Rk-1. Nosotros denominaremos a la variable
aleatoria
Wk  wk  X 1 ,, X k 1  (1.2)
la apuesta del jugador en el k-ésimo juego.

Sea Y0 una constante que representa la fortuna inicial del jugador. Entonces podemos
representar la fortuna del jugador después de n partidas del juego por la variable aleatoria
n
Yn  Y0   Wk X k (1.3)
k 1
puesto que el jugador gana la cantidad WkXk en el k-ésimo juego para k = 1, 2,.
Llamaremos a Yn la fortuna del jugador en el tiempo n.
EJEMPLO 12.1.1
El siguiente sistema ha fascinado a los jugadores por años: Dobla tus apuestas hasta que
ganes un juego; entonces retírate. Formalmente, sea W1 = w, una constante, y sea
w2 k 1 si X i  1 para i  1,,k  1

Wk  
0 de otro modo (1.4)
para k = 2, 3,. Usando esta estrategia, un jugador está seguro de ganar.

Indiscutiblemente, el jugador está seguro de ganar al menos un juego (Sección 4.2); y si el
primer juego que el jugador gana es el n-ésimo, entonces el habrá perdido

w  2w    2n2 w  2n1  1 w 
en los primeros n  1 juegos, pero el ganará 2n-1w en el n-ésimo juego. Por lo tanto, la
probabilidad es 1 de que el jugador ganará w.
Por supuesto, hay una trampa. El jugador debe tener tanto tiempo ilimitado como capital
ilimitado para emplear la estrategia de este ejemplo, porque el perderá los primeros n juegos
con probabilidad 2-n > 0 para cualquier n = 1, 2,. Por ejemplo, si un jugador inicia con una
reserva inicial de Y0 = 2m  1 dólares y no tiene crédito, y si el apuesta 1 dólar (w = 1) en el
primer juego, entonces (1.4) debe ser modificada a
MARTINGALAS 389
2 k 1 si X i  1 para i  para k  m
Wk  
0 de otro modo (1.4 a)
En este caso el jugador perderá todo su dinero si el pierde los primeros m juegos, lo que
ocurre con probabilidad 2-m; y, como arriba, el ganará 1 dólar si el gana al menos 1 de los
primeros m juegos. Por lo tanto, sus ganancias esperadas son
     
1 Pr ganar  2m  1 Pr perder  1 1  2 m  2m  1 2 m  0
Por lo tanto, las ganancias esperadas usando el sistema (1.4a) son 0. La probabilidad de
ganar, 1  2-m, puede ser significativamente alta, sin embargo. ////
Ahora probaremos que en la ausencia de tiempo ilimitado ningún sistema de juego
convertirá una sucesión de juegos limpios en un juego favorable.
Teorema 12.1.1 Sean X1, X2, variables aleatorias independientes con distribución
común dada por (1.1), y sea Yn definida por (1.2) y (1.3) para n = 1, 2,. Además, sea
Xn = (X1,,Xn) para n = 1, 2,. Entonces
E Yn1 X n   Yn (1.5)
E Yn   Y0 (1.6)
para n = 1, 2,.
PRUEBA Primero probemos (1.5). Tenemos Yn+1 = Yn + Wn+1Xn+1 por (1.3), así
que
E Yn1 X n   E Yn X n   E Wn1 X n1 X n 
por el Teorema 10.3.1. Ahora Yn y Wn+1 están determinadas por Xn, y Xn+1 es
independiente de Xn. Por lo tanto,
E Yn X n   Yn
y E Wn1 X n1 Xn   Wn1E X n1 Xn   Wn1E  X n1   0

por los Teoremas 10.3.2 y 10.3.3. También usamos el hecho de que E(Xn+1) = 0.
Esto establece (1.5), y un argumento similar con esperanzas incondicionales
reemplazando esperanzas condicionales mostrará que E(Y1) = Y0. La ecuación (1.6)
ahora se sigue de (1.5) y el Teorema 10.3.4 puesto que
E Yn1   EE Yn1 Xn   E Yn 

390 MARTINGALAS
para n = 1, 2,. De hecho, E(Yn) = E(Yn-1) =  = E(Y1) = Y0. ////

Las interpretaciones de (1.5) y (1.6) son las siguientes. La ecuación (1.5) establece que
dados los resultados de los primeros n juegos, las ganancias esperadas de uno en el (n + 1)-
ésimo juego, son cero, mientras que (1.6) asevera que la fortuna esperada de uno después de
cualesquiera n juegos es la misma que la fortuna inicial de uno. Eso es, uno no puede
incrementar la fortuna esperada de uno jugando un número finito de juegos limpios.
El Teorema 12.1.1 deja abierta la posibilidad de convertir una sucesión de juegos limpios en
un juego favorable jugando un número (no acotado) aleatorio de juegos, como en el Ejemplo
12.1.1. Regresaremos a esta cuestión en la Sección 12.4.
12.2 MARTINGALAS
En la sección previa, definimos una sucesión de variables aleatorias Y0, Y1, para
representar las fortunas de un jugador quien juega una sucesión de juegos limpios, y
encontramos que tenían la propiedad
E Yn1 X 1 , , X n   Yn (2.1)
para cualquier n = 1, 2,. Esta propiedad está plena de abstracción.

Sea X1, X2, una sucesión finita o infinita de variables aleatorias o vectores aleatorios. Las
Xi no necesitan ser independientes i idénticamente distribuidas; ellas no necesitan ser ni
siquiera de la misma dimensión. Para n = 1, 2,, sea Xn = (X1, ,Xn), y sea Dn un
subconjunto del rango de Xn para el cual Pr (Xn  Dn) = 1. Además, sea w1, w2, una
sucesión de funciones reales con dominios D1, D2,, y sea Y1, Y2, una sucesión de
variables aleatorias definidas por
Yn  wn  X 1 , , X n 
para n = 1, 2,. Diremos que la sucesión Y1, Y2, es una submartingala con respecto a X1,
X2, si y sólo si
E Yn    (2.2)
E Yn1 X n  x n   wn x n  (2.3)
para todo xn  Dn para cualquier n = 1, 2,. Suponemos que las esperanzas condicionales
en (2.3) pueden estar definidas por una de las recetas de la Sección 10.3. En la secuela
escribiremos (2.3) en la forma equivalente
E Yn1 X n   Yn (2.3 a)
MARTINGALAS 391
(ver Sección 10.3). Además, diremos que Y1, Y2, es una martingala con respecto a X1,
X2, si y sólo si hay igualdad en (2.3) y (2.3a). Así, Y1, Y2, es una martingala con
respecto a X1, X2, si y sólo si (2.1) y (2.2) se cumplen para cualquier n = 1, 2,, y Y1,
Y2, es una submartingala con respecto a X1, X2, si y sólo si (2.2) y (2.3a) se cumplen
para cualquier n = 1, 2,. Observe que Y1, Y2, es una martingala con respecto a X1, X2,
si y sólo si Y1, Y2, y Y1, Y2, son ambas submartingalas con respecto a X1, X2,.
Donde no hay peligro de confusión, omitiremos la frase calificadora “con respecto a X1,
X2,.”
La sucesión Y1, Y2, de la sección previa es una martingala. Varios ejemplos
adicionales ahora serán dados.
Ejemplo 12.2.1
Muchas martingalas interesantes pueden ser construidas de variables aleatorias
independientes.
a Sean X1, X2, variables aleatorias independientes con esperanza común E(Xk) = 0
para k = 1, 2,. Entonces la sucesión de sumas parciales
Sn  X1    X n n  1,2,
es una martingala. Indiscutiblemente, E  S n   E  X 1    E  X n    para n = 1,

2,. Más aún,
E S n1 X n   E S n X n   E X n1 X n 
y, como en la prueba del Teorema 12.1.1, E(SnXn) = Sn porque Sn está determinada

por Xn, y E(Xn+1Xn) = E(Xn+1) = 0 puesto que Xn+1 es independiente de Xn.
b Sean X1, X2, independientes con medias E(Xk) = 0 y varianzas finitas k2 = E(Xk2)
para k = 1, 2,. Además, sea sn2 = 12 +  + n2 la varianza de Sn para n = 1, 2,.
Entonces
Yn  S n  sn n  1,2,
2 2
 
define una martingala. Observe primero que E Yn   E S n 2  sn 2  2sn 2   para n =
1, 2,. Más aún, puesto que S n21  S n  2S n X n1  X n21 y
2
E S n X n1 X n   S n E X n1 X n   S n E  X n1   0
 
por los Teoremas 10.3.2 y 10.3.3, tenemos E S n21 X n   E S n 2 X n  E X n21 X n  
S n2   n21 , donde la igualdad final también se sigue de los Teoremas 10.3.2 y 10.3.3.
Se sigue que E Yn1 X n   E S n21 X n   sn21  S n 2   n21  sn21  S n 2  sn 2  Yn para n =
392 MARTINGALAS
1, 2,, como se requería.

c Ahora sean X1, X2, variables aleatorias independientes no negativas con esperanza
común E(Xk) = 1 para k = 1, 2,. Entonces
n
Yn   X k n  1,2,
k 1
define una martingala. De hecho, E Yn   nk1 E  X k   1   para n = 1, 2,, y

E Yn1 Xn   Yn E X n1 Xn   Yn E  X n1   Yn
por los Teoremas 10.3.2 y 10.3.3.

d Como un caso especial de la parte c, sean X1, X2, independientes e idénticamente
distribuidas con función generatriz de momentos común M. Entonces para cualquier t
para la cual M(t) es finita,
etS n
Yn  n  1,2,
M t 
n
define una martingala. ////

Para que el lector no piense que las martingalas son sumas o productos de variables
aleatorias independientes, consideraremos algunos ejemplos de una naturaleza diferente.
EJEMPLO 12.2.2
El esquema de la urna de Polya. Suponer que extracciones repetidas son hechas de una
urna la cual contiene bolas negras y rojas. Suponer que después de cada extracción, la bola
extraída es remplazada, junto con c bolas del mismo color, donde c es un entero positivo.
Denote Yn la proporción de bolas rojas en la urna después de la n-ésima extracción.
Mostraremos que Y1, Y2, es una martingala con respecto a la sucesión X1, X2, la cual será
definida abajo.
Suponer que hay r bolas rojas y b bolas negras en la urna en el momento de la primera
extracción, donde r y b son enteros positivos. Sea Xn = 1 si la n-ésima bola extraída es roja, y
sea Xn = 0 si la n-ésima bola extraída es negra. Además, denoten rn y bn el número de bolas
rojas y el número de bolas negras en la urna después de la n-ésima extracción. Entonces
rn
Yn 
rn  bn
para n = 1, 2,; y rn, bn, y Xn se desarrollan de acuerdo a las ecuaciones

MARTINGALAS 393
rn  c si X n1  1 bn si X n1  1

rn1   bn1  
rn si X n1  0 bn  c si X n1  0
Aquí nosotros establecemos r0 = r y b0 = b. Ahora Pr (Xn+1 = 1Xn) = Yn para n = 1, 2,, así

que
rn  c
E Yn1 X n  
rn rn bn

rn  bn  c rn  bn rn  bn  c rn  bn
rn
  Yn
rn  bn
para n = 1, 2,, como es requerido. ////

EJEMPLO 12.2.3
Razones de verosimilitud. Sea X1, X2, cualquier sucesión de variables aleatorias con
distribuciones conjuntas absolutamente continuas. Denote fn una densidad conjunta de X1,,
Xn, y supongamos que f1, f2, satisfacen la condición de consistencia
f n x1 ,, xn    f n1 x1 ,, xn , y dy


(2.4)
para todo (x1,, xn)  Rn para toda n = 1, 2, (ver Sección 6.3 y Problema 11.4). Sea g1,
g2, cualquier otra sucesión de funciones de densidad la cual satisface la condición de
consistencia (2.4), y suponga, por simplicidad, que fn(x1,, xn) es positiva para toda x =
(x1,, xn)  Rn.
g n  X 1 ,, X n 
Yn  n  1,2,
f n  X 1 ,, X n 
Entonces Y1, Y2, es una martingala. Para ver esto observe que una densidad condicional
para Xn+1 dado Xn = xn es
f n1 x n , y 
h y x n  
f n x n 
para  < y < . Por lo tanto,

394 PROPIEDADES ELEMENTALES DE LAS MARTINGALAS
g n+1 x n , y 
E Yn1 X n  x n    h y x n dy

f n1 x n , y 
 g n+1 x n , y  g x 
  dy  n n
f n x n  f n x n 
donde el paso final se sigue de la consistencia de la sucesión g1, g2,. La igualdad de

martingala (2.1) ahora se sigue remplazando xn con Xn. ////
EJEMPLO 12.2.4
En este ejemplo presentamos un método general para construir martingalas. Sean Z, X1,
X2, variables aleatorias las cuales están definidas en el mismo espacio de probabilidad y
suponer que Z tiene una esperanza finita. Entonces la sucesión
Yn  E Z X 1 ,, X n  n  1,2,...
es una martingala. De hecho, Yn  E  Z X n , así que E Yn   EE  Z X n   E  Z  , la cual

es finita por hipótesis. Más aún,
E Yn1 Xn   EE Z Xn1  Xn   E Z Xn   Yn
para n = 1, 2, por el Teorema 10.4.1. ////
12.3 PROPIEDADES ELEMENTALES DE LAS MARTINGALAS

Ahora desarrollaremos algunas propiedades elementales de las martingalas y submartingalas.
Lema 12.3.1 Si Y1, Y2, es una submartingala con respecto a X1, X2,, entonces
EYn   EYn1  (3.1)
para cualquier n = 1, 2,. Si Y1, Y2, es una martingala, entonces se cumple la

igualdad en (3.1).
PRUEBA La desigualdad en (3.1) se sigue de la desigualdad de submartingala
(2.3a) y el Teorema 10.3.4. De hecho, E Yn1   EE Yn1 Xn   E Yn  para n = 1,
2,. Más aún, hay igualdad si Y1, Y2, es una martingala por (2.1). ////
EJEMPLO 12.3.1
El esquema de la urna de Polya revisitada. En la notación del Ejemplo 12.2.2, la
MARTINGALAS 395
probabilidad que una bola roja sea extraída en la n-ésima extracción es Pr (Xn = 1). Todavía
más
Pr  X n  1  EPr X n  1 X n1   E Yn1   E Y1  

r
r b
donde la penúltima igualdad se sigue del Lema 12.3.1. Así, la probabilidad incondicional de
extraer una bola roja es la misma para cada extracción. ////
Lema 12.3.2 Sea Y1, Y2, una submartingala con respecto a X1, X2,. Si n y k son
enteros positivos para los cuales n < k, entonces
E Yk X n   Yn
con igualdad si Y1, Y2, es una martingala.

PRUEBA Probaremos el Lema 12.3.3 por inducción. Por definición, el lema es
cierto si k  n = 1. Suponer que el lema es cierto cuando k  n < m, y considere el caso
cuando k  n = m. Entonces, por el Teorema 10.4.1,
E Yk Xn   EE Yk Xn1  X n 
Por inducción, tenemos E Yk X n1   Yn1 , y por (2.3a) tenemos E Yn1 X n   Yn .
Consecuentemente, E Yk X n   E Yn1 X n   Yn . Esto completa la inducción de la cual
la primera aseveración del lema se sigue. La segunda puede ser establecida por un
argumento análogo el cual usa (2.1) en lugar de (2.3a). Alternativamente, la segunda
aseveración del lema puede ser establecida aplicando la primera a las submartingalas
Y1, Y2, y Y1, Y2,. ////
Ahora daremos un método para construir submartingalas de martingalas.
Lema 12.3.3 Sea Y1, Y2, una martingala con respecto a una sucesión X1, X2,.
Entonces Y1, Y2, es una submartingala con respecto a X1, X2,. Si, además,
E(Yn2) <  para toda n = 1, 2,, entonces Y12, Y22, es una submartingala con
respecto a X1, X2,.
PRUEBA El lema usa (2.1) y el Teorema 10.3.1. De hecho, tenemos
E Yn1 X n   E Yn1 X n   Yn para n = 1, 2,. Esto establece la primera aseveración,
y la segunda se sigue de un argumento similar. ////
396 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
12.4 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL

Sea Y1, Y2, una martingala con respecto a la sucesión X1, X2,, y consideremos a Y1, Y2,
como las fortunas de un jugador. Entonces, por el Lema 12.3.1, E(Yn) = E(Y1) para cualquier
n = 1, 2,, así que la fortuna esperada del jugador no se incrementa con el tiempo. Sin
embargo, nosotros vimos en el Ejemplo 12.1.1 como un jugador de hecho puede garantizar
el mismo una ganancia neta jugando un número aleatorio de juegos. Esta es una posibilidad
emocionante. Desafortunadamente, puede ser realizado sólo por jugadores quienes tienen un
crédito ilimitado, como mostraremos en esta sección.
Sea X1, X2, cualquier sucesión de variables aleatorias o vectores aleatorios, y sea N una
variable aleatoria la cual está determinada como una función de la sucesión X1, X2,.
Diremos que N es un tiempo de interrupción con respecto a la sucesión X1, X2, si y sólo si
las siguientes condiciones son satisfechas:
1 N toma sólo valores enteros positivos o el valor .
2 Pr (N < ) = 1 (4.1)
3 Para cualquier n = 1, 2,, el evento N = n está determinado por Xn = (X1,, Xn) en
el sentido que hay un subconjunto Bn del rango de Xn para el cual
N n si y sólo si X n  Bn (4.2)
Si pensamos de X1, X2, como los resultados de una sucesión de juegos, como en la Sección
12.1, entonces podemos considerar a N como una regla la cual le dice a un jugador cuanto
tiempo continuar jugando las partidas, eso es, interrumpir después de la N-ésima partida. La
condición (4.1) entonces requiere que el jugador interrumpa en algún tiempo finito., y la
condición (4.2) requiere que la decisión de interrumpir después de la n-ésima partida
dependa sólo de los resultados de las primeras n partidas y no de los resultados de
cualesquiera partidas posteriores. Eso es, (4.2) requiere que al jugador no le sea permitido
mirar en el futuro.
EJEMPLO 12.4.1
Sea S0, S1, S2, una caminata aleatoria simple. Eso es, sean X1, X2, variables aleatorias
independientes e idénticamente distribuidas las cuales toman los valores 1 y 1 con
probabilidades p y q = 1  p, respectivamente, y sea Sn = X1 +  + Xn para n = 1, 2,.
a Si p  ½ y a es un entero positivo, entonces la variable aleatoria Na definida por Na
= mínima n  1 para la cual Sn = a ó  si no existe tal n es un tiempo de interrupción
(con respecto a X1, X2,). Indudablemente, Na toma sólo valores enteros positivos o el
valor , y Pr (Na < ) = 1 por el Teorema 11.2.3. Más aún, el evento Na = n ocurre si y
sólo si Sk < a para k = 1, , n  1 y Sn = a, y el último evento está determinado por
MARTINGALAS 397
X1,, Xn en el sentido de (4.2). Denominaremos a Na el tiempo del primer paso a

través de a.
b Si p = ½, entonces la variable aleatoria N0 definida por N0 = mínima n  1 para la
cual Sn = 0 ó  si no existe tal n es un tiempo de interrupción. De nuevo N0 toma sólo
valores enteros positivos o el valor , y Pr (N0 < ) = 1 por el Teorema 11.2.3. Más
aún, el evento N0 = n ocurre si y sólo si Sk  0 para k = 1,, n  1 y Sn = 0, y el último
evento depende sólo de X1,, Xn en el sentido de (4.2). Denominaremos a N0 el tiempo
del primer retorno al origen.
c Si p  ½, entonces N0 no es un tiempo de interrupción, puesto que Pr(N0 < ) = 1  p
 q (Problema 11.16).
d Si N = mínima n  1 para la cual Xn+1 = 1 ó  si no existe tal n, entonces N no es un
tiempo de interrupción con respecto a X1, X2,, porque la condición (4.2) es violada.
////
Lema 12.4.1 Sea N un tiempo de interrupción con respecto a la sucesión X1, X2,.
Entonces para n = 1, 2,, los eventos N  n y N > n están determinados por Xn =
(X1,, Xn). Más aún, si k es cualquier entero positivo, entonces M = mín (N,k) es un
tiempo de interrupción con respecto a X1, X2,.
PRUEBA Por simplicidad, asumiremos que X1, X2, son variables aleatorias.
Denote Aj el evento N = j. Entonces, por hipótesis, hay subconjuntos Bj  Rj para los
cuales

Aj  Xj 1 B j   Xn1 B j  R n j 
para j  n. Por lo tanto, el evento N  n es
 A j   X n1 B j  R n j   X n1   B j  R n j 
n n  n 
j 1 j 1  j 1 
Así, el evento dado por N  n está determinado por X1,, Xn en el sentido de (4.2). El
evento N > n es el complemento del evento N  n, y así está determinado por X1,, Xn
también.
Ahora sea k un entero positivo, y sea M = mín(N,k). Entonces el evento dado por M = j
es el mismo como el evento N = j si j < k; es el evento que N > k  1 si j = k; y es
imposible si j > k. En cualquier caso, el evento dado por M = j está determinado por
X1,, Xn, como se requirió. ////
Ahora suponer que Y1, Y2, es una martingala y que N es un tiempo de interrupción con
respecto a la misma sucesión X1, X2,. Entonces podemos definir una variable aleatoria YN
haciendo YN = Yn si N = n, donde n = 1, 2,, y haciendo YN = 0 si N = . Equivalentemente,
podemos definir YN por la fórmula

YN   Yn I An (4.3)
n1
donde An denota el evento N = n y IA denota la función indicadora de A. Si consideramos a

Y1, Y2, como las fortunas de un jugador quien juega una sucesión de partidas y se detiene
después de jugar N partidas, podemos considerar a YN como la fortuna del jugador en el
momento que el termina su juego. Los resultados de esta sección dan las condiciones bajo
las cuales
E YN   E Y1  (4.4)
En la terminología de juegos, (4.4) asegura que el jugador no incrementa su fortuna esperada
usando un tiempo de interrupción.
Teorema 12.4.1 Sea Y1, Y2, una submartingala, y sea N un tiempo de interrupción
con respecto a la misma sucesión X1, X2,. Si hay un entero k para el cual N  k para
todas las posibles realizaciones de X1, X2,, entonces
E YN   E Yk  (4.5 a)
Si, además, Y1, Y2, es una martingala, entonces

E YN   E Y1  (4.5b)
PRUEBA Como en (4.3), denote An el evento N = n, y denote IA la función
indicadora del evento A. Entonces puesto que N  k, debemos tener I An = 0 para n > k.
Por lo tanto, por (4.3),
 
E Yk I An X n  I An E Yk X n 
Suponer primero que Y1, Y2, es una submartingala. Entonces Yn  E Yk X n  para n =
1,, k por el Lema 12.3.2. Más aún, puesto que I An está determinada por Xn, nosotros
también tenemos E Yk I An X n   I An E Yk X n  por el Teorema 10.3.3. Por lo tanto,

Yn I An  I An E Yk X n   E Yk I An X n 
para n = 1,, k. Se sigue que
   
E YN    E Yk I An  E Yk I A1    I Ak 
k
n1
MARTINGALAS 399
Finalmente, puesto que N  k, nosotros debemos tener I A1    I Ak  1 . La

desigualdad (4.5a) se sigue.
Si Y1, Y2, es una martingala, podemos aplicar (4.5a) a YN y a YN para deducir
que E(YN) = E(Yk). Todavía más, por el Lema 12.3.1, tenemos E(Yk) = E(Y1), así que
(4.5b) se sigue. ////
Ahora relajaremos la condición de que N sea acotada. Sea Y1, Y2, una martingala, y sea N
un tiempo de interrupción con respecto a la misma sucesión X1, X2,. Entonces para cada
entero k = 1, 2,, definimos la variable aleatoria
N k  min N ,k 
Nk es un tiempo de interrupción por el Lema 12.4.1, y Nk  k. Por lo tanto,
 
E YNk  E Y1 
para cualquier k = 1, 2,. Ahora cuando k  , Nk  N, y así parece razonable esperar que
E YNk   E YN  , dejando E(YN) = E(Y1).
Para instrumentar este programa, tendremos que imponer algunas condiciones adicionales
sobre la martingala Y1, Y2, y el tiempo de interrupción N. Requeriremos que
E YN    (4.6 a)
lim E Yk I B   0
k
(4.6 b)
k 
donde Bk denota el evento N > k.

Teorema 12.4.2 Sea Y1, Y2, una martingala, y sea N un tiempo de interrupción con
respecto a la misma sucesión X1, X2,. Si las condiciones (4.6) son satisfechas,
entonces E(YN) = E(Y1).
PRUEBA Puesto que YNk  YN si N  k y YNk  Yk si N > k, podemos escribir
YNk  YN 1  I Bk   Yk I Bk , donde Bk es el evento N > k. Por lo tanto,
   
E Y1   E YN 1  I Bk  E Yk I Bk  (4.7)
por el Teorema 12.4.1. Puesto que el segundo término del lado derecho de (4.7) tiende
a 0 cuando k   por la suposición (4.6b), será suficiente mostrar que el primero se
aproxima a E(YN). Denote F la función de distribución conjunta de N y YN. Entonces
  
E YN 1  I Bk  0  y dF x , y 
k 
la cual converge a
0  y dF x , y   E YN 
 
cuando k   por la definición de la integral impropia de Riemann-Stieltjes. El

teorema se sigue. ////
Ahora listaremos algunas condiciones simples las cuales son suficientes para asegurar la
validez de las condiciones (4.6a) y (4.6b).
EJEMPLO 12.4.2
Si hay una constante c para la cual Yk  c para toda k = 1, 2,, entonces las condiciones
(4.6) son satisfechas. En este caso E(YN)  c < , y E( Yk I Bk )  c Pr (N > k), la cual tiende a
0 cuando k   por (4.1).
Si Y1, Y2, son consideradas como las fortunas de un jugador, la condición de este ejemplo
puede ser interpretada como requiriendo que el jugador y su oponente tengan sólo una
cantidad finita de capital y crédito limitado. ////
EJEMPLO 12.4.3
Algunas otras condiciones fácilmente verificables las cuales implican la validez de (4.6b)
son las siguientes.
a Si hay una constante c para la cual N > k implica Yk  c, entonces E( Yk I Bk )  c Pr (N
> k)  0 cuando k   por (4.1).
b Si hay una constante c para la cual E(Yn2)  cn para n = 1, 2,, y si E(N) < , entonces
(4.6b) es satisfecha. Indudablemente, por la desigualdad de Schwarz (Problema 8.18),
tenemos

E Yk I Bk 
2
 
 E Yk Pr N  k   ck Pr N  k 
2
la cual tiende a 0 cuando k   si E(N) < . ////

Ahora nos especializaremos considerando sumas de variables aleatorias independientes. El
siguiente resultado es conocido como el lema de Wald.
Teorema 12.4.3 Sean X1, X2, variables aleatorias independientes con esperanza
común E(Xi) = , i = 1, 2,. Sea N un tiempo de interrupción con respecto a X1, X2,,
y sea Sn= X1 +  + Xn para n = 1, 2,. Si E(N) < , entonces
MARTINGALAS 401
E S N    E N  (4.8)
PRUEBA Es posible deducir el Teorema 12.4.3 del Teorema 12.4.2, pero una
prueba directa es muy simple, y daremos una prueba directa. Suponer primero que X1,
X2, todas variables aleatorias no negativas. Denote An el evento N = n, y denote Bn el
evento N > n para n = 1, 2,. Entonces
     
  n  
E S N    E S n I An    E X k I An    E X k I An
n 1 n 1 k 1 k 1 n k
     

  E  X k   I An    E X k I Bk 1 (4.9)
k 1   nk  k 1
Aquí el intercambio en el orden de las sumas está justificado porque todos los
sumandos son no negativos.1 La justificación del intercambio de esperanzas y
sumatorias es más difícil, pero también puede ser justificado para variables aleatorias
no negativas.2 Ahora Bk-1 está determinado por X1,, Xk-1 por el Lema 12.4.1, y por lo
tanto Bk-1 es independiente de Xk. Se sigue que
 
E X k I Bk 1  E  X k PBk 1    Pr N  k 
Por lo tanto,

E S N     Pr N  k    E N 
k 1
por el Corolario 8.1.2. Esto completa la prueba de (4.8) en el caso especial donde X1,
X2, son no negativas.
En el caso general, cuando X1, X2, no son supuestas no negativas por más tiempo,
primero aplicamos el caso especial a X1, X2, y deducimos que la serie en (4.9)
converge absolutamente. La convergencia absoluta de la serie es también suficiente
para justificar el intercambio en el orden de las sumatorias y el intercambio de
esperanzas y sumatorias. La prueba del Teorema 12.4.3 en el caso general entonces
procede como en el caso especial. ////
1
2 Ver, por ejemplo, Apóstol (1957), p. 374.
2
3 Ver, por ejemplo, Neveu (1965), pp. 3742.
402 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
12.5 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL

Las implicaciones del Teorema 12.4.2 para juegos pueden ser resumidas como sigue: sujeto
a las condiciones (4.6) uno no puede convertir una sucesión de juegos limpios en un juego
favorable usando un tiempo de interrupción. En esta sección veremos cómo este principio
general puede ser usado para simplificar muchos cálculos probabilísticos. Comenzamos
rederivando algunos de los resultados de la Sección 11.2.
EJEMPLO 12.5.1
El problema de la ruina del jugador Sea S0, S1, S2, una caminata aleatoria simple.
Eso es, sean X1, X2, variables aleatorias independientes e idénticamente distribuidas las
cuales toman los valores 1 y 1 con probabilidades p y q = 1  p, respectivamente, y sea Sn=
X1 +  + Xn para n = 1, 2,. Consideraremos a Xi como nuestra ganancia en el i-ésimo de
una sucesión de juegos independientes, en cuyo caso Sn es nuestra ganancia acumulada
después de n partidas. Sean a y b enteros positivos. Consideramos a como nuestro capital
inicial y b como el capital inicial de nuestro oponente. Acordamos continuar jugando hasta
que hayamos uno u otro ganado todo el dinero de nuestro oponente o perdido todo nuestro
dinero, y requerimos la probabilidad de ganar.
Sea N la duración del juego. Eso es, sea N = mínima n  1 para la cual Sn = a ó Sn = b o sea
N =  si tal n no existe. Mostramos en el Lema 11.2.2 que Pr (N < ) = 1. Todavía más, N
satisface la condición (4.2), puesto que el evento N = n ocurre si y sólo si a < Sn < b para k
= 1, , n  1 y Sn = a ó b y el último evento depende de X1,, Xn en el sentido de (4.2).
Por lo tanto, N es un tiempo de interrupción con respecto a X1, X2,. Sea c = a + b. Para
posterior referencia observe que SN  máx (a,b) < c y
N k implica Sk  c (5.1)
Esta observación será útil para verificar la condición (4.6).
Primero consideremos el caso cuando p = ½. En este caso E(Xi) = 0, así que S1, S2, es una
martingala. En vista de (5.1) y el Ejemplo 12.4.3a se sigue del Teorema 12.4.2 que E(SN) =
E(S1) = 0. Denote  la probabilidad que nosotros ganemos todo el dinero de nuestro
oponente. Entonces  = Pr (SN = b), así que E(SN) = b  (1  )a por cálculo directo. Por lo
tanto, la probabilidad de ganar es
a

ab
Un argumento análogo proporcionará la E(N). Puesto que la varianza común de X1, X2, es
2 = E(Xi2) = 1, la sucesión Yn = Sn2  n, n = 1, 2, es una martingala (Ejemplo 12.2.1b).
De nuevo, se sigue de (5.1), Problema 11.9, y el Teorema 12.4.2 que E(YN) = E(Y1) = 0, así
que E(SN2) = E(N). Por cálculo directo, E(SN2) = b2 + (1  )a2 = ab. Por lo tanto, E(N) =
MARTINGALAS 403
ab.
Cuando p  ½, los juegos ya no son limpios, así que la técnica usada arriba no puede parecer
ser aplicable. Es, sin embargo. Nosotros tenemos que ser sólo un poco inteligentes. Sea  =
q/p. Entonces
 
E  X i  p  q 1  1
así que
Yn   Sn n  1,2,
define una martingala por el Ejemplo 12.2.1c. Puesto que YN  máx ( c, -c) y N > k implica
Yk  máx ( b, -a) por (5.1), se sigue del Ejemplo 12.4.3a y el Teorema 12.4.2 que E(YN) =
E(Y1) = 1. También, E(YN) =  b + (1  ) -a por cálculo directo. Así,
1  a
 (5.2)
1   a b
Haciendo b   en (5.2), encontramos que la probabilidad de perder contra un oponente
infinitamente rico es
 a
 si p  1
lim 1     
2
b 1 si p  1
2
Más aún, puesto que nosotros perdemos frente a un oponente infinitamente rico si y sólo si
Sn = a para alguna n = 1, 2,, tenemos
Pr S n  a para alguna n  1,2,  1 (5.3)
si p  ½. Eso es, en el lenguaje de la Sección 11.2, un paso a través de a es cierto si p  ½ y
a > 0. Por simetría, un paso a través de a es cierto si p  ½ y a > 0. ////
EJEMPLO 12.5.2
Podemos usar el Teorema 12.4.2 para calcular la distribución del tiempo del primer paso a
través de a (Ejemplo 12.4.1a). Suponer p  ½, y sea a un entero positivo. Entonces el tiempo
del primer paso a través de a, Na = mínima n  1 para la cual Sn = a ó  si tal n no existe, es
un tiempo de interrupción por el Ejemplo 12.4.1a. Para referencia posterior, observamos que
S Na  a y
N a  k implica Sk  a (5.4)
Calcularemos la función generatriz de Na. Para t > 1, tenemos la identidad
404 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
 
E t X i  pt  qt 1
Sea  = (t) = pt + qt –1, y observe que (t) > 1 para t > 1. Se sigue del Ejemplo 12.2.1c que la
sucesión
t Sn
Yn  n  1,2,
n
es una martingala. Por (5.4), YNa  t a  Na  t a para t > 1, y Na > k implica Yk < ta/k  ta
para t > 1. Por lo tanto, las condiciones (4.6) son satisfechas, y se sigue del Teorema 12.4.2
que E( YN a ) = E(Y1) = 1. Puesto que S Na  a con probabilidad 1, tenemos
 
E   Na  t  a (5.5)
para t > 1. Ahora para 0 < s < 1, sea
t 1 
1
2qs

1  1  4 pqs2 
Entonces t es una solución del a ecuación pt + qt –1 = s, y es fácilmente verificado que t > 1.
Substitución en (5.5) ahora produce
a
 1  1  4 pqs2 
 
E s Na 
 2qs


(5.6)
 
para 0 < s < 1. Así hemos encontrado la función generatriz P(s) = E( s N a ), 0 < s < 1, de la
variable aleatoria Na.
La función generatriz P unívocamente determina la distribución de Na (Sección 8.4.1). Por
ejemplo, la esperanza de Na es E(Na) = P´(1). Después de algunos cálculos, encontramos
que E(Na) = a/(p  q) si p > ½ y E(Na) =  si p = ½.
Si a = 1, la función generatriz P puede ser expandida por el teorema binomial generalizado
(Sección 1.7) como
  1 12 
Ps      4 pq s 2 n1
n
n1 2q  n 
para 0 < s < 1, y se sigue que

MARTINGALAS 405
1  12 
Pr N1  2n  1    1n1 4 pqn
2q  n 
para n = 1, 2,. Para una a general, el resultado es
a  2n  a  n n  a
Pr N a  2n  a    p q
2n  a  n  a 
para n = 1, 2,. Omitimos los detalles. ////
12.6 LA DESIGUALDAD DE LA SUBMARTINGALA

Las técnicas usadas en los Ejemplos 12.5.1 y 12.5.2 se extienden a martingalas y
submartingalas arbitrarias, pero en general, ellas sólo producen desigualdades. Las
desigualdades (6.1) y (6.2a) de abajo son conocidas como las desigualdades de la
martingala y submartingala.
Teorema 12.6.1 Sea Y1, Y2, una submartingala no negativa con respecto a la
sucesión X1, X2,. Entonces

Pr maxYn  a 
n k
 1
a
E Yk  (6.1)
para cualquier a > 0 y cualquier k = 1, 2,.

PRUEBA Dados a y k, sea N el mínimo entero n, 1  n  k, para el cual Yn  a si
hay tal n, y sea N = k si tal n no existe (eso es, si Yn < a para n = 1,, k). Entonces N es
un tiempo de interrupción. Indudablemente, N  k < ; y para n = 1,, k  1, el evento
N = n ocurre si y sólo si Yn  a y Yj < a para j = 1,, n  1. El último evento está
determinado por Y1,, Yn, las cuales a su vez están determinadas por X1,, Xn. El
evento N = k es el complemento del evento N  k  1 y está por lo tanto determinado
por X1,, Xk-1; y el evento N = n es imposible para n > k.
Sea A el evento que el máx (Y1,, Yk) a. Entonces, por definición de N, A ocurre si y
sólo si YN  a. Por lo tanto, P(A)  a-1E(YN) por la desigualdad de Markov (Sección
9.1). Más aún, puesto que N es un tiempo de interrupción y N  k, E(YN)  E(Yk) por el
Teorema 12.4.1. La desigualdad (6.1) se sigue. ////
Corolario 12.6.1 Sea Y1, Y2, una martingala con respecto a la sucesión X1, X2,.
Entonces
406 LA DESIGUALDAD DE LA SUBMARTINGALA
 n k

Pr max Yn  a  a 1 E Yk  (6.2 a)
para a > 0 y k = 1, 2,. Si, además, E(Yk2) < , entonces
 
Pr max Yn  a  a 2 E Yk
n k
 
2
(6.2 b)
para a > 0.
PRUEBA La desigualdad (6.2a) es una consecuencia del Teorema 12.6.1 y el
Lema 12.3.3, el cual asegura que si Y1, Y2, es una martingala, entonces Y1, Y2, es
una submartingala. La prueba de (6.2b) es semejante. ////
EJEMPLO 12.6.1
La desigualdad (6.2b) contiene la desigualdad de Kolmogorov (Sección 11.6) como un caso
especial. Indudablemente, si X1, X2, son variables aleatorias independientes con
esperanzas E(Xk) = 0 y varianzas finitas E(Xk2) para k = 1, 2,, entonces Sn = X1 +  + Xn, n
= 1, 2,, define una martingala, así que
   
Pr max S n  a  a 2 E S k
n k
2
(6.3)
por (6.2b). Por supuesto, (6.3) es la desigualdad de Kolmogorov. ////

MARTINGALAS 407
12.7 PROBLEMAS
NOTA: Los resultados de la Sección requieren la independencia de los
resultados X1, X2,. Los problemas 12.1 a 12.5 muestran cómo construir
sistemas de juego los cuales trabajan cuando los resultados exhiben un tipo
particular de dependencia.1
Sea una muestra aleatoria ordenada de tamaño n extraída sin remplazo de
una urna que contiene n bolas rojas y n bolas blancas. Suponer también que
tú ganas el i-ésimo juego si la i-ésima bola extraída es roja y que tú pierdes
de otra manera. Suponer también que te es permitido apostar cualquier
cantidad entre 1 y 10 dólares en cada extracción.
12.1 Sea Xi = 1 si la i-ésima bola extraída es roja, y sea Xi = 1 de otro modo. Mostrar que
Pr (Xi = 1) = ½ = Pr (Xi = 1) para i = 1,, n. Eso es, cada juego es limpio.
12.2 Suponer n = 2 y considere la siguiente estrategia. Tu apuestas w1 = 1 dólar en la
primera extracción. Si la primera bola extraída es roja, entonces tu también apuestas
w2 = 1 dólar en la segunda extracción; pero si la primera bola extraída es blanca,
entonces tu apuestas w2 = 10 dólares en la segunda extracción. Mostrar que tus
ganancias esperadas son 1.5 dólares.
12.3 Para cualquier n, uno puede emplear la siguiente estrategia. Apueste w = 10 dólares
1
4 Una aplicación más práctica de estas ideas puede ser encontrada en H. O. Thorp, “Beat the Dealer,” Blaisdell, Nueva
York, 1962.
408 PROBLEMAS
en aquellas extracciones que son extraídas cuando la urna contiene más bolas rojas
que bolas blancas, y apueste w = 1 dólar en las otras extracciones. Calcule las
ganancias esperadas que resulten de esta estrategia para:
(a) n = 3 (b) n = 4 (c) n = 5
12.4 La estrategia del Problema 12.3 es, de hecho, óptima. Eso es, produce la ganancia
esperada más grande. Verificar esto en el caso n = 2.
12.5 Sean X1, X2, variables aleatorias independientes con media común  = 0. ¿Cuáles de
las siguientes sucesiones son martingalas con respecto a X1, X2,?
(a) Yn = Sn/n, n = 1, 2,
(b) Yn = Sn / n , n = 1, 2,
(c) Yn = X1 X2  Xn, n = 1, 2,
(d) Yn = exp Sn, n = 1, 2,
12.6 Sean Y, X1, X2, variables aleatorias con las siguientes propiedades. La variable
aleatoria Y tiene la distribución exponencial estándar, y para cualquier n = 1, 2, la
distribución condicional de X1,, Xn dado Y = y > 0 es esa de variables aleatorias
distribuidas exponencialmente, independientes con parámetro común y. Mostrar que
Yn = (n + 1 )/(1 + X1 +  + Xn) es una martingala con respecto a X1, X2,.
Sugerencia: Calcule la E(Y  X1,, Xn).
12.7 Sean X, X1, X2, variables aleatorias. Suponer que la variable aleatoria X tiene la
distribución normal con media  y varianza 2 y que dado X = x, X1, X2, son
variables aleatorias independientes distribuidas normalmente con media x y varianza
1. Mostrar que la variable Yn = ( -2 + Sn)/(n +  -2), n = 1, 2, es una martingala
con respecto a las variables X1, X2,.
12.8 Sean X1, X2, variables aleatorias independientes normal estándar, y sea Sn = X1 + 
+ Xn. Mostrar que para cualquier   R, Yn() = exp (Sn  (1/2)n2) es una
martingala con respecto a X1, X2,.
12.9 Sea Yn() como en el Problema 12.8, y sea H cualquier función de distribución sobre
R. Mostrar que

Yn   Yn  dH  

es una martingala con respecto a X1, X2,.

+ Xn para n  1. Mostrar que
MARTINGALAS 409
S n2
exp
Yn  2n  2
n 1
es una martingala con respecto a X1, X2,. Sugerencia: Aplique el Problema 12.9 con
H igual a la función de distribución normal estándar.
12.11 Sea N un entero positivo o una variable aleatoria valuada en infinito que está
determinada como una función de una sucesión X1, X2,. Suponer también que Pr (N
< ) = 1. Mostrar que N es un tiempo de interrupción con respecto a X1, X2, si y
sólo si el evento N  n está determinado por X1,, Xn para cada n = 1, 2,.
12.12 Sean M y N tiempos de interrupción con respecto a la misma sucesión X1, X2,.
Mostrar que mín (N,M) y máx (N,M) son también tiempos de interrupción con
respecto a X1, X2,.
12.13 Sean X1, X2, variables aleatorias independientes idénticamente distribuidas las
cuales toman los valores 1 y 1 con probabilidades p y q = 1  p, respectivamente:
¿cuáles de las siguientes variables aleatorias son tiempos de interrupción?
(a) N = mínima n  1 para la cual Xn = 1 ó  si tal n no existe.
(b) N = mínima n  1 para la cual Sn  10 ó  si tal n no existe.
(c) N = mínima n  1 para la cual Sn+1 = 0 ó  si tal n no existe.
Justifique sus respuestas.
12.14 Calcular E(SN) para la variable aleatoria N de la parte (a) en el Problema 12.13.
12.15 Sea Y1, Y2, una martingala, y sea N un tiempo de interrupción con respecto a la
sucesión X1, X2,. Suponer también que hay una constante b para la cual Pr (Yn  b)
= 1 para toda n = 1, 2,. Mostrar que E(YN)  E(Y1). Interprete su resultado en
términos de juego.
NOTA: Los Problemas 12.16 a 12.22 bosquejan una aplicación del teorema de la
interrupción opcional a la teoría de la renovación. Nosotros suponemos que los eventos
ocurren en el tiempo y que los tiempos entre eventos sucesivos son variables aleatorias no
negativas independientes e idénticamente distribuidos X1, X2,. Nosotros también
suponemos que X1 tiene una media  finita positiva. El tiempo en el cual el n-ésimo evento
ocurre es entonces Sn = X1 +  + Xn. Una aplicación particular es para la teoría de colas,
donde Sn es considerada como el tiempo en el cual el n-ésimo cliente entra a un negocio para
ser servido.
12.16 Sea t > 0 y N1 = mínimo entero positivo n para el cual Sn > t ó  si tal n no existe.
Así, Nt  1 eventos han ocurrido por el tiempo t. Mostrar que N es un tiempo de
410 PROBLEMAS
interrupción. Sugerencia: Pr (N > n) = Pr (Sn  t).

12.17 Mostrar que E(Nt) es finita para cualquier t > 0. Sugerencia: Dada t, hay un entero r
para la cual Pr (Sr > t) > 0; entonces Pr (N > nr)  Pr (Sr  t)n.
12.18 Mostrar que E(Nt)  t/. Sugerencia: Use el lema de Wald.
Suponer que hay una constante c para la cual Pr (X1  c) = 1. Mostrar que E(Nt)  (t + c)/.
12.20 La función V definida por V(t) = E(Nt) para t > 0 es conocida como la función de
renovación. Calcule V(t) en el caso especial donde X1 tiene la distribución
exponencial con parámetro  > 0.
Suponer que hay una constante c para la cual Pr (X1  c) = 1. Mostrar que V(t)  t -1 cuando
t  .
12.22 Mostrar que V(t) puede también ser escrita en la forma V t   n0 PrSn  t  .

12.23 Sea Y1, Y2, una martingala no negativa con esperanza común E(Yn) = 1. Mostrar que
Pr (Yk > a para alguna k  1)  1/a para a > 1.
+ Xn para n  1. Además, sea cn(a)2 = (n + 1)[a2 + log (n + 1)] para n  1. Mostrar que
Pr (Sn  cn(a), para alguna n  1)  e  a 2 . Sugerencia: Use los Problemas 12.23 y
2
12.10.
13
13 APÉNDICES
13.1 APÉNDICE A. TEORÍA DE CONJUNTOS

Un conjunto A es una colección de objetos o elementos a. La notación a  A significa que a
es uno de los elementos que constituyen A. Dos conjuntos son iguales si y sólo si ellos
contienen los mismos elementos. Eso es, A = B si y sólo si a  A si y sólo si a  B.
Definimos un conjunto especificando cuáles son elementos de A y cuáles no. Por ejemplo,
definimos un conjunto Z especificando que Z contiene todos los enteros no negativos.
Análogamente, definimos otro conjunto R especificando que R contiene todos los números
reales. La notación Z y R se reserva para estos dos conjuntos a través de este apéndice.
Algunos mecanismos notacionales útiles para especificar conjuntos son los siguientes. Si
a1,, an son objetos, entonces {a1,, an} denotará el conjunto cuyos elementos son a1,,
an. También, si A es un conjunto, y si (a) es una proposición que es verdadera o falsa para
cualquier a  A, entonces {a  A: (a)} denotará el conjunto de aquellos elementos a  A
para los cuales (a) es verdadera. Por ejemplo, {0,1,2,3,4} denota el conjunto cuyos
elementos son los enteros 0, 1, 2, 3, y 4. Este conjunto puede también ser escrito {a  Z: a 
4}. Usaremos la siguiente notación para intervalos. Para números reales a y b con a < b, sea
412 APÉNDICE A. TEORÍA DE CONJUNTOS
(a ,b)  {x  R : a  x  b}
(a ,b]  {x  R : a  x  b}
[a ,b)  {x  R : a  x  b}
[a ,b]  {x  R : a  x  b}
(a,b) será denominado el intervalo abierto de a a b; (a,b] será denominado el intervalo
abierto por la izquierda y cerrado por la derecha de a a b; [a,b) será denominado el intervalo
cerrado por la izquierda y abierto por la derecha de a a b; y [a,b] será denominado el
intervalo cerrado de a a b. Usamos (a,b) para denotar tanto al intervalo abierto desde a hasta
b como al par ordenado cuya primer componente es a y cuya segunda componente es b. El
significado de la notación (a,b) siempre será claro del contexto en la cual sea usada.
Si A y B son conjuntos, decimos que A es un subconjunto de B y escribimos A  B si y sólo
si a  A implica a  B. Por ejemplo, Z  R. Note que A = B si y sólo si A  B y B  A.
Hay un conjunto distinguido , denominado el conjunto vacío. Este conjunto no contiene
elementos y es subconjunto de cualquier otro conjunto.
Si A y B son conjuntos, entonces el conjunto B  A = {a  B: a  A} es denominado la
diferencia. Es también conocido como el complemento de A con respecto a B. Cuando no
hay peligro de confusión, la frase calificadora “con respecto a B” será omitida y escribiremos
A´ para B  A.
Si A y B son conjuntos, definimos su unión e intersección A  B y A  B como sigue: A  B
consiste de todos los objetos a para los cuales a  A ó a  B, o ambas; y A  B consiste de
todos los objetos a para los cuales a  A y a  B. La notación AB también será usada para A
 B. Por ejemplo, si A = {0,1,2,3,4} y B = {3,4,5,6,7}, entonces A  B = {0,,7} y A  B =
{3,4}.
En general, si I es un conjunto y si Ai es un conjunto para cada i  I, entonces definimos la
unión e intersección de la colección Ai, i  I, como sigue. La unión I Ai consiste de todos
los objetos a para los cuales a  Ai para algún i  I; y la intersección I Ai consiste de todos
los objetos a para los cuales a  Ai para toda i  I. Si I = 1, 2,, n es el conjunto de los
primeros n enteros, entonces escribiremos
n n
 Ai y  Ai
i 1 i 1
para I Ai e I Ai , respectivamente. Análogamente, si I = {1,2,} consiste de todos los

enteros positivos, entonces escribiremos i1 Ai e i1 Ai para I Ai e I Ai . Si hay un
conjunto más grande S para el cual Ai  S para toda i  I, y si denotamos el complemento
con respecto a S por una prima, entonces tenemos las leyes de De Morgan:
APÉNDICES 413
(  Ai )   Ai y (  Ai )   A
I I I I
Si A y B son conjuntos, definimos el producto cartesiano de A y B como el conjunto de todos

los pares ordenados (a,b) con a  A y b  B. El producto cartesiano será denotado por A  B.
Más aún, si A1,, An son conjuntos, entonces definimos el producto cartesiano de A1,, An
como el conjunto de todas las n-adas ordenadas (a1,, an) con ai  Ai para i = 1,, n. El
producto cartesiano de A1,, An será denotado por A1    An. En el caso especial en que
todos los conjuntos A1,, An sean el mismo, digamos Ai = A, i = 1,, n, denotaremos A1 
  An por An. Un caso especial importante ocurre cuando Ai = R, el conjunto de todos los
números reales, para i = 1,, n. En este caso Rn consiste de todas las n-adas ordenadas
(x1,, xn) de números reales. Referiremos a Rn como el espacio euclidiano n-dimensional.
414 APÉNDICE B. INTEGRACIÓN
13.2 APÉNDICE B. INTEGRACIÓN

En este apéndice presentamos la integral Riemann-Stieltjes. Puesto que la integral de
Riemann común es un caso especial de la integral Riemann-Stieltjes, este apéndice también
puede servir como una revisión de los elementos de integración. Pruebas de las
aseveraciones no probadas en este apéndice pueden encontrarse en Apóstol (1957), cap. 9.
Sean a y b números reales con a < b. Por una partición del intervalo [a,b] entendemos un
conjunto finito P = {x0,x1,,xn}, donde a = x0 < x1 <  < xn = b. Si P y Q son dos
particiones de [a,b], diremos que P es un refinamiento de Q si y sólo si Q  P. Si P1 y P2 son
cualesquiera dos particiones, entonces la unión P = P1  P2 es un refinamiento de ambas P1
y P2. Definimos la norma de una partición P para ser P = máx {xi  xi –1: i = 1,, n}.
Si para cualquier partición P de [a,b], s(P) es un número real que está determinado por P,
entonces diremos que s(P) converge a s0 cuando P se hace infinitamente fina si y sólo si para
cualquier  > 0 hay una partición P para la cual s(P)  s0   siempre que P sea un
refinamiento de P. En este caso escribiremos s0 = lim s(P).
Ahora sean F y g funciones acotadas que están definidas sobre [a,b,]. Si
P  {x0 , x1,, xn }
es una partición de [a,b,], y si xi –1  ti  xi para i = 1,, n, entonces podemos formar la suma

APÉNDICES 415
n
sF ( P, g )   g( ti )[ F ( xi )  F ( xi1 )]
i 1
Por supuesto, sF(P,g) depende de t1,, tn también como de F, P, y g. Si lim sF(P,g) existe
cuando P se hace infinitamente fina, y si el límite es independiente de la selección de t1,,
tn, entonces diremos que g es integrable (Riemann-Stieltjes) con respecto a F sobre [a,b,], y
definimos la integral (Riemann-Stieltjes) de g con respecto a F sobre [a,b,] para ser
a g dF  lim s F P , g 
b
(B.1)
La notación a g x  dF x  también será usada para la integral.

b
En el caso especial cuando F(x) = x para a  x  b, diremos que g es integrable sobre [a,b] y
escribiremos
a g x  dx  a g d F
b b
Puede ser demostrado que si g es continua y F es no decreciente sobre [a,b], entonces g es

integrable con respecto a F sobre [a,b]. En particular, si g es continua sobre [a,b], entonces g
es integrable sobre [a,b].
Los siguientes resultados son para ser anticipados.
Teorema B.1 Sean g1 y g2 integrables con respecto a F sobre [a,b], y sean 1 y 2
constantes. Entonces g = 1g1 + 2g2 es integrable con respecto a F sobre [a,b] y
a g dF  1 a g1 dF  2 a g 2 dF
b b b
Teorema B.2 Sea g integrable con respecto a F1 y F2 sobre [a,b], y sean 1 y 2

constantes. Entonces g es integrable con respecto a F = 1F1 + 2F2 sobre [a,b] y
a g dF  1 a g dF1   2 a g dF2
b b b
Teorema B.3 Sea g integrable con respecto a F sobre [a,b]. Si a < c < b, entonces g es
integrable con respecto a F sobre [a,c] y [c,b]. Además,
a g dF  a g dF  c g dF
b c b
Teorema B.4 Sea F no decreciente sobre [a,b], y sean g y h integrables con respecto
a F sobre [a,b]. Si g(x)  h(x) para a  x  b, entonces
a g dF  a h dF
b b
EJEMPLO B.1
a Sea F0(x) = 0 para x < 0, y sea F0(x) = 1 para x  0. Si a < 0 < b, y si g es cualquier
función continua sobre [a,b], entonces
a g dF  g 0
b
(B.2)
De hecho, dada  > 0, hay una  > 0 para la cual g(x)  g(y)   siempre que a  x  b,
a  y  b, y x  y  . Sea P cualquier partición de norma P  , y sea P cualquier
refinamiento de P. Escriba P = {x0, x1,, xn} y seleccione i de modo que xi–1 < 0  xi;
además, sea xi–1 < ti  xi para i = 1,, n. Entonces puesto que F(xj)  F(xj-1) = 0 para j 
i, tenemos s F0 P , g   g ti  ; más aún, puesto que ti  , también tenemos g(ti)  g(0)
 . Ecuación (B.2) se sigue.
b Sean 1,,n y t1,, tn cualesquiera constantes con a < t1 < t2 <  < tn < b.
Entonces la función F definida por
F ( x )   i F0 x  ti 
n
i 1
para a  x  b es una función escalera con saltos de altura i en los puntos ti para i =
1,, n. Por el Teorema B.2, Ejemplo B.1a, y traslación tenemos
a g dF   i g ti 
b n
i 1
para cualquier función continua g sobre [a,b]. ////
Diremos que F es continuamente diferenciable sobre [a,b] si F´ existe y es continua

sobre (a,b) y, en adición, F´(x) se aproxima a un límite finito cuando x  a ó x  b.
EJEMPLO B.2 Suponer que F es continuamente diferenciable sobre [a,b]. Sea f = F´. Si
g es cualquier función sobre [a,b] para la cual fg es integrable sobre [a,b], entonces g es
integrable con respecto a F sobre [a,b] y
APÉNDICES 417
a g dF a fg dx
b b
(B.3)
En particular, (B.3) se cumple si g es continua sobre [a,b]. De hecho, si P = {x0, x1,, xn} es
cualquier partición de [a,b], podemos escribir F(xi)  F(xi-1) = f(si)(xi  xi-1) con xi-1 < si < xi
para i = 1,, n por el teorema del valor medio. Así si xi-1  ti  xi, i = 1,, n, entonces
s F P , g    g t i  f si  xi  xi 1 
n
i 1
  f t i g t i  xi  xi 1    g t i  f si   f t i  xi  xi 1 
n n
(B.4)
i 1 i 1
Ahora cuando P se hace infinitamente fina, la primera sumatoria en (B.4) se aproxima a

b
a fg dx , por hipótesis, y la última converge a 0 por la supuesta continuidad de f. Por tanto,
lim s F P , g   a fg dx
b
Otros dos teoremas de interés dan las fórmulas para la integración por partes y cambio
de variables.
Teorema B.5 Sea g integrable con respecto a F sobre [a,b]. Entonces F es
integrable con respecto a g sobre [a,b], y
a g dF  a F dg  F bg b  F a g a 
b b
Teorema B.6 Sea g integrable con respecto a F sobre [a,b]. Además, sea h una
función creciente sobre un intervalo [,] con h() = a y h() = b. Finalmente, sean
f x   g hx  y Gx   F hx 
para   x  . Entonces f es integrable con respecto a G y


 f dG  a g dF
b
Corolario B.1 Sean las hipótesis del Teorema B.6 satisfechas con F(x) = x, a  x  b,
y sea h continuamente diferenciable sobre [,]. Entonces
a g dx   g hx hx  dx
b 
PRUEBA El corolario se sigue del Teorema B.6 y el Ejemplo B.2 tomando

F(x) = x, a  x  b. ////
Suponer que g tiene una discontinuidad infinita en un punto c y que g es integrable con
b
respecto a F sobre [a,b] para cualquier b < c. Si a g dF se aproxima a un límite finito
cuando b  c, y si F es continua en c, decimos que g es integrable impropiamente con
respecto a F sobre [a,c] para ser
a g dF  lim
c b
 g dF
bc a
(B.5)
b
La integral c g dF está definida análogamente cuando g tiene una discontinuidad infinita en
c, y g es integrable con respecto a F sobre [a,b] para cualquier a > c. Si g tiene una
c b
discontinuidad infinita en c, y si a g dF y c g dF están ambas definidas, donde a < c < b,
entonces decimos que g es integrable impropiamente sobre [a,b] y definimos la integral
impropia de g con respecto a F sobre [a,b] para ser
a g dF  a g dF  c g dF
b c b
Ahora extendemos la definición de la integral a intervalos infinitos de integración. Sea

g una función real que está definida sobre el intervalo [a,), y suponer que g es integrable
b
con respecto a F sobre [a,b] para cualquier b > a. Si a g dF se aproxima a un límite finito
cuando b  , decimos que g es integrable impropiamente con respecto a F sobre [a,), y
definimos la integral impropia de g con respecto a F sobre [a,) para ser

a g dF  blim
b

a
g dF (B.6)
a a
Integrales de la forma  g dF se definen de manera semejante. Si ambas  g dF y

a g dF están definidas, entonces decimos que g es integrable impropiamente con respecto
a F sobre (,) y definimos
 
 g dF   g dF  a g dF
a
(B.7)
APÉNDICES 419
Si g es integrable impropiamente con respecto a F sobre (,), entonces decimos que la
integral en el lado izquierdo de (B.7) converge absolutamente.
Los Teoremas B.1 a B.4 permanecen válidos si el término “integrable” es reemplazado
por “integrable impropiamente” a través de ellos. Esto puede ser visto tomando límites.
420 APÉNDICE C. TABLAS
13.3 APÉNDICE C. TABLAS
Tabla C.1 LAS PROBABILIDADES BINOMIALES b(k;n,p)

p
n k 0.10 0.20 0.30 0.40 0.50
2 0 0.810 0.640 0.049 0.360 0.250
1 0.180 0.320 0.420 0.480 0.500
2 0.010 0.040 0.090 0.160 0.250
3 0 0.729 0.512 0.343 0.216 0.125
1 0.243 0.384 0.441 0.432 0.375
2 0.027 0.096 0.189 0.288 0.375
3 0.001 0.008 0.027 0.064 0.125
4 0 0.656 0.401 0.240 0.130 0.063
1 0.292 0.401 0.412 0.346 0.250
2 0.049 0.154 0.265 0.346 0.375
3 0.004 0.026 0.076 0.154 0.250
4 0.000 0.002 0.008 0.026 0.063
5 0 0.590 0.328 0.168 0.078 0.031
APÉNDICES 421

p
n k 0.10 0.20 0.30 0.40 0.50
1 0.328 0.410 0.360 0.259 0.156
2 0.073 0.205 0.309 0.346 0.313
3 0.008 0.051 0.132 0.230 0.313
4 0.000 0.006 0.028 0.077 0.156
5 0.000 0.000 0.002 0.010 0.031
6 0 0.531 0.262 0.118 0.047 0.016
1 0.354 0.393 0.303 0.187 0.094
2 0.098 0.246 0.324 0.311 0.234
3 0.015 0.082 0.185 0.276 0.313
4 0.001 0.015 0.060 0.138 0.234
5 0.000 0.002 0.010 0.037 0.094
6 0.000 0.000 0.001 0.004 0.016
7 0 0.478 0.210 0.082 0.028 0.008
1 0.372 0.367 0.247 0.131 0.055
2 0.124 0.275 0.318 0.261 0.164
3 0.023 0.115 0.227 0.290 0.273
4 0.003 0.029 0.097 0.194 0.273
5 0.000 0.004 0.025 0.077 0.164
6 0.000 0.000 0.004 0.017 0.055
7 0.000 0.000 0.000 0.002 0.008
8 0 0.430 0.168 0.058 0.017 0.004
1 0.383 0.336 0.198 0.090 0.031
2 0.149 0.294 0.296 0.209 0.109
3 0.033 0.147 0.254 0.279 0.219
4 0.005 0.046 0.136 0.232 0.273
5 0.000 0.009 0.047 0.124 0.219
6 0.000 0.001 0.010 0.041 0.109
7 0.000 0.000 0.001 0.008 0.031
8 0.000 0.000 0.000 0.001 0.004

p
n k 0.10 0.20 0.30 0.40 0.50
9 0 0.387 0.134 0.040 0.010 0.002
1 0.387 0.302 0.156 0.060 0.018
2 0.172 0.302 0.267 0.161 0.070
3 0.045 0.176 0.267 0.251 0.164
4 0.007 0.066 0.172 0.251 0.246
5 0.001 0.017 0.074 0.167 0.246
6 0.000 0.003 0.021 0.074 0.164
7 0.000 0.000 0.004 0.021 0.070
8 0.000 0.000 0.000 0.004 0.018
9 0.000 0.000 0.000 0.000 0.002
10 0 0.349 0.107 0.028 0.006 0.001
1 0.387 0.268 0.121 0.040 0.010
2 0.194 0.302 0.233 0.121 0.044
3 0.057 0.201 0.267 0.215 0.117
4 0.011 0.088 0.200 0.251 0.205
5 0.001 0.026 0.103 0.201 0.246
6 0.000 0.006 0.037 0.111 0.205
7 0.000 0.001 0.009 0.042 0.117
8 0.000 0.000 0.001 0.011 0.044
9 0.000 0.000 0.000 0.002 0.010
10 0.000 0.000 0.000 0.000 0.001
APÉNDICES 423
Tabla C.2 LAS PROBABILIDADES POISSON p(k;)


k 0.5 1 2 3 4 5
0 0.607 0.368 0.135 0.050 0.018 0.007
1 0.303 0.368 0.271 0.149 0.073 0.034
2 0.076 0.184 0.271 0.224 0.147 0.084
3 0.013 0.061 0.180 0.224 0.195 0.140
4 0.002 0.015 0.090 0.168 0.195 0.175
5 0.003 0.036 0.101 0.156 0.175
6 0.001 0.012 0.050 0.104 0.146
7 0.003 0.022 0.060 0.104
8 0.001 0.008 0.030 0.065
9 0.003 0.013 0.036
10 0.001 0.005 0.018
0.002 0.008
0.001 0.003
0.001
Tabla C.3 LA FUNCIÓN DE DISTRIBUCIÓN NORMAL ESTÁNDAR

x (x) x (x) x (x)
0.00 0.500 1.05 0.853 2.05 0.980
0.05 0.520 1.10 0.864 2.10 0.982
0.10 0.540 1.15 0.875 2.15 0.984
0.15 0.560 1.20 0.885 2.20 0.986
0.20 0.579 1.25 0.894 2.25 0.988
0.25 0.599 1.30 0.903 2.30 0.989
0.30 0.618 1.35 0.911 2.35 0.991
0.35 0.637 1.40 0.919 2.40 0.992
0.40 0.655 1.45 0.926 2.45 0.993
0.45 0.674 1.50 0.933 2.50 0.994
0.50 0.691 1.55 0.939 2.55 0.995
0.55 0.709 1.60 0.945 2.60 0.995
0.60 0.726 1.645 0.950 2.65 0.996
0.65 0.742 1.70 0.955 2.70 0.997
0.70 0.758 1.75 0.960 2.75 0.997
0.75 0.773 1.80 0.964 2.80 0.997
0.80 0.788 1.85 0.968 2.85 0.998
0.85 0.802 1.90 0.971 2.90 0.998
0.90 0.816 1.95 0.974 2.95 0.998
0.95 0.829 1.96 0.975 3.00 0.999
1.00 0.841 2.00 0.977
APÉNDICES 425
13.4 APÉNDICE D. REFERENCIAS

APOSTOL, T.: ”Mathematical Analysis,” Addison-Wesley, Reading, Mass., 1957.
ARROW, K., S. KARLIN, y H. SCARF (eds.): “Studies in the Mathematical Theory of Inventory
and Production,” Stanford University Press, Stanford, Calif., 1958.
_____, _____, y _____ (eds.): “Studies in Applied Probability and Management Science,” Stanford
University Press, Stanford, Calif., 1962.
BEYER, W.: “CRC Handbook of Tables for Probability and Statistics,” Chemical Rubber,
Cleveland, 1966.
BLACKWELL, D., y M. GIRSHICK: “Theory of Games and Statistical Decisions,” Wiley, New
York, 1954.
BALCKWOOD, O., T. OSGOOD, y A. RUARK: “An Outline of Atomic Physics,” Wiley, New
York, 1957.
COCHRAN, W. G.: “Sampling Techniques,” Wiley, New York, 1963.
CONSTANT, F. W.: “Theoretical Physics,” Addison-Wesley, Reading, Mass., 1958.
DAVID, F. N.: “Games, Gods, and Gambling: The Origins and History of Probability and Statistical
Ideas from the Earliest Times to the Newtonian Era,” Hafner, New York, 1962.
DE FINETTI, B.: Probabilidad: Interpretación en “International Encyclopedia of the Social
Sciences,” vol. 12, pp. 496-504, Free Press, New York, 1968.
DEGROOT, M. H.: “Optimal Statistical Decisions,” McGraw-Hill, New York, 1970.
426 APÉNDICE D. REFERENCIAS
ESTES, W. K.: El Enfoque Estadístico a la Teoría del Aprendizaje, en S. Koch (ed.), “Psychology:
A Study of Science,” vol. 2, McGraw-Hill, New York, 1959.
FELLER, W.: “An Introduction to the Theory of Probability and Its Applications,” vol. 2, Wiley,
New York, 1966.
_____: “An Introduction to the Theory of Probability and Its Applications,” 3a ed., vol. 1, Wiley,
New York, 1968.
HOGG, R., y A. CRAIG: “Introduction to Mathematical Statistics,” Macmillan, New York, 1970.
KARLIN, S.: “A First Course in Stochastic Processes,” Academic, New York, 1966.
NEVEU, J.: “Mathematical Foundations of the Calculus of Probability,” trans. A. Feinstein, Holden-
Day, San Francisco, 1965.
PARZEN, E.: “Modern Probability Theory and Its Applications.” Wiley, New York, 1960.
RIORDEN, J.: “An Introduction to Combinatorial Analysis,” Wiley, New York, 1958.
RUDIN, W.: “Principles of Mathematical Analysis,” 2a ed., McGraw-Hill, New York, 1964.
SELBY, S.: “Standard Mathematical Tables,” 14ava ed., Chemical Rubber, Cleveland, 1965.
SMOKLER, H. E., y H. E. KYBURG, JR. (eds.): “Studies in Subjective Probability,” Wiley, New
York, 1964.
THOMAS, G. B., JR.: “Calculus and Analytical Geometry,” alt. Ed., Addison-Wesley, Reading,
Mass., 1972.
TODHUNTER, I.: “A History of the Mathematical Theory of Probability from the Time of Pascal to
That of Laplace,” Macmillan, London, 1865.
TUCKER, H.: “A graduate Course in Probability,” Academic, New York, 1967.
APÉNDICES 427
13.5 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS

Capítulo 1
1.1 (a) S  (H, H ),( H, T),(T,H), (T,T);

S  {( H, H, H), (H, H, T),(H, T,H), (T,H, H), (T,T,H), (T,H, T),(H, T,T),(T,T,T)};
(c) S  x, y  : x y y son enteros,1  x  52,1  y  52, y x  y

1.2 (a) 4;8, (c) 52  51 = 2652 1.4 3 1
;
8 2
10 
1.6 264 1.8 (a) 107, (b) (10)7 1.10  
2
10 9 (4) 2 (13) 2 13(4) 2 4(13) 2
1.14 (a)  , (b) 10  1.20 (a) ,(b) , (c ) ,(d )
4  3 (52) 2 (52) 2 (52) 2 (52) 2
1.24 No; la probabilidad que al menos un estudiante será seleccionado más de una vez es 1 
(10)5  105 = 0.6976.
 4  48  4  48  4  48  4  48
             
1.26 (a)  2  11 
, (b)         
2 11 3 10 4 9
 52  52
   
 13   13 
428 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS
 6  4   6  4   6  4 
13
         
1.28
4
1.32 (a)  2  1 
, (b)      
2 1 3 0
 52  10 10
     
 13  3 3
5
2 3
1.40    2
1
1.34 17
70  
  2 
2 3
 5 2 3
 13 39
13  394 (4) 2  2 1  (4) 3
1.42 (a)   5 , (b)
2 (4)
1.44 , (b) , (c ) 3
52 525 (6) 3 (6) 3 (6) 3
1.46 Al menos 1 seis en 6 lanzamientos 1.48 (a) 161 , (b) 165

 5  5   5  m  r  1 n  m  k  r  1
  4      
  k r 
1.50 (a)   , (b)     
3 2 3 r
1.52
9 9 9  n  k  1
       
 6  6  6  k 
Capítulo 2
2.2 (a) S  [0,)  {x  R : 0  x  }, (b) S  (0,)

2.7 (a) AB  C, (b) A  ( B  C), (c) ( A  B)  AB, (d ) A  [(B  C)  BC]
2.10 e 1 ; (2.5)e 1 2.12 4 1
;
5 10 2.14 (a) 101 , (b) 53
1
 14
e4  e
2.16 2.20 1
e 1
 90  90 10 90
       
2.24 1   10 
, (b) 1      
10 1 9
100 100
   
 10   10 
2 j 1
2.26 (39) 2 (52) 21  (39)8 (52)81 2.28
36
1
13  52
2.30 1   4 5   2.32 54%
5  5
APÉNDICES 429
 13 13 39   39 
4      4 
 k 7 k 13  k    13 
2.34 2.40
 52  52 
   
 13   13 
2
13 39  4 13  26
4        
2.42       1
6 7 2 6
 52
 
 13 
Capítulo 3
 4 2 4  6  4 k
 4   4
3 2 (5) 2 3 2 (5) 2  2  , (b) k  2 k ,2,4  k 
3.2 (a) , (b) 3.4 (a) 4
(8) 3 (8) 3 5 6 6
  5 6k
k  2 k 
13 10 
   
5 2 20
3.6 3.8 3.12
 26   47 
45
   
5 2
 4
 
3.16  
1
3.18 (a) 0.75, (b) 0.25
4  4
  
k 1  k 
13 13 39 9  n  k 1

4   4    3
3.20     
5 4 1 47
3.24 (a) k 1 , (b)  n 1
4 k
 52 3 4
 
5 para k  1 y n  1
3.38 k 1
6
k2 2
3.36 0.38, (b) 0.38 3.40 7
441
3.42 P( A )  0 o 1 3.44 A y B son independientesen (a)
5
3.48 9
Capítulo 4
4 k 8 k
 4  5   13   8  3   1 
k k
4 8
4.2       4.6        0.6785
k  2 2  18   18  k 6 k  4   4 
10 10 10 
4.8  (0.85) 8 (0.15) 2 , (b)   (0.85) k (0.15)10k  0.95
8 k  7 k 
4!  n  k   n  k 1
4.10 4.12  2 para k  n
44  n 
 6  6  6  1   1 
4 2
4.13 1 1 1
; ;
4 2 4
4.14  2 4.15     
 3  2,2,2  4   2 
4.22 (r  1) / (k  1) 4.24 1  10
k 0 p(k ;2  5)
4.30 n  96
4.34 Sí; si el dado estuviera balanceado, la probabilidad de obtener al menos 2500 ases sería
aproximadamente 1  (1225) < 0.001.
Capítulo 5
1 1
5.4  arcsen 0.5
2 
5.5 X (s1 , s 2 )  s12  s 22 , (b)Pr ( X  r )  r 2
13(39) x 1
 x  1,2, ,40
5.10 f ( x)   (52) x
 0 de otro modo
 1
 x  1,2,
5.14 f ( x)   x( x  1)
log 100
5.16 0.328;al menos 5.18 2.5e 1 5.24 (a) c  83 , (b) c  12
 log 0.8
1
5.30 (arctan3  arctan1) 5.32 (a) 0.3, (b) 0.3

0 x0  1
  0  x 1
5.40 F ( x)   x  0  x  1 5.42 f ( x)   2 x
 1 x 1  0 de otro modo

APÉNDICES 431
5.44 P( X  1)  0.08; P( X  2)  0.323

 1
5.48 a  480.4; b  519.6 5.54 m
 1
Capítulo 6
6.6 (b) g ( x)  xe  x para x > 0 y g(x) = 0 para x  0, h( y)  e  y ,  y   ,

(c) no, X y Y no son independientes.
6.9 No 6.14 Pr (X = a, Y = b)
6.18 X tiene la función de distribución Cauchy unidimensional, y (X,Y) tiene la función de
distribución Cauchy bidimensional.
12(1  x) 2 0  w  x  1
6.22 (a) g (w, x)  
0 de otro modo
12 y 2 0  y  z  1
h( y , z )  
0 de otro modo
(b) no
6.24 (a) Multinomial con parámetros n y p1 ,, p6 , (b) binomial con parámetros n y
p1  p2  p3 , (c) multinomial con parámetros n y p1  p2  p3 , p4 , p5 , p6 .
1
6.32 2
Capítulo 7
 1
 1 x 1
7.5 Tanto Y como Z tienen densidad f ( x)   1  x 2
 1 1 /  1
 x 0  x 1
7.6 f ( x)  
7.8 ( X ) tiene la distribución uniforme sobre (0,1)

1 1  1 y  2   y
7.10 g ( y)  exp  cosh
 y0
 2y  2 
2
 2
7.14 g ( y)  (e  1)e  y , y  0,1,2,

7.20 f1 ( y)  neny , y  0; f 2 ( y)  ne y (1  e  y ) n1 , y  0 ;

f ( y1 , y 2 )  n(n  1)(e  y1  e  y2 ) n2 e  y1  y2 , 0  y1  y 2  
7.24 g ( y)  1  y ,  1  y  1
Capítulo 8
161
8.2 0 8.4 36 8.6 1
8.8 k/(n + 1) 8.12 0; 12
8.16 (a) k/n, (b) n(1  1/n)k 8.20 1

4
8.22  1 kj 1 ( N  j  1) 1 8.24   0;  2  2 2

 
  1 (     1 )
8.26 (a)      1 (b)  2  para   2
  0   1 (   1 )2 (   2 )
n 1 2 2(n  1)
8.28   ;  8.30  2
n 1 (n  2)(n  1) 2
 i2
8.32  i  n 2 8.34 1  e 1 8.36 Marca A
 j 1 j
q p 1  6 pq 1 1
8.42 (a) s  ;k  , (b) s  ; k  , (c) s  0; k  1.2 ,
nqp npq  
(e) s  2; k  6
2
8.44 (a) M (t )  ,  t   8.46 Pr (X = 1) = 1
= Pr (X = 1)
 t
2 2 2
1  2
8.50 f ( x)  (e   2 x  e  1x ) para x  0
1   2
(a) f k  (n) k p k , (b) f k  k!q k 1 p k , (c) f k   k

(n  1) j 1  2  2
8.56 8.58  12 8.62
j 1  2  2
Capítulo 9
100 pq
9.2 (a) Pr ( X  p  0.1)  , (b) n  500
n
APÉNDICES 433
9.16 0.996
  n 
9.18 (a) Pr ( X  p  0.1)  21 -  0.1  , (b) n  96
  pq 
9.20 0.774
9.22 lim Pr (Z n  z)  1  e  z para z  0
n
Capítulo 10
1
10.4 Pr ( X  x Y  y)  , x  y  1, , 2 y
y
1 1 y2
10.6 g ( x y)  ,  x
2  1 x 2
 y2 3
(   ) x  1 (1  x  y )  1
10.8 g ( x y)  , para 0  x  1  y  1
( )( ) (1  y )  1
10.10 (a) normal con media (½)z y varianza ½, (b) normal con media x y varianza 1.
(   )(   y  1)
10.12 h( y )  para y  1, 2,
(  )(    y )
  (  y)
10.14 h( y )  para y  0,1, 2,
y!( )(1   )  y
1
10.16 h( y )  para 0  y  
2 max (1, y ) 2
10.18 g ( x y)  2 max (1, y) 2 / x 3 para x  max (1, y)
arcsen 0.5
10.20 Sea   ; la distribución condicional de X es uniforme sobre el conjunto
4
finito {, (1/4)   , (½ ) +  , (3/4)  }.
10.22 1  x2 10.26 (y + 1)2- y  y2  y  1
 (1  x)  (1  x) 2 mz
10.28 ; 10.30
   (    ) 2 (     1) mn
  2 D(Y )
10.32 ; 10.36 a  r ; b  E (Y )  aE( X )
  1 (  1) 2 (  2) D( X )
10.38 (N  x1    xm)s y (N  x1    xm)s(1  s),

q1
donde s 
q1    q n
rk  r1  r2
10.40 k´p y k pq , donde r = r1 +  + rn, p  yq=1p
r 1 r
1
10.42 h( y1 , y 3 y 2 )  para 0  y1  y 2  y 3  1
y 2 (1  y 2 )
y 
10.46  ( y)  ;
  t  (  t)
2
10.48  ( y ) 
y2
 2  ny
10.50  ( y) 
 2  n
13
ÍNDICE
ÍNDICE
Análisis combinatorio .........................3–10 e independencia ................ 186, 270, 271
Aprendizaje Coeficientes binomiales ..... 8, 9, 16, 32, 33
teoría matemática de ...........................97 generalizados ...................................... 33
Arrow, K. ......................................277, 425 Coeficientes multinomiales .................... 10
Asimetría ...............................................282 Combinaciones ................. 4, 6, 10, 38, 282
Biometrika ...............................................34 Combinaciones de Eventos .............. 59–62
Blackwell, D. ................................347, 425 Conjuntos de Borel ........................... 49, 52
Bridge7, 10, 39, 42, 71, 78, 95, 99, 103, Control de calidadVéase Muestreo de
106, 127 aceptación
Caminatas aleatorias .......................353–54 Convergencia
Centro de gravedad ...............................281 con probabilidad uno308, 363, 364, 365,
Cochran, W. G. .....................................425 367, 368, 373, 374, 375, 376, 377,
Cociente señal-a-ruido ..........................281 384, 385, 404
Cocientes de variables aleatorias240, 246, en probabilidad ......................... 289, 367
224–25 Convergencia con probabilidad uno ... 365–
Coeficiente de correlación ..............268–74 68
de valor absoluto uno271, 273, 308, Convergencia en probabilidad ........ 367–68
322, 328 Convoluciones ...................... 214, 216, 217
436 ÍNDICE
Convoluciones de densidades ......... 215–16 Diferencias

Convoluciones de funciones de masa . 214– de eventos: .... Véase Eventos, álgebra de
17 de variables aleatorias ................ 224–26
Covarianza ............ 268, 269, 270, 274, 284 Distribución beta
Craig, A. ....................................... 236, 426 densidad ...................................... 149–51
Curtosis ................................................. 282 media y varianza .............................. 258
David, F. N. .................................... 34, 425 moda ................................................. 164
De Finetti, B. .................................. 66, 425 momentos ......................................... 259
Degroot, M. H. ........................ 66, 347, 425 relación a la distribución binomial ... 213
Densidades relación a la distribución gama .. 222–23
bivariadas .......... 177, 178, 181, 184, 185 y estadísticos de orden ..................... 213
condicionales .................... 314, 334, 335 Distribución beta-binomial320, 332, 340–
convoluciones de .............................. 215 41
e independencia .......................... 185–87 Distribución binomial
marginales184, 186, 191, 198, 199, 200, aproximación normal ................... 22–23
222, 223, 225, 231, 241, 313, 314, aproximación Poisson .................. 101–3
315, 316, 320, 322, 323, 324, 325, derivación ..................... 116–26, 110–13
333, 335, 336, 339, 181–83, 190–91 función generatriz de momentos ...... 265
multivariadas, conjunta ..................... 189 función masa .................................... 141
Sucesiones consistentes de ......... 393–94 media y varianza .............................. 265
univariadas .................. 178, 382, 143–45 miscelánea ............................ 171, 103–4
Dependencia Markoviana ..................... 347 moda ................................................. 173
Descomposición radioactiva112, 280, relación a la distribución
195–96, 232–36 hipergeométrica ................ 26, 42, 328
vida media................................. 163, 233 tablas para ........................................... 25
Descomposición radioactiva: ............ Véase Distribución binomial negativa
Distribución exponencial; Distribución derivación ..................................... 107–9
gama; Distribución Poisson función generatriz de momentos ...... 260
Desigualdad de Chebyshev285, 286, 290, media y varianza .............................. 261
292, 293, 296, 308, 310, 368, 285–87 relación a la distribución gama ........ 131
Desigualdad de Kolmogorov368, 374, Distribución Cauchy
406, 368–69 bivariada ........................... 198, 350, 431
Desigualdad de Levy ...... 369, 378, 369–72 densidad .... 146, 158, 198, 200, 238, 348
Desigualdad de Markov285, 286, 287, función de distribución ..................... 157
308, 405 no existencia de la media ................. 245
Desigualdad de Minkowski .................. 279 Distribución Dirichlet
Desigualdad de Schwarz270, 279, 280, densidad ............................................ 200
293, 400 densidades condicionales ................. 349
Desviación estándar254, 257, 281, 296, densidades marginales ...................... 200
297 media y varianza condicional ........... 350
ÍNDICE 437
relación a la distribución gama .........241 Distribución logística ................... 173, 174

Distribución doble exponencial ............174 Distribución multinomial
como distribución de valor extremo .307 derivación ......................................... 284
Distribución exponencial distribuciones condicionales............. 334
como una distribución gama .............149 distribuciones marginales ................. 201
densidad ............................................146 función masa ............................. 190, 193
función de distribución .....................157 Distribución normal
función generatriz de momentos .......262 bivariada
media y varianza ...............256, 258, 262 coeficiente de correlación ............. 272
relación a la distribución Poisson .....159 funciones de distribución condicional
y descomposición radioactiva ...........159 .................................................. 322
Distribución exponencial bilateral univariada
densidad ....................................171, 226 función generatriz de momentos .. 300
función generatriz de momentos .......282 media y varianza ................... 252, 256
media y varianza .......................278, 280 relación a la distribución Cauchy . 240
relación a la distribución exponencial tablas ..................... 114, 119, 161, 424
.......................................................225 y transformaciones ortogonales .... 230
Distribución exponencial: ................. Véase Distribución Pareto ....................... 173, 280
Distribución gama Distribución Poisson
Distribución gama aproximación normal ........................ 131
media y varianza .......................256, 262 función masa ..................................... 159
Distribución geométrica relación a la distribución binomial ... 348
derivación ............................................23 tablas ......................................... 111, 423
función de distribución .....................155 y descomposición radioactiva .......... 143
función masa .............................142, 146 Distribución t ................................ 232, 424
Distribución geométrica:................... Véase Distribución uniforme
Distribución binomial negativa absolutamente continua
Distribución hipergeométrica densidad ........................................ 146
media y varianza ...............................274 función de distribución ................. 156
multivariada media y varianza ................... 245, 256
condicional ....................................335 relación a la distribución exponencial
relación a la distribución binomial....313 .................................................. 209
tablas ...................................................16 sobre un círculo .... 179, 184, 314, 322
Distribución ji-cuadrada sobre una esfera ............................ 241
densidad ............................................149 discreta ...................................... 141, 155
relación a la distribución normal .....210, Distribución Zipf .................................. 170
242 Distribuciones
Distribución ji-cuadrada: .................. Véase absolutamente continuas................... 147
Distribución gama conjuntas177, 178, 179, 180, 181, 183,
Distribución log normal ........................237 186, 188, 189, 199, 201, 210, 221,
438 ÍNDICE
222, 241, 320, 339, 351, 353, 381, 194, 205, 317, 322, 328
399 ni discretas ni absolutamente continuas
de un vector aleatorio ............... 187, 189 .............................. 154, 162, 168, 246
Ecuación de renovación ........................ 383 simétricas .......................................... 371
Encuestas de opinión .................. 11, 21, 26 Funciones indicadoras134, 169, 201, 285,
y muestreo estratificado .................... 274 296, 398
Ensayos repetidos ................................... 91 Funciones lineales de variables aleatorias
y la distribución binomial ................. 101 distribución de .................................. 157
y la distribución binomial negativa .. 107 esperanza de ..................... 254, 269, 341
Esperanza ...................... 243, 249, 311, 327 función generatriz de momentos de 262,
como una integral ............................. 279 300
infinita ............................................... 246 mediana y moda ............................... 173
linealidad .................................. 251, 329 Funciones masa
monotonicidad .......................... 251, 329 bivariadas ......................... 177, 179, 181
Esquema de la urna de Polya condicionales311, 318, 320, 321, 322,
como una martingala ........................ 394 327, 334, 343, 348, 352
Estadística de Bose-Einstein ..... 29, 41, 279 conjuntas177, 179, 181, 182, 183, 184,
Estadística Maxwell-Boltzman ....... 29, 279 185, 188, 190, 192, 198, 251, 253,
Estadísticos de orden 327, 330
de una distribución exponencial ....... 234 marginales ........................................ 190
Estes, W. K. .................................... 97, 426 multivariadas .................................... 188
Eventos Hogg, R. ....................................... 236, 426
combinaciones de ............................. 284 Independencia
independencia de ...................... 362, 383 condicional ....... 335, 336, 343, 344, 352
Eventos: ........... Véase Teoría de conjuntos de eventos84, 85, 86, 87, 88, 99, 101,
Expansión decimal .................... 69, 85, 384 107, 117, 192, 200, 201, 362, 363,
Feller, William34, 35, 236, 277, 291, 301, 378
302, 303, 307, 310, 347, 380, 384 de variables aleatorias185, 200, 353,
Fermi-Dirac estadística ..................... 29, 41 362, 383, 393, 396
Fórmula de Stirling33, 34, 42, 122, 131, por pares ....................... 86, 87, 192, 201
152, 362 Integral Riemann-Stieltjes Véase Integrales
Función de pérdida ............................... 338 Interpretación frecuentista
Función inversa de esperanza ..................................... 290
valuada en un conjunto ..................... 137 Interpretación subjetiva
valuada en un punto .......................... 204 consistencia ........................................ 47
Funciones de distribución de probabilidad condicional ............... 74
condicionales ............ 318, 322, 328, 333 Juegos, limpio, favorable, desfavorable299
de un par aleatorio: ....... Véase conjuntas Karlin, Samuel.............. 277, 347, 425, 426
de una variable aleatoria ................... 154 k-etas ordenadas ..................... 4, 5, 7, 8, 11
discretas139, 140, 141, 154, 155, 174, Kyburg, H. E. ................................. 66, 426
ÍNDICE 439
Máximo y mínimo cartesiano ...... 91, 92, 177, 324, 338, 413
convergencia en probabilidad de ......289 Promedio móvil .................................... 295
Máximo y mínimo:Véase Estadísticos de Rango, el ............................................... 226
orden; Rango Regresos al origen ................................ 383
Mecánica estadística ...............................29 como tiempos de interrupción .......... 397
Media Riorden, J. ....................................... 35, 426
condicional ........................................332 Scarf, H. ........................................ 277, 425
y la desigualdad de Chebyshev .........286 Si X tiene la distribución binomial con
Media: ..............................Véase Esperanza parámetros n y p, Distribución binomial
Mediana.................................................281 función de distribución1, 4, 7, 11, 12,
Mínimo ............... Véase Máximo y mínimo 13, 14, 15, 17, 19, 20, 21, 22, 29, 32,
Momento de inercia ..............................281 36, 37, 38, 39, 40, 41, 44, 46, 47, 48,
Momentos .............................................258 58, 67, 68, 70, 77, 80, 83, 84, 85, 91,
central ................................................282 95, 97, 103, 119, 125, 129, 130, 134,
factorial .............................................283 143, 144, 155, 156, 157, 158, 169,
Muestreo 171, 178, 180, 181, 185, 186, 187,
con y sin reemplazo ............................12 192, 198, 199, 200, 201, 208, 216,
estratificado .........................................87 223, 241, 244, 245, 252, 256, 258,
ordenado y desordenado11, 12, 13, 14, 265, 274, 276, 277, 281, 282, 283,
22, 23, 24, 25, 38, 40, 42, 57, 58, 75, 288, 295, 301, 305, 310, 328, 333,
77, 84, 87, 94, 102, 198, 274, 407 334, 340, 342, 349, 356, 357, 358,
Muestreo de aceptación ....................11, 18 359, 377, 378, 379, 382, 383, 392,
Neveu, Jacques66, 160, 347, 381, 401, 426 397, 400, 402, 403, 408, 409, 410,
Parámetros.............................................141 412, 413, 415, 418, 427, 431, 432
localidad y escala ..............................158 Sigmas álgebras .............................. 69, 170
Parzen, Emanuel ...................277, 307, 426 Smokler, H. E. ................................ 66, 426
Permutaciones .......................................4, 7 Submartingalas390, 391, 394, 395, 398,
Póquer3, 7, 11, 17, 18, 20, 38, 39, 70, 71, 405, 406
95 desigualdad para ............................... 405
Predicción .............................127, 254, 268 Suma de variables aleatorias
Probabilidad independientes
clásica ....................................................2 media y varianza de .......................... 257
condicional ........................................333 Suma de variables aleatorias
continuidad de .....................................64 independientes:Véase Teorema del
medida .................................................50 límite central; Leyes del logaritmo
Problema de la fosforera de Banach .....128 iterado; Leyes de los grandes números
Problema del colector de cupones ..........11 Sumas de potencias de enteros ................. 8
Problema del día de nacimiento ........15, 31 Teorema binomial ............................... 8, 38
Problemas de apareamiento ....................71 generalizado ........................................ 33
Producto Teorema de consistencia de Kolmogorov
440 ÍNDICE
.......................................................... 381 Teorema multinomial ............................. 10

Teorema de renovación ........................ 409 Thorp, H. O. ......................................... 407
Teorema del límite centralVéase Teoremas Todhunter, I. ................................... 34, 426
de DeMoivre-Laplace; Teorema de Transformada de Laplace ..................... 277
Lindeberg-Feller Tucker, H. ....................................... 66, 426
ÍNDICE 441
442 ÍNDICE

Probabilidad Con Aplicaciones

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad Con Aplicaciones

Cargado por

Copyright:

Formatos disponibles

PROBABILIDAD

UNIVERSIDAD AUTÓNOMA CHAPINGO

NOTA DEL TRADUCTOR

El propósito de la traducción de este libro es proporcionar a los estudiantes de la licenciatura

Nota del Traductor ................................................................................................................. v

2.6 Problemas .................................................................................................................. 67

6.4 Ejemplos .................................................................................................................. 194

10.5 Teoría de Decisión ............................................................................................... 338

Este libro se ha desarrollado de varios diferentes cursos que he dado en la Universidad de

Si S es el espacio muestral para un juego particular y A  S es un evento, definimos la

donde para cualquier subconjunto B  S, |B| denota el número de elementos distintos de B.

donde A  B denota la unión de A y B, AB denota la intersección de A y B, A' denota el

así que |A| = 6. Por tanto, P(A) = 1/6. ////

Aunque el ejemplo es completamente simple, repagará su estudio cuidadoso, porque la

1.2. ANÁLISIS COMBINATORIO

El principio básico del análisis combinatorio Suponer que podemos seleccionar

Teorema 1.2.1 Sea Z un conjunto conteniendo n  1 distintos elementos, y sea k  1

nk  nn 1n  k  1 (2.1)

distintas ketas ordenadas con distintas componentes, eso es, zi  zj para i  j.

PRUEBA Para seleccionar una keta ordenada (z1,,zk) con zi  Z, i = 1,, k,

nk  0 si k <0 o k >n (2.2 b)

n!  nn  12  1 (2.3)

para n = 1, 2,. El Teorema 1.2.1 entonces asegura que si Z contiene n  1 distintos

para enteros no negativos n, i, j, y k con k  n.

Teorema 1.2.2 Sea Z un conjunto conteniendo n  0 distintos elementos, y sea k un

distintas formas. Finalmente, escribiendo los coeficientes binomiales en términos de

1.3 MODELOS DE URNAS

Muestras desordenadas Si una muestra desordenada de tamaño k es tomada de una urna

como se aseveró. ////

como se aseveró. ////

1.4. MUESTRAS DESORDENADAS

c La probabilidad de obtener exactamente 4 ases es

que también da la probabilidad de obtener exactamente 2 cartas de cualquier

1.5. MUESTRAS ORDENADAS1

es para ser tomada, y encontraremos la probabilidad de que la muestra contenga exactamente

la urna), si i  J y ni = n  m si i  J. Así, hay n1n2nk = mr(n  m)k-r distintos

Teorema 1.5.1 Si una muestra aleatoria ordenada de tamaño k es tomada de una

si el muestreo es sin reemplazo y k  n.

(1/6)2(5/6)3 = 0.0161 por Lema 1.5.1. La probabilidad de obtener exactamente 1 punto

En la Ecuación (5.4), sea p = m/n y q = 1  p = (n  m)/n. Entonces, la primera conclusión en

EJEMPLO 1.5.3 Encuestas de opinión

50,000,000, la aproximación es excelente para k  500. ////

1.6. PROBLEMAS DE OCUPACIÓN1

Teorema 1.6.1 Sean n y k enteros positivos. Si k bolas distinguibles son ubicadas

Teorema 1.6.2 Sean n y k enteros positivos. Si k bolas indistinguibles son ubicadas

representa el arreglo con ninguna bola en la primera celda, 2 en la segunda, ninguna en

distintas formas por la primera aseveración del Teorema 1.6.2. ////

1.7. EL TEOREMA BINOMIAL GENERALIZADO

para x  (a,b), donde x1 yace entre x y x0 y f j denota a la jésima derivada de f, j = 1,, k.

donde x1 yace entre x y x0.

que encontramos en el Teorema 1.3.2. Indudablemente, tenemos

Es claro de (7.1) que si f tiene derivadas de todos los órdenes, y si

para toda x,  < x < .

para 1 < x < 1 puede ser deducida del teorema de Taylor.

Entonces, para cualquier real , la expansión de la serie de Taylor de la función f(x) = (1 +

La Ecuación (7.4a) es un caso especial. Que le lado derecho de (7.6) es la expansión de la

1.8. LA FÓRMULA DE STIRLING

La fórmula de Stirling ahora puede ser establecida como sigue.

Un tratamiento más extenso de análisis combinatorio será encontrado en Riorden (1958).

1.5 Si un hombre tiene 3 sombreros, 4 camisas, 4 pares de pantalones, y 2 pares de zapatos,

1.56 Encontrar las expansiones de las series de Taylor infinitas de

k k  1 y que k k  12k  1 para k  1.

2.1 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA