Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CON
APLICACIONES
M. WOODROOFE
Probabilidad
con Aplicaciones
v
TABLA DE CONTENIDO
PREFACIO
al pie de página y puede ser omitido sin pérdida de continuidad. Le puede proveer también a
un instructor una amplia selección de tópicos especiales de los cuales el puede seleccionar
uno o dos para estudios a profundidad.
El libro se divide naturalmente en tres partes. Los Capítulos 1 a 4 tratan la probabilidad
combinatoria e introducen las nociones de espacio muestral, probabilidad estadística y
subjetiva, probabilidad condicional, e independencia. Las nociones de variable aleatoria,
distribución de probabilidad, y esperanza son entonces introducidas y desarrolladas en los
Capítulos 5 a 10. Finalmente, los Capítulos 11 y 12 introducen al lector a los procesos
estocásticos y desarrollan las caminatas aleatorias y las martingalas.
Las secciones sin asterisco de los Capítulos 1 a 10 forman la base para un curso
introductorio fuerte en la teoría de probabilidades. El prerrequisito para una lectura
inteligente de este libro es 2 años de cálculo. Conocimiento adicional es deseable para los
Capítulos 11 y 12, pero no es esencial.
El libro se ha beneficiado de la discusión que he tenido con Bill Ericson, Richard Olshen,
Herb Robbins, Norman Starr, y Jim Wendel. Patricia Holly hizo un trabajo eficiente con la
mecanografía, y Charles Séller y Francis Smock ayudaron con la corrección de estilo. A
todos mis sinceras gracias.
MICHAEL WOODROOFE
1
1 El Modelo Clásico
1.1. INTRODUCCIÓN
Comenzaremos nuestro estudio de la teoría de la probabilidad con juegos de azar. En este
capítulo estudiamos juegos de azar que deben resultar en uno de un número finito de
posibles sucesos, la totalidad de los cuales puede ser especificada antes de que el juego sea
jugado. Por ejemplo, la mayoría de los juegos de carta son de esta naturaleza. Nuestra meta
en este capítulo es construir un modelo matemático para tales juegos y desarrollar algunas de
las propiedades más simples del modelo. El modelo que escogimos es denominado el
modelo clásico porque fue el primer modelo de probabilidad en ser estudiado.1
Dado un juego de azar particular, como descrito anteriormente, denotaremos al conjunto de
posibles sucesos del juego por S, y denominaremos a S el espacio muestral.2 Subconjuntos
de S serán denominados eventos, y un evento A S se dirá que ocurre si y sólo si el suceso
real del juego es un elemento de A. Por ejemplo, si nuestro juego consiste de lanzar una vez
un dado balanceado, podríamos tomar S para ser el conjunto {1, 2, 3, 4, 5, 6} con la
convención de que k S representa el suceso de que una cara mostrando exactamente k
puntos aparece. El evento de que un número non de puntos aparezca es entonces A = {1, 3,
5}, y el evento de que únicamente un punto aparezca es {1}.
1
1 Referencias a trabajos sobre la historia de la probabilidad son dadas al final del capítulo.
2
2 Espacio de sucesos sería mejor, pero usaremos la terminología convencional espacio muestral.
2 INTRODUCCIÓN
A
P A (1.1)
S
0 P A P S 1 (1.2)
P A B P A PB si AB (1.3)
P A 1 P A (1.4)
EJEMPLO 1.1.1
Si dos dados balanceados distinguibles son lanzados, podemos describir el suceso del juego
por un par ordenado (x,y), donde x denota el número de puntos sobre el primer dado y y el
1
3 Algunos elementos de la teoría de conjuntos son revisados en el Apéndice A.
EL MODELO CLÁSICO 3
número sobre el segundo. Así, podemos tomar S para ser el conjunto de pares ordenados
(x,y), donde x y y son enteros entre 1 y 6. Una inspección muestra que hay |S| = 36 elementos
en S. Calculemos la probabilidad del evento A de que la suma de puntos sobre los dos dados
es 7. Claramente
A 1,6,2,5,3,4,4,3,5,2,6,1
todas las posibles manos de póquer y contar el número que contiene tres cartas de una
denominación y dos de otra. ¿Por qué? Porque, como veremos en el Ejemplo 1.2.4a, hay
2,598,960 distintas manos de póquer. Lo que necesitamos es un método eficiente de conteo,
uno que nos permita contar el número total de distintas manos de póquer sin, de hecho,
listarlas, por ejemplo. El cuerpo de técnicas que consiste de este método eficiente de conteo
es conocido como análisis combinatorio y es el tópico de la presente sección.
Si Z es un conjunto no vacío y k es un entero positivo, entonces definimos una keta
ordenada de elementos de Z para ser un arreglo (z1,z2,,zk) con zi Z para i = 1,2,, k. zi es
denominada la iésima componente de (z1,z2,,zk) para i = 1,2,, k. Cuando no hay peligro
de confusión, omitiremos la frase "de elementos de Z," y cuando k = 2 o 3, referiremos a las
ketas ordenadas como pares ordenados y tripletas ordenadas, respectivamente. Dos ketas
ordenadas son iguales si y sólo si ellas tienen los mismos elementos en el mismo orden. Eso
es, (z1,,zk) = (w1,,wk) si y sólo si zi = zi para i = 1,, k.
La noción de una keta ordenada de elementos de Z debe ser contrastada con la noción de un
subconjunto {z1,,zk} Z de Z. Dos subconjuntos {z1,,zk} y {w1,,zj} son iguales si ellos
listan los mismos elementos, aun cuando ellos los listen en diferentes ordenes o con
repetición. Por ejemplo, {1,2} = {2,1} = {2,1,2}, pero (1,2) (2,1). La distinción es simple
pero importante.
Una keta ordenada de elementos de Z, digamos (z1,z2,,zk), con distintas componentes (eso
es, zi zj para i j) es denominada una permutación de k elementos de Z. Un subconjunto
{z1,,zk) con k distintos elementos es denominado una combinación de k elementos de Z.
Muchos de los problemas en este capítulo serán expresados en términos de permutaciones y
combinaciones.
El análisis combinatorio que necesitaremos será derivado del siguiente principio básico, que
adoptamos como un axioma.
distintas formas.
EL MODELO CLÁSICO 5
La segunda afirmación del principio básico puede, de hecho, ser derivada de la primera por
inducción matemática. Dejamos la derivación como un ejercicio para el lector interesado y
nos dirigimos directamente a algunos ejemplos.
EJEMPLO 1.2.1
De un menú que contiene 3 sopas, 2 ensaladas, 6 platos principales, y 3 postres, 3 2 6 3
= 108 diferentes comidas pueden ser ordenadas. Simplemente tome x1 para ser la sopa, x2
para ser la ensalada, x3 para ser el plato principal, y x4 para ser el postre y aplique el
principio básico con k = 4. ////
Debe ser enfatizado que el principio básico permite al conjunto de objetos del cual xi es
seleccionado depender de la selección de x1,,xi-1. Únicamente el número de posibles
selecciones ni debe ser fijado con anticipación.
EJEMPLO 1.2.2
Si un hombre tiene camisas color rojo, verde, y oro y corbatas color rojo, verde, y oro,
¿cuántas formas puede el escoger diferentes colores para su camisa y corbata? 3 2 = 6,
porque él tiene 3 posibilidades para el color de su camisa y, después de eso, sólo 2 para el
color de su corbata. Aquí, por supuesto, los dos colores de los cuales el selecciona el color
de su corbata dependerá del color que el seleccionó para su camisa. ////
////
EJEMPLO 1.2.3
Si cuatro dados distinguibles son lanzados, hay 64 = 1296 sucesos distinguibles. De estos hay
(6)4 = 360 sucesos distinguibles para los cuales ninguna pareja de dados muestra el mismo
número de puntos. Indudablemente, podemos aplicar el teorema con Z = {1,,6}
permitiendo que zi denote el número de puntos que aparecen sobre el iésimo dado, i = 1,
4. ////
La notación (n)k ha sido definida por (2.1) cuando n y k son enteros positivos para los cuales
k n. Ahora extendemos esta notación definiendo
n0 1 n 0 (2.2 a)
para n = 0, 1, 2,. Encontraremos también conveniente escribir n! (leer "n factorial") para
(n)n. Así, 0! = 1, y
n k
n!
(2.4 a)
n k !
ni j ni n i j (2.4 b)
n
distintos subconjuntos de tamaño k contenidos en Z. Aquí (2.5) define la notación .
k
PRUEBA Si k = 0 o n = 0, el resultado es obvio, porque el único subconjunto de
n
tamaño cero es el conjunto vacío, y, por definición, = 1, n = 0, 1,. Por tanto,
0
podemos restringir nuestra atención a positivos n y k. Una keta ordenada con k
distintos componentes puede ser seleccionada en dos pasos: primero, seleccionamos un
subconjunto de tamaño k; entonces arreglamos el subconjunto en un orden definido.
Seleccionando una permutación de k elementos de Z es por lo tanto equivalente a
seleccionar un par ordenado (Z0,), donde Z0 es un subconjunto de tamaño k y es
una permutación de los k elementos de Z0. Denote A el número de subconjuntos de
tamaño k. Entonces, puesto que hay (n)k distintas ketas ordenadas con distintas
componentes y k! formas en las cuales arreglar un subconjunto de tamaño k en un
orden definido (ambos por el Teorema 1.2.1), tenemos (n)k = Ak! por el principio
básico. Resolviendo para A, encontramos
nk n! n
A
k! k!n k ! k
como se aseveró. ////
El Teorema 1.2.2 es especialmente útil en problemas que involucran juegos de cartas. Para
hacer esto preciso, definimos una mano de póquer para ser una combinación de cinco cartas
(subconjunto de tamaño 5) tomada de una baraja estándar de 52 cartas.1 Análogamente,
definimos una mano de bridge para ser una combinación de 13 cartas tomadas de una baraja
estándar. Así, dos manos que contienen las mismas cartas arregladas en diferentes órdenes
son consideradas como idénticas.
EJEMPLO 1.2.4
52
a Hay = 2,598,960 distintas manos de póquer.
5
52
b Hay distintas manos de bridge.
13
c m indistinguibles bolas rojas y n indistinguibles bolas blancas pueden ser arregladas en
1
Eso es, una baraja que consiste de 4 palos, espadas, corazones, diamantes, y tréboles, y las 13 denominaciones
ases, doses, treses,, reinas, reyes, con exactamente uno de cada denominación en cada palo.
8 ANÁLISIS COMBINATORIO
n m n m
una hilera para formar configuraciones distinguibles.
m n
Indudablemente, una configuración distinguible está determinada por los m lugares
ocupados por las bolas rojas. ////
n
Los números son conocidos como coeficientes binomiales porque aparecen en el
k
teorema binomial, que establece que para números reales a y b y para enteros no negativos n,
n k n k
a bn
n
a b (2.6)
k 0 k
De hecho, el teorema binomial se sigue fácilmente del Teorema 1.2.2, porque si (a + b)n = (a
+ b) (a + b) (a + b) es expandido en una suma de potencias de a multiplicadas por
potencias de b, entonces akbn-k aparecerá tantas veces como podamos seleccionar a de k de
n
los factores y b de los restantes n k. Por el Ejemplo 1.2.4c esto puede ser hecho en
k
formas.
n
En la secuela, será a menudo conveniente usar la notación cuando k sea un entero
k
n
negativo o un entero positivo que exceda a n. Definimos = 0 en ambos casos. Observe
k
n
que con la definición extendida es aún verdadero que hay subconjuntos de tamaño k
k
contenidos en un conjunto de n elementos.
Concluimos esta sección con una extensión del Teorema 1.2.2. Sea Z un conjunto no vacío,
finito. Definimos una partición de Z para ser una keta ordenada (Z1,,Zk), donde Z1,,Zk
son subconjuntos disjuntos de Z para los cuales
k
Zi Z
i 1
Permitimos a algunos de los Zi ser vacíos. Si (Z1,,Zk) es una partición del conjunto Z, los
números ri = |Zi|, i = 1,, k, serán llamados números partición. Claramente, r1,,rk cumplen
k
ri 0 i 1, ,k y ri Z (2.7)
i 1
EL MODELO CLÁSICO 9
Por ejemplo, si Z = {1,2,3,4}, entonces tomando Z1 = {1}, Z2 = {2,3}, y Z3 = {4} define una
partición para la cual r1 = 1, r2 = 2, y r3 = 1. En nuestro siguiente teorema nos proponemos
contestar la siguiente cuestión: Dados los enteros r1,,rk que satisfacen (2.7), ¿cuántas
particiones (Z1,,Zk) para las cuales |Zi| = ri, i = 1,, k, existen?
Teorema 1.2.3 Sea Z un conjunto que contiene n elementos distintos, y sean r1,,rk
enteros que satisfacen (2.7), Entonces hay
n!
(2.8)
r1!rk !
distintas particiones (Z1,,Zk) de Z con |Zi| = ri, i = 1,, k.
PRUEBA Aplicaremos el principio básico. Al escoger Z1, estamos simplemente
seleccionando un subconjunto de tamaño r1 de Z, un conjunto conteniendo n elementos.
n
Por el Teorema 1.2.2, esto puede ser hecho en distintas formas. Después, debemos
r1
seleccionar Z2 de los restantes n r1 elementos en Z Z1. Esto puede ser hecho en
n r1
distintas formas. En general, debemos seleccionar Zi de los n (r1 + + ri-1)
r2
elementos de Z (Z1 Zi-1), y esto puede ser hecho en
n r1 ri1
ni
ri
distintas formas, i = 2,, k. Por tanto, por el principio básico, (Z1,,Zk) puede ser
seleccionada en
n n r1 n r1 rk 1
(2.9)
r1 r2 rk
n! n r1 ! n r1 rk 1 !
r1! n r1 ! r2! n r1 r2 ! rk! n r1 rk !
n!
=
r1! rk!
como se aseveró. ////
10 MODELOS DE URNAS
EJEMPLO 1.2.5
a Si Z ={1,2,3,4}, entonces hay 4!/2! = 12 particiones de Z para las cuales r1 = 1, r2 =
2, y r3 = 1.
b Una baraja de cartas puede ser particionada en cuatro manos de bridge en
52!/(13!)4 diferentes formas.
Los números
n n!
(2.10)
r1 , ,rk r1! rk!
son llamados coeficientes multinomiales. Hay también un teorema multinomial que establece
que para números reales a1,,ak y enteros no negativos n
n
a1 ak n r ,,r a1r ak r
1 k
1 k
donde la sumatoria se extiende sobre todos los enteros no negativos r1,,rk para los cuales r1
++rk = n. La prueba del teorema binomial es similar a esa del teorema binomial y será
omitida.
Revisemos brevemente. En esta sección, hemos presentado cuatro reglas de conteo—el
principio básico, fórmulas para el número de ketas ordenadas, una fórmula para el
número de combinaciones, y una fórmula para el número de particiones. Cuando son usadas
con una ligera cantidad de ingenio, estas cuatro reglas nos permitirán calcular una amplia
variedad de probabilidades interesantes. Puesto que ellas contienen la cantidad mínima de
análisis combinatorio con que la teoría de la probabilidad puede ser dominada, ellas deben
ser entendidas y memorizadas.
Más análisis combinatorio será encontrado en la Sección 1.6 y en los problemas al final de
este capítulo.
de objetos," y "grupo de objetos." Así, nuestro modelo tiene una aplicabilidad más amplia
que la que puede parecer en principio. Indudablemente, con una interpretación propia de los
términos "bolas," "colores,” y "urna," cada uno de los siguientes ejemplos puede ser
expresado como un problema de urnas.
EJEMPLO 1.3.1
a Encuestas de opinión Un grupo de personas (la muestra) es seleccionada de un
grupo más grande de personas (la urna) y requerida su opinión sobre algún tema
político o candidato. Aquí podemos considerar a las personas como bolas y las
diferentes opiniones como colores diferentes.
b Muestreo de aceptación De un lote de productos manufacturados (la urna) un
sublote (la muestra) es seleccionada y examinada para productos defectuosos. Aquí
podemos considerar los productos defectuosos como bolas de un color y los productos
no defectuosos como bolas de otro.
c Juego Podemos considerar una mano de póquer como una muestra de cinco cartas
de una baraja de cartas (la urna) y las cartas de diferentes denominaciones (o de
diferentes palos) como bolas de diferentes colores. Asimismo, si un dado es lanzado
repetidamente, los números de puntos que aparecen sobre los lanzamientos sucesivos
pueden ser considerados como una muestra de los enteros 1,,6, que, a su vez, pueden
ser considerados como bolas de seis diferentes colores.
d Coleccionando cupones Si un productor regala varios tipos de cupones con su
producto, podemos considerar los cupones como bolas, los tipos como colores, y los
cupones colectados por una persona en particular como la muestra. ////
Hay varios tipos de muestras que pueden ser tomadas de una urna, y será conveniente
distinguirlas. Primero, las bolas pueden ser tomadas secuencialmente (eso es, una a la vez) o
simultáneamente (todas a la vez). Denote Z el conjunto de bolas en la urna. Si las bolas son
tomadas secuencialmente, entonces podemos describir el suceso de nuestro juego por la
keta ordenada (z1,,zk) de elementos de Z, donde z1 denota la primera bola tomada de la
urna, z2 la segunda,, y k denota el número total de bolas tomadas. Así, referiremos a
(z1,,zk) como una muestra ordenada de tamaño k. Si las bolas son tomadas
simultáneamente, ya no hace sentido hablar de una primera bola o segunda bola y podemos
describir el suceso de nuestro muestreo sólo por el subconjunto (combinación) {z1,,zk} de
distintos elementos de Z que fueron seleccionados. Referiremos a {z1,,zk} como una
muestra desordenada de tamaño k. Debemos, por supuesto, tener k |Z| en el caso de
muestras desordenadas.
Hay otra distinción adicional para ser considerada en el caso de muestras ordenadas.
12 MODELOS DE URNAS
Podemos, ya sea, remplazar cada bola después de que ha sido tomada y examinada, o no. En
el primer caso, nosotros diremos que el muestreo fue realizado con reemplazo, y en el
segundo, nosotros diremos que el muestreo fue realizado sin reemplazo. No consideraremos
aquí el esquema más complicado en el cual algunas de las bolas son remplazadas y otras no
lo son.
Ahora estableceremos modelos para cada uno de los tres tipos de muestreo.
Muestras ordenadas sin reemplazo Si una muestra ordenada de tamaño k es tomada sin
reemplazo de una urna conteniendo n bolas, entonces podemos tomar el espacio muestral S
para ser el conjunto de todas las ketas ordenadas (z1,,zk) con zi zj para i j y zi Z, el
conjunto de bolas en la urna, i = 1,, k. En este caso, hay |S| = (n)k posibles sucesos por el
Teorema 1.2.1.
Diremos que una muestra ha sido tomada al azar cuando estemos suponiendo que todas las
muestras del tamaño y tipo en cuestión son igualmente verosímiles. En este caso podemos
calcular muchas probabilidades interesantes de (1.1) y los resultados de la Sección 1.2. Para
estos cálculos, es imperativo que el lector no confunda el espacio muestral S con el conjunto
de bolas en la urna. El espacio muestral apropiado depende sobre el tipo de muestreo y ha
sido definido arriba.
EJEMPLO 1.3.2
Todas las partes del ejemplo se refieren a una urna que contiene 4 bolas rojas y 4 bolas
blancas. Así, hay n = 8 bolas en la urna.
a Si una muestra ordenada de tamaño 2 es tomada al azar con reemplazo, ¿cuál es la
probabilidad de que la muestra contendrá 2 bolas rojas? El espacio muestral S consiste de
todos los pares ordenados (z1,z2) que pueden ser tomados de la urna. Por tanto, |S| = 82 por el
EL MODELO CLÁSICO 13
Teorema 1.2.1. Requerimos la probabilidad del evento A, que consiste de todos los pares
ordenados (z1,z2)para los cuales z1 y z2 son ambos rojos. Así, para seleccionar un
elemento de A, tenemos 4 selecciones para z1 y 4 selecciones para z2 (puesto que el
muestreo es con reemplazo). Por tanto, hay |A| = 42 = 16 elementos en A, así que P(A) =
16/64 = ¼.
b Si el muestreo es sin reemplazo, encontraríamos |S| = 8 7 = 56, |A| = 4 3 = 12, y
P(A) = 12/56 = 3/14.
c Calculemos la probabilidad de tomar 2 bolas rojas cuando una muestra aleatoria
desordenada de tamaño 2 es tomada de la urna. En este caso el espacio muestral S consiste
de todos los subconjuntos de tamaño 2 que pueden ser tomados de las 8 bolas, así que |S| =
8
= 28. El evento A ahora consiste de todos los subconjuntos de tamaño 2 que pueden ser
2
4
tomados de las 4 bolas rojas, así que |A| = = 6. Por tanto, P(A) = 2/28 = 3/14. Como
2
veremos en la Sección 1.5, no es accidental que las respuestas en las partes b y c sean las
mismas. ////
Los Ejemplos 1.3.2a a c pueden ser generalizados considerablemente, y consideraremos
estas generalizaciones en las siguientes dos secciones. Concluimos esta sección con dos
resultados simples pero interesantes.
Si una muestra ordenada de tamaño k es tomada (ya sea con o sin reemplazo) de una urna
que contiene m bolas rojas y n m blancas, es intuitivamente claro que la probabilidad de
tomar una bola roja en la primera extracción es m/n. Esta es también la probabilidad de
tomar una bola roja en la segunda, o tercera, o jésima extracción, j = 1,, k, como ahora
mostraremos.
Teorema 1.3.1 Sea una muestra aleatoria ordenada de tamaño k 1 tomada ya sea
con o sin reemplazo de una urna conteniendo m bolas rojas y n m blancas, y sea Ai el
evento que la iésima bola tomada es roja para i = 1,, k. Entonces, P(Ai) = m/n, i =
1,, k.
PRUEBA Si el muestreo es con reemplazo, entonces hay |S| = nk posibles sucesos y Ai
consiste de todas las ketas ordenadas (z1,,zk) para las cuales zi es roja. Así, hay m posibles
selecciones para zi y n selecciones para zj para j i puesto que zj no está restringida por
Ai para j i. Por el principio básico, hay |Ai| = nnmnn = mnk-1 sucesos en Ai, y por
lo tanto P(Ai) = m/n, como se aseveró.
Si el muestreo es sin reemplazo, la situación es ligeramente más complicada, y daremos
la prueba sólo para el caso especial donde i = 2. Claramente, A2 = A1A2 A1' A2 con
14 MODELOS DE URNAS
A1A2 A1' A2 A1 A1' = , así que P(A2) = P(A1A2) + P( A1' A2 ). así, necesitamos sólo
calcular P(A1A2) y P( A1' A2 ).
En el muestreo sin reemplazo hay |S| = (n)k posibles sucesos. Ahora A1A2 consiste de todas
las ketas ordenadas (z1,,zk) para las cuales z1 es roja y z2 es roja y zj no está
restringida para j = 3,,k, así que hay m selecciones para z1, m 1 selecciones para z2,
y (n 2)k-2 selecciones para (z3,,zk). Así, |A1A2| = m(m 1)(n 2)k-2 por el principio
básico. Por tanto, P(A1A2) = m(m 1) (n 2)k-2/(n)k = m(m 1)/n(n 1).
Análogamente, P( A1' A2 ) = m(n m)/n (n 1), así que
m m 1 m n m m
P A2
n n 1 n
EJEMPLO 1.3.3
En la rifa de reclutamiento nacional, bolas numeradas con los días del año son extraídas
secuencialmente y sin reemplazo de una urna. ¿Cuál es la probabilidad de que la última bola
tomada estará numerada con un día de Enero? Podemos considerar las bolas numeradas con
días en Enero como bolas rojas y las otras como bolas blancas. Entonces tenemos una
muestra aleatoria sin reemplazo de tamaño k = 365 de una urna conteniendo m = 31 bolas
rojas y n m = 334 bolas blancas. La probabilidad deseada es por lo tanto m/n = 31/365 =
0.085.† ////
Ahora consideremos una urna que contiene n bolas de diferentes colores. Si una muestra
aleatoria ordenada de tamaño k es tomada con reemplazo, ¿cuál es la probabilidad de que las
k bolas tomadas serán de diferentes colores? Eso es, si la repetición es permitida en la
muestra, ¿cuál es la probabilidad de que ninguna repetición ocurra?
Teorema 1.3.2 Si una muestra aleatoria ordenada de tamaño k es tomada con
reemplazo de una urna conteniendo n bolas de diferentes colores, entonces la
probabilidad de que todas las bolas en la muestra sean de diferentes colores es
k
i 1
pn ,k 1
i 1 k
PRUEBA El espacio muestral S consiste de todas las ketas ordenadas (z1,,zk) que pueden
ser seleccionadas de las n bolas, y así |S| = nk por el Teorema 1.2.1. El evento A de que todas
†
5 Respuestas numéricas a menudo serán redondeadas. Son exactas a el número de decimales dados.
EL MODELO CLÁSICO 15
las bolas en la muestra sean de diferentes colores consiste de todas las ketas ordenadas
(z1,,zk) con distintas componentes, así que |A| = (n)k, de nuevo por el Teorema 1.2.1.
Así,
n k 1 2 k 1
P A 1 1 1 1
nk n n n
EJEMPLO 1.3.4
a Si un dado balanceado es lanzado seis veces, ¿cuál es la probabilidad de que
ninguna cara aparezca más de una vez? Por (3.1) esta probabilidad es simplemente
(6)6/66 = 6!/66 = 0.0154, puesto que los seis tiros seleccionan una muestra de tamaño k
= 6 de los enteros {1,,6}. Así, aunque las caras son igualmente verosímiles de
aparecer sobre cualquier lanzamiento, la probabilidad de que todas ellas aparezcan
durante seis lanzamientos es menor a 1 en 50.
b Si 25 personas se reúnen en una fiesta, ¿cuál es la probabilidad que todos ellos
tengan diferentes cumpleaños? Consideremos los 365 días del año como bolas de
diferentes colores y los cumpleaños de las personas como una muestra aleatoria con
reemplazo de las 365 bolas. Sea A el evento de que ninguna pareja tenga el mismo
cumpleaños. Así, P(A) = p365,25 = 0.44. Eso es, si 25 personas se reúnen en una fiesta, la
probabilidad que ninguna pareja tenga el mismo cumpleaños es menor a 0.5. ////
Una aproximación sencilla a pn,k será dada en el Ejemplo 1.7.2.
m n m
r k r
pr (4.1)
n
k
para r = 0, 1,, k.
PRUEBA El espacio muestral S para este problema es el conjunto de todas las
n
muestras desordenadas que pueden ser tomadas de una urna. Por tanto, hay |S| =
k
posibles sucesos. Sea A S el evento consistiendo de todas las muestras desordenadas
que contienen exactamente r bolas rojas . Necesitamos encontrar |A|. Una muestra
desordenada que contiene exactamente r bolas rojas puede ser seleccionada en dos
pasos. Primero, seleccione un subconjunto de tamaño r de las m bolas rojas en la urna;
entonces seleccione un subconjunto de tamaño k r de las n m bolas blancas en la
urna. Eso es, un elemento de A corresponde unívocamente a un par ordenado (Z0,Z1),
donde Z0 es una combinación de r bolas rojas y Z1 es una combinación de k r bolas
blancas . El primer paso requiere la selección de un subconjunto de tamaño r de un
m
conjunto de m elementos y puede por lo tanto ser realizado en formas por el
r
n m
Teorema 1.2.2. Análogamente, el segundo paso puede ser realizado en formas
k r
por el mismo teorema. Por tanto,
m n m
A
r k r
m n m n
por el principio básico. Así, P A A S , como se aseveró. ////
r k r k
La probabilidad de obtener exactamente r bolas rojas es, por supuesto, cero si r > m o k r >
n m. El lector debe verificar que nuestras convenciones acerca de los coeficientes
binomiales dan pr = 0 en estos casos.
Los números pr son conocidos como las probabilidades hipergeométricas. Para tablas de las
probabilidades hipergeométricas para 0 r k, 0 m n, 1 k n, y 1 n 20, ver Beyer
(1966).
EJEMPLO 1.4.1
EL MODELO CLÁSICO 17
En estos ejemplos, consideramos una mano de póquer como una muestra aleatoria
desordenada de tamaño 5 tomada de una baraja estándar de 52 cartas.
a La probabilidad que una mano de póquer contenga exactamente 3 ases es
4 48
3 2
0.001736 (4.2)
52
5
porque podemos considerar los 4 ases como bolas rojas y las 48 no ases como bolas
blancas. El Teorema 1.4.1 entonces se aplica con m = 4, n = 52, k = 5, y r = 3. Más
generalmente, la Ecuación (4.2) da la probabilidad de obtener exactamente tres cartas
de cualquier denominación especificada, tal como reyes, reinas, etc..
b ¿Cuál es la probabilidad de que una mano de póquer contenga exactamente 3 cartas
de una denominación no especificada (3 de una clase)? Sea A el evento de que la mano
contenga 3 cartas de alguna denominación. Entonces podemos seleccionar un elemento
de A en tres pasos. Primero, seleccionamos una denominación; entonces seleccionamos
3 cartas de las 4 cartas de esa denominación; entonces seleccionamos 2 cartas de las
restantes 48 cartas. El primer paso puede ser realizado en 13 formas puesto que hay 13
4 48
denominaciones, y los últimos dos pueden ser realizados en formas por la
3 2
parte a. Por tanto, la probabilidad deseada es
4 48
3 2
13 0.0226
52
5
4 48
4 1
0.0000184
52
5
18 MUESTRAS DESORDENADAS
de nuevo por el Teorema 1.4.1. Por tanto, la probabilidad de obtener al menos 3 ases es
.001736 + .0000184 = 0.00175 por la Ecuación (1.3). La probabilidad de obtener al
menos 3 de cualquier denominación puede ahora ser calculada como en la parte b.
d La probabilidad de obtener exactamente 2 ases es
4 48
2 3
0.03993
52
5
EJEMPLO 1.4.2
Muestreo de aceptación. Considere una compañía que mercadea sus bienes en lotes de
tamaño n = 100. Suponer que cada lote contiene un número desconocido m de elementos
defectuosos y de que es desventajoso para la compañía liberar un lote que contenga más de 5
elementos defectuosos. Suponer también que el proceso de inspección de los elementos en
un lote es caro. Entonces la compañía puede desear inspeccionar sólo una muestra
seleccionada aleatoriamente de cada lote, para liberar inmediatamente aquellos lotes de los
cuales las muestras no contengan defectuosos, e inspeccionar todos los elementos en
aquellos lotes de los cuales las muestras contengan al menos un defectuoso. La probabilidad
de que un lote particular sea liberado (i.e., que la muestra no contendrá defectuosos) es
entonces
100 m
k
q k , m
100
k
EL MODELO CLÁSICO 19
porque podemos considerar los elementos defectuosos como bolas rojas y los no defectuosos
como bolas blancas. Por supuesto, si m > 5, entonces q(k,m) es la probabilidad de liberar un
lote malo, uno que contiene demasiados defectuosos. ¿Qué tan grande es esta probabilidad?
La respuesta depende de los parámetros m y k. Valores típicos están dados en la Tabla 1.
La compañía puede desear controlar la probabilidad de liberar un lote malo seleccionando el
tamaño de muestra k. Eso es, la compañía puede desear seleccionar k de tal manera que la
probabilidad de liberar un lote malo es a lo más un número especificado . ¿Qué tan grande
debe ser k para que la probabilidad de liberar un lote malo sea a lo más = 0.05? Puesto que
q(k,m) es una función decreciente de m, será suficiente seleccionar k de tal manera que q(k,6)
0.05. La tabla indica que 40 es un tamaño de muestra suficientemente grande. De hecho,
39 es el valor más pequeño de k para el cual q(k,6) 0.05. ////
El Teorema 1.4.1 se extiende del caso de dos colores al caso de varios. Así, considere una
urna que contiene bolas de c diferentes colores. Sea n1 el número de bolas del primer color,
n2 el número de bolas del segundo color, y, en general, sea ni el número de bolas del iésimo
color, i = 1,, c. Entonces hay n = n1 + + nc bolas en la urna. Suponer ahora que una
muestra desordenada de tamaño k es tomada al azar de la urna, sean k1,,kc enteros no
negativos para los cuales k1 + + kc = k. Entonces podemos calcular la probabilidad de que
la muestra contenga exactamente k1 bolas del primer color, exactamente k2 bolas del segundo
color, etc.
Tabla 1
k
m 10 25 40 50
3 0.727 0.418 0.212 0.121
6 0.522 0.169 0.042 0.013
9 0.371 0.066 0.007 0.001
Teorema 1.4.2 Con la notación del párrafo anterior, la probabilidad de que la muestra
contenga exactamente ki bolas de color i, i = 1,, c es
n1 nc
k1 kc
n
k
Ya que la notación es algo difícil, ejemplificamos el Teorema 1.4.2 antes de probarlo.
20 MUESTRAS DESORDENADAS
EJEMPLO 1.4.3
a ¿Cuál es la probabilidad de que una mano de póquer contenga 3 ases y 2 reyes?
Consideremos los ases como bolas rojas, los reyes como bolas negras, y el resto como
bolas blancas. Entonces, tenemos n1 = 4 bolas rojas, n2 = 4 bolas negras, y n3 = 44
bolas blancas, y requerimos la probabilidad de obtener una muestra que contenga k1 = 3
bolas rojas, k2 = 2 bolas negras, y k3 = 0 bolas blancas. Por el Teorema 1.4.2, esto es
4 4 44 4 4
3 2 0 3 2
0.00000923 (4.3)
52 52
5 5
Más generalmente, (4.3) da la probabilidad de que una mano de póquer contendrá 3
cartas de una denominación especificada y 2 de otra.
b ¿Cuál es la probabilidad de obtener 3 cartas de una denominación no especificada y
2 de otra (un full)? Podemos seleccionar un par ordenado de distintas denominaciones
en (13)2 formas por el Teorema 1.2.1; después podemos seleccionar 3 cartas de la
4 4 44 4 4
primera denominación y 2 de la segunda en formas por la parte
3 2 0 3 2
4 4 52
a. Por tanto, la probabilidad deseada es 13 2 0.00144.
3 2 5
c La probabilidad de obtener 2 ases, 2 reyes, y 1 carta que no sea ni as ni rey es
4 4 44 52
0.00061, por el Teorema 1.4.2. Ésta es también la probabilidad
2 2 1 5
de que una mano tenga exactamente 2 cartas de una denominación especificada,
exactamente 2 cartas de otra, y 1 que no esté en ninguna de las denominaciones dadas.
d La probabilidad de obtener exactamente 2 cartas de cada una de dos denominaciones
2
13 4 44
52
no especificadas es 0.0475 . De hecho, podemos seleccionar un
2 2 1
5
13
conjunto de dos distintas denominaciones en formas; después podemos seleccionar una
2
2
4 44
mano con exactamente 2 cartas de cada una de estas dos denominaciones en
2 1
formas por la parte c. Observe que multiplicamos por (13)2 en una situación análoga en la
EL MODELO CLÁSICO 21
parte b. ////
EJEMPLO 1.4.4
Encuestas de opinión. Suponer que un electorado consiste de n individuos de los cuales na
favorecen al candidato A, nb favorecen al candidato B, y nu están indecisos. Para aprender
acerca de la opinión colectiva del electorado, una muestra aleatoria desordenada de tamaño k
es seleccionada del mismo, y los miembros de la muestra son interrogados por sus opiniones.
Si ka, kb, y ku son enteros no negativos para los cuales ka + kb + ku = k, ¿cuál es la
probabilidad que ka miembros de la muestra favorecerán a A, kb favorecerán a B, y ku estarán
indecisos? La respuesta puede ser obtenida por una aplicación directa del Teorema 1.4.2
na nb nu n
como . ////
ka kb ku k
PRUEBA del Teorema 1.4.2 Como en la prueba del Teorema 1.4.1, el espacio muestral
para nuestro juego es el conjunto de todas las muestras desordenadas que pueden ser
n
tomadas de la urna. Por tanto, |S| = . Ahora requerimos la probabilidad del evento A, que
k
consiste de todas las muestras desordenadas conteniendo exactamente ki bolas de color i, i =
1,, c. Un elemento de A puede ser escogido en c pasos. Primero, escoja un subconjunto de
tamaño k1 de las n1 bolas de color 1. Después, seleccione un subconjunto de tamaño k2
de las n2 bolas de color 2. Así, debemos tomar un subconjunto de tamaño ki de las ni
ni
bolas de color i, i = 1,, k. El iésimo paso puede ser realizado en formas por el
ki
Teorema 1.2.2. Por el principio básico,
n1 n2 nc
A
k1 k2 kc
El Teorema se sigue de (1.1). ////
1
6 Los principales resultados de esta sección serán derivados de nuevo en un contexto más general en las Secciones 4.1
y 4.2.
22 MUESTRAS ORDENADAS
Lema 1.5.1 Sea una muestra aleatoria ordenada de tamaño k 1 tomada de una
urna que contiene m bolas rojas y n m bolas blancas. Entonces la probabilidad de
que bolas rojas sean tomadas sobre r tomas especificadas y bolas blancas sean
tomadas sobre las tomas restantes es
mr n m
k r
(5.1)
nk
si el muestreo es con reemplazo y es
mr n m k r
(5.2)
n k
si el muestreo es sin reemplazo y k n.
PRUEBA Probaremos el lema para muestreo con reemplazo sólo, ya que la
prueba para muestreo sin reemplazo es análoga. El espacio muestral S es entonces el
conjunto de todas las ketas ordenadas (z1,,zk) que pueden ser tomadas de la urna, así
|S| = nk. Denote J {1,,k} el conjunto consistente de las r tomas especificadas, y sea
A el evento de que las bolas rojas son tomadas sobre tomas i J y que las bolas
blancas son tomadas sobre tomas i J. Para seleccionar un elemento de A, entonces
tenemos ni selecciones para la iésima bola, donde ni = m (el número de bolas rojas en
EL MODELO CLÁSICO 23
Como un corolario a el Lema 1.5.1, ahora calculamos la probabilidad de que la primera bola
roja para ser tomada sea tomada sobre la késima (última) toma.
(5.3a )
nk
si el muestreo es con reemplazo y es
m n m k 1
(5.3b)
n k
EJEMPLO 1.5.1
a Si una moneda balanceada es lanzada k veces, la probabilidad de que la primera
águila surgirá en el késimo lanzamiento es 2-k, porque podemos tomar los primeros k
lanzamientos como una muestra ordenada con reemplazo del conjunto {águila, sol}.
b Si un hombre tiene n llaves, sólo una de las cuales abrirá su puerta, y si las ensaya
en un orden aleatorio (sin reemplazo), ¿cuál es la probabilidad de que el ensayará
exactamente k 1 llaves incorrectas antes de encontrar la correcta? Si consideramos la
llave correcta como una bola roja y las incorrectas como bolas blancas , la respuesta
está dada por (5.3b) como
11 n 1 k 1 1
n k n
24 MUESTRAS ORDENADAS
para k = 1, 2,. Así, el hombre es tan verosímil para ensayar una llave, como dos
llaves, como tres llaves, etc. ////
Ahora calcularemos la probabilidad que la muestra contendrá exactamente r bolas rojas.
Teorema 1.5.2 Sea una muestra aleatoria ordenada de tamaño k tomada de una
urna que tiene m bolas rojas y n m bolas blancas. Si el muestreo es con reemplazo,
entonces la probabilidad que la muestra contendrá exactamente r bolas rojas es
k r
m n m
k r
r
(5.4)
nk
para r = 0,,k. Si el muestreo es sin reemplazo, y k n, entonces la probabilidad que
la muestra contendrá exactamente r bolas rojas es
k
m r n m k r
r
(5.5)
n k
para r = 0,,k.
PRUEBA De nuevo, probaremos el teorema sólo para muestreo con
reemplazo, puesto que la prueba para muestreo sin reemplazo es análoga. Así, el
espacio muestral contiene |S| = nk elementos. Denote B el evento que la muestra
contiene exactamente r bolas rojas . Entonces, un elemento de B puede ser
seleccionado en dos pasos. Primero, seleccione un subconjunto J de tamaño |J| = r de
los enteros 1,,k. Después, tome bolas rojas en aquellas tomas i J y tome bolas
k
blancas en aquellas tomas i J. El primer paso puede ser realizado en distintas
r
formas por el Teorema 1.2.2, y el segundo en m (n m) por el Lema 1.5.1. Por tanto,
r k-r
k
B mr n m
k r
r
por el principio básico. El teorema se sigue.
EJEMPLO 1.5.2
a Si un dado balanceado es tirado 5 veces, la probabilidad de obtener exactamente 1
punto sobre la primera y última tiradas y más de 1 punto sobre la otras tres tiradas es
EL MODELO CLÁSICO 25
k r k r
p q r 0, , k (5.6)
r
Estos números son conocidos como las probabilidades binomiales. Las encontraremos de
nuevo en los Capítulos 4 y 5. Tablas de las probabilidades binomiales para 0 r k, 1 k
10, y valores seleccionados de p serán encontradas en el Apéndice C. Para tablas más
extensas ver, por ejemplo, Beyer (1966) o Selby (1965).
Es interesante que la probabilidad de obtener exactamente r bolas rojas en una muestra
aleatoria ordenada que es tomada sin reemplazo es la misma que la probabilidad de tomar
exactamente r bolas rojas en una muestra desordenada. Para ver esto observe que, por (5.5),
la probabilidad que una muestra aleatoria ordenada contenga exactamente r bolas rojas es
k
m r n m k r
r k! m r n m k r
n k r! k r ! n k
m r n m k r k r !
=
r! n k k!
m n m
r k r
= (5.7)
n
k
26 MUESTRAS ORDENADAS
que es también la probabilidad que una muestra aleatoria desordenada contenga exactamente
r bolas rojas.
También es interesante que si m, n, y n m son todos grandes, entonces la diferencia entre
las probabilidades binomiales (5.4) y las probabilidades hipergeométricas (5.5) es pequeña.
Para ver esto observe que
n k k n i 1
k
1
n i 1 n
cuando n para cada k = 1, 2, fija. Así, si n y m de tal manera que m/n p,
0 < p < 1, entonces
k
m r n m k r
r
lim
n k
k m n m
r k r
mr n m k r n k k
= lim p r q k r (5.8)
r n n mr n m k r n k r
donde q = 1 p, para r = 0,,k para cada k fija. El valor práctico de (5.8) es que el lado
izquierdo de (5.8) puede ser aproximado por el lado derecho si m y n son suficientemente
grandes. De hecho, la aproximación (5.8) será buena provisto sólo que k2/n, r2/m, y (k
r)2/(n m) son todos pequeños (ver Problemas 1.62 y 1.63).
n k 1 n k 1
k n 1
1
7 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad.
28 PROBLEMAS DE OCUPACIÓN
k 1
arreglos distinguibles de bolas en las celdas; y si k n, entonces hay de tales
n 1
arreglos en los cuales ninguna celda permanece vacía.
PRUEBA Dividamos las celdas por las líneas y representemos las bolas por
círculos. Así, si n = 5 y k = 4, representamos las cinco celdas como 1 | 2 | 3 | 4 | 5. El
arreglo
n k 1 n k 1
k n 1
formas por el Teorema 1.2.2 (compare Ejemplo 1.2.4c), la primera aseveración del
teorema ha sido probada. La segunda ahora se sigue fácilmente. Indudablemente, si k
n y requerimos que cada celda contenga al menos 1 bola, entonces estamos en libertad
para ubicar sólo k' = k n de las bolas como gustemos, y podemos hacerlo así en
n k 1 k 1
k n 1
EJEMPLO 1.6.1
10
a Si cinco dados indistinguibles son lanzados, entonces hay = 252 sucesos
5
distinguibles. Simplemente considere los dados como bolas y los enteros 1,, 6 como
EL MODELO CLÁSICO 29
celdas. Si los dados están desbalanceados, sin embargo, los sucesos distinguibles no
serán igualmente verosímiles.
8
b Si nueve dados indistinguibles son lanzados, entonces hay = 56 sucesos
5
distinguibles para los cuales cada uno de los enteros 1,, 6 aparece sobre al menos un
dado. ////
1
Los Teoremas 1.6.1 y 1.6.2 encuentran aplicación en mecánica estadística. Considere una
región del espacio que contiene k partículas, tales como electrones o fotones, e imagine la
región subdividida en n subregiones (celdas). Si las partículas son consideradas como
distinguibles, y si cada arreglo de partículas en las celdas (con repetición permitida) es
igualmente verosímil, entonces se dice que las partículas obedecen la estadística Maxwell-
Boltzmann. Aunque la estadística Maxwell-Boltzmann ciertamente parece ser una suposición
razonable, no se aplica a ninguna clase conocida de partículas. Si las partículas son
n k 1
indistinguibles , y si los arreglos distinguibles de partículas en las celdas (con
n 1
repetición permitida) son igualmente verosímiles, entonces se dice que las partículas
obedecen la estadística Bose-Einstein. Fotones obedecen la estadística Bose-Einstein.
Finalmente, si las partículas son indistinguibles, si no dos pueden ocupar la misma celda y si
n
los arreglos distinguibles son igualmente verosímiles, entonces se dice que las partículas
k
obedecen la estadística Fermi-Dirac. Este modelo aplica a electrones, protones, y neutrones.
EJEMPLO 1.6.2
a Si las partículas obedecen la estadística de Bose-Einstein y k n, entonces la
k 1 n k 1
probabilidad que cada celda sea ocupada es .
n 1 n 1
b Considere una subregión que contenga m < n celdas. Si las partículas obedecen la
estadística Bose-Einstein, entonces la probabilidad de que la subregión contendrá todas
m k 1 n k 1
las partículas es .
m 1 n 1
c Si las partículas obedecen la estadística Fermi-Dirac, entonces la probabilidad de que la
1
8 Ver, por ejemplo, Constant (1958), caps. 5 y 6.
30 EL TEOREMA BINOMIAL GENERALIZADO
m n m n
subregión contenga exactamente r partículas es , r = 0,, k, por el
r k r k
Teorema 1.4.2. ////
Más aplicaciones del Teorema 1.6.2 serán encontradas en los problemas al final de este
capítulo.
EJEMPLO 1.7.1
a Tomando k = 1 en (7.1) se obtiene el teorema del valor medio, es decir,
f x f x0 f x1 x x0
f x f x0 f x0 x x0 12 f x0 x x0 r x
2
donde el término remanente r está definido por r(x) = (1/6)f'''(x1)(x x0)3. ////
EJEMPLO 1.7.2
1
9 Ver, por ejemplo, Thomas (1972), pp. 150-151, para un tratamiento elemental o Rudin (1964), pp. 95-96, para un
tratamiento más detallado.
EL MODELO CLÁSICO 31
Considere la función f, definida por f(x) = log (1 x) para < x < 1. Las primeras dos
derivadas de f son f'(x) = 1/(1 x) y f''(x) = 1/(1 x)2, así que podemos expandir f en una
serie de Taylor alrededor de x0 = 0 como
log 1 x x r x
donde r(x) = ½(1 x1)2x2 con |x1| |x|. Observe también que para x > 0, 0 r(x) (½)x2(1
x)2.
Podemos aplicar esta observación para estimar el valor del producto
k 1
i
pn ,k 1
i 1 n
k 1
i k 1 i k k 1
log pn ,k log 1 R R
i 1 n i 1 n 2n
2 2
1 k 1 i i
donde 0 R 1
2 i1 n n
k k 1 2k 1
2
k
1
n 12n 2
Aquí hemos usado el resultado del Problema 1.61 para evaluar la sumatoria de i y la
sumatoria de i2.
En el problema del cumpleaños del Ejemplo 1.3.4b, donde n = 365 y k = 25, encontramos
que log pn,k = 0.8219 R, donde 0 R 0.0212. Eso es, exp (0.8431) pn,k exp
(0.8219).
Una estimación aún mejor de pn,k puede ser obtenida tomando un término adicional en la
expansión de la serie de Taylor de log (1 x). ////
1 n
f x1 x x0 0
n
lim
n!
cuando n para cualquier x (a,b), entonces podemos escribir f como una serie de
potencias
32 EL TEOREMA BINOMIAL GENERALIZADO
f x k x x0
k
(7.2)
k 0
para x (a,b), donde 0 = f(x0) y k = f k(x0)/k! Para k = 1, 2,. Llamaremos a (7.1) y (7.2)
las expansiones de la serie de Taylor finita e infinita de f alrededor de x0, respectivamente.
La Ecuación (7.2) es especialmente útil en la evaluación de series infinitas.
EJEMPLO 1.7.3
a Sea f(x) = ex para < x < . Entonces f j(x) = ex para toda x y toda j 0.
Expandamos f en una serie de Taylor infinita alrededor de x0 = 0. Observe primero que
f j(0) = e0 = 1 para toda j 0. Más aún, si |x1| |x|, entonces |f n (x1)xn/n!| |xn|e|x|/n!, que
tiende a cero cuando n para cualquier x. Por tanto,
1 j
ex x (7.3)
j 0 j!
1
x j (7.4a )
1 x j 0
xr
j r
x x x
j r
x x
r k
(7.4b)
j r j r k 0 1 x
////
Las Ecuaciones (7.3) y (7.4a) son conocidas como las series exponencial y geométrica,
respectivamente. Las encontraremos de nuevo ocasionalmente.
Otra expansión útil de la serie de Taylor requiere la generalización de los coeficientes
binomiales. Si es cualquier número real, sea ()0 = 1 y defina
EL MODELO CLÁSICO 33
k 1 k 1 k 1 (7.5a )
k
k 0, 1, 2, (7.5b)
k k!
1 x x k 1 x 1 (7.6)
k 0
k
1
10 Para una prueba de que la serie converge y es igual a (1 + x) para 1 < x < 1, ver Apostol (1957), pp. 420-421.
34 LA FÓRMULA DE STIRLING
1 1
1 1 12n 1
n n
Teorema 1.8.2 2 n 2 n
e n! 2 n 2 ne para cualquier n
1.
Diferimos la prueba del Teorema 1.8.1 a la Sección 5.4.1, y omitimos la prueba del Teorema
1
1.8.2.
Así, el error relativo incurrido por usar la fórmula de Stirling,
n 12 n
2 n e n!
n!
es positivo, y a lo más 1/(12n ). Para n 9, esto es menor que 0.01.
EJEMPLO 1.8.1
Si una moneda buena es lanzada 2n veces, la probabilidad de que n águilas exactamente
2n
resultarán es 4 n por el Teorema 1.5.1. Por la fórmula de Stirling, tenemos
n
2n 2 n 2n!
2 2 2n
n n! 2
2 2n
2 n 12
e 2 n 1
~ = (8.1)
2 n
2
n 12 n
2 n e 2n
cuando n . Por ejemplo, la probabilidad de que 100 lanzamientos de una buena moneda
producirán exactamente 50 águilas es aproximadamente 0.08.
Es interesante observar que la última línea en (8.1) tiende a cero cuando n . Eso es, en
muchos lanzamientos de una buena moneda, no debemos esperar que la moneda caiga águila
exactamente la mitad de las veces.
REFERENCIAS
Referencias completas son dadas en el Apéndice D.
La historia de la teoría de la probabilidad es discutida por Todhunter (1865) y David (1962)
Una serie de artículos en Biometrika, iniciando en 1955, trata aspectos de la historia más
reciente de la teoría de la probabilidad.
1
11 Para una prueba del Teorema 1.8.1, ver Feller (1968), pp. 52-54.
EL MODELO CLÁSICO 35
1.9. PROBLEMAS
1.1 Dé una definición cuidadosa de un espacio muestral propio para los siguientes juegos.
(a) Una moneda balanceada es lanzada dos veces; si en lugar de dos, es lanzada tres
veces.
(b) Un dado balanceado es lanzado tres veces.
(c) Dos distintas cartas son seleccionadas secuencialmente de un paquete estándar de 52
cartas.
(d) Una carta es seleccionada de cada uno de dos paquetes estándar.
En cada caso el espacio muestral debe ser de tal modo seleccionado que los resultados
puedan ser supuestos igualmente verosímiles.
1.2 Dar el número de posibles resultados para cada uno de los juegos descritos en el
Problema 1.1.
1.3 Si dos dados balanceados, distinguibles, son lanzados, ¿cuál es la probabilidad de que
la suma de puntos sobre los dos dados será 5? ¿Cuál es la probabilidad de que la
diferencia (mayor menos menor) será 2?
1.4 Si una moneda balanceada es lanzada tres veces, ¿cuál es la probabilidad (a) de que
habrá 2 o más águilas consecutivas; (b) de que habrá al menos 2 águilas?
EL MODELO CLÁSICO 37
1.15 ¿En cuántas formas pueden manos de póquer ser servidas a (a) 2 personas
distinguibles; (b) 3 personas distinguibles?
n 1 n 1 n
1.16 Mostrar que para 1 k n. Interprete su resultado en términos de
k 1 k k
combinaciones.
1.17 Use el Problema 1.16 para probar el teorema binomial por inducción matemática.
1.18 Derive las siguientes identidades del teorema binomial:
n n n
2 n
0 1 n
n n n
0
0 1 n
n n n
2 n n2 n 1
1 2 n
1.19 ¿Cuántos subconjuntos hay en un conjunto de n elementos? Sugerencia: Parte (a) del
Problema 1.18.
Si dos cartas son extraídas secuencialmente sin reemplazo de un paquete estándar, ¿cuál es la
probabilidad de que ellas sean (a) ambas ases; (b) ambas espadas? ¿Cuál es la probabilidad
de que ellas sean (c) de la misma denominación; (d) del mismo palo?
1.21 Sea una muestra aleatoria ordenada de tamaño 5 extraída de un paquete estándar de 52
cartas. ¿Cuál es la probabilidad de que la tercera carta extraída será (a) un as; (b) una
espada?
1.22 (a) ¿Cuál es la probabilidad de que todos los 7 dígitos de un número de teléfono serán
distintos?
(b) ¿Cuál es la probabilidad de que los últimos 4 dígitos serán distintos? (Suponga
todos los números telefónicos para ser igualmente verosímiles.)
1.23 (a) Si cartas son seleccionadas de cada uno de 5 paquetes bien barajados, ¿cuál es la
probabilidad de que las 5 cartas sean todas diferentes? (b) ¿Cuál es la probabilidad de
que las 5 cartas sean de diferentes denominaciones?
Cada día el profesor selecciona uno de sus 10 alumnos para quedarse después de la escuela y
limpiar el pizarrón. Juanito, quien fue seleccionado dos veces durante la primera semana de
clases, siente que el profesor lo está persiguiendo. ¿Es “inusual” que un estudiante deba ser
seleccionado dos veces durante la misma semana de 5 días?
EL MODELO CLÁSICO 39
1.25 Si un dado balanceado es lanzado 7 veces, ¿cuál es la probabilidad de que cada cara
aparecerá al menos una vez?
1.26 ¿Cuál es la probabilidad de que una mano de bridge contendrá (a) exactamente 2 ases;
(b) al menos 2 ases?
1.27 ¿Cuál es la probabilidad de que una mano de bridge contendrá (a) 8 espadas; (b) 8
cartas del mismo palo?
1.28 ¿Cuál es la probabilidad de que una mano de bridge contendrá una de cada una de las
13 denominaciones?
1.29 (a) ¿Cuál es la probabilidad de que una mano de bridge contendrá 4 espadas, 3
corazones, 3 diamantes, y 3 tréboles? (b) ¿Cuál es la probabilidad de que una mano de
bridge contendrá 4 cartas de un palo y 3 de cada uno de los otros tres palos?
1.30 (a) ¿Cuál es la probabilidad de que una mano de bridge no contendrá ases? (b) ¿Cuál es
la probabilidad de que una mano de bridge no contendrá corazones?
1.31 ¿Cuál es la probabilidad de que una mano de póquer contendrá exactamente 2 cartas de
una denominación (un par) y cartas de tres diferentes denominaciones?
1.32 Si un comité de tamaño 3 es seleccionado de un grupo de 6 Demócratas y 4
Republicanos, ¿cuál es la probabilidad de que el comité contendrá (a) dos Demócratas
y un Republicano; (b) más Demócratas que Republicanos?
El Comité del Senado sobre Aleatorización consiste de 6 miembros del partido A y 4
miembros del partido B, pero el director es un miembro del partido B. Recientemente,
el director formó un subcomité de tamaño 3 que consistió de 2 miembros del partido B
y 1 del partido A. El director asegura haber seleccionado el subcomité por lote de los
10 miembros del comité. El líder del partido A, sin embargo, asegura que la
composición del subcomité confirma un sesgo más allá de una duda razonable. ¿Está el
líder del partido A justificado en su declaración?
1.34 Sebastián, un mago, declara tener percepción extrasensorial. Para demostrar esta
declaración, se le pide identificar las 4 cartas rojas de 4 cartas rojas y 4 negras que están
volteadas hacia abajo sobre la mesa. Sebastián correctamente identifica 3 de las cartas
rojas e incorrectamente selecciona 1 de las cartas negras. Después de ello, el dice haber
probado su dicho. ¿Cuál es la probabilidad de que Sebastián habría identificado
correctamente al menos 3 de las cartas rojas si él estuviera, de hecho, adivinando?
(Considere las 4 cartas seleccionadas por Sebastián como una muestra aleatoria
desordenada de tamaño 4.)
1.35 Una caja contiene 8 productos buenos y 2 defectuosos. Si 5 productos son
seleccionados al azar de la caja, ¿cuál es la probabilidad de encontrar (a) al menos 1 de
los productos defectuosos; (b) ambos productos defectuosos?
40 PROBLEMAS
1.36 En el Ejemplo 1.4.2, suponer que el tamaño del lote es 50 y que no es redituable vender
lotes conteniendo más de 2 defectuosos. ¿Cómo debe ser seleccionado k para que la
probabilidad de vender un lote malo sea a lo más 0.1?
1.37 En el Ejemplo 1.4.2, mostrar que q(k,m) es una función decreciente de m. Sugerencia:
Calcular q(k, m + 1) q(k,m).
1.38 Calcular y graficar las probabilidades hipergeométricas pr como una función de r, para
(a) m = k = 4 y n = 8;
(b) k = 4 y m = n m = 8.
k
1.39 Calcular y graficar las probabilidades binomiales 2 r como una función de r para
r
(a) k = 4;
(b) k = 6;
(c) k = 8.
1.40 Si un dado balanceado es lanzado 5 veces, ¿cuál es la probabilidad de que exactamente
2 de los lanzamientos producirán ó 1 ó 6 puntos?
1.41 Sea una muestra aleatoria ordenada extraída sin reemplazo de un paquete estándar.
(a) Si el tamaño de la muestra es k = 5, ¿cuál es la probabilidad de que la muestra
contendrá exactamente 2 espadas?
(b) ¿Cuál es la probabilidad de que la primera espada aparecerá en la quinta extracción?
1.42 Repetir el Problema 1.41 para muestreo con reemplazo.
1.43 Si una muestra aleatoria ordenada de tamaño 5 es extraída sin reemplazo de un paquete
estándar, ¿cuál es la probabilidad de que la segunda espada aparecerá en la quinta
extracción?
Una caja contiene 6 fusibles, 2 de los cuales son defectuosos. Si los fusibles son
inspeccionados en un orden aleatorio, ¿cuál es la probabilidad de encontrar el primer fusible
defectuoso (a) en la tercera prueba; (b) en o antes de la tercera prueba; (c) después de la
tercera prueba?
1.45 Repetir el Problema 1.44 con el primer fusible defectuoso reemplazado por el segundo
fusible defectuoso.
1.46 ¿Qué es más probable: obtener al menos 1 seis en 6 lanzamientos de un dado no
cargado u obtener al menos 2 seises en 12 lanzamientos de un dado no cargado?
EL MODELO CLÁSICO 41
1.47 Sea una muestra de tamaño k = 4 extraída de una urna que contiene 4 bolas rojas y 4
bolas blancas. ¿Es más probable que todas las bolas extraídas serán rojas si el muestreo
es con reemplazo o sin reemplazo?
1.48 Sebastián, un mago, canta águilas o soles antes de cada uno de cuatro lanzamientos de
una moneda no cargada. Si el está de hecho adivinando, ¿cuál es la probabilidad de que
Sebastián correctamente cantará (a) las 4; (b) al menos 3 de los lanzamientos? Compare
sus respuestas con la respuesta al Problema 1.34.
Si 4 bolas son ubicadas en 4 celdas de acuerdo a la estadística de Bose-Einstein, ¿cuál es la
probabilidad de que la primera celda contendrá (a) exactamente 1 bola; (b) exactamente 2
bolas; (c) al menos 1 bola?
1.50 Si 6 bolas son ubicadas en 4 celdas de acuerdo a la estadística de Bose-Einstein, ¿cuál
es la probabilidad (a) que cualquier celda esté ocupada; (b) que al menos 3 celdas estén
ocupadas?
1.51 Repetir los Problemas 1.49 y 1.50 para la estadística Fermi-Dirac.
1.52 Si k partículas son ubicadas en n celdas de acuerdo a la estadística de Bose-Einstein,
¿cuál es la probabilidad de que una subregión dada, digamos consistiendo de m celdas,
contendrá exactamente r partículas?
1.53 Sean k bolas indistinguibles ubicadas en n celdas de acuerdo a la estadística de Bose-
Einstein, y suponer que las celdas están etiquetadas por los enteros 1, n. ¿Cuál es la
probabilidad de que el índice de la celda ocupada más grande sea m, donde m < n?
1.54 Escriba una prueba del Teorema 1.6.1 en la terminología de la Sección 1.6.
1.55 Derivar la siguiente identidad para 1 < x < 1:
log 1 x
1
n x
n 1
n
n n
42 PROBLEMAS
2n
1.60 Evaluar las serie n x n
para –¼ < x < ¼.
n 0
aproximadamente 60 porciento habían sido curados. Los dos usos no son mutuamente
exclusivos, puesto que la opinión subjetiva de uno puede estar basada sobre experiencia
pasada con frecuencias, pero ellas son distintas y justifican una consideración separada.
Para considerar los dos usos, será conveniente tener alguna terminología uniforme que
aplicará a ambos. Así, considere una variable X cuyo valor exacto es desconocido para
nosotros, y suponer que podemos especificar un conjunto S en el que X debe estar. La
variable X puede representar el suceso de algún experimento o juego de azar, o puede
simplemente representar algún aspecto de la naturaleza acerca del cual estamos inciertos.
Como en el capítulo previo, llamaremos a S el espacio muestral y referiremos a los
subconjuntos A, B, de S como eventos. Además, diremos que el evento A ocurre si y sólo
si X A.
EJEMPLO 2.1.1
a Juegos de azar (como en el Capítulo 1) Denote X el número de puntos que
aparecen cuando dos dados legales son lanzados, o denote X la mano de póker repartida
a un particular jugador.
b Experimentos de muestreo (como en el Capítulo 1) Denote X el número de
defectuosos encontrados cuando un lote de artículos manufacturados es examinado.
c Experimentos científicos Denote X el número de partículas emitidas desde una
substancia radioactiva dada durante un intervalo de tiempo dado; o denote X el número
de ratones que contraen cáncer cuando un grupo de ratones es expuesto a humo de
cigarro.
d Problemas de ingeniería Denote X la demanda de electricidad en la Ciudad de
Nueva York en un día dado; denote X el peso máximo sobre el puente George
Washington durante un año dado.
e Problemas actuariales Denote X la longitud de vida anticipada para un hombre
dado quien ha justamente aplicado para un seguro de vida.
f Incertidumbre Denote X la fecha exacta del nacimiento de Noé; o denote X el
siguiente cierre de la semana del promedio industrial Dow-Jones. ////
1
f n A numero de repeticiones en que A ocurre
n
con que A ocurre. Eso es, fn(A) es el cociente del número de veces que A ocurre a el número
total de repeticiones del experimento. Ahora, es un hecho empírico que para muchos tipos de
juegos y experimentos, las frecuencias relativas fn(A) tienden a estabilizarse cuando n crece.
Eso es, ellas actúan como si se estuvieran aproximando a límites cuando n . La
interpretación frecuentista de "probabilidad" define la probabilidad de A para ser
p A lim f n A (1.1)
n
donde la existencia del límite se presupone. (La existencia del límite no puede ser probada,
porque no estamos trabajando con un tema puramente matemático.)
Así, de acuerdo a la interpretación frecuentista de "probabilidad," la probabilidad de un
evento está determinada por el evento y el conjunto de condiciones experimentales. Es
independiente del observador y puede ser determinada a un grado de precisión creciente
simplemente repitiendo el experimento al cual el evento se refiere suficientes veces y
calculando la sucesión de frecuencias relativas. Por esta razón, la interpretación frecuentista
de "probabilidad" es algunas veces llamada la interpretación objetiva.
EJEMPLO 2.1.2
Una moneda es lanzada 10,000 veces, produciendo los resultados mostrados en la Tabla 2.
Desde el punto de vista frecuentista, los resultados son consistentes con la hipótesis de que la
probabilidad de águilas en cualquier lanzamiento dado es ½. ////
Ahora suponer que tenemos dos eventos A y B, y suponer que A y B son disjuntos; eso es,
AB = . Entonces
f n A B f n A f n B
P A B P A P B (1.2)
Eso es, si las probabilidades son definidas por (1.1), ellas necesariamente satisfacen la
condición (1.2) siempre que A y B sean eventos disjuntos.
En el Capítulo 1, usamos el término "igualmente verosímil" sin dar una definición precisa.
46 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA
Tabla 2
No. de lanzamientos No. de águilas Frecuencias
Relativas
100 46 0.460
500 239 0.478
1000 495 0.495
5000 2529 0.506
10000 5049 0.505
Podemos ahora dar tal definición desde el punto de vista de la interpretación frecuentista. Si
S es un conjunto finito, entonces los sucesos s S son igualmente verosímiles si los eventos
{s} ocurrirán con aproximadamente la misma frecuencia relativa después de muchas
repeticiones del juego o experimento bajo consideración. Eso es, los sucesos son igualmente
verosímiles si fn({s}) todos convergen al mismo límite P({s}) = c para toda s S. La
Ecuación (1.2) entonces requiere1 que P(A) = |A|/|S| para A S. Así, el modelo del Capítulo
1 es aplicable, y los resultados del Capítulo 1 ahora admiten la siguiente interpretación
frecuentista. Si los sucesos s S son igualmente verosímiles, y si A es cualquier evento cuya
probabilidad fue calculada para ser P(A) = p en el Capítulo 1, entonces la frecuencia relativa
fn(A) con la cual A ocurrirá será aproximadamente p después de muchas repeticiones del
juego o experimento bajo consideración.
Ahora consideremos la interpretación subjetiva del término "probabilidad." Aquí un
problema se presenta en si mismo inmediatamente, porque la mayoría de los enunciados de
probabilidad subjetiva son cualitativos (por ejemplo, "probablemente lloverá mañana"), no
cuantitativos. Si deseamos ajustar una interpretación subjetiva en una teoría matemática de
probabilidad, necesitaremos un método para cuantificar enunciados de probabilidad
subjetiva. Una forma de hacerlo es relacionarlas a momios de apuesta, y este es el enfoque
que seguiremos. Sea A un evento, y denote G el siguiente juego:
1
1 Aquí anticipamos el resultado del Teorema 2.3.3; ver Ejemplo 2.3.5.
PROBABILIDAD AXIOMÁTICA 47
Equivalentemente, el juego puede ser descrito diciendo que uno gana 1 p unidades si A
ocurre y uno pierde p unidades si A no ocurre. Diremos que G ofrece momios de 1 p a p
1
sobre la ocurrencia de A.
Acordemos decir que una persona considera el juego G como justo si él es indiferente a los
dos lados de G. Eso es, la persona considera a G como justo si y sólo si él, tan pronto ganaría
1 p unidades si A ocurre y perdería p unidades si A no ocurre como ganaría p unidades si A
no ocurre y perdería 1 p unidades si A ocurre.
Ahora adoptamos la siguiente definición de probabilidad subjetiva. Si hay un valor único de
p, 0 p 1, para el cual una persona considera el juego G como justo, entonces diremos que
la probabilidad subjetiva de esa persona para A es P(A) = p. Observe que las probabilidades
subjetivas están determinadas por el observador y están influenciadas por el evento mismo
sólo hasta donde el observador está bien informado acerca de él. Dos diferentes personas
pueden asignar diferentes probabilidades subjetivas al mismo evento, aun si ellas tienen
acceso a la misma información.
Ahora suponer que una persona tiene dos eventos A y B para los cuales ha asignado
probabilidades subjetivas P(A) = p y P(B) = q, y suponer también que A y B son disjuntos.
Entonces por hipótesis él considera las siguientes apuestas como justas.
Si fuera a tomar ambas apuestas, el pagaría p + q unidades para jugar y puesto que A y B son
disjuntos, el recibiría 1 unidad si A o B ocurriera (y nada de otro modo). Puesto que la nueva
apuesta está formada tomando dos apuestas justas, parece razonable que el debe considerarla
para ser justa. Eso es, parece razonable que el debe asignar la probabilidad subjetiva.
P A B p q P A P B (1.3)
al evento A B. Decimos que las probabilidades subjetivas de una persona son consistentes
si y sólo si ellas satisfacen (1.3) siempre que A y B sean disjuntos. Puede ser mostrado (ver
Problemas 2.4 a 2.6) que una persona con probabilidades subjetivas inconsistentes puede ser
conducida a aceptar apuestas por la conjunción en la cual el necesariamente pierda dinero.
Así, restringimos nuestra atención a probabilidades subjetivas consistentes.
El significado subjetivo del término "igualmente verosímil" debe ahora ser claro. Si S es un
conjunto finito, uno considera los sucesos s S como igualmente verosímiles si y sólo si
uno asigna la misma probabilidad subjetiva P({s}) = c a cada evento s S. Como antes, la
1
Las unidades aquí deben ser tomadas para ser cantidades de dinero pequeñas comparadas a los recursos
totales de uno. Deseamos evitar, por ejemplo, la posibilidad de que la pérdida de una unidad resultaría en bancarota.
48 UN MODELO MATEMÁTICO
Ecuación (1.3) entonces requiere que uno asigne probabilidad subjetiva P(A) = |A|/|S| a cada
evento A S, así que el modelo del Capítulo 1 es aplicable. Más aún, los resultados del
Capítulo 1 ahora admiten la siguiente interpretación subjetiva. Si A es un evento cuya
probabilidad fue calculada para ser P(A) = p en el Capítulo 1, y si uno considera los sucesos
del juego al cual A se refiere como igualmente verosímiles, entonces, para ser consistente en
las creencias de uno, uno debe asignar probabilidad subjetiva P(A) = p a A.
EJEMPLO 2.2.1
a La clase de todos los subconjuntos de un conjunto no vacío S es una álgebra
puesto que las condiciones de 1 a 3 son trivialmente satisfechas en este caso.
b Si S es un intervalo de números reales, entonces hay una álgebra más pequeña
de subconjuntos de S que contiene a todos los subintervalos de S (ver Problemas 2.21 y
2.22). Esta álgebra es conocida como la clase de conjuntos de Borel, y sus elementos
son conocidos como conjuntos de Borel.
Las propiedades relevantes de la clase de conjuntos de Borel son las siguientes:
Ai Ai y Ai Ai
Ver Apéndice A para su derivación.
Ahora consideremos la función P. ¿Qué propiedades podemos razonablemente demandar de
P? Primero, deseamos probabilidades para ser números entre 0 y 1, y deseamos ciertamente
implicar una probabilidad de 1. Así, requeriremos
50 UN MODELO MATEMÁTICO
0 P A 1 y P S 1 (2.1)
para A . Más aún, vimos en la Sección 2.1 que dentro de la interpretación frecuentista o
subjetiva de probabilidad debemos tener
P A B P A P B (2.2)
siempre que A y B sean eventos mutuamente excluyentes. Así, requeriremos las condiciones
(2.1) y (2.2).
Las condiciones (2.1) y (2.2) trabajan espléndidamente si S es un conjunto finito, como en el
Capítulo 1, pero no conducen a una teoría matemática suficientemente rica si S es infinita.
Por tanto, estamos influidos para introducir la siguiente versión fortalecida de (2.2): si A1,
A2, es una sucesión infinita de eventos mutuamente excluyentes, entonces
P Ai P Ai (2.3)
i1 i1
EJEMPLO 2.2.2
Espacios de probabilidad discretos. Sea S = {s1, s2,} un conjunto infinito numerable1 o
finito, y sea f una función real que está definida sobre S y satisface2
1
3 Un conjunto es llamado infinito numerable si hay una correspondencia uno a uno entre S y el conjunto de enteros
positivos Z = {1,2,}.
2
4 La notación S f(s) significa que los números f(s), s S, son sumados. Esto puede ser una suma finita si S es finito o
una serie infinita si S es infinito numerable.
PROBABILIDAD AXIOMÁTICA 51
Entonces podemos definir una función P sobre la clase de todos los subconjuntos de S
haciendo
P A f s (2.5)
A
para todo A S. Tenemos P(A) 0 y P(A) P(S) para todo A puesto que f(s) 0 para
cualquier s, y tenemos P(S) = 1 por (2.4). Así, la condición (2.1) es satisfecha. Más aún, si A
y B son disjuntos, entonces
P A B f s
A B
= f s f s P A P B
A B
EJEMPLO 2.2.3
a Si S es un conjunto finito, y si f(s) = 1/|S| para todo s S, entonces (2.5) produce
P(A) = |A|/|S| para A S. Así, el modelo clásico del Capítulo 1 es un caso especial del
Ejemplo 2.2.2.
b Considere un experimento en el cual una moneda es lanzada hasta que un águila
aparece y el número total de lanzamientos es registrado. Podemos describir el suceso
del experimento por un entero positivo (el número de lanzamientos requeridos), y por
lo tanto podemos tomar a S para ser el conjunto de todos los enteros positivos S =
{1,2,}. Más aún, en el Ejemplo 5.1.1a mostramos que la probabilidad de que la
primera águila aparezca sobre el sésimo lanzamiento es simplemente 2-s. Entonces
f s 2 S 1
S s 1
52 UN MODELO MATEMÁTICO
por la Ecuación (7.4) del Capítulo 1, así que la condición (2.4) es satisfecha. Ahora
definimos una medida de probabilidad por (2.5) para obtener un espacio de
probabilidad para representar el experimento. Si, por ejemplo, deseamos calcular la
probabilidad de que un número par de lanzamientos será requerido, encontramos la
probabilidad del evento A = {2,4,}. Por (2.5) y (7.4) del Capítulo 1, esta es
P A 2 s 22 k 1
4 1 14 1 13 ////
A k 1
EJEMPLO 2.2.4
Espacios de probabilidad absolutamente continuos. Sea S un intervalo infinito o finito de
números reales, y sea f una función real definida sobre S para la cual
Por analogía con (2.5), parece natural definir una medida de probabilidad P por
P A A f s ds (2.7)
EJEMPLO 2.2.5
Considere un experimento en el cual un número es seleccionado del intervalo unitario S =
[0,1] de tal manera que la probabilidad de que el número esté en un subintervalo de S sea
igual a la longitud del subintervalo. Tomando f(s) = 1, 0 s 1, en (2.7) produce P(A) =
longitud de A, así que la discusión anterior garantiza la existencia de un espacio de
PROBABILIDAD AXIOMÁTICA 53
donde An = {rn} es el conjunto cuyo único elemento es rn, n = 1, 2,. Ahora cada An es un
intervalo de longitud 0, así que
P An A ds rn rn 0
n
P R # P An 0 0
n 1 n 1
Eso es, la probabilidad de que el número seleccionado será un número racional es cero. ////
para toda A , y
P A B P A P B (2.2)
P A 1 P A (3.2)
En particular, P() = 0.
PRUEBA Tomando B = S en la Ecuación (3.1), obtenemos P(A') = P(S A) =
P(S) P(A) = 1 P(A) por (2.1). Esto establece (3.2). La aseveración final del
corolario se sigue, puesto que P() = P(S') = 1 P(S) = 0. ////
La aseveración final del Teorema 2.3.1 puede ser parafraseada como sigue: si el evento A
implica al evento B, entonces la probabilidad de A es menor que o igual a la probabilidad de
B. Veremos más tarde que esta simple observación puede ser extremadamente útil. La
Ecuaciones (3.1) y (3.2) son también muy útiles. Ilustramos con algunos ejemplos.
EJEMPLO 2.3.1
a Si una mano de póker es seleccionada al azar de una baraja estándar de 52 cartas,
¿cuál es la probabilidad de que la mano contendrá al menos 1 as? Sea A el evento de
que la mano contiene al menos 1 as. Entonces A' es el evento de que la mano no
4 48 52 48 52
contiene ases, así que P A por el Teorema 1.4.1. Por
0 5 5 5 5
48 52
tanto, P A 1 P A 1 por (3.2).
5 5
b ¿Cuál es la probabilidad de que la más alta denominación en una mano de póker
seleccionada aleatoriamente sea una reina (ases máximo)? Sea B el evento de que la
más alta denominación es a lo más una reina, y sea A el evento de que la más alta
denominación es a lo más una sota. Entonces el evento de que la más alta
denominación es una reina es C = B A. Puesto que A implica a B, tenemos que P(C) =
P(B) P(A) por (3.1), y así será suficiente calcular P(A) y P(B). Para calcular P(B),
considere ases y reyes como bolas rojas y 2s, 3s,, y reinas como bolas blancas.
PROBABILIDAD AXIOMÁTICA 55
Entonces B es el evento de que ninguna bola roja es tomada en una muestra de tamaño
44 52 40 52
5, así que P B . Análogamente, P A . Así,
5 5 5 5
Dados cualesquiera dos eventos A y B, definimos su diferencia simétrica para ser el evento
de que ocurre A o ocurre B pero no ambos. Eso es, definimos su diferencia simétrica para ser
A B = (A B) AB.
Teorema 2.3.2 Si A y B son eventos, entonces
P A B P A P B P AB (3.3)
P A B P A P B 2 P AB (3.4)
P A B P A P B AB
P A P B P AB
por las Ecuaciones (2.2) y (3.1). Esto establece (3.3), de la cual (3.4) se sigue puesto
que P(A B) = P(A B) P(AB) por (3.1).
////
EJEMPLO 2.3.2
De la clase total de novatos en una universidad dada, 22 porciento toma un curso de
matemáticas, 29 porciento toma un curso de ciencias, y 15 porciento toma ambos. Si un
estudiante es seleccionado al azar de la clase de novatos, ¿cuál es la probabilidad que el tome
un curso de matemáticas o un curso de ciencias? ¿Cuál es la probabilidad que el tome un
curso de matemáticas o un curso de ciencias pero no ambos? Sea A el evento que el novato
seleccionado aleatoriamente tome un curso de matemáticas, y sea B el evento que el tome un
curso de ciencias. Entonces, nos han dado P(A) = 0.22, P(B) = 0.29, y P(AB) = 0.15, y
requerimos la probabilidad de A B y A B. Éstas son P(A B) = 0.22 + 0.29 0.15 =
0.36 y P(A B) = 0.21 por las Ecuaciones (3.3) y (3.4) respectivamente. ////
56 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS
Teorema 2.3.3 Sean A1, A2,... An cualesquiera eventos. Si A1, A2,... An son
mutuamente excluyentes, entonces
n n
P Ai P Ai (3.5)
i1 i1
n n
P Ai P Ai (3.6)
i1 i1
EJEMPLO 2.3.3
Sea una muestra desordenada de tamaño k tomada de una urna que contiene m bolas rojas y
n m bolas blancas. ¿Cuál es la probabilidad que al menos r de las bolas tomadas serán
rojas? Para j = 0,, k, sea Ej el evento que exactamente j de las bolas tomadas serán rojas.
Entonces E0,,Ek son mutuamente excluyentes, y
PROBABILIDAD AXIOMÁTICA 57
m n m
j k j
P Ej
n
k
para j = 0,, k por el Teorema 1.4.1. Más aún, el evento que al menos r de las bolas
tomadas sean rojas es simplemente
k
Lr E j
j r
Por tanto,
m n m
k j k j
P Lr
j r n
k
por la Ecuación (3.5). La probabilidad que a lo más r bolas rojas serán tomadas es
m n m
r j k j
P M r ////
j 0 n
k
EJEMPLO 2.3.4
Considere una lotería en la cual 100,000 boletos son vendidos, de los cuales 5 ganan
premios. Si un hombre compra 10 boletos, ¿cuál es la probabilidad que el ganará al menos 1
premio? Considere los 10 boletos como una muestra ordenada sin reemplazo de los 100,000
boletos, y sea Ak el evento que el késimo boleto gana un premio. Entonces, P(Ak) =
0.00005, k = 1,, 10, y el evento que el hombre gana al menos 1 premio es A 10 k 1 Ak
.
Puesto que los eventos A1,,A10 no son mutuamente excluyentes, la Ecuación (3.5) no es
k 1 P Ak 0.00005.
aplicable. Sin embargo, (3.6) es aplicable y produce P A 10
La probabilidad exacta puede ser también calculada. Indudablemente, por (3.2) y el Teorema
1.5.1, tenemos P(A) = 1 P(A') = 1 (99,995)10/(100,000)10. Así, tenemos una simple cota
superior para la probabilidad en cuestión y una expresión algo complicada para su valor
exacto. ////
58 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS
EJEMPLO 2.3.5
Si S es un conjunto finito, si es la clase de todos los subconjuntos de S, y si P({s}) = c es
la misma para toda s S, entonces P(A) = |A|/|S| para todo A S. Sin lugar a dudas, si A S,
entonces A = A{s}, donde la unión se extiende sobre todos los distintos s A, así que P(A)
= A P({s}) = c|A|. Tomando A = S, ahora encontramos que 1 = P(S) = c|S|, o c = 1/|S|. La
afirmación se sigue.
Hay un número de identidades combinatorias interesantes que se siguen del Teorema 2.3.3;
enumeramos dos de ellas en el siguiente ejemplo.
EJEMPLO 2.3.6
a Sean E0, E1,, Ek como descritos en el Ejemplo 2.3.3. Entonces E0, E1,, Ek son
tanto mutuamente excluyentes como exhaustivos. Por tanto,
m n m
k j k j
k
1 P S P E j
j 0 j 0 n
k
Eso es,
k m n m n
j 0 j k j k
B j Ai
ij
Así, Bj es el evento que Ai ocurre para toda i J, con ninguna restricción ubicada sobre la
ocurrencia de Ai para i J. Además, sea
Sk P B j
J k
(4.1)
donde la sumatoria se extiende sobre todos los subconjuntos J de tamaño k, k = 1,, n. Así,
n
S1 P Ai
i1
n i1
S 2 P Ai Aj
i 2 j 1
El Teorema 2.4.1 puede ser probado por inducción matemática directa sobre n usando la
Ecuación (3.3), que el Teorema 2.4.1 generaliza. Daremos los detalles abajo, pero primero
consideraremos algunos ejemplos.
La mayoría de las aplicaciones de la Ecuación (4.2) serán para casos en los cuales los
eventos A1,,An son simétricos en el sentido que
1
6 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad.
60 COMBINACIONES DE EVENTOS
P B j P A1 A2 Ak (4.3)
n
S k P A1 Ak (4.1a )
k
n
puesto que hay sumandos en la Ecuación (4.1).
k
EJEMPLO 2.4.1
Apareamiento Una computadora prepara cobros mensualmente para sus n clientes y
rotula un sobre para cada uno. Un error de programación entonces le causa poner los cobros
dentro de los sobres al azar. ¿Cuál es la probabilidad que ubique al menos un cobro en el
sobre correcto? Numeremos los cobros y sobres de tal manera que cada cobro reciba el
mismo número que el sobre rotulado para él. Podemos entonces describir el suceso del
experimento por una permutación x = (x1,... xn) de los enteros 1,, n, donde xk denota el
número del sobre dentro del cual el késimo cobro es ubicado, k = 1,, n. Podemos por lo
tanto tomar nuestro espacio muestral S para ser el conjunto de todas las permutaciones
dichas, e interpretamos la frase "al azar" para significar que todos los n! sucesos x = (x1,... xn)
S son igualmente verosímiles. El evento que la késima carta es correctamente ubicada es
entonces Ak = {x S: xk = k} para k = 1,, n, y requerimos la probabilidad de la unión
B nk 1 Ak . Es fácil ver que la condición de simetría (4.3) es satisfecha. Más aún, P(A1
Ak) = (n k)!/n!, porque A1 An especifica que xi = i, i = 1,, k, y permite xk+1,, xn para
n
ser permutadas en cualquier orden. Ahora se sigue que S k n k !/ n!= 1 / k !. Por
k
tanto, por la Ecuación (4.2)
n n k 1 1
n
k 1
P Ai 1 1 1
i1 k 1 k! k 0 k!
n
P Ai 1 e 1 0.632 (4.4)
i1
PROBABILIDAD AXIOMÁTICA 61
para n grande. De hecho, la aproximación (4.4) es válida a dos decimales provisto sólo que n
5. ////
EJEMPLO 2.4.2
El problema del colector de cupones. Un fabricante regala cupones de t diferentes tipos
con su producto y da un premio a cualquiera quien colecte al menos uno de todos los t tipos.
Si un hombre colecta n cupones, ¿cuál es la probabilidad que el colectará al menos uno de
todos los t tipos? Si los t tipos de cupones son distribuidos en igual número, y si hay un
número grande de cupones, podemos parafrasear la cuestión como sigue.
Si un dado balanceado de t lados es lanzado n veces, ¿cuál es la probabilidad que cada una
de las t caras aparezca al menos una vez? Sea Ai el evento que la iésima cara no aparece al
menos una vez. Entonces requerimos la probabilidad que el evento A ti1 Ai no ocurra, eso
es, 1 P(A). Podemos calcular P(A) de la Ecuación (4.2). Indudablemente, es de nuevo
fácilmente verificado que la condición de simetría (4.3) es satisfecha, y
n
k
P A1 Ak 1
t
para k = 1,,t, puesto que A1 Ak requiere que cada uno de los n lanzamientos resultar en
una de las t k caras especificadas (ver Lema 1.5.1). Por tanto,
n
t t k
P A 1
k 1
1 (4.5)
k 1 k t
por la Ecuación (4.2). La Ecuación (4.5) no se simplifica pero es tratable para cálculos.
Enumeramos algunos valores típicos en la Tabla 3 para t = 6. ////
por (3.3). Más aún, el primer y último términos sobre el lado derecho de (4.6) son
probabilidades de la unión de m eventos, así que
k 1
m m
P Ai 1 P Ai (4.7a )
i1 k 1 J k iJ
62 COMBINACIONES DE EVENTOS
k 1
m m
P Ai Am1 1 P Am1 Ai (4.7b)
i1 k 1 J k iJ
Tabla 3
n 8 12 16 20 24
1 P A 0.114 0.438 0.698 0.848 0.925
por la hipótesis de inducción. Finalmente, si (4.7a) y (4.7b) son substituidas dentro de
(4.6), y si el (k + 1)ésimo término en (4.7a) es agrupado con el késimo término en
(4.7b), la Ecuación (4.2) es obtenida. El Teorema 2.4.1 ahora se sigue por inducción
matemática. ////
Para cerrar, mencionamos la siguiente extensión del Teorema 2.4.1. Sean A1,,An
cualesquiera n eventos; para r = 1,,n sea Lr el evento que al menos r de los eventos
A1,,An ocurran; y sea Er el evento que exactamente r de los eventos A1,,An ocurran. Así,
Lr BJ y Er Lr Lr 1
J r
n k r
k 1
P Lr 1 Sk (4.8)
k r r 1
k r
n k
P Er 1 Sk (4.9)
k r r
La Ecuación (4.8) puede ser establecida por un argumento inductivo que es similar a ese
dado en la prueba del Teorema 2.4.1. La Ecuación (4.9) entonces puede ser obtenida de la
identidad P(Er) = P(Lr) P(Lr+1). Omitimos los detalles. Otra, prueba más simple del
Teorema 2.4.1 es bosquejada en el Problema 8.66.
PROBABILIDAD AXIOMÁTICA 63
y escribimos A = lim An. Así, A = lim An ocurre si y sólo si An ocurre para alguna n = n0, en
cuyo caso Ak ocurre para toda k n0. Análogamente, decimos que una sucesión infinita de
eventos A1, A2, es decreciente si y sólo si A1 A2 An An+1 para cualquier n
= 1, 2,, y definimos el límite de la sucesión decreciente de eventos para ser la intersección
A An
n 1
En este caso A = lim An ocurre si y sólo si An ocurre para cada n = 1, 2,. Observemos que
una sucesión A1, A2, es creciente (decreciente) si y sólo si A1, A2 ,... es decreciente
(creciente) y que en uno u otro caso
lim An ' lim An (5.1)
EJEMPLO 2.5.1
Sea S = (0,1) el intervalo unitario abierto, y para n = 1, 2, sea An = (1/n,1) el intervalo
abierto de 1/n a 1. Entonces, puesto que 1/(n + 1) < 1/n, n 1, A1, A2, es una sucesión
creciente de eventos, y puesto que 1/n 0 cuando n ,
lim An An 01
,
n 1
1
7 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad.
64 EQUIVALENTES DEL TERCER AXIOMA
cuando n , siempre que A1, A2, sea una sucesión creciente (decreciente) de eventos. El
principal resultado de esta sección es que el tercer axioma es equivalente a la continuidad
como está definida en (5.2).
para n = 1, 2,, y
n
lim An An Bk Bn
n1 n1k 1 n1
Entonces, B1, B2, es una sucesión creciente de eventos con límite lim Bn = A, así que
Cn = A Bn forma una sucesión decreciente de eventos con límite lim Cn = . Ahora,
para cada n = 1, 2,, tenemos
n
P A P Bn P Cn P Ak P Cn (5.4)
k 1
por (2.2) y (3.5). Finalmente, puesto que P es supuesta para ser continua por arriba,
debemos tener lim P(Cn) = P(lim Cn) = P() = 0 cuando n . Así,
P A P Ak
k 1
como es requerida por (2.3). Esto completa la prueba del Teorema 2.5.1. ////
El interés en el Teorema 2.5.1 se deriva de dos hechos. Primero, muestra que el tercer
axioma (2.3), que no fue tan bien motivado como (2.1) y (2.2), es equivalente a
probabilidades requeridas para ser continuas en el sentido de la Ecuación (5.2). El lector
puede encontrar la suposición de continuidad más admisible que (2.3) como originalmente se
estableció. También, muestra que las medidas de probabilidad son continuas en el sentido de
(5.2), y este hecho será útil para nosotros posteriormente.
66 EQUIVALENTES DEL TERCER AXIOMA
REFERENCIAS
Una discusión concisa de varias interpretaciones de probabilidad es dada por De Finetti
(1968). Una discusión más extensiva de estas interpretaciones será encontrada en Smokler y
Kyburg (1964). Un enfoque diferente a la cuantificación de probabilidades subjetivas está
dado por DeGroot (1970), quien también da más referencias.
Lectores familiarizados con teoría de la medida pueden desear consultar un texto más
avanzado para más información sobre los fundamentos matemáticos de la probabilidad.
Neveu (1965) y Tucker (1967) son recomendados.
PROBABILIDAD AXIOMÁTICA 67
2.6 PROBLEMAS
2.1. Definir un espacio muestral apropiado para cada uno de los siguientes experimentos.
No es ya necesario que los resultados sean supuestos igualmente verosímiles:
(a) Un dado cargado es lanzado dos veces.
(b) Un dado es lanzado hasta que un as aparece.
(c) Una moneda no cargada es lanzada hasta que dos águilas han aparecido.
(d) Deseas adivinar el año del nacimiento de Noé.
2.2. Definir espacios muestrales apropiados para los siguientes experimentos:
(a) La longitud del tiempo requerido para que una sustancia radiactiva registre 25
emisiones es observada.
(b) El peso de un hombre seleccionado al azar es registrado.
(c) La precipitación anual en Seattle es registrada.
(d) El valor de la acción IBM es registrado cada día por una semana.
(e) El número de accidentes de tráfico en una ciudad y día particular es registrado.
2.3. Trate de asignar su probabilidad subjetiva de que lloverá mañana.
68 PROBLEMAS
2.11. Sea S = {1,2,} el conjunto de enteros positivos, y sea f(s) = 1/s(s + 1) para s S.
Mostrar que f(1) + f(2) + = 1.
2.12. Sean S y f como en el Problema 2.11 y defina P como en el Ejemplo 2.2.2. Encontrar la
probabilidad de los eventos A = {1,2,3,4} y B = {10,11,}.
2.13. En el Problema 2.12 encontrar la probabilidad del evento A = {2,4,6,} que un entero
par sea seleccionado. Sugerencia: Integre la expansión de la serie de Taylor de –(½) log
(1 x2).
2.14. Denote S = [0,1] el intervalo unitario y sea un punto s seleccionado al azar de S como
en el Ejemplo 2.2.5. ¿Cuál es la probabilidad (a) de que el primer decimal en la
expansión decimal de s sea 1; (b) que sea a lo más 5?
2.15. En el Problema 2.14 reemplace el primer decimal por el segundo decimal.
2.16. Sea S = (0,) y sean las probabilidades asignadas como en el Ejemplo 2.2.4 con f(s) =
e-s para s S. Sea A el conjunto de s S los cuales difieren de un entero positivo en
más de ¼. Encontrar P(A). Sugerencia: Sea An el conjunto de s para las cuales s n
¼; calcular P(An); y sumar.
2.17. Mostrar que la condición (2.3) implica la condición (2.2).
2.18. Mostrar que la condición (2.2) y (2.3) son equivalentes si S es un conjunto finito.
2.19. Sea un punto seleccionado al azar del intervalo unitario S = [0,1], como en el Ejemplo
2.2.5, y sea el evento A definido como sigue. Primero, definimos A1 para ser el
intervalo (1/3,2/3). Enseguida, definimos A2 para ser la unión de los intervalos (1/9,2/9)
y (7/9,8/9). En general definimos An, n 3, para ser la unión de los tercios medios de
los 2n –1 intervalos que están incluidos en (A1 An –1)´.Finalmente, permitimos a A
= k 1 An ser la unión de los An. El complemento de A, C = S A, es conocido como el
conjunto de Cantor y tiene varias propiedades interesantes. Mostrar que P(A) = 1 y
consecuentemente que P(C) = 0. Sugerencia: P(An) es fácilmente calculado, y los An
son disjuntos.
2.20. En el Problema 2.19, reemplazar tercio medio por cuarto medio en todo (también en la
definición de A1 y A2). Calcule P(A) en este caso.
2.21. Mostrar que si A es un conjunto índice y para cada A es una -álgebra de
subconjuntos de un conjunto no vacío S, entonces A es de nuevo una -álgebra de
subconjuntos de S.
2.22. Sea S un intervalo de números reales, y sea la intersección de todas aquellas -
álgebras de subconjuntos de S que contienen todos los subintervalos de S. Mostrar que
70 PROBLEMAS
es una -álgebra y que si es cualquier otra -álgebra que contiene todos los
subintervalos de S, entonces .
2.23. Algunos de los requerimientos en la definición de una -álgebra son redundantes.
Mostrar que es una -álgebra si S ; si A implica que A´ ; y si Ak para
k = 1, 2, implica que k 1 Ak .
2.24. Si una muestra aleatoria desordenada de tamaño 10 es extraída de un lote de productos
manufacturados, de los cuales 10 son defectuosos y 90 son no defectuosos, ¿cuál es la
probabilidad de que la muestra contendrá (a) al menos 1 defectuoso; (b) al menos 2
defectuosos?
2.25. Si una moneda no cargada es lanzada hasta que un águila aparece, ¿cuál es la
probabilidad de que entre 3 y 8 lanzamientos (inclusive) serán requeridos?
2.26. Si cartas son extraídas secuencialmente de un paquete estándar hasta que una espada
aparece, ¿cuál es la probabilidad de que entre 3 y 8 extracciones serán requeridas?
2.27. ¿Cuál es la probabilidad que la más pequeña denominación en una mano de póquer será
un 4?
2.28. Si un dado balanceado es lanzado dos veces, ¿cuál es la probabilidad de que el número
más grande de puntos a aparecer será j, j = 1, 6?
2.29. Si un dado balanceado es lanzado n veces, ¿cuál es la probabilidad de que el número
más grande de puntos a aparecer será j para j = 1, 2,,6?
2.30. ¿Cuál es la probabilidad de que una mano de póquer seleccionada aleatoriamente
contendrá al menos 2 cartas de al menos una denominación?
2.31. ¿Cuál es la probabilidad de que una mano de póquer contendrá:
(a) Exactamente 2 ases o exactamente 2 reyes o ambos?
(b) Exactamente 2 ases o exactamente 2 reyes pero no ambos?
2.32. Un oficial en la Oficina Interna de Impuestos cree:
(a) Que 40 por ciento de todos los contribuyentes fallan en listar todos sus ingresos
fiscales.
(b) Que 36 por ciento listan más deducciones que las que ellos de hecho tienen.
(c) Que 22 por ciento hacen ambas.
Si él es consistente en sus creencias, ¿qué porcentaje de contribuyentes cree él que
hacen trampa por, ya sea, el método (a) o el método (b)?
2.33. Si A, B, y C son eventos, derivar una fórmula para P(A B C) en términos de las
probabilidades de intersecciones de A, B, y C.
PROBABILIDAD AXIOMÁTICA 71
2.34. ¿Cuál es la probabilidad de que una mano de bridge seleccionada al azar contendrá al
menos siete cartas del mismo palo?
2.35. ¿Cuál es la probabilidad de que una mano de póquer seleccionada al azar contendrá al
menos tres cartas de la misma denominación?
2.36. Si una muestra aleatoria desordenada de tamaño 10 es seleccionada de un grupo de 55
Demócratas y 45 Republicanos, ¿cuál es la probabilidad de que la muestra contendrá
más Demócratas que Republicanos?
2.37. En el Problema 2.36 ¿cuál es la probabilidad de que la muestra contendrá entre 4 y 8
Demócratas (inclusive)?
2.38. Sea A1, A2, cualquier sucesión infinita de eventos, y permita que B1 = A1 y Bk = Ak
(A1 Ak –1) para k 2. Mostrar que B1, B2, son mutuamente excluyentes y
k 1 Ak = k 1 Bk .
2.39. Sea A1, A2, cualquier sucesión infinita de eventos con unión A = k 1
Ak . Mostrar
que P(A) P Ak .
k 1
2.40. Obtener una cota superior sobre la probabilidad de que una mano de bridge
seleccionada al azar contendrá un vacío (no cartas de al menos un palo).
2.41. Calcular la probabilidad de que una mano de bridge seleccionada al azar contendrá un
vacío.
2.42. Calcular la probabilidad de que una mano de bridge seleccionada al azar contendrá
exactamente 6 cartas de al menos un palo.
2.43. Si un hombre aleatoriamente selecciona 4 calcetines de un cajón que contiene 4 pares
distinguibles de calcetines, ¿cuál es la probabilidad de que el seleccionará al menos un
par?
2.44. Cartas etiquetadas 1, 2, n son volteadas en un orden aleatorio. Sea Ak el evento de
que la carta etiquetada k es volteada en la k-ésima vuelta. ¿Cuál es la probabilidad de
que al menos uno de A1, An ocurra?
2.45. En el Problema 2.44 sea pn(j) la probabilidad de que exactamente j de A1, An
ocurrirán. Mostrar que pn(j) 1/ej! para j = 0, 1, 2, cuando n .
2.46. Mostrar que si A1, A2, es cualquier sucesión infinita de eventos, entonces P k 1 Ak
= lim P k 1 Ak cuando n y P k 1 Ak = lim P k 1 Ak cuando n .
n n
3
3 PROBABILIDAD CONDICIONAL E INDEPENDENCIA
n AB n AB n
nB nB n
donde hemos usado la consistencia en el paso final. Resolviendo para q ahora produce q =
P(AB)/P(B), que por lo tanto parece ser un candidato razonable para nuestra nueva
probabilidad para A desde el punto de vista subjetivo también.
Hemos motivado la siguiente definición: si A y B son eventos para los cuales P(B) > 0,
entonces definimos la probabilidad condicional de A dado B para ser
P AB
P A B (1.1)
P B
Antes que procedamos a ejemplos, observemos que nuestras probabilidades originales P(A)
pueden también ser consideradas como probabilidades condicionales dado el espacio
muestral S. Indudablemente, tomando B = S en la Ecuación (1.1) produce AS = A y P(S) = 1,
así que P(A | S) = P(A). Esta observación admite la siguiente interpretación: nuestras
probabilidades originales son probabilidades condicionales dado nuestro almacén inicial de
información acerca del problema en mano; nuestras nuevas probabilidades P(A | B), donde B
S, son condicionales dada alguna información adicional.
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 75
EJEMPLO 3.1.1
a Si A B entonces AB = A, así que P(A | B) = P(A)/P(B). En este caso la nueva
probabilidad para A es mayor que la probabilidad original para A excepto en el caso
trivial donde P(B) = 1. En particular, P(B | B) = 1.
b Si A B', entonces AB = , así que P(A | B) = 0. ////
EJEMPLO 3.1.2
a Si una muestra aleatoria ordenada de tamaño k = 2 es tomada de una urna que
contiene m bolas rojas y n m bolas blancas , ¿cuál es la probabilidad condicional que
la segunda bola tomada será roja (evento A) dado que la primera bola tomada es roja
(evento B)? Tenemos P(B) = m/n y P(AB) = m(m 1)/n(n 1). Consecuentemente, P(A
| B) = P(AB)/P(B) = (m 1)/(n 1). Un cálculo semejante mostrará que P(A | B') =
m/(n 1). En ambos casos, la probabilidad condicional de tomar una bola roja en la
segunda selección, dado que el suceso de la primera selección, es proporcional al
número de bolas rojas en la urna al momento de la segunda selección.
b Si el muestreo había sido con reemplazo en la parte a, habríamos encontrado que
P(B) = m/n, P(AB) = m2/n2 y consecuentemente que P(A | B) = m/n. Similarmente, P(A |
B') = m/n. De nuevo, la probabilidad condicional de tomar una bola roja en la segunda
selección es proporcional al número de bolas rojas en la urna al momento de la segunda
selección. ////
EJEMPLO 3.1.3
a ¿Cuál es la probabilidad que una mano de póker seleccionada aleatoriamente
contenga exactamente 3 ases (evento A), dado que contiene al menos 2 ases (evento B)?
Puesto que A implica a B, tenemos AB = A es el evento que la mano contenga
4 48 52
exactamente 3 ases. Así P AB por el Teorema 1.4.1. El evento B
3 2 5
ocurre si la mano contiene 2, 3, o 4 ases, así que
P A B P AB P B
4 48 4 48 4 48 4 48
=
3 2 2 3 3 2 4 1
= 0.0416
4 44 48
por los Teoremas 1.4.1 y 1.4.2. Así, P A B . Observe que ésta es
2 1 3
también la probabilidad que una muestra de tamaño 3 de una baraja sin ases contendrá
exactamente 2 reyes. ////
En el modelo clásico, donde P(A) = |A|/|S| para A S, las probabilidades condicionales
toman una forma particularmente simple. Cierto, si B es un subconjunto no vacío de S,
entonces
P A B
AB S AB
(1.2)
B S B
para cualquier A S. Así, si consideramos originalmente los sucesos en S como igualmente
verosímiles y sabemos que B ha ocurrido, entonces consideramos los sucesos en B como
igualmente verosímiles. En efecto, reducimos nuestro espacio muestral de S a B. Eso es,
calculamos probabilidades como si B fuera el espacio muestral.
Esta observación puede ser extremadamente útil en el cálculo de probabilidades
condicionales en experimentos de muestreo. Sin duda, dice que dado que la muestra tiene
alguna propiedad particular (evento B), todas las restantes posibles muestras son igualmente
verosímiles. Ejemplos 3.1.2 y 3.1.3b son casos especiales.
EJEMPLO 3.1.4
a Si una muestra aleatoria desordenada de tamaño k es tomada de una urna
conteniendo r bolas rojas, b bolas negras, y w bolas blancas, ¿cuál es la probabilidad
condicional que la muestra contendrá exactamente i bolas blancas (evento A) dado que
contiene exactamente j bolas rojas (evento B)? Dado que la muestra contiene
exactamente j bolas rojas, podemos considerar las restantes k j bolas en la muestra
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 77
como una nueva muestra de una urna conteniendo b bolas negras, w bolas blancas, y
ninguna bola roja. Eso es, formamos un nuevo espacio muestral consistiendo de todos
los sucesos en B. La probabilidad condicional de A es entonces justo la probabilidad
que una muestra de tamaño k j de una urna conteniendo b bolas negras y w bolas
blancas contendrá exactamente i bolas blancas; eso es,
b w
i k j i
P A B
b w
k j
por el Teorema 1.4.1. El Ejemplo 3.1.3b es un caso especial.
Observaciones similares aplican a muestras ordenadas.
b Sea una muestra aleatoria ordenada de tamaño k = k1 + k2 tomada de una urna,
donde k1 y k2 son enteros positivos. Entonces, dado el suceso de las primeras k1
selecciones, todas las posibles k2adas de bolas son igualmente verosímiles para ser
tomadas de la urna sobre las restantes k2 selecciones. Las partes a y b del Ejemplo 3.1.2
son un caso especial.
c Un comité de tamaño k = 5 es para ser seleccionado secuencialmente de un grupo de 6
Demócratas y 4 Republicanos. Dado que los 2 primeros miembros del comité para ser
seleccionados fueron Demócratas, ¿cuál es la probabilidad condicional que el comité
consistirá de 3 Demócratas y 2 Republicanos? Requerimos la probabilidad que una
muestra de tamaño 3 de un grupo de 4 Demócratas y 4 Republicanos consista de 1
3 3
Demócrata y 2 Republicanos. La respuesta es por lo tanto 4 4 2 / 83 . ////
1 7
PB A P A B A B
P A1 A2 P A1 P A2
PB A1 A2
P B P B
= PB A1 PB A2
donde hemos usado el hecho que P es una medida de probabilidad en el segundo paso;
(2.3) puede ser establecida en una manera similar. ////
El Teorema 3.1.1 admite una interpretación que es similar a esa de la Ecuación (1.2). Eso es,
dado que B ha ocurrido, podemos considerar a B como el nuevo espacio muestral para
nuestro experimento provisto que cambiamos nuestra asignación de probabilidades de P a
PB. Sin embargo, el Teorema 3.1.1 provee información adicional. El Teorema 3.1.1 dice que
se nos es permitido usar todos los resultados del Capítulo 2 para calcular probabilidades
condicionales porque aquellos resultados son válidos para cualquier espacio de
probabilidad.
PRUEBA Observe primero que P(B) P(C) > 0, así que PB está bien definida.
Ahora, por definición, PB(A | C) = PB(AC)/PB(C), que puede ser escrita
P ABC P B P AC
P A C ////
P BC P B P C
provisto que 0 < P(B) < 1. Finalmente, si P(A) > 0, podemos usar las Ecuaciones (2.1) y
(2.2) para calcular P(B | A). Así
P AB P A B P B
P B A (2.3)
P A P A B P B P A B P B
La Ecuación (2.3) es un caso especial del Teorema de Bayes, discutido abajo. Consideremos
primero algunos ejemplos.
80 EL TEOREMA DE BAYES
EJEMPLO 3.2.1
Permita que la urna I contenga 4 bolas rojas y 2 bolas blancas, y permita que la urna II
contenga 3 bolas de cada color. Si una bola es seleccionada al azar de la urna I y transferida
a la urna II y entonces una bola es tomada al azar de la urna II, ¿cuál es la probabilidad que
la segunda bola tomada será roja? Sea A el evento que la bola tomada de la urna II es roja, y
sea B el evento que la bola transferida es roja. Entonces, P(A | B) = 4/7 puesto que habrá 4
bolas rojas y 3 bolas blancas en la urna II al momento de la segunda selección si B ocurre.
Similarmente P(A | B') = 3/7. Ya que P(B) = 2/9, tenemos
P A 47 23 73 13 11
21
por la Ecuación (2.2). Ahora suponer que observamos el color de la segunda bola para ser
roja pero no observamos el color de la bola transferida. Entonces podemos calcular la
probabilidad condicional que la bola transferida fuera roja de la Ecuación (2.3). Cierto,
tenemos P(B A) = (4/7)(2/3)/(11/21) = 8/11. ////
EJEMPLO 3.2.2
En una cierta comunidad, se encontró que 60 por ciento de todos los dueños de propiedades
se oponen a un incremento en el impuesto a la propiedad mientras que 80 por ciento de los
no propietarios lo favorecen. Si el 65 por ciento de todos los votantes registrados son dueños
de propiedades, ¿qué proporción de votantes registrados favorecen el incremento fiscal? Sea
A el evento que un votante seleccionado al azar favorezca el incremento fiscal. Entonces
requerimos P(A). Sea B el evento que un votante seleccionado al azar sea un propietario.
Entonces, se nos ha dado que P(A | B) = 0.40, P(A | B') = 0.80, y P(B) = 0.65. Por la
Ecuación (2.2) encontramos P(A) = (0.40) (0.65) + (0.80)(0.35) = 0.54. Eso es, 54 por
ciento de los votantes registrados favorecen el incremento fiscal.
¿Cuál porcentaje de aquellos votantes registrados quienes favorecen el incremento fiscal son
propietarios? Requerimos P(B | A). Por la Ecuación (2.3), esto es simplemente P(B | A) =
(0.40)(0.65)/0.54 = 0.4815. ////
Las Ecuaciones (2.1), (2.2) y (2.3) pueden todas ser generalizadas. Comenzamos con la
generalización de (2.1).
Teorema 3.2.1 Sean A1,,An eventos, y sea Bk = A1 Ak para k = 1,,n. Si
P(Bn-1) > 0, entonces
n
P Bn P B1 P Bk Bk 1
k 2
P Bk Bk 1 P Bk P Bk 1
EJEMPLO 3.2.3
Un cierto sistema de comunicación, o canal, está diseñado para trasmitir o el símbolo 0 o el
símbolo 1. Hay 4 relevos, cada uno de los cuales puede funcionar mal. De hecho, cada
relevo cambia un 1 recibido a un 0 trasmitido con probabilidad 0.1 y cambia un 0 recibido a
un 1 trasmitido con probabilidad 0.2.
Fuente 1 2 3 4 Receptor
Si un 1 es enviado, ¿cuál es la probabilidad que un 1 sea trasmitido por cada uno de los
relevos? Sea Ai el evento que el iésimo relevo trasmita un 1, y sea Bk = A1 Ak para k
= 1,, 4. Entonces se nos proporciona que P(B1) = P(Bk | Bk-1) = 0.9 para k = 2, 3, 4. Así,
P(A1A2A3A4) = P(B4) = (0.9)4 = 0.6561.
Si un 1 es enviado, ¿cuál es la probabilidad que un 1 será recibido? Un 1 será recibido si y
sólo si cero, dos, o cuatro de los relevos funcionan mal. La probabilidad que ninguno de los
relevos funcione mal ha sido justo calculada. La probabilidad que los relevos 1 y 2
funcionen mal mientras que los relevos 3 y 4 operen correctamente es (0.1)(0.2)(0.9)2 por un
argumento similar. Esta es también la probabilidad de que cualesquiera dos relevos
especificados funcionen mal mientras que los otros dos operen correctamente, así la
probabilidad de que exactamente dos de los relevos funcionen mal es
4
01
. 0.20.9 0.0972. Finalmente, la probabilidad de que todos los cuatro relevos
2
2
funcionen mal es (0.1)2(0.2)2 = 0.0004. Así, la probabilidad que un 1 sea recibido es 0.6561
+ 0.0972 + 0.0004 = 0.7537. ////
Consideremos ahora la generalización de las Ecuaciones (2.2) y (2.3).
Teorema 3.2.2 Sea B1, B2, una sucesión infinita o finita de eventos exhaustivos,
mutuamente excluyentes y sea P(Bi) > 0 para toda i. Si A es cualquier evento, entonces
P A P A Bi P Bi (2.4)
i
para cualquier j.
PRUEBA Las Ecuaciones (2.2) y (2.3) son, por supuesto, casos especiales de
(2.4) y (2.5) con B1 = B y B2 = B'. Para probar (2.4) observe que puesto que i Bi S ,
por hipótesis, podemos escribir A i ABi . Más aún, puesto que los Bi son
mutuamente excluyentes, debemos tener
P A P ABi P A Bi P Bi
i i
por la Ecuación (2.1). Esto establece (2.4). La Ecuación (2.5) entonces se sigue de la
definición P(Bj | A) = P(ABj)/P(A) escribiendo P(ABj) = P(A | Bj) P(Bj) y substituyendo
(2.4) por P(A). ////
La Ecuación (2.5) es conocida como el Teorema de Bayes en honor del sacerdote del siglo
XVII, Thomas Bayes. Ambas Ecuaciones (2.4) y (2.5) son útiles en describir experimentos
que proceden en dos etapas y tienen la propiedad de que el mecanismo aleatorio de la
segunda etapa está determinado por el suceso de la primera etapa de experimentación. Por
ejemplo, el Ejemplo 3.2.1 es de esta naturaleza. Ahí la composición de la urna de la cual la
bola fue tomada en la segunda etapa estuvo determinada por el suceso de la primera etapa.
Denominaremos a tales experimentos compuestos. En aplicaciones del Teorema 3.2.2 a
experimentos compuestos, uno usualmente permite a los Bi representar los sucesos posibles
de la primera etapa de experimentación y P(A Bi ) describe el mecanismo aleatorio de la
segunda etapa bajo la hipótesis de que Bi ocurrió en la primera etapa, como en el Ejemplo
3.2.1.
Los Bi también pueden ser pensados como posibles estados de la naturaleza, en cuyo caso
P(A Bi) es para ser interpretada como la probabilidad de A bajo la hipótesis de que la
naturaleza está en el estado Bi. Con esta interpretación las P(Bi) son típicamente
probabilidades subjetivas que representan nuestra opinión acerca de la naturaleza, anterior a
cualquier experimentación y son conocidas como probabilidades a priori. Las
probabilidades condicionales P(Bi | A) pueden entonces ser pensadas como describiendo
nuestra nueva opinión acerca de la naturaleza después de que algún experimento ha sido
realizado y el evento A ha sido observado para ocurrir; por esta razón ellas son conocidas
como probabilidades a posteriori. Así, el teorema de Bayes puede ser pensado como un
algoritmo para cambiar la mente de uno a la luz de la evidencia experimental, y es de esta
interpretación de la cual el teorema de Bayes deriva su fama. Por supuesto, uno debe poder y
desear expresar la opinión de uno en términos de probabilidades subjetivas para usar este
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 83
EJEMPLO 3.2.4
Si la probabilidad de que una familia tendrá exactamente n hijos es 2-n para n = 1, 2,, y si
todas las 2n permutaciones de los sexos de los n hijos son igualmente probables, ¿cuál es la
probabilidad de que una familia no tenga niños? Sea A el evento de que una familia no tenga
niños, y sea Bn el evento de que tenga exactamente n hijos. Entonces, tenemos que P(Bn) = 2-
n
, y claramente, P(A | Bn) = 2-n para cualquier n = 1, 2,. (Dado Bn, A requiere n niñas.) Por
el Teorema 3.2.1, por lo tanto tenemos
P A P A Bn P Bn
n 1
n
n 1 1 1 4 1
= 2 2 -n
n=1 4 n 0 4 4 3 3
La probabilidad condicional de que una familia tendrá n hijos, dado que no tiene niños, es
P(Bn | A) = P(A | Bn)P(Bn)/P(A) = 3 4-n para n = 1, 2,. ////
EJEMPLO 3.2.5
Accidentes de tráfico. Un cierto estado agrupa a sus conductores licenciados de acuerdo a la
edad dentro de las siguientes categorías: (1) 16 a 25; (2) 26 a 45; (3) 46 a 65; y (4) arriba de
65. La Tabla 4 lista, para cada grupo, la proporción de conductores licenciados quienes
pertenecen al grupo y la proporción de conductores en el grupo quienes tuvieron accidentes.
Tabla 4
Grupo Tamaño Proporción de accidentes
1 0.151 0.098
2 0.356 0.044
3 0.338 0.056
4 0.155 0.086
¿Qué proporción de conductores licenciados tuvieron accidentes? ¿Qué proporción de
aquellos conductores licenciados quienes tuvieron accidentes estaban por arriba de 65? Sea
A el evento de que un conductor licenciado seleccionado aleatoriamente tenga un accidente,
y sea Bk el evento de que un conductor licenciado seleccionado aleatoriamente caiga dentro
84 INDEPENDENCIA
del grupo k, k = 1, 2, 3, 4. Requerimos P(A) y P(B4 | A), respectivamente. Ahora, P(Bk) y P(A
| Bk) están dadas por las columnas tituladas tamaño y proporción de accidentes,
respectivamente. Así, P(A) = P(A | B1)P(B1) + + P(A | B4)P(B4) = (0.098)(0.151) + +
(0.086)(0.155) = 0.06272, y P(B4 | A) = P(A | B4)P(B4)/P(A) = (0.086)(0.155)/0.06272. ////
3.3 INDEPENDENCIA
Parece natural preguntar la siguiente cuestión: ¿Para cuáles eventos A y B es verdad que P(A
| B) = P(A)? Eso es, ¿para cuales eventos A y B es verdad que la ocurrencia de B no provee
información acerca de la posibilidad de que A ocurrirá? La respuesta es fácilmente derivada.
Tendremos P(A | B) = P(A) si y sólo si P(AB)/P(B) = P(A). Eso es, P(A | B) = P(A) si y sólo
si
P AB P A P B (3.1)
Por tanto definimos dos eventos A y B para ser independientes si y sólo si (3.1) se cumple, y
expresamente permitimos la posibilidad de que P(B) = 0 en ( 3.1). La definición de
independencia es entonces simétrica en A y B.
El significado intuitivo de independencia debe ser claro. A y B son independientes si y sólo
si la ocurrencia de B no afecta la posibilidad de que A ocurrirá, y recíprocamente. La
importancia de la noción de independencia deriva del hecho de que muchos fenómenos
ocurriendo naturalmente operan independientemente, eso es, en tal forma que el suceso de
uno no afecta el de otro(s).
EJEMPLO 3.3.1
a Si A y B son disjuntos, entonces P(AB) = P() = 0, así que A y B no pueden ser
independientes a menos que o P(A) = 0 o P(B) = 0.
b Si A B, entonces AB = A, así que P(AB) = P(A). En este caso A y B no pueden
ser independientes a menos que P(B) = 1.
c El conjunto vacío y el espacio muestral S son independientes de cualquier otro
evento. Sin duda, P(AS) = P(A) = P(A)P(S), y P(A) = P() = 0 = P()P(A) para
cualquier A S. ////
EJEMPLO 3.3.2
Sea una muestra aleatoria ordenada de tamaño k = 2 tomada de una urna que contiene m 1
bolas rojas y n m bolas blancas. Además, sea B el evento de que una bola roja es tomada
en la primera selección, y sea A el evento de que una bola roja es tomada en la segunda
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 85
selección. Si el muestreo es con reemplazo, entonces P(A | B) = m/n = P(A) por el Teorema
1.3.1 y el Ejemplo 3.1.2, así que A y B son independientes. Si el muestreo es sin reemplazo,
entonces P(A | B) = (m 1)/(n 1) m/n = P(A). Así, A y B no son independientes si el
muestreo es sin reemplazo.
Este resultado está claramente de acuerdo con nuestra noción intuitiva de independencia. Sin
duda, cuando el muestreo es con reemplazo, el color de la bola tomada en la primera
selección no afecta la oferta de bolas rojas en la urna al momento de la segunda selección,
mientras que si lo hace cuando el muestreo es sin reemplazo.
EJEMPLO 3.3.3
a Sean dos dados balanceados, distinguibles lanzados de tal manera que todos los
posibles sucesos sean igualmente verosímiles. Entonces el evento A de que solamente
un punto aparece sobre el primer dado y el evento B de que solamente un punto aparece
sobre el segundo dado son independientes. De hecho, P(A) = P(B) = 1/6, mientras que
P(AB) = 1/36. Esto es un caso especial del Ejemplo 3.3.2.
b Sea una carta seleccionada al azar de una baraja de 52 cartas. Sea A el evento de
que un corazón es tomado, y sea B el evento de que un mono (caballero, reina o rey) es
tomado. Entonces P(A) = 13/52 = ¼, P(B) = 12/52 = 3/13, puesto que hay 13 corazones
y 12 monos. Más aún, AB es el evento de que un caballero de corazones, reina de
corazones, o rey de corazones es tomado, así que P(AB) = 3/52 = P(A)P(B). Por tanto,
A y B son independientes.
c Sea un punto seleccionado de un cuadrado unitario S = {(x,y): 0 x 1 y 0 y 1} de
manera que la probabilidad de que el punto caiga dentro de una subregión C S es
igual al área de C. Sea A = {(x,y): 0.25 x 0.75}, y sea B = {(x,y): 0.25 y 0.75}
(ver Figura 1a). Entonces A es un rectángulo de altura 0.5 y longitud 1, así que P(A) =
0.5, y análogamente, P(B) = 0.5. Más aún, AB = {(x,y): 0.25 x 0.75, 0.25 y
0.75} es un cuadrado cuyos lados son de longitud 0.5, así que P(AB) = 0.25. Por tanto,
A y B son independientes.
d Sea un punto s seleccionado del intervalo unitario S = [0,1] de tal manera que la
probabilidad de que el punto pertenezca a un subintervalo I S es la longitud de I,
como en el Ejemplo 2.2.5. Escribamos a s en su expansión decimal como s = .s1s2,…,
donde sk son enteros entre 0 y 9 inclusive. Por ejemplo, si s = 1/8, entonces s1 = 1, s2 =
2, s3 = 5, y sk = 0 para k 4. Sea A el evento de que s1 = 0, y sea B el evento de que s2 =
0. Entonces A es el intervalo [0,0.1), así que P(A) = 0.1; y B es la unión [0,0.01)
[0.10,0.11) [0.80,0.81) [0.90,0.91), así que P(B) = 0.1 también (ver Figura
1b). Finalmente, AB es el intervalo [0,0.01), así que P(AB) = 0.01 = P(A) P(B). Por
tanto, A y B son independientes.
86 INDEPENDENCIA
P Ai P Ai (3.3)
iJ iJ
para cualquier subconjunto no vacío J {1, n}. Las dos nociones no son
equivalentes (ver Ejemplo 3.3.5), y es la segunda (3.3) la que es más útil. Por tanto
definimos los eventos A1, An para ser independientes por parejas si y sólo si (3.2) se
cumple y para ser mutuamente independientes si y sólo si (3.3) se cumple. Así,
independencia de cualquier tipo es simétrica en los eventos A1, An y tiene la
propiedad de que subcolecciones de eventos independientes son de nuevos
independientes. La mayoría de los ejemplos de independencia que encontraremos serán
ejemplos de mutua independencia. En correspondencia, usaremos el término
“independencia” sin calificarlo para designar mutua independencia.
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 87
EJEMPLO 3.3.4
Sea una muestra aleatoria ordenada de tamaño n tomada con reemplazo de una urna que
contiene r bolas rojas y b bolas blancas, y sea Ai el evento de que una bola roja es tomada en
la iésima selección, i = 1, 2,, n. Entonces, A1, An son independientes. Sin duda, ambos
lados de (3.3) son iguales a rk/(r + b)k, donde k = |J|.
EJEMPLO 3.3.5
Daremos un ejemplo de eventos que son independientes por parejas pero no mutuamente
independientes. Sea un entero seleccionado del conjunto S = {1,2,3,4} de manera que
cualquier entero es igualmente verosímil de ser escogido. Además, sea Ai = {i,4} el evento
de que ya sea i o 4 es seleccionado, i = 1, 2, 3. Entonces, P(Ai) = 2/4 = ½, i = 1, 2, 3, y
P(AiAj) = P({4}) = ¼ = P(Ai)P(Aj) siempre que i j. Por tanto, A1, A2, A3 son independientes
por parejas. Sin embargo, P(A1A2A3) = P({4}) = ¼ 1/8 = P(A1)P(A2)P(A3), así que A1, A2, y
A3 no son mutuamente independientes. ////
EJEMPLO 3.3.6
Muestreo estratificado. Considere una población de n individuos de los cuales un número
desconocido m favorece un candidato político particular o propuesta. Suponemos que la
población está dividida en estratos, por lo cual entendemos subclases disjuntas. Por ejemplo,
la población puede ser dividida en habitantes urbanos, habitantes suburbanos, y habitantes
rurales; o puede ser dividida de acuerdo a la edad de sus miembros; o puede ser dividida de
acuerdo al ingreso de sus miembros, etc. Suponemos que hay un total de t estratos diferentes
y que hay un total de ni miembros en el iésimo estrato, de los cuales mi favorecen al
candidato político o propuesta en cuestión. Así, n = n1 + + nt y m = m1 + + mt.
Suponer después que se nos permite muestrear k de los miembros de la población para saber
acerca de m. Entonces dos posibles esquemas de muestreo se presentan por sí mismos.
Primero, podemos tomar una muestra aleatoria (sin reemplazo) de tamaño k de la población
total. En este caso la probabilidad que la muestra contendrá justo r personas quienes
m n m n
favorecen al candidato o propuesta es por el Teorema 1.4.1.
r k r k
También podemos dividir el tamaño de la muestra k en grupos de tamaños k1,,kt, donde k1
+ + kt = k, y tomar una muestra aleatoria de tamaño ki del iésimo estrato para i = 1,, t.
Suponemos que las t diferentes muestras son tomadas de modo que la muestra seleccionada
del iésimo estrato no afecte la seleccionada de otro estrato. En este caso podemos suponer
que los sucesos de los t diferentes experimentos de muestreo son independientes, y
calculamos la probabilidad que la muestra del iésimo estrato contenga exactamente ri
quienes favorecen al candidato o propuesta para todo i = 1,, t para ser
88 ALGUNAS PROPIEDADES DE INDEPENDENCIA
m1 n1 m1 mt nt mt
r1 k1 r1 rt kt rt
n1 nt
k1 kt
El segundo de los dos esquemas de muestreo descritos arriba es conocido como muestreo
estratificado. Continuamos nuestro estudio de muestreo estratificado en el Ejemplo 8.6.1,
donde se ve que si k1,,kt son seleccionados proporcionales a n1,,nt, entonces el muestreo
estratificado es más informativo que el muestreo simple aleatorio. ////
Teorema 3.4.1 Si A1,,An son eventos independientes, entonces así son las
siguientes colecciones de eventos:
P B1 B2 P A1 A1 A2 P A1 P A1 A2
= P A1 P A1 P A2 P A1 1 P A2
= P B1 P B2
como se aseveró.
Probemos primero (ii) en el caso especial que ambos C1 y C2 son formados tomando
intersecciones de subcolecciones disjuntas de A1,,An. En este caso podemos suponer
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 89
r n
D1 Bi y D2 Bi
i 1 it
son independientes.
PRUEBA
m n
AB Ai B j
i 1 j 1
m n m n
P AB P Ai B j P Ai P B j
i 1 j 1 i 1 j 1
n
m
= P Ai P B j P A P B
i 1 j 1
1
como se aseveró. ////
EJEMPLO 3.4.1
a Tres misiles son disparados a un blanco. Si cada misil tiene probabilidad 0.6 de
pegar en el blanco, ¿cuál es la probabilidad de que al menos uno de los mísiles pegue
en el blanco? Sea Ai el evento de que el iésimo misil pegue en el blanco, i = 1, 2, 3.
Entonces, el evento de que al menos uno de los misiles pegue en el blanco es B = A1
A2 A3 = ( A1 A2 A3 ). Por tanto, suponiendo que A1, A2, y A3 son
independientes, tenemos que P(B) = 1 P( A1 A2 A3 ) = 1 P( A1 )P( A2 )P( A3 ) =
1 0.43 = 0.936.
b Suponer que n individuos trabajan independientemente sobre un problema. Si
cada uno tiene probabilidad p de resolver el problema, ¿cuál es la probabilidad de que
todos ellos resuelvan el problema? ¿Cuál es la probabilidad de que al menos uno de
ellos resuelva el problema? Sea Ai el evento de que el iésimo individuo resuelva el
problema, así que P(Ai) = p para i = 1,, n. El evento de que todos los n individuos
resuelvan el problema es A in1 Ai , así que P(A) = in1 P( Ai ) p n . El evento de
que al menos uno de los individuos resuelva el problema es L = in1 Ai in1 Ai .
Así, P(L) = 1 P in1 Ai 1 (1 p)n.
1
1 Si a1,,am y b1,,bn son números reales, entonces
m n m n
ai b j aib j
i 1 j 1 i 1 j 1
Esto es fácilmente establecido por inducción matemática.
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 91
Así, S consiste de todas las nadas ordenadas (s1,,sn) con si Si, i = 1,, n. Usaremos S
como el espacio muestral para el nuevo experimento con la convención de que si denota el
suceso del experimento Ei, i = 1,, n. Además, permitiremos que sea la clase de todos los
subconjuntos de S, y definimos una función P sobre por
f s Pi si
n
i 1
para s = (s1,,sn) S y
P A f s
sA
f s Pi si 1 1
n
n
sS
i 1 si Si
se sigue del Ejemplo 2.2.2 que (S,,P) es un espacio de probabilidad.
Diremos que un evento B S depende sólo del iésimo ensayo si y sólo si hay un
subconjunto A Si para el cual
B s1 ,,sn S: si A (5.1)
Lema 3.5.1 Para i = 1,, n, sea Ai Si, y sea Bi el evento en que Ai ocurre en el
iésimo ensayo. Entonces,
n
Bi A1 A2 An
i 1
P A Pi si
n
sA i 1
y la última suma es fácilmente vista para ser
Pi si Pi Ai
n n
////
i 1 si Ai i 1
Teorema 3.5.1 Para i = 1,…,n, sea Ai Si, y sea Bi el evento en que Ai ocurre en el
i–ésimo ensayo. Entonces
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 93
P Bi Pi Ai Pj S j Pi Ai
j 1
P Bi Pi Ci Pi Ai P Bi
n
iJ i 1 i J i J
3.6 PROBLEMAS
3.1 De una urna conteniendo 5 bolas rojas y 5 bolas blancas, una muestra aleatoria
desordenada de tamaño 5 es extraída. Dado que hay al menos 2 bolas rojas en la muestra,
encontrar la probabilidad condicional de que haya exactamente 3 bolas rojas en la
muestra.
3.2 Si en el Problema 3.1 una muestra aleatoria ordenada ha sido extraída sin reemplazo,
cuál es la probabilidad condicional de que la muestra contenga exactamente 3 bolas
rojas:
(a) Dado que las primeras 2 bolas extraídas son rojas.
(b) Dado que la primera y última bolas extraídas son rojas.
3.3 Si una moneda balanceada es lanzada 5 veces, cuál es la probabilidad condicional de
obtener exactamente 3 águilas:
(a) Dado que hay al menos 2 águilas.
(b) Dado que el primero y último lanzamientos resultaron en águilas.
3.4 Si un dado balanceado es lanzado 6 veces, cuál es la probabilidad condicional de
obtener 2 seises:
(a) Dados exactamente 2 ases.
(b) Dados al menos 2 ases.
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 95
3.5 Si dos dados balanceados son lanzados, encontrar la probabilidad condicional de que la
suma de puntos será 7, dado que ésta es impar.
En póquer una flor consiste de 5 cartas del mismo palo. Dado que todas las cartas en una
mano póquer seleccionada aleatoriamente son rojas (corazones o diamantes), ¿cuál es
la probabilidad condicional de que la mano sea una flor?
3.7 Si Jorge Jugador tiene 4 espadas y una que no es espada y entonces descarta la que no
es espada para extraer otra carta, ¿cuál es la probabilidad condicional de que él
completará exitosamente una flor?
3.8 En el Problema 3.7, suponer que Jorge había estado con 3 espadas y 2 que no eran
espadas. Si el descarta las 2 que no son espadas y extrae 2 nuevas cartas, ¿cuál es la
probabilidad condicional de que el completará su flor?
3.9 En bridge, suponer que Norte y Sur tienen 9 triunfos en sus manos combinadas pero no
tienen el rey de triunfos. ¿Cuál es la probabilidad condicional de que el rey esté
desprotegido, eso es, no aparece con ningún otro triunfo en la mano de Este u oeste?
3.10 En el Problema 3.9, suponer también que Sur tiene el as de triunfos. ¿Cuál es la
probabilidad condicional de que el rey esté ya sea desprotegido o en la mano de Oeste
(de manera que pueda ser usado como subterfugio?
3.11 Una caja contiene tres cajones. En un cajón hay 2 monedas de oro; en otro hay una
moneda de oro y una moneda de plata; y en el tercer cajón hay 2 monedas de plata. Un
cajón es seleccionado al azar, y entonces 1 moneda es seleccionada al azar del cajón.
Dado que la moneda seleccionada es de oro, ¿cuál es la probabilidad condicional de
que la moneda restante en el cajón abierto es también de oro?
3.12 El registro de votantes en una cierta ciudad reveló las estadísticas tabuladas. Si una
persona es seleccionada al azar de los votantes registrados de esta ciudad, ¿cuál es la
probabilidad condicional de que la persona será hombre dado que la persona es
Demócrata?
Hombres, Mujeres,
% %
Demócrata 20 25
Independiente 10 15
Republicano 15 15
96 PROBLEMAS
probabilidad 0.75 de caer águila y sólo probabilidad 0.1 al evento de que la moneda está
balanceada (tiene probabilidad 0.5 de caer águila). Si 4 lanzamientos independientes de la
moneda producen 2 águilas y 2 soles, ¿cómo debe Percy modificar sus probabilidades
subjetivas?
Considere dos urnas. La urna I contiene 4 bolas rojas y 2 bolas blancas, y la urna II contiene
3 bolas de cada color. Si 2 bolas son extraídas de la urna I sin reemplazo y transferidas a la
urna II y entonces una bola es extraída de la urna II, ¿cuál es la probabilidad de que la bola
extraída de la urna II será roja? Dado que la bola extraída de la urna II fue roja, ¿cuál es la
probabilidad condicional de que (a) 0, (b) 1, (c) 2 bolas rojas fueran transferidas?
En el Problema 3.22 suponer que 2 bolas son extraídas sin reemplazo de la urna II. Dado que
ambas son rojas, ¿cuál es la probabilidad condicional de que (a) 0, (b) 1, (c) 2 bolas rojas
fueran transferidas?
3.24 En el Ejemplo 3.2.4, (a) encontrar la probabilidad de que una familia tenga
exactamente k niños. (b) Encontrar la probabilidad condicional de que una familia
tenga n hijos dado que tiene exactamente k niños.
3.25 En el Ejemplo 3.2.5, ¿cuál es la probabilidad condicional:
(a) Que un conductor tendrá un accidente dado que tiene una edad menor de 46 años?
(b) Que un conductor sea menor de 45 años de edad dado que el tiene un accidente?
NOTA: Problemas 3.26 a 3.29 esboza una aplicación de probabilidad
condicional a la teoría del aprendizaje matemático; ver Estes (1959).
Cada día un animal experimental es expuesto a un cierto conjunto de
estímulos diseñados para producir una respuesta particular. Sea Ak el
evento que el animal realice la respuesta deseada en el k-ésimo día, y
suponer que P(Ak +1 Ak) = y P(Ak +1 Ak´) = , donde 0 < < 1.
3.26 Sea pk = P(Ak). Mostrar que pk +1 = + ( )pk.
3.27 Si = 1 y p1 = 0, mostrar que pk = 1 (1 )k –1.
3.28 Mostrar que lim pk = /(1 + ) cuando k .
3.29 Si = 0.05, = 0.9, y p1 = 0, encontrar la probabilidad de que el animal realizará la
respuesta deseada en los días 11 y 12.
NOTA: Problemas 3.30 a 3.34 desarrollan propiedades del esquema
de la urna de Polya, que puede ser descrito como sigue. Bolas son
tomadas secuencialmente de una urna que inicialmente contiene r 1
bolas rojas y w 1 bolas blancas. Después de cada extracción, la bola
extraída se regresa a la urna junto con t 1 bolas del mismo color.
3.30 Mostrar que la probabilidad de tomar bolas rojas en las primeras k extracciones es
98 PROBLEMAS
r t k 1k
r t w t k 1k
3.31 Mostrar que la probabilidad de tomar bolas rojas en las primeras k extracciones y bolas
blancas en las siguientes j extracciones es
r t k 1k w t j 1 j
p
r t w t n 1n
donde n = k + j.
3.32 Mostrar que la probabilidad de tomar exactamente k bolas rojas en las primeras n = k +
n
j extracciones es p , donde p es como en el Problema 3.31.
k
3.33 Mostrar que la probabilidad incondicional de tomar una bola roja en la segunda
extracción es r/(r + w).
3.34 Mostrar que la probabilidad de tomar una bola roja en la n-ésima extracción es r/(r + w)
para cualquier n = 1, 2,.
3.35 Tres misiles son disparados a un blanco. Si sus probabilidades de dar en el blanco son
0.4, 0.5, y 0.6, respectivamente, y si los misiles son disparados independientemente,
¿cuál es la probabilidad:
(a) Que los tres misiles den en el blanco?
(b) Que al menos uno de los tres dé en el blanco?
3.36 En el Problema 3.35 encontrar la probabilidad de que (a) exactamente 1; (b)
exactamente 2 de los misiles den en el blanco.
3.37 Un dado está cargado de tal manera que la probabilidad de que exactamente k puntos
aparecerán cuando sea lanzado es proporcional a k. Si dos lanzamientos independientes
del dado son hechos, ¿cuál es la probabilidad de que la suma de puntos será 7?
3.38 En el Problema 3.37 ¿cuál es la probabilidad de que el mismo número de puntos
aparecerá en ambos dados?
3.39 Pedro y Pablo cada uno lanzan una moneda no cargada hasta que un águila ha
aparecido:
(a) ¿Cuál es la probabilidad de que requerirán el mismo número de lanzamientos?
(b) ¿Cuál es la probabilidad de que Pedro requerirá más lanzamientos que Pablo?
PROBABILIDAD CONDICIONAL E INDEPENDENCIA 99
1 ó 6, entonces gana. De otro modo, pierde. Calcular la probabilidad de que usted gane.
Sugerencia: Sea An el evento de que usted gana después de exactamente n lanzamientos
y encontrar la probabilidad de A1 A2 .
3.49 Sean S y T conjuntos infinitos contables o finitos, sea Po una medida de probabilidad
sobre , la clase de todos los subconjuntos de S, y para cada s S sea Qs una medida
de probabilidad sobre , la clase de todos los subconjuntos de T.
(a) Definir P sobre la clase de subconjuntos de S T por P(B) = B
Qs tPo s ,
donde la sumatoria se extiende sobre todo (s,t) B.
(b) Mostrar que P es una medida de probabilidad.
3.50 Como una continuación del Problema 3.49, para A S, mostrar que P(A T) = Po(A).
Mostrar también, que si Po({s}) > 0, entonces P(S B {s} T) = Qs(B) para B T.
4
4 LAS PROBABILIDADES BINOMIALES Y RELACIONADAS
n
b k; n, p p k q n k (1.1)
k
BJ Ai Ai
iJ iJ
donde la unión se extiende sobre todos los subconjuntos J de tamaño k. Puesto que los
n
eventos BJ son mutuamente excluyentes, y puesto que hay subconjuntos de tamaño
k
k, ahora se sigue que
n
P Ek P BJ p k q nk
J k k
como se aseveró. ////
La Ecuación (1.1) es una de las fórmulas más importantes en toda la teoría de probabilidad.
Su lado derecho define las probabilidades binomiales, que están tabuladas en el Apéndice
Tabla C.1 para valores seleccionados de n y p.1 Como se explicó arriba, se aplica a
repeticiones independientes de cualquier experimento fijo.
EJEMPLO 4.1.1
El Teorema 4.1.1 contiene la Ecuación (5.4) del Capítulo 1 como un caso especial. Sin duda,
si una muestra aleatoria ordenada de tamaño n es tomada con remplazo de una urna
conteniendo r bolas rojas y w bolas blancas, y si permitimos a Ai ser el evento que una bola
roja sea tomada en la i-ésima selección, i = 1,, n, entonces A1,,An son independientes
con probabilidad común P(Ai) = p = r/(r + w), la proporción de bolas rojas en la urna
(Ejemplo 3.3.4). Note que q = w/(r + w). Por tanto, la probabilidad que exactamente k bolas
rojas serán tomadas es
1
1 Tablas más extensas serán encontradas en Beyer (1966) o Selby (1965).
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 103
n k
n r w
k
k r w r w
EJEMPLO 4.1.2
a Si una moneda balanceada es lanzada n veces, la probabilidad que exactamente k
n
águilas resultaran es b(k;n,½) = 2 n . Para el caso especial donde n = 8, estas
k
probabilidades están dadas en la Tabla 5. Los valores restantes pueden ser obtenidos
por la simetría b(k;n,½) = b(n – k;n,½), y una gráfica será encontrada en la Figura 4.
b Si un par de dados balanceados son lanzados n veces, entonces la probabilidad
que justo k de ellos producirán un total de exactamente 7 puntos es b(k;n,16) porque la
probabilidad que un total de 7 puntos resultarán de un lanzamiento es 16.
c Si un jugador de bridge juega 8 manos durante una tarde, ¿cuál es la probabilidad de
que el no obtendrá ases en exactamente 4 de las manos? La probabilidad de que él no
48 52
obtendrá ases en una simple mano es p 0.3038 . Así, si las manos son
13 13
dadas independientemente una de otra, la probabilidad de no obtener ases en
exactamente 4 manos es b(4;8,p). Por interpolación lineal en la Tabla 1 encontramos
b(4;8,p) 0.14.
d Suponer que la probabilidad de curar una enfermedad dada en animales
experimentales con un tratamiento dado es p = 0.7. Si el tratamiento es administrado
independientemente a n = 10 de tales animales, entonces la probabilidad que
exactamente 7 serán curados es b(7;10,0.7) = 0.267. ////
Para referencia posterior, observamos la simetría
b k ; n, p bn k ; n,q (1.2)
que fue usada antes en un caso especial.
Algunas propiedades de b(k;n,p) pueden ser deducidas de la identidad
b k; n, p
n k 1 p b k 1; n, p
(1.3)
kq
que se cumple para 0 < p < 1 y k = 1,, n. Para establecer (1.3) observe que
104 LAS PROBABILIDADES BINOMIALES
n
b k ; n , p p k q n k
k
n k 1 n k n k
p q
k k 1
n k 1 p
b k 1; n , p
k q
para k = 1,, n y 0 < p < 1.
Tabla 5
k 0 1 2 3 4
b(k;8,½) = 0.0039 0.0313 0.1094 0.2188 0.2734
Puesto que (n – k + 1)p > kq si y sólo si k < (n +1)p, se sigue de (1.3) que b(k – 1;n,p) <
b(k;n,p) para k < (n + 1)p. Eso es, b(k;n,p) es una función creciente de k sobre el intervalo 0
k < (n + 1)p. Asimismo, b(k;n,p) es una función decreciente sobre el intervalo (n + 1)p < k
n. En particular, b(k;n,p) es maximizada tomando k = [(n + 1)p], el entero más grande que
es menor que o igual a (n + 1)p. Una descripción más completa del comportamiento de las
probabilidades binomiales será dada en la Sección 4.5.
En el contexto del Teorema 4.1.1, es de interés buscar la probabilidad que al menos k o a lo
más k de los eventos A1,,An ocurran. Dejando que Ek denote el evento que exactamente k
de los A1,,An ocurran, los últimos eventos son
n k
Lk E j y Mk E j
jk j 0
respectivamente. Puesto que los eventos E0,,En son mutuamente excluyentes, ahora
tenemos el siguiente corolario.
Corolario 4.1.1 Sean A1,,An independientes con probabilidad común P(Ai) = p, i =
1,, n. Entonces
n
P Lk b j ; n , p (1.4a )
jk
k
P M k b j ; n , p (1.4b)
j 0
para k = 0,, n.
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 105
EJEMPLO 4.1.3
a Si una moneda balanceada es lanzada 20 veces, la probabilidad de obtener
exactamente 10 águilas es b(10;20,0.5) = 0.1762. La probabilidad de obtener al menos
10 águilas es b(10;20,0.5) + + b(20;20,0.5) = 0.5881.
b Si la probabilidad de curar una cierto tipo de enfermedad en animales
experimentales con un tratamiento particular es p = 0.7, y si el tratamiento es
administrado independientemente a 10 de tales animales, entonces la probabilidad que
al menos 7 serán curados es b(7;10,0.7) + + b(10;10,0.7) = 0.6496. ////
ni 0 i 1, , k
n1 nk n (1.5)
Entonces podemos calcular la probabilidad que Ai ocurra exactamente ni veces durante los n
ensayos, i = 1,, k.
Teorema 4.1.2 La probabilidad que Ai ocurra exactamente ni veces, i = 1,, k, es
n n1
mn1 , ,nk ; p n
p1 pk k (1.6)
n1 , ,nk
para todos los n1,,nk que satisface (1.5). Aquí p denota el vector p = (p1,,pk), y
n n!
n1 ,nk n1!nk!
k k
P B P Aij piri
i 1 j i i 1
donde ri = i denota el número de elementos en i, i = 1,, k. Ahora, el evento que Ai
ocurra exactamente ni veces, i = 1,, k, es simplemente C = B, donde la unión se
extiende sobre todo para el cual i = ni, i = 1,, k. Por tanto, puesto que los eventos
n
B son mutuamente excluyentes, y puesto que hay de tales , por el
n1 , , n k
Teorema 1.2.3, se sigue que
n k ni
PC pi
n1 , ,nk i 1
EJEMPLO 4.1.4
a Si un dado balanceado es lanzado 12 veces, la probabilidad que cada cara
aparezca exactamente dos veces es
4 48
i 13 i
pi
52
13
6 2 2 2 0 0 6 2 2 2
p0 p1 p2 p3 p4 p0 p1 p2 ////
2 ,2 ,2 ,0,0 2 ,2 ,2
Teorema 4.2.1 La probabilidad que A ocurra por r-ésima vez en el k-ésimo ensayo
es
k 1 r k r
a k ; r , p p q (2.1)
r 1
k 1 r k r
P(BAk) = P(B)P(Ak) = pP(B) = p q
r 1
como se aseveró. ////
Ver Tabla 6.
b Si los equipos igualmente parejos, p = 0.5, ¿cuál es la probabilidad que la serie
requerirá todos los 7 juegos? Requerimos la probabilidad que el equipo I gane por
Tabla 6
p 0.55 0.60 0.65 0.70 0.75
P(B) 0.6083 0.7102 0.8002 0.8740 0.9294
cuarta vez en el séptimo juego o el equipo II gane por cuarta vez en el séptimo juego.
Los dos eventos son mutuamente excluyentes, y ellos tienen la misma probabilidad por
6
simetría. Así, la respuesta es 2 2 7 0.3125 . ////
3
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 109
Los lados derechos de (2.1) y (2.2) son independientes de n, y por tanto a(k;r,p) =
k 1 r k r
p q están definidos para toda k = r, r + 1,. Estos números son conocidos como
r 1
las probabilidades binomiales negativas y en el caso especial que r = 1, a(k;p) = pqk-1, k = 1,
2,, son conocidos como las probabilidades geométricas. Ahora mostraremos que ellas son,
de hecho, probabilidades.
Por tanto, será suficiente mostrar que lim P(Cn) = 0 cuando n . Para ver esto
observe que
r 1 n
PCn p j q n j
j 0 j
n
por el Corolario 4.1.1 y que p j q n j ~ p j q j n j q n j !, que tiende a cero cuando n
j
para cada j fijo, puesto que q < 1. Una prueba alterna puede ser basada en el
teorema binomial generalizado de la Sección 1.7. ////
Las probabilidades geométricas tienen una propiedad interesante que puede ser descrita
como carencia de memoria. Como en la introducción a esta sección, sea A un evento, y sea
Ai el evento que A ocurre sobre el i-ésimo de n ensayos independientes del experimento al
cual A se refiere. Además, permítasenos referir a la ocurrencia de Ai como “éxito” sobre el i-
ésimo ensayo y a la no ocurrencia de Ai como “fracaso.” Sea Ck el evento que no hay éxitos
110 TEOREMA DE POISSON: LA LEY DE EVENTOS RAROS
durante los primeros k ensayos. Equivalentemente, Ck puede ser descrito como el evento que
el primer éxito toma lugar después del k-ésimo ensayo, si acaso. Ahora
P(Ck + j | Ck) = P(Cj) (2.4)
para todos los enteros positivos k y j para los cuales k + j n. Para ver esto, simplemente
observe que Ck A1 Ak , así que P(Ck) = qk por independencia. Puesto Ck+j implica Ck,
ahora tenemos P(Ck+j Ck) = P(Ck+j)/P(Ck) = qk+j/qk = qj = P(Cj), como se aseveró
La Ecuación (2.4) puede ser parafraseada como sigue. Dado que uno ha esperado al menos k
ensayos sin un éxito, la probabilidad condicional que uno tenga que esperar j ensayos
adicionales para un éxito es la misma que la probabilidad que uno tenga que esperar j
ensayos antes de un éxito al inicio. Eso es, el proceso “olvida” la cadena inicial de k
fracasos. Esta propiedad es, de hecho, característica de las probabilidades geométricas (ver
Problema 5.12).
n
b k ; n , p p k q n k
k
Teorema 4.3.1 Sea p1, p2, una sucesión de números reales para los cuales 0 < pn
< 1, n 1, lim pn = 0, y lim npn = , cuando n , cuando 0 < < . Entonces
1 k
lim b k; n, pn e
k!
cuando n para cualquier k = 0, 1, 2,.
Lema 4.3.1 Sea x, x1, x2, una sucesión de números reales. Si lim xn = x cuando n
, entonces
n
x
lim 1 n e x
n
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 111
cuando n .
PRUEBA Puesto que xn x, se sigue que xn/n 0 cuando n . Por tanto, hay
un entero n0 para el cual xn/n ½ para n n0. Para tal n, podemos usar el Teorema de
Taylor (Sección 1.7) para escribir
2
x x 2 x
log 1 n n 21 1 y n
n n n
x 2 x
2
n log1 n xn 21 1 y n x
n n
cuando n . Por tanto,
n
xn xn
1 exp n log1 e
x
n n
cuando n . ////
PRUEBA del Teorema 4.2.1 Sea n = npn. Entonces n , por suposición, y
n
b k ; n, pn pnk 1 pn
n k
k
k
1 ( n ) k k n n
n
n 1 1 (3.1)
k ! nk n n
El contenido del Teorema 4.3.1 ahora puede ser establecido de alguna manera más
informalmente como sigue. Si n es grande, p es pequeña, y el producto = np es moderado,
entonces las probabilidades binomiales b(k;n,p) pueden ser aproximadas por las
probabilidades Poisson p(k;). El requisito de que n sea grande y p sea pequeña conduce aún
a otra descripción de las probabilidades Poisson. Las probabilidades Poisson p(k;) dan la
probabilidad de ocurrencia de exactamente k de un número grande n de eventos improbables
(p pequeña). Por esta razón, las probabilidades Poisson son conocidas como la ley de eventos
raros.
EJEMPLO 4.3.1
Suponer que una máquina en una línea de ensamble tiene probabilidad p = 0.01 de producir
una pieza defectuosa cada vez que opera. Si la máquina produce 300 piezas durante un día
dado, entonces la probabilidad que exactamente 4 de las 300 serán defectuosas es
aproximadamente p(4;3) = 0.168. La probabilidad que a lo más 4 de las 300 piezas serán
defectuosas es aproximadamente p(0;3) + p(1;3) + p(2;3) + p(3;3) + p(4;3) = 0.815. ////
EJEMPLO 4.3.2
Conexiones a un número equivocado. Durante un periodo de 24 horas una operadora
telefónica maneja un gran número de llamadas, digamos n llamadas. Hay también una
pequeña probabilidad p de que cada llamada será conectada a un número equivocado.
Podemos por tanto esperar la probabilidad de exactamente k conexiones a un número
equivocado para ser aproximadamente p(k;), donde = np. ////
EJEMPLO 4.3.3
Descomposición radioactiva. Considere una substancia radioactiva que emite partículas
radioactivas a una razón de por segundo. Eso es, suponer que durante un largo intervalo de
tiempo, la proporción promedio de emisión es por segundo (el número emitido durante
cualquier segundo será, por supuesto, aleatorio). Si hay un total de n partículas en la
substancia, parece razonable suponer que cada una será emitida con probabilidad
aproximadamente p = (1/n)t durante un intervalo de tiempo de longitud t. También parece
razonable suponer que las partículas son emitidas independientemente una de otra. Con estas
suposiciones, se sigue del Teorema 4.3.1 que la probabilidad de exactamente k emisiones
durante un intervalo de tiempo de longitud t es aproximadamente
1
p( k ; t ) ( t ) k e t
k!
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 113
1 21 x2
( x) e x (4.1)
2
a la que nos referiremos como la función de densidad normal estándar (Figura 2).
xdx 1.
Lema 4.4.1
PRUEBA Sea
21 x 2
I e dx
( x) ( y) dy
x
x (4.2)
x 1 x x (4.3)
x
( x) ( y) dy x (u) du 1 ( x)
Lema 4.4.2 Para x > 0, 1 – (x) < (1/x)(x), y 1 – (x) (1/x)(x) cuando x .
para x > 0. La segunda igualdad se sigue de la integración por partes. Ahora el segundo
término en la última línea de (4.4) es positivo, así que x[1 – (x)] (x) para x > 0,
116 APROXIMACIÓN NORMAL
como se aseveró en el lema. Ahora reemplacemos 1 – (x) por su cota superior y-1(y)
para obtener
1
( x ) x[1 ( x )] x ( y ) dy
y
1
x [1 ( x )] ( y ) dy
x x
1
x [1 ( x )]
x
k np
xnk (5.1)
npq
lim max rnk 0
k
cuando n
Eso es, podemos aproximar las probabilidades binomiales b(k;n,p) por la expresión más
simple (xnk)/ npq cuando n es grande, y denotaremos la relación escribiendo
Como un corolario, vemos que una gráfica de barras de las probabilidades binomiales
b(k;n,p) tiene la forma aproximada de la densidad normal estándar centrada en k = np con
unidades de ancho 1 npq en ambos ejes k y b(k;n,p) (Figura 4). Cuando p = 0.5, la
aproximación es excelente para valores de n tan pequeños como n = 8.
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 117
Podemos ahora establecer el siguiente resultado, que está relacionado a (5.2). Sean A1,,An
y X como antes, y sea 0 j k n. Definir y por
j np 21 k np 21
y (5.3)
npq npq
Entonces el término remanente rn es insignificante para valores grandes de n. Eso es,
podemos aproximar Pr (j X k) por la expresión más simple () – (), y denotaremos
la relación por
Pr (j X k) () () (5.5)
Es difícil sobre enfatizar el poder de (5.5), porque da una aproximación efectiva, simple a
sumas complicadas de probabilidades binomiales.
Las relaciones (5.2) y (5.5) son conocidas como los teoremas límite local e integral de
DeMoivre-Laplace, respectivamente. Los probaremos en la siguiente sección. La relación
(5.5) es un caso especial del teorema límite-central, que discutimos en la Sección 9.4.
Ahora consideremos algunos ejemplos.
n = 8 y p = 0.5 n = 16 y p = 0.5
k Exacto Aprox. Error k Exacto Aprox. Error
0 0.004 0.006 -0.002 0 0.0000 0.0001 -0.0001
1 0.035 0.038 -0.003 1 0.0003 0.0006 -0.0003
2 0.145 0.144 0.001 2 0.0021 0.0030 -0.0009
3 0.363 0.361 0.002 3 0.0106 0.0122 -0.0016
4 0.637 0.638 -0.001 4 0.0384 0.0401 -0.0017
5 0.1051 0.1056 -0.0005
6 0.2272 0.2266 0.0006
7 0.4018 0.4013 0.0005
8 0.5982 0.5987 -0.0005
Por simetría, la aproximación debe ser completamente tan buena en el rango k > 0.5n como
en el rango k < 0.5n. Así, el error (exacto – aproximado) es uniformemente pequeño para
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 119
toda k para n tan chica como 8. El error relativo, (exacto – aproximado)/exacto, será grande
para valores pequeños de k, sin embargo.
Recíprocamente, la aproximación es generalmente pobre si p es cercana a 0 o a 1. Esto es
claro de los resultados de la Sección 4.3. ////
EJEMPLO 4.5.2
a En 400 lanzamientos de una moneda balanceada, ¿cuál es la probabilidad que el
número de águilas, digamos X, diferirá de 200 por al menos 10? Requerimos
210
Pr (190 X 210) b(i ;400, 21 )
i 190
Ahora discutiremos una aplicación práctica de (5.5). Considere una moneda con
probabilidad desconocida p de que ocurra águila. Equivalentemente, considere una droga
que tiene probabilidad desconocida p de curar una enfermedad, o considere de un electorado
120 APROXIMACIÓN NORMAL
La entonces sirve como una medida natural de nuestra confianza que, de hecho, Fn – p
, y sirve para medir la exactitud de nuestra estimación. Por ejemplo, si sabíamos que (5.6)
se cumple para = 0.01 y = 0.99, entonces podríamos estar virtualmente ciertos que
nuestra estimación Fn estaría dentro 0.01 de la p desconocida.1
Usando (5.5), podemos encontrar una n tal que (5.6) es aproximadamente satisfecha.
EJEMPLO 4.5.3
Dados , , 0 < , < 1, ¿qué tan grande debe ser n para que (5.6) sea “aproximadamente”
satisfecha? Sea j el entero más pequeño que es mayor que o igual a n(p – ), y sea k el entero
más grande que es menor a o igual a n(p + ). Entonces
k
Pr (| Fn p| ) b(i ; n , p)
i j
Así, si n es tan grande que 2( n -1) – 1 , entonces (5.6) debe ser aproximadamente
satisfecha. Eso es, debemos tener
2 1[(1 ) / 2]2
n
2
1
3 Los estadísticos se refieren al intervalo [Fn – , Fn + ] como un intervalo de confianza y a como el coeficiente de
confianza.
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 121
donde -1 denota la función inversa para . Finalmente, puesto que 2 = pq = p(1 – p) ¼
para 0 < p < 1, como es fácilmente verificado por diferenciación, vemos que la última
condición será satisfecha si n n0, donde
1[(1 ) / 2]2
n0 (5.7)
4 2
Así n0 parece ser la selección apropiada de n. ////
EJEMPLO 4.5.4
Suponer que dos candidatos, A y B, están buscando una oficina. Sea p la proporción del
electorado que favorece al candidato A. Para estimar p, una encuesta de opinión es tomada.
Eso es, una muestra aleatoria de tamaño n es seleccionada del electorado y tomada su
preferencia. Denote Fn la proporción de la muestra que favorece a A. ¿Qué tan grande debe
ser seleccionada n para que Pr (Fn– p 0.05) 0.95, aproximadamente?
Si el electorado es grande, podemos ignorar la diferencia entre muestreo sin remplazo y
muestreo con remplazo (ver Sección 1.5). Para muestreo con remplazo, (5.7) se aplica con
= 0.05 y = 0.95 para producir n0 = 384 para el entero más cercano. ////
Tabla 8
0.900 0.950 0.975 0.990 0.995
Teorema 4.6.1 Sea 0 < p < 1, y sea kn cualquier sucesión de enteros para la cual 0
kn n para n 1, y sea
1
4 Esta sección puede ser omitida sin pérdida de continuidad
122 LOS TEOREMAS DE DEMOIVRE-LAPLACE
k n np
xnkn (6.1)
npq
PRUEBA Para simplificar la notación permítasenos escribir k por kn, x por x nkn
, y j por n – k. Entonces
k np x npq (6.2a)
j nq x npq (6.2b)
por definición de x. Más aún, puesto que n-1/6x 0 cuando n , debemos también
tener n-1/2x 0 cuando n , así que k/n p y j/n q cuando n . En
particular, ambos k y j tienden a infinito cuando n , así que podemos aplicar la
fórmula de Stirling (Sección 1.8) para deducir que
k! ~ 2k k k e k
j! ~ 2j j j e j
n! ~ 2nn n e n
n! k j
b( k ; n, p ) p q
k ! j!
k j
n k j
~
2kj np nq
cuando n . Así,
npq b( k ; n , p)
An Bn (6.3)
( x)
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 123
k j
n 2 pq k j 1 2
An Bn
x
y e2
donde kj np nq
así que será suficiente mostrar que lim An = 1 y lim Bn = 1 cuando n . Que An 1
cuando n es claro puesto que k/n p y j/n q, como nosotros observamos
antes.
Para mostrar que Bn 1 cuando n , escriba k y j en la forma de (6.2) para obtener
k j
log Bn k log j log 21 x 2
np nq
q
(np x npq ) log 1 x
np
p 1 2
(nq x npq ) log 1 x x (6.4)
nq 2
q 1 p 1
x y x
np 2 nq 2
para n suficientemente grande, digamos n n0. Para tal n, podemos expandir los
términos logarítmicos en la serie de Taylor alrededor de 0 para obtener
q q 1 2 q
log 1 x x x Rn
np np 2 np
(6.5)
p p 1 2 p
log 1 x x x Rn
nq nq 2 nq
3
1 1 q
3
donde Rn x
3 1 np
3
1 1 p
3
Rn x
3 1 nq
q 1 2 q
log Bn (np x npq ) x x Rn
np 2 np
p 1 2 p 1
(nq x npq ) x x Rn x 2
nq 2 nq 2
que simplifica a
Finalmente,
|np x npq || Rn | k n | Rn |
3 3
1 1 q
n x
3 1 np
32
8 q 1
n 2 | x 3 | 0
3 p
cuando n puesto que n-1/6x 0 cuando n , por hipótesis. Asimismo,
q p
lim | nq x npq|| Rn| 0 y lim x 3 q p 0
np nq
cuando n , así que lim log Bn = 0 cuando n . Eso es, lim Bn = 1 cuando n ,
como se pidió. ////
Hemos mostrado que la razón de es cercana a 1 provisto que k no
npqb k; n, p a x nkn
está demasiado distante de np en el sentido que n-1/6 x nkn 0 cuando n . Ahora
mostraremos que la diferencia es pequeña para toda k. En efecto, mostramos que ambos
b(k;n,p) y x nkn son pequeños si k es distante de np.
por el Teorema 4.6.1 y ( xnin ) 0 puesto que xnin . Ahora puesto que b(k;n,p)
es una función creciente de k para k < (n + 1)p por (1.3), y puesto que (x) es una
función creciente de x para x < 0, debemos tener
y el lado izquierdo de (6.6) tiende a cero cuando n por el Teorema 4.6.1. ////
Ahora tornamos nuestra atención a la prueba de (5.5). Por simplicidad, consideraremos sólo
el caso donde y permanecen acotadas cuando n , aunque (5.5) es verdadera sin esta
restricción.
Teorema 4.6.3 Para cualquier n sean jn y kn enteros positivos para los cuales 0 jn
< kn n, y sean
jn np 21 k n np 21
n y n
npq npq
Si hay una constante c para la cual –c n < n c para toda n = 1, 2,, entonces
k
b(i ; n , p) ( n ) ( n ) rn
i jn
PRUEBA Tenemos
kn
1 kn
b( i; n , p ) ( x ni )
i jn npq i jn
1 kn
[ npq b( i; n , p ) ( x ni )] I n Rn , digamos
npq i jn
Ahora, puesto que xni = xn(i-1) = 1/ npq , es una suma de Riemann aproximando a
n
( x) dx ( n ) ( n )
n
4.7 PROBLEMAS
4.1 Si un jugador de bridge juega 6 manos de bridge durante una tarde, ¿cuál es la
probabilidad de que el obtendrá:
(a) ¿Exactamente 2 ases en exactamente 2 de las manos?
(b) ¿Al menos 2 ases en al menos 2 de las manos?
4.2 Si dos dados balanceados son lanzados 4 veces, ¿cuál es la probabilidad de que al
menos 2 de los lanzamientos producirán al menos 9 puntos en total?
4.3 Dos jugadores de ajedrez, digamos A y B, juegan una serie de 10 juegos. Suponer que
los resultados de los 10 juegos son independientes y que cada jugador tiene
probabilidad 0.5 de ganar cada juego. ¿Cuál es la probabilidad de que uno de los
jugadores ganará más juegos que el otro?
4.4 En el Problema previo suponer que los jugadores A y B juegan 9 juegos y que A tiene
probabilidad p = 0.6 de ganar cada juego. ¿Cuál es la probabilidad de que A ganará más
juegos que B?
4.5 Mandrake, un mago, sostiene tener percepción extrasensorial. Para probar esta
aseveración, una moneda balanceada es lanzada 8 veces, y él es requerido para predecir
el resultado de cada lanzamiento. Suponiendo que Mandrake está de hecho adivinando,
¿cuál es la probabilidad de que el adivinará correctamente al menos 6 de los 8
resultados?
128 PROBLEMAS
4.6 En el Problema 4.5 suponer que Mandrake de hecho tiene percepción extrasensorial.
Suponer que él puede correctamente cantar el lanzamiento de una moneda con
probabilidad ¾. ¿Cuál es la probabilidad de que el correctamente cantará al menos 6 de
los 8 lanzamientos?
4.7 Suponer que los elementos sobre una línea de ensamble deben pasar por 10 operaciones
para convertirse en productos terminados. Suponer también que cada operación
funciona erróneamente con probabilidad p = 0.01. Si 10 elementos pasan a través de la
línea, ¿cuál es la probabilidad de que ninguna de las operaciones funcionará mal en (a)
exactamente 8 de los elementos; (b) al menos 8 de los elementos? Suponer que las 10
operaciones son independientes.
4.8 Considere un examen de selección múltiple con 10 preguntas, cada una de las cuales
tiene 4 posibles respuestas. Si un estudiante conoce la respuesta correcta con
probabilidad 0.8 y adivina con probabilidad 0.2, ¿cuál es la probabilidad de que el
responderá correctamente (a) exactamente 8 de las 10 preguntas; (b) al menos 7 de las
10 preguntas? Suponer sus respuestas a las 10 preguntas para ser independientes.
4.9 Dos monedas no cargadas son lanzadas n veces. Dado que hubieron exactamente k
águilas en los 2n lanzamientos, ¿cuál es la probabilidad condicional de que hubieron
exactamente j águilas en los n lanzamientos de la primera moneda?
4.10 Un dado balanceado es lanzado 4 veces. Dado que ningún as y ningún seis aparece,
¿cuál es la probabilidad condicional que cualquier otra cara aparezca exactamente una
vez?
4.11 Sean dos dados balanceados lanzados 6 veces. ¿Cuál es la probabilidad de que
exactamente 2 de los lanzamientos produzcan un número total de puntos menor que 7,
exactamente 2 produzcan un número total de puntos igual a 7, y exactamente 2
produzcan una suma total de puntos mayor que 7?
4.12 Problema de la fosforera de Banach . Un fumador inicia la mañana con dos cajas,
cada una de las cuales contiene n fósforos. Cada vez que el necesita un fósforo,
selecciona una de las dos cajas al azar y toma un fósforo de ella. ¿Cuál es la
probabilidad de que el (n + k)-ésimo fósforo vaciará una de las cajas? Sugerencia: Sea
Ai el evento de que el i-ésimo fósforo es tomado de la caja I, y suponer que los Ai son
independientes con probabilidad común ½.
NOTA: Los Problemas 4.13 a 4.16 introducen una aplicación de las
probabilidades binomial y multinomial a la genética. Características
heredables son determinadas por transportadores denominados genes, los
cuales aparecen en pares. En el caso más simple, los genes pueden tomar sólo
dos formas a y A, así que hay tres posibles genotipos (parejas) aa, Aa, y AA.
No hay distinción entre Aa y aA. En la reproducción sexual, el genotipo de
un descendiente está determinado como sigue: un gene es seleccionado al
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 129
1.
4.21 Una moneda es lanzada hasta que 2 águilas han aparecido. Dado que exactamente k
lanzamientos fueron requeridos, ¿cuál es la probabilidad condicional de que el primer
lanzamiento resultara en águila?
4.22 Una moneda es lanzada hasta que r águilas han aparecido. Dado que exactamente k
lanzamientos fueron requeridos, ¿cuál es la probabilidad condicional de que el j-ésimo
lanzamiento resultara en águila, j = 1, k 1?
En n = 1000 lanzamientos de una moneda que tiene probabilidad p = 0.005 de caer en águila
en cada lanzamiento, estimar la probabilidad de que:
(a) Exactamente 5 águilas aparecerán.
(b) Al menos 5 águilas aparecerán.
(c) A lo más 5 águilas aparecer.
130 PROBLEMAS
4.24 La máquina ponedora de tapas en la Compañía de Cerveza XYZ funciona mal con
probabilidad p = 0.001 en cada botella que intenta ponerle tapa. Si intenta 2500 botellas
en un día, ¿cuál es la probabilidad de que funcionará mal en más de 10 botellas?
4.25 La Compañía de Galletas ABC puso n pedacitos de chocolate dentro de una tina de
pasta de la cual hace m galletas y encuentra que las galletas resultantes contienen
exactamente k pedacitos de chocolate con probabilidad p(k;), donde k = n/m. Si se
desea hacer m = 10,000 galletas de una tina en particular, ¿cuántos pedacitos de
chocolate se deben poner dentro de la tina para que el 95 por ciento de la galletas
resultantes contengan al menos 5 pedacitos de chocolate?
4.26 Una sustancia radioactiva emite partículas con intensidad = 0.1 por microsegundo.
¿Cuál es la probabilidad de que habrá más de 2 emisiones durante los primeros 10
microsegundos?
4.27 En el Problema 4.26 encuentre el número t para el cual la probabilidad de al menos 1
emisión durante los primeros t microsegundos sea 0.5.
NOTA: Problemas 4.28 a 4.32 se refieren a n lanzamientos independientes de una moneda
que tiene probabilidad p de caer águila en cada lanzamiento. X denota el número de águilas.
4.28 Si n = 10 y p = ½, encontrar los valores exacto y aproximado de la probabilidad de que
X sea menor que o igual a k para k = 1, 5.
4.29 Si n = 100 y p = 1/3, estimar la probabilidad de que (a) X sea mayor que 35 (b) X este
entre 25 y 35 inclusive.
4.30 Sea F = X/n. Si p = ½, ¿qué tan grande debe ser n para que (aproximadamente) la
probabilidad de que F ½ 0.1 sea al menos 0.95?
4.31 Sea F = X/n. Encontrar una n para la cual aproximadamente la probabilidad de que F
p 0.05 sea al menos 0.95 para toda p, 0 < p < 1.
4.32 Sea F = X/n. Si n = 100,000 y p = ½, estimar la probabilidad de que F ½ 0.01.
4.33 Un dado balanceado es lanzado 12,000 veces. Estimar la probabilidad de que el número
de ases esté entre 1800 y 2200 inclusive.
4.34 Si 12,000 lanzamientos de un dado producen un total de 2500 ases, ¿sería razonable
concluir que el dado no está balanceado?
4.35 En el Ejemplo 4.5.4, ¿qué tan grande debe ser n para que aproximadamente
Pr Fn p 0.01 0.95
para toda p?
4.36 Para estimar la probabilidad p con la cual un tratamiento particular curará una
enfermedad dada, el tratamiento es administrado independientemente a n animales
LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 131
cuando .
pk ;100 .
110
4.41 Estimar k 90
5
5 VARIABLES ALEATORIAS
es un evento, eso es, pertenece a . En este caso referiremos a (1.1) como el evento que X
pertenece a I y escribimos
Pr X I Ps S : X s I (1.2)
La restricción de que (1.1) sea un evento garantiza que el lado derecho de (1.1) esté bien
definido. Puesto que muchos eventos interesantes pueden ser escritos en la forma (1.1), con
134 VARIABLES ALEATORIAS
una selección apropiada de X e I, veremos que la notación (1.2) es muy útil. Generalmente,
usaremos la notación Pr (·) para denotar la probabilidad del evento descrito dentro del
paréntesis. Por ejemplo, Pr (a < X < b) significa P ({s S: a < X(s) < b}), Pr (X = a)
significa P ({s S: X(s) = a}), Pr (X a) significa P ({s S: X(s) a}), etc.
Hemos considerado antes una variable aleatoria y usado la notación (1.2) y sus variaciones
en el capítulo previo, cuando consideramos el número de águilas que resultan de n
lanzamientos independientes de una moneda. El Ejemplo 5.1.2a proporciona los detalles.
EJEMPLO 5.1.1
a Sea (S,,P) un espacio de probabilidad y sea A cualquier evento. Entonces la
función X definida por
1 si s A
X s
0 si s A
X s I A1 s ... I A n s
X s kI Ak s
n
(1.3)
k 1
calcula el índice del Ai que ocurre. (Todos excepto uno de los términos en la suma son
0.) En este caso, Pr (X = k) = P({s: X(s) = k}) = Ps : I Ak s 1 = P(Ak) para k = 1,...
n.
Cualquier variable aleatoria que tome únicamente los valores 1,... n puede ser
representada en la forma (1.3) simplemente haciendo que Ak sea el evento que X = k
para k = 1,... n. ////
EJEMPLO 5.1.2
a Si una moneda es lanzada independientemente n veces, el número de águilas que
aparece puede ser representado como una variable aleatoria, como en el Ejemplo
VARIABLES ALEATORIAS 135
para s S.
136 VARIABLES ALEATORIAS
Calculemos Pr (X I). Suponer, por ejemplo, que I = (a, b] con 0 < a < b < 1. Entonces
Pr a X b P s S : s 2 a ,b
P a , b b a
X 1 B s S : X s B
X 1 Bi X 1 Bi (1.4a )
X 1 Bi X 1 Bi (1.4b)
X 1 B' X 1 B' (1.4c )
PRUEBA El lema es una simple consecuencia del hecho de que, por definición, s
X (B) si y sólo si X(s) B. Para probar (1.4a), por ejemplo, simplemente observe
-1
2 X s Bi
3 X s Bi para alguna i
4 s X 1 Bi para alguna i
5 s X 1 Bi
1
1 Por arctan entendemos la rama principal de arcotangente. Eso es, arctan y es la única x para la cual -(½) x < (½) y
tan x = y.
138 VARIABLES ALEATORIAS
Esto establece (1.4a), y las pruebas de (1.4b) y (1.4c) son similares. ////
Ahora, sea X cualquier variable aleatoria definida sobre un espacio de probabilidad (S,,P),
y sea B la clase de todos los subconjuntos B R (el conjunto de los números reales) para los
cuales X-1(B) es un evento, esto es, pertenece a . La condición (1.1) pide que B tenga a
todos los intervalos, y podemos extender la notación (1.2) escribiendo Pr (X B) = P(X-1(B))
para toda B B. Mostraremos que Pr (X B) define una función de probabilidad.
Teorema 5.1.1 Sea X cualquier variable aleatoria, y defina una función Q por medio
de Q(B) = Pr(X B) para B B. Entonces (R,B,Q) es un espacio de probabilidad.
PRUEBA La prueba de que B es una -álgebra se deja como un ejercicio
(Problema 5.7). Mostraremos que Q satisface los axiomas (2.1),(2.2), y (2.3) del
Capítulo 2. Claramente, 0 Q( B) P( X 1 ( B)) 1 puesto que P es una medida de
probabilidad, y más aún, Q(R) = P(X-1(R)) = 1 por la misma razón. Para establecer
(2.2), sean A y B elementos disjuntos de B. Entonces, X-1(A) X-1(B) = X-1(AB) = X-
1
() = , así que X-1(A) y X-1(B) son eventos mutuamente excluyentes. Así,
Q A B P X 1 A B
P X A X 1 B
1
P X 1
A PX 1 B
Q A Q B
que es (2.2). El axioma (2.3) puede ser análogamente verificado para completar la
prueba. ////
Se sigue que los resultados de las Secciones 2.3, 2.4, y 2.5 son aplicables a Q como también
a P, puesto que estos resultados son válidos en cualquier espacio de probabilidad. Por
ejemplo, si A B, entonces Pr (X B - A) = Pr (X B)-Pr (X A) y Pr (X A B) = Pr (X
A) + Pr(XB) - Pr (XAB) para cualquier A y B en B.
Nos referimos a Q como la distribución de la variable aleatoria X. Así , la distribución de X
especifica la probabilidad de que X pertenezca a B para cualquier conjunto B para la cual la
última probabilidad está definida y así contiene toda la información que podamos siempre
querer conocer acerca de probabilidades asociadas con X. Por supuesto, Q es algo
complicada, pero veremos en las siguientes pocas secciones como Q puede ser determinada
implícitamente por funciones mucho más simples.
VARIABLES ALEATORIAS 139
Más aún, hay un conjunto finito o infinito contable C, digamos C = x1 , x2 ,... , para el cual
1
f(x) = 0 para X C y
f x 1 (2.2)
C
El termino densidad discreta también será usado para una función f que satisface (2.1) y
(2.2). Por supuesto, si (2.2) es satisfecha para alguna selección de C, entonces es también
satisfecha con C = x R: f(x) > 0. Veremos que en muchos casos, la distribución de una
variable aleatoria puede ser determinada implícitamente por una función masa.
Diremos que una variable aleatoria X es discreta si y sólo si hay un conjunto finito o infinito
contable C = {x1,x2,...} R para el cual
Pr X C 1
En particular, este será el caso si los únicos posibles valores de X son x1 , x2 , ... , y en la
mayoría de los casos las x i serán enteros no negativos.
Ahora, mostraremos que cualquier variable discreta X determina una función masa f que a su
vez determina la distribución de X.
Teorema 5.2.1 Sea X cualquier variable aleatoria discreta. Entonces la función f
definida por
f x Pr X x (2.3)
para x R es una función masa. Más aún, si C es cualquier conjunto finito o infinito
contable para el cual Pr (X C) = 1, entonces
Pr X B f x (2.4)
BC
1 Pr X C f x
C
como en el Ejemplo 5.1.1c. X es discreta puesto que puede tomar sólo los valores 1 ,... n y
su función masa está dada por
f k Pr X k P Ak
1
(2.5)
n
VARIABLES ALEATORIAS 141
m n m
f r Pr X = r
r k r
(2.6)
n
k
para r = 0,... k y f(x) = 0 para otros valores de x por el Teorema 1.4.1. La ecuación (2.6)
define la función masa hipergeométrica con parámetros m, n, y k (0 m n y 1 k n). ////
EJEMPLO 5.2.3
Considere una moneda que tiene una probabilidad p de ocurrir águila cuando es lanzada. Si n
lanzamientos independientes de la moneda son hechos, entonces el número de águilas X que
aparece es una variable aleatoria como en el Ejemplo 5.1.2a. X es discreta puesto que puede
tomar solamente los valores 0,... n, y su función masa está dada por
n
f k Pr X = k p k q nq (2.7)
k
para k = 0,... n y f(x) = 0 para otros valores de x. Nos referiremos a (2.7) como la función
masa binomial con parámetros n y p (n 1, 0 p 1). ////
142 DISTRIBUCIONES DISCRETAS
EJEMPLO 5.2.4
Si la moneda del Ejemplo 5.2.3 es lanzada repetidamente, la probabilidad de que la primera
águila aparezca en el k-ésimo lanzamiento es
f k pqk 1 2.8
para k = 1,2,... por el Teorema 4.2.1. Sea f(x) = 0 si x no es un entero positivo. Entonces f es
una función masa, la cual referiremos como la función masa geométrica con parámetro p (0
< p < 1 ).
Recordemos de la Sección 4.2 que la función masa geométrica tiene la propiedad de carencia
de memoria. Con nuestra nueva terminología, la Ecuación (2.4) del Capítulo 4 puede ser
establecida como sigue: si X tiene la distribución geométrica (función masa), entonces para
todos los enteros positivos k y j, la probabilidad condicional de que X > k + j dado que X > j
es
PrX k j X j Pr X k
k 1 r k r
f k p q (2.9)
r 1
para k = r, r + 1,.… La Ecuación (2.9) define la función masa binomial negativa con
parámetros r y p (r 1 y 0 < p < 1). La geométrica es un caso especial con r = 1. Que (2.9)
define una función masa, eso es, que la condición (2.2) es satisfecha, fue mostrado en la
Sección 4.2. ////
EJEMPLO 5.2.6
Una variable aleatoria X se dice que tiene la distribución Poisson con parámetro > 0 si y
sólo si X tiene función masa
k
f k Pr X k e (2.10)
k!
para k = 0,1,... y f(x) = 0 para otros valores de x . Que f es una función masa fue mostrado
VARIABLES ALEATORIAS 143
en la Sección 4.3.
También fue mostrado en la Sección 4.3 que (2.10) provee una aproximación a la función
masa binomial cuando n es grande, p es pequeña y = np es moderada. Otra aplicación de la
distribución Poisson es la siguiente. Si una sustancia radioactiva es observada por t unidades
de tiempo, donde t es pequeña comparada con la vida media de la sustancia, y si el número X
de emisiones radioactivas es registrado, entonces X puede ser considerada como una variable
aleatoria que tiene la distribución Poisson con parámetrot, donde > 0 es característica de
la sustancia radioactiva. es denominada la intensidad de la radiación. Indicamos una
derivación de este resultado en el Ejemplo 4.3.3, y daremos otra derivación de esta
aseveración en la Sección 7.6. Por el momento, lo aceptamos como un hecho empírico. ////
f x dx 1
(3.2)
además, diremos que una variable aleatoria X es absolutamente continua si y sólo si hay una
función de densidad f para la cual
Pra X b a f x dx
b
(3.3)
siempre que a < b. En este caso llamaremos a f una densidad para X y diremos que X tiene
densidad f. Puesto que una función puede ser cambiada en cualquier número finito de puntos
sin afectar su integral, una variable aleatoria puede tener más de una función de densidad.
Una propiedad interesante de variables aleatorias absolutamente continuas es la siguiente. Si
X es cualquier variable aleatoria absolutamente continua y a R es cualquier número real,
entonces
Pr X a 0 (3.4)
Ahora, la integrabilidad de f implica que lim I() = 0 cuando 0 , así que I() puede ser
1
Pr a X b Pr X a Pr a X b
Pr a X b a f x dx
b
La Ecuación (3.4) puede parecer algo no intuitiva, pero en realidad no lo es. En particular,
no asegura que los eventos X = a para a R sean imposibles. Desde el punto de vista
frecuentista, simplemente significa que si el experimento al cual se refiere X es repetido n
veces, la frecuencia relativa con la que X = a tenderá a cero cuando n . Desde el punto
de vista subjetivo, significa que para cualquier a R fijo, el evento de que X = a es
considerado como extremadamente menos probable que el evento X R - {a}. Para
clarificar el último punto, imagine el siguiente juego. Se te solicita adivinar el peso de un
amigo exactamenteno sólo a la libra más cercana, o a la décima de una libra, o
millonésima de una libra, sino exactamente. Si tienes éxito, ganas c dólares, si fallas,
entonces pierdes 1 dólar. Suponer también que es posible medir el peso de tu amigo,
digamos X, a un grado arbitrario de precisión. ¿Hay algún valor de c para el cual
considerarías el juego como apropiado? Si no, entonces tu probabilidad subjetiva de que X =
a es cero para cualquier a.
En vista de la Ecuación (3.4), las funciones de densidad son más difíciles de interpretar que
las funciones masa (que dan probabilidades de eventos particulares). Sin embargo, si una
densidad f es continua en un punto a R, entonces f(a) puede ser interpretada como un
cociente aproximado de la probabilidad a la longitud. Para ver esto, sea X absolutamente
continua con densidad f, sea a R, y suponer que f es continua en a. Entonces
1
3 Si f es acotada, digamos f(x) b para toda x, entonces I() b, que tiende a cero cuando 0. Para f posiblemente
no acotada, ver Problema 5.34.
VARIABLES ALEATORIAS 145
Pr a h X a h
1 1 ah
2h
f ( x )dx
2h a h
que converge a f(a) cuando h 0 por el teorema fundamental del cálculo. Eso es, Pr (a - h <
X a + h) es aproximadamente 2hf(a) para h pequeña.
Ahora consideramos varios ejemplos.
EJEMPLO 5.3.1
En el Ejemplo 5.1.3 encontramos que si un punto X es seleccionado al azar del intervalo S =
[0,1), entonces Pr (X I) = longitud de IS para cualquier intervalo I R. Esto puede ser
escrito en la forma (3.3) con
1 0 x 1
f x (3.5)
0 de otro modo
Nos referiremos a (3.5) como la densidad uniforme sobre el intervalo [0,1). Más
generalmente, si J es cualquier intervalo de longitud finita y positiva, nos referiremos a la
función g definida por
1
xJ
g x J (3.6)
0
de otro modo
donde J denota la longitud de J, como la densidad uniforme sobre J, y diremos que una
variable aleatoria Y que tiene densidad g está uniformemente distribuida sobre J. ////
EJEMPLO 5.3.2
En el Ejemplo 5.1.4 mostramos que si X denota la tangente de un ángulo que esta
uniformemente distribuido sobre el intervalo [0,2, entonces
Pr a X b
1
(arctan b - arctan a)
para a < b. Esto puede ser escrito en la forma (3.3) con
f x
1
x
1 x2 (3.7)
146 DISTRIBUCIONES ABSOLUTAMENTE CONTINUAS
la derivada de -1 arctan x. Así, X es absolutamente continua con densidad dada por (3.7).
Nos referiremos a (3.7) como la densidad Cauchy. ////
EJEMPLO 5.3.3
Una variable aleatoria X se dice que tiene la distribución normal estándar si y sólo si X tiene
densidad
12 x 2
f x
e
x (3.8)
2
y nos referiremos a (3.8) como la densidad normal estándar. La prueba de que (3.8) define
una densidad, eso es que la condición (3.2) es satisfecha, fue dada en la Sección 4.4 junto
con una gráfica de la función. También mostramos en la Sección 4.6 que si Y tiene la
distribución binomial con parámetros n y p, 0 < p < 1, entonces cuando n ,
Y np
b a f x dx
b
lim Pr a
npq
donde f está definido por (3.8). Así podemos ver a la distribución normal estándar como una
distribución aproximada para (Y - np)/ npq . De hecho, la distribución normal estándar
tiene una aplicabilidad mucho más amplia, como veremos en la Sección 9.4. ////
EJEMPLO 5.3.4
Para cualquier > 0, la función f definida por
e x x0
f x (3.9)
0 x0
es una densidad, porque
f x dx 0 e x dx e x
1
0
para cualquier subconjunto B R para el cual ambos lados de (3.10) estén definidos.
Más aún, si X es absolutamente continua con densidad f, entonces f unívocamente
determina la distribución de X.
PRUEBA Las Ecuaciones (3.3) y (3.4) aseguran que (3.10) se cumple siempre
que B sea un intervalo. Por lo tanto, si
n
B Ik
k 1
Así, debemos esperar que (3.10) se cumpla para todo B que pueda ser aproximado por
una unión finita de intervalos disjuntos. Esto es, de hecho, verdadero, y la última clase
de subconjuntos de B contiene todos los conjuntos para los cuales ambos lados de
(3.10) están definidos. Los detalles de esta aproximación son un poco complicados, sin
embargo, y los omitimos. ////
0 x 1e x dx
> 0 (4.1)
Esta función tiene varias propiedades interesantes, la más sorprendentes de las cuales serán
ahora dadas.
Lema 5.4.1 Para 1 , () = ( - 1) ( - 1).
PRUEBA Sea u(x) = x-1 y v(x) = e-x para x > 0. Entonces puesto que > 1,
u(x)v(x) 0 cuando x 0 ó x , y así podemos integrar por partes para obtener
148 LAS DISTRIBUCIONES GAMA Y BETA
10 x 2 e x dx 1 1
1 0 e x dx e x 0 = 1
n n 1! (4.2)
Lema 5.4.2 12
2
donde el paso final se sigue del hecho de que la densidad normal estándar es una
densidad (Lema 4.4.1). Cuando se combinan, los Lemas 5.4.1 y 5.4.2 proveen una
expresión para () cuando es la mitad de un entero. ////
EJEMPLO 5.4.1
Para cualquier > 0 y > 0, la función f definida por f(x)=0 para x 0 y
x 1 x
f x e (4.3)
( )
para x > 0 es una densidad. Indiscutiblemente, el cambio de variable y x produce
VARIABLES ALEATORIAS 149
y 1e y ( )
f x dx 0
0
( )
y
( )
1
y f(x) = 0 para x (0,1) es conocida como la densidad beta con parámetros y . Puesto
que esta densidad será derivada dos veces en el Capítulo 7, diferimos la prueba de que (4.4)
define una densidad. ////
150 LAS DISTRIBUCIONES GAMA Y BETA
Como la densidad gama, la densidad beta puede tomar una amplia variedad de formas.
Algunas de estas son ilustradas en la Figura 7. Observe que la densidad uniforme sobre (0,1)
es un caso especial cuando = = 1.
Concluimos esta sección con un ejemplo de un cálculo con la densidad gama.
VARIABLES ALEATORIAS 151
EJEMPLO 5.4.4
Si la longitud de vida en años de residentes masculinos en un estado dado sigue la
distribución gama con parámetros = 2 y = 0.02, ¿Qué proporción de residentes
152 LAS DISTRIBUCIONES GAMA Y BETA
masculinos vivirá por más de 50 años? Requerimos Pr (X > 50), donde X tiene la distribución
gama con parámetros = 2 y = 0.02, eso es,
Pr X > 50 50 2 ye y dy
Pr X 50 1 ye y dy 2e 1 0.7358
////
n 12
n! 2 n e n (4.5)
cuando n . Nuestro punto de inicio es la ecuación (4.2), la que establece que n! = (n+1)
o equivalentemente que
n! 0 x n e x dx (4.6)
n ! n n1 0 y n e ny dy
n n1e n 0 y n e n ( y 1) dy
n n1e n 0 e n ( y ) dy
donde (y) = log y - (y - 1) para y > 0. La fórmula de Stirling (4.5) es así equivalente a la
aseveración de que
I n n 0 e n ( y ) dy 2 (4.7)
cuando n .
1
4 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad.
VARIABLES ALEATORIAS 153
Para establecer (4.7) estudiemos la función . Las primeras dos derivadas de son
1 1
' y 1 and '' y
y y2
para y > 0. Así, alcanza su valor máximo de (1) = 0 cuando y = 1, (y) < 1 para y 1, y
(y) cuando y . Ahora expandamos en una serie de Taylor alrededor de y = 1
para obtener
1
y '' y * y 1
2
(4.8)
2
para y > 0, donde y*-1 y-1.
Sea > 0 dado. Entonces, puesto que '' es continua y ''(1) = -1, hay una > 0 para la
cual -(1 + ) ''(y) -(1 - ) para y - 1 . En particular, debemos también tener
1 '' y * 1 (4.9)
en (4.8) para y - 1 .
Dividamos el intervalo de integración en (4.7) en tres subintervalos como sigue:
In 1 1
n 0 n 1 n 1 e
n y
dy
que tiende a cero cuando n puesto que (1 - ) < (1) = 0. Análogamente, podemos
mostrar que I n''' 0 cuando n (Problema 5.39).
Para estimar I n'' usamos (4.8) y (4.9) para deducir que
1 12 n 1 y 1
2
I n'' n 1 e dy
que converge a
154 FUNCIONES DE DISTRIBUCIÓN
1 1 z2 2
e 2 dz 1
1
cuando n . Aquí usamos el Lema 4.4.1 para evaluar la integral. Puesto que I n' I n''' 0
cuando n , debemos tener
2
In (4.10)
1
para n suficientemente grande; y análogamente
2
In (4.11)
1
para n suficientemente grande. Puesto que > 0 fue arbitrario, (4.10) y (4.11) se pueden
combinar para probar (4.7). ////
F a Pr X a (5.1)
para - < a < . Así, si X es discreta con función masa f, entonces por el Teorema 5.2.1
F a f x (5.2)
x a
donde la suma se extiende sobre todos los x a para los cuales f(x) > 0; y si x es
absolutamente continua con densidad f entonces
F a f x dx
a
(5.3)
por el Teorema 5.3.1. Enfatizamos, sin embargo, que todas las variables aleatorias tienen
funciones de distribuciónaun aquellas que no son ni discretas ni absolutamente continuas.
Las relaciones (5.2) y (5.3) pueden ser invertidas. Así, si X es absolutamente continua con
densidad f y función de distribución F, podemos diferenciar (5.3) por el teorema
fundamental del cálculo para obtener
f a F ' a (5.3a )
VARIABLES ALEATORIAS 155
f a F a F a (5.2a )
donde F(a-) denota el límite de F(x) cuando x a con x < a (ver Fig. 8).
Llamaremos a las funciones de distribución de la forma (5.2) discretas, y nos referiremos a
f como la función masa de F. Similarmente, llamaremos a las funciones de distribución de
la forma (5.3) absolutamente continuas, y nos referiremos a f como una densidad para F.
Además, si F y f están relacionadas por (5.2) ó (5.3), llamaremos a F por el mismo nombre
(por ejemplo, binomial o normal) como a f.
EJEMPLO 5.5.1
a Si un dado balanceado de n lados es lanzado una vez, y si X denota el número de
puntos que aparece, la probabilidad de que X a es 0 para a < 1, es k/n si k a < k + 1,
donde k = 1,..,n - 1, y es 1 si a n. Eso es,
0 para a 1
a
F a = para 1 a n
n
1 para a n
a
F a = pq k 1
k 1
para a 1 (donde a denota el mayor entero menor o igual que a). La sumatoria puede
ser evaluada para producir
0 a 1
F a = a
1 q a 1
a n
F a p k q n k
k 0 k
para 0 a < n, F(a) = 0 para a < 0, y F(a) = 1 para a n (ver Figura 8). ////
EJEMPLO 5.5.2
a Si X tiene la distribución uniforme sobre el intervalo J = (c, d) con c < d, entonces X
tiene función de distribución F, donde
0 ac
a c
F a = cad
d c
1 ad
VARIABLES ALEATORIAS 157
Esto se sigue de una integración directa de la densidad uniforme del Ejemplo 5.3.1.
b Si X tiene la distribución exponencial con parámetro > 0 (Ejemplo 5.3.4),
entonces X tiene densidad f(x) = 0 para x 0 y f(x) = e x para x > 0. Integración ahora
produce F(a) = 0 para a 0 y
F a =
a
0
e x dx 1 e a
para a > 0.
c Si X tiene la distribución Cauchy (Ejemplo 5.3.2), entonces X tiene densidad f(x) =
1/(1 + x2) para - < x < por el Ejemplo 5.3.2. Así, X tiene función de distribución
1
F a arctan a 12
para - < a < por integración.
d Si X tiene la distribución normal estándar, entonces X tiene función de
distribución
12 x 2
e
a
a
dx
2
para - < a < . ////
Las relaciones (5.2a) y (5.3a) pueden ser usadas para calcular la función masa o de densidad
de una variable aleatoria en algunos casos. Lo ilustraremos encontrando la distribución de
una función lineal de una variable aleatoria. Si X es una variable aleatoria, y si y son
números reales, podemos definir una nueva variable aleatoria Y haciendo Y = X + . Eso es,
hacemos Y(s) = X(s) + para toda s S, el espacio muestral sobre el cual X está definida.
Podemos pensar de Y como X medida en nuevas unidades. La distribución de X y Y están
relacionadas de una manera simple, como mostraremos ahora.
Lema 5.5.1 Sea X una variable aleatoria con función de distribución F, y sea
Y=X+, donde > 0. Entonces la función de distribución de Y está dada por
a
G( a ) F (5.4a )
para - < a < . Si X es absolutamente continua con una densidad continua f,
entonces Y tiene densidad g, donde
1 a
g a f (5.4b)
158 FUNCIONES DE DISTRIBUCIÓN
para - < a < . Esto establece (5.4a). Si, en adición, X es absolutamente continua con
densidad f, entonces (5.4b) se sigue por diferenciación. ////
Cuando se trabaje con distribuciones G de la forma (5.4), nos referiremos a y como los
parámetros de localidad y escala, respectivamente.
EJEMPLO 5.5.3
a Si X tiene la distribución normal estándar, entonces X tiene función de
distribución , como en el Ejemplo 5.5.2d. Así, Y = X + tiene funciones de
distribución y de densidad dadas por
a
G ( a )
1 1 x 2
g( a ) exp
2 2
1
g x x 1e x
para x > 0. Además, sea f igual a g con = 1. Entonces g(x) = f(x) para toda x, así
que 1 es un parámetro de escala. ////
Como otra aplicación de (5.3a), ahora daremos una derivación de las distribuciones gama y
exponencial.
EJEMPLO 5.5.4
Imagine una sustancia radioactiva que emite partículas radioactivas. Si la sustancia es
observada continuamente, ¿cuál es la distribución del tiempo de la primera emisión? Más
generalmente, ¿cuál es la distribución del tiempo de la k-ésima emisión, donde k es un entero
positivo? Denote por X el tiempo de la k-ésima emisión, sea t > 0, y denote Y el número de
emisiones hasta el tiempo t. Entonces podemos suponer que Y tiene la distribución Poisson
con parámetro t, donde > 0 es la intensidad de la radiación (Ejemplo 5.2.6). Eso es,
suponemos que Pr (Y j ) ( t ) j e t / j ! para j = 0,1,2,.... Ahora X es menor o igual a t si y
sólo si ha habido al menos k emisiones hasta el tiempo t. Eso es, la Pr (X t) = Pr (Y k) = 1
- Pr (Y k - 1). Denote F la función de distribución de X. Entonces, tenemos
k 1
1
F t 1 ( t ) j e t (5.5)
j 0 j!
para t > 0. Por supuesto, F(t) = 0 para t 0 puesto que X es una variable no negativa.
Podemos ahora obtener la densidad de X por diferenciación. Si k = 1, entonces
F ( t ) 1 e t para t > 0, así que
f t e t
para t > 0. Eso es, la distribución del tiempo de la primera emisión es exponencial con
parámetro , como se dijo en el Ejemplo 5.3.4.
Para k > 1, la derivada f = F´ también puede ser calculada como
k 1 k 1
1 1
f t j j t j 1e t j 1t j e t
j 0 j! j 0 j!
1
f t k t k 1e t (5.6)
k 1!
para t > 0. Así, el tiempo de la k-ésima emisión tiene una distribución gama con parámetros
= k y .
Como un corolario a nuestros cálculos, vemos que la función de distribución de la densidad
gama (5.6) está dada por (5.5). ////
Pr X B Pr Y B
para todo B R donde ambos símbolos estén definidos. No probaremos este hecho aquí,
1
puesto que la prueba requiere algunas técnicas avanzadas. Sin embargo, probamos que Pr(X
I) puede ser calculada de la función de distribución F de X para cualquier intervalo I.
Si F es una función real sobre R, diremos que F es no decreciente si y sólo si F(a) F(b)
siempre que a < b. Si F es no decreciente, entonces el límite de F(x) cuando xa con x < a
existe,2 y denotaremos este límite por F(a-). Asimismo si F es no decreciente, entonces el
límite de F(x) cuando xa con x > a existe, y denotaremos este límite por F(a+). Así, si F es
no decreciente, F es continua en a R si y sólo si F(a-) = F(a) = F(a+). Si F es no
decreciente, diremos que F es continua por la derecha si y sólo si F(a) = F(a+) para todo a y
por la izquierda si y sólo si F(a) = F(a-) para toda a.
Si F es la función de distribución de una variable aleatoria X, entonces F es no decreciente.
Sin lugar a duda, si a < b, el evento de que X a implica que X b, así que F(a) = Pr (X a)
Pr (X b) = F(b) por el Teorema 2.3.1. Así, los límites por un solo lado F(a-) y F(a+)
existen para toda a. En la Sección 5.8 mostraremos que
F a F a Pr X a (6.1a )
F a Pr X a (6.1b)
Pr X a F a F a (6.3)
Pr X a 1 F a (6.4a )
Pr X a 1 F a (6.4b)
PRUEBA Puesto que las pruebas de las cuatro ecuaciones en (6.2) son todas
similares, probaremos solamente la primera. Dado que a < b, sea A el evento de que X
a, y sea B el evento de que X b. Entonces A implica B, y B - A es simplemente el
evento que a < X b. Por lo tanto, Pr (a < X b) = P(B - A) = P(B) - P(A)= Pr (X b) -
Pr (X a) = F(b) - F(a), como se estableció. (Aquí hemos usado el Teorema 2.3.1 para
obtener la segunda igualdad.) La prueba de (6.3) es similar. Sea B el evento que X a,
y sea A el evento que X < a. Entonces, Pr (X = a) = P(B - A) = P(B) - P(A) = F(a) - F(a-
), donde hemos usado (6.1).en el paso final. Finalmente, (6.4a) y (6.4b) se siguen de
(6.1) tomando complementos. Para establecer (6.4a), por ejemplo, observe que el
evento X > a es el complemento del evento X a, así que Pr (X > a)=1 - Pr (X a) = 1
- F(a). ////
La Ecuación (6.3) es de especial interés. Puesto que las funciones de distribución son
siempre continuas por la derecha por (6.1), puede ser replanteada como sigue. Si la función
de distribución F de la variable aleatoria X tiene una discontinuidad de magnitud = F(a) -
F(a-) en el punto a, entonces Pr (X = a) = . Recíprocamente, si F es continua en el punto a,
entonces Pr (X = a) = 0. En particular, si F es una función continua, entonces Pr (X = a) = 0
para toda a R. Así, si F es continua, las cuatro probabilidades en (6.2) son todas la misma,
y Pr (a < X < b) = Pr (a < X b) = Pr (a X < b) = Pr (a X b) = F(b) - F(a).
EJEMPLO 5.6.1
a Si X tiene la distribución normal estándar, entonces Pr (a < X < b) = Pr (a X b)
= (b) - (a) para a < b, puesto que es continua. En particular, tenemos Pr (-1 X
1) = (1) - (-1) = 0.683 y Pr (-2 X 2)=0.954 del Apéndice Tabla C.3.
b Más generalmente, si X tiene la distribución normal con parámetro de localidad
162 MEDIANAS Y MODAS
b a
Pr a X b para a b
k 1
1
Pr a X b a ea b eb
i i
i0 i !
para a < b por el Ejemplo 5.5.4. Para valores de a y b, esto puede ser calculado de la tabla de
probabilidades Poisson en el Apéndice C. ////
EJEMPLO 5.6.3
a Si X tiene la distribución binomial con parámetros n = 8 y p = 0.5, entonces Pr (3
X 5) = F(5) - F(3-) = 0.7109. Observe que F(5) - F(3) = 0.4922.
b Si X tiene la función de distribución
0 a 1
a
F (a ) 1 a 2
2
1 a2
Pr X m 12 Pr X m (7.1)
1
7 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad.
VARIABLES ALEATORIAS 163
F m 12 F m (7.2)
puesto que Pr (X m) = 1 - F(m-) por (6.4). Cualquier número m que satisface (7.2) será
llamado una mediana de F. Si F es continua, entonces F(m-) = F(m), y así debemos tener
igualdad en (7.2) y (7.1). Eso es, si F es continua, entonces X es tan probable de estar arriba
como abajo de su mediana. En este sentido, una mediana puede ser pensada como un centro
de la distribución de X.
Una variable aleatoria puede tener más de una mediana. De hecho, una variable
aleatoria puede tener un intervalo entero de medianas. También, las desigualdades en (7.1) y
(7.2) pueden ser estrictas si F no es continua. Ejemplos serán dados abajo.
EJEMPLO 5.7.1
Si X tiene una densidad f que es simétrica en el sentido que f(x) = f(-x) para toda x, entonces
0 es una mediana para X. De hecho
así que F(0) = ½. En particular, 0 es una mediana las distribuciones normal estándar y
Cauchy estándar. ////
EJEMPLO 5.7.2
Suponer que la longitud de tiempo X requerida para que una partícula radioactiva individual
decaiga tiene una distribución exponencial con parámetro > 0. Entonces la mediana puede
ser encontrada resolviendo la ecuación
1
2 Pr X m em
cuando m = (log 2)/. Si una sustancia radioactiva contiene N de tales partículas, donde N es
grande, y si las partículas decaen independientemente, entonces esperamos
aproximadamente la mitad de las N partículas haber decaído para el tiempo m. En
correspondencia, llamamos a m la vida-media de la sustancia. ////
EJEMPLO 5.7.3
a Si X tiene la distribución geométrica con parámetro p = 0.5, entonces
Pr X 1 12 Pr X a
164 MEDIANAS Y MODAS
para 1 a < 2. Así cualquier número m con 1 < m 2 es una mediana para X.
b Si X tiene la distribución geométrica con parámetro p = 0.4, entonces
Pr X = 1 0.4 y Pr X 2 0.24
Así F(2-) = 0 4 < 0.64 = F(2). Eso es, 2 es una mediana única, y hay desigualdad
estricta en (7.1) y (7.2). ////
Si X es una variable aleatoria discreta con función masa f o una variable aleatoria
absolutamente continua con densidad f, entonces cualquier número m en el cual f alcanza su
máximo es denominado una moda de X o una moda de f. En el caso discreto donde f(m) = Pr
(X = m), una moda es un valor más probable de X o uno de varios valores más probables.
Una densidad o función masa puede tener más de una moda.
EJEMPLO 5.7.4
a La única moda de la densidad normal estándar
1
f x
1 2
x
e 2
2
es x = 0.
b La única moda de la distribución Cauchy estándar es también x = 0. ////
EJEMPLO 5.7.5
a Encontremos la moda de la densidad gama
1
f x x 1e x
f ' x
1
1 x 2 x 1 e x
Si 1, entonces f '(x) < 0 para toda x > 0, y así la moda m = 0. De hecho, si < 1,
entonces f(x) cuando x 0. Si > 1, entonces f '(x) se hace cero cuando x = m =
(-1)-1.
b Similarmente, la moda de la densidad beta f con parámetros 1 y 1 y +
> 2 es
VARIABLES ALEATORIAS 165
1
m
2
y si A1, A2,… es una sucesión creciente de eventos (eso es, si A1 A2 …), entonces
P An lim P An (8.1b)
n1 n
Ver Teorema 2.5.1.
Teorema 5.8.1 Sea X cualquier variable aleatoria, y denote F su función de
distribución. Entonces
1
8 Esta sección puede ser omitida sin pérdida de continuidad.
166 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN
(i) F es no decreciente;
(ii) F es continua por la derecha; y
(iii) F satisface
lim F a 0 cuando a (8.2a )
lim F a 1 cuando a (8.2b)
PRUEBA Que F es no decreciente ha sido antes probado. Se sigue que los limites
por un solo lado F(a+) y F(a-) existen para cualquier - < a <, y la aseveración de
que F es continua por la derecha es equivalente a la aseveración de que F(a)= F(a+)
para cualquier a. Para ver esto, sea An el evento X a + 1/n para n = 1,2,.… Entonces,
A1 A2 …, y la intersección de los An es simplemente el evento X a. Por lo tanto,
1
F a lim F a
n n
lim P An
n
P An
n1
Pr X a F a
como se dijo, donde hemos usado (8.1) para obtener la crucial igualdad de en medio.
Nos falta aún probar (8.2). Para establecer (8.2a), por ejemplo, observe primero que
cuando a -, lim F(a) existe puesto que F es no decreciente. Para cualquier n =
1,2,... sea An el evento X -n. Entonces, la sucesión A1, A2,… es decreciente y su
intersección es el conjunto vacío . Por lo tanto,
lim F n lim P An P An P 0
n n1
variable aleatoria.
Teorema 5.8.2 Sea F cualquier función no decreciente, continua por la derecha que
satisface (8.2). Entonces hay una variable aleatoria X cuya función de distribución es
F.
PRUEBA Debemos definir un espacio de probabilidad (S,,P) y una variable
aleatoria X y mostrar que la función de distribución de X es F. Sea S = (0,1), sean todos
los subintervalos de S los eventos, eso es, elementos de , y sea P(I) = longitud de I si I
es un subintervalo de S, como en el Ejemplo 2.2.5. Además, defina una función X sobre
S por
X s min x R: F x s (8.3)
para cada s S fijo. El conjunto sobre el lado derecho de (8.3) no es vacío por (8.2), y
el mínimo es alcanzado porque F es continua por la derecha.
Para ver que X es una variable aleatoria con función de distribución F, observe que X(s)
a si y sólo si s F(a) para cada a fija, - < a < . Eso es, el evento X a es
simplemente (0, F(a)] para cualquier a. Por lo tanto, X es una variable aleatoria, y Pr (X
a) = P((0, F(a)]) = longitud de (0, F(a)] = F(a), como se afirmó. ////
De aquí en adelante, usaremos el término “función de distribución” para referirnos a
cualquier función continua por la derecha, no decreciente F que satisface (8.2). El Teorema
5.8.2 garantiza que tales funciones son funciones de distribución de variables aleatorias.
EJEMPLO 5.8.1
a Si f es cualquier función de densidad, entonces su integral indefinida F definida
por
F a f y dy
a
es no decreciente y continúa por la derecha (de hecho, continua) y satisface (8.2). Por
lo tanto, F es la distribución de alguna variable aleatoria X. Por (6.2a), tenemos
entonces
Pr a X b F b F a a f x dx
b
siempre que a < b, así que X tiene densidad f. Por lo tanto, hemos probado el siguiente
corolario al Teorema 5.8.2. Dada cualquier función de densidad f, hay una variable
aleatoria X cuya densidad es f.
b Similarmente, dada cualquier función masa f, hay una variable aleatoria cuya
168 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN
5.9 PROBLEMAS
5.1 Sea S un conjunto, y para A S sea IA la función indicadora de A. Verificar las siguientes
propiedades:
(a) IAB(s) = IA(s) IB(s)
(b) I A B (s) = IA(s) + IB(s) IAB(s)
(c) IA´(s) = 1 IA(s)
para toda s S.
5.2 Dos dados balanceados son lanzados. Representar el número total de puntos que
aparecen como una variable aleatoria X sobre un espacio muestral apropiado. Encontrar
Pr (X = 6).
5.3 Considere el espacio de probabilidad del Ejemplo 5.1.4, y sea X(s) = sen (s/2) s S.
Encontrar Pr (X 0.5).
5.4 Considere el espacio de probabilidad del Ejemplo 5.1.4 y sea X(s) = sen 2s s S.
Encontrar Pr (X 0.5).
5.5 Un punto s = (s1,s2) es seleccionado al azar del círculo unitario S de tal manera que la
probabilidad de que s pertenezca a la subregión de S es proporcional al área de la
subregión. Denote X la distancia del punto seleccionado desde el origen.
170 PROBLEMAS
f x
2x
nn 1
f x cx x 1, 2,
cx 2 0 x2
f x
(a) 0 otros valores de x
f x
c
x
(b) 1 x
2
¿Para cuáles valores de existe una c tal que f(x) = cx, x > 0 y f(x) = 0 para x 0 define una
densidad?
5.26 Mostrar que si f y g son densidades y 0 < < 1, entonces h = f + (1 )g es también
una densidad.
5.27 Sea f(x) = (½)e-x, < x < . Mostrar que f es una densidad. Esta densidad es
conocida como la densidad exponencial bilateral.
5.28 Mostrar que si X tiene la distribución exponencial con parámetro > 0, entonces Pr (X
172 PROBLEMAS
I f x dx
a
a
f x dx lim f x dx
a c
b
c a
b
Sugerencia: Escriba ()() como una doble integral y haga un cambio apropiado de
variables, como en el Lema 4.4.1.
5.37 Para > 0 y > 0, sea ( + )/()(), y sea f(x) = cx -1/(1 + x) + para x > 0 y f(x)
= 0 para x 0. Mostrar que f es una densidad. Esta densidad es conocida como la
densidad Pareto y es algunas veces usada para describir la distribución de ingresos.
1
5.38 Mostrar que exp y dy es finita (ver Sección 5.4.1).
1
2
VARIABLES ALEATORIAS 173
5.56 Para > 0, sea F(x) = 1 e x para x > 0, y sea F(x) = 0 para x 0. Mostrar que F es
una función de distribución y encontrar una densidad para F.
5.57 Sea F(x) = exp (e-x) para < x < . Mostrar que F es una función de distribución , y
encontrar la función de densidad de F. F es conocida como la función de distribución
doble exponencial.
5.58 Sean r1, r2, los números racionales en el intervalo [0,1], y sea X una variable aleatoria
para la cual Pr (X = rn) = 2-n para n = 1, 2,. Mostrar que la función de distribución de
X es discreta pero es constante sobre ningún subintervalo de [0,1].
5.59 Encontrar las medianas de (a) la función de distribución logística y (b) la función de
distribución doble exponencial.
6
6 VECTORES ALEATORIOS
Considere una urna que contiene r bolas rojas, w bolas blancas, y b bolas negras. Si una
muestra aleatoria desordenada de tamaño k es tomada, entonces el número de bolas rojas X y
el número de bolas blancas Y en la muestra son variables aleatorias. Más aún, por el
Teorema 1.4.2,
r w b
i j k i j
Pr X i ,Y j
r w b
k
Si X y Y son variables aleatorias que están definidas sobre el mismo espacio de probabilidad,
entonces diremos que X y Y están conjuntamente distribuidas. Además, definimos esa
distribución conjunta Q de X y Y por
QB Pr X ,Y B (1.3)
para todo B R2, para el cual el lado derecho de (1.3) este definido. También referiremos a
Q como la distribución del par (X,Y). Como en el caso univariado, puede ser mostrado que Q
es una medida de probabilidad.
Si X y Y son variables aleatorias conjuntamente distribuidas las cuales son cada una discreta,
como en la Sección 5.2, entonces definimos la función masa conjunta f de X y Y por
f x , y Pr X x ,Y y (1.4)
para – < x < y – < y < . También referiremos a f como la función masa del par (X,Y).
Como en el caso univariado, entonces es fácilmente verificado que esa f debe tener las
siguientes propiedades:
f x , y 0 (1.5 a)
para – < x < y – < y < ; hay un conjunto finito o infinito contable 1 C para el cual
f(x,y) = 0 si (x,y) C; y
f x , y 1 (1.5 b)
C
donde la suma se extiende sobre todos los (x,y) C. También, como en el caso univariado,
es visto fácilmente que si X y Y tienen función masa conjunta f, entonces
Pr X ,Y B f x , y (1.6)
BC
para todo B R2 para el cual el lado izquierdo de (1.6) este definido. En particular la función
masa conjunta f unívocamente determina la distribución conjunta de X y Y.
Nos referimos a cualquier función f que se desvanece fuera de un conjunto finito o infinito
contable C y satisface (1.5) como una función masa bivariada. Veremos abajo que si f es
cualquier función masa bivariada, entonces hay variables aleatorias discretas X y Y cuya
función masa conjunta es f.
Similarmente, definimos una densidad bivariada para ser una función real f que definida
sobre R2 satisface
1
1 Si D y E son conjuntos finitos o infinitos contables para los cuales Pr (X D) = 1= Pr (Y E), entonces el producto
cartesiano C = D E es finito o infinito contable y Pr ((X,Y) C) Pr (X D) + Pr (Y E) =0.
178 DISTRIBUCIONES BIVARIADAS
f x , y 0 (1.7 a)
siempre que a < b y c < d. Si (1.8) se cumple, entonces llamaremos a f una densidad
conjunta para X y Y o una densidad para el par (X,Y). Como en el caso univariado, puede ser
mostrado que si X y Y tienen densidad conjunta f, entonces
para todo B R2 para el cual ambos lados de (1.9) estén definidos. Más aún, una densidad
conjunta para dos variables aleatorias X y Y unívocamente determina su distribución
conjunta.
EJEMPLO 6.1.3
a Si g y h son densidades univariadas, entones su producto f definido por
f x, y g xh y
para - < x < y - < y < define una función de densidad bivariada, porque f es no
negativa y1
f x , y dxdy g x dx h y dy 1 1
2
definido por f(x,y) = g(x)h(x) para - < x < y - < x < define una función masa
bivariada. ////
EJEMPLO 6.1.4
Sea una muestra aleatoria desordenada de tamaño k extraída de una urna que contiene r bolas
rojas, b bolas negras, y w bolas blancas, y denotemos por X y Y el número de bolas rojas y el
número de bolas blancas en la muestra , como en el Ejemplo 6.1.1. Entonces la función masa
conjunta de X y Y está dada por
r w b
x y k x y
f x , y
r w b
k
para enteros no negativos x y y para los cuales x + y k y f(x,y) = 0 para otros valores de x y
y. ////
EJEMPLO 6.1.5
Sea B una región de R2 con área positiva finita B. Suponer también que la frontera de B
tiene área cero.1 Entonces la función f definida por
1
x , y B
f x , y B
0 de otro modo
1 x 2 y 2 1
f x , y ////
0de otro modo
1
3 El requisito de que el área de la frontera sea cero asegura que IB es integrable. Ver Apostol (1957), p. 258.
180 DISTRIBUCIONES BIVARIADAS
para - < a < y - < b < , y también nos referiremos a F como la función de distribución
del par (X,Y). Así, si X y Y tienen densidad conjunta f, entonces
f a ,b F a ,b (1.11b)
a b
en los puntos de continuidad (a,b) de f.
Como en el caso univariado, es posible expresar la probabilidad de que (X,Y) pertenezca a
cualquier rectángulo en términos de su función de distribución. Por ejemplo, tenemos el
siguiente teorema.
Teorema 6.1.1 Permita que las variables aleatorias X y Y tengan función de distribución
conjunta F. Si a < b y c < d, entonces Pr (a < X b, c < Y d) = F(b,d) - F(a,d) - F(b,c) +
F(a,c).
PRUEBA Sea A (alternativamente B, C, y D) el evento de que X a (alternativamente X
b, Y c, y Y d). Entonces nosotros requerimos la probabilidad del evento (B - A) (D -
C). Por aplicaciones repetidas del Teorema 2.3.1, se tiene lo siguiente
PB A D C PB D C P A D C
PBD PBC P AD P AC
la cual no es negativa puesto que f no es negativa. La verificación de (i) y (ii) se deja como
un ejercicio (ver Ejemplo 5.8.1a). Ahora se sigue que hay un par de variables aleatorias
(X,Y) cuya función de distribución es F. Finalmente, se sigue del Teorema 6.1.1 que para a <
b y c < d, Pr (a < X b, c < Y d) = F(b,d) - F(a,d) - F(b,c) + F(a,c), que es
c a f x , y dxdy
d b
g x f x , y dy
(2.2 a)
h y f x , y dx
(2.2 b)
para - y .
Relaciones similares pueden ser obtenidas si X y Y son variables aleatorias discretas. Denote
f la función masa conjunta de X y Y, y denoten g y h las funciones masa individuales de X y
Y, respectivamente. Además, sean D y E conjuntos contables para los cuales Pr (X D) = 1
= Pr (Y E). Entonces, para cualquier x, el evento de que X = x es la unión de los eventos
mutuamente exclusivos X = x y Y = y para y E con el evento X = x y Y E. Puesto que Pr
(X = x, Y E) Pr(Y E) = 0, tenemos
Pr X x Pr X x ,Y y
yE
g x f x , y (2.3 a)
yE
h y f x , y 2.3b
xD
para toda y, - y .
En el contexto de las Ecuaciones (2.1), (2.2), o (2.3), algunas veces referimos a G o g como
la función de distribución marginal, densidad, o función masa de X y a H o h como la
función de distribución marginal ,densidad, o función masa de Y. Resumimos nuestros
resultados.
Teorema 6.2.1 Si X y Y son variables aleatorias conjuntamente distribuidas con
función de distribución conjunta F, entonces las funciones de distribución de X y Y
están dadas por (2.1a) y (2.1b), respectivamente. Si X y Y tienen densidad conjunta f,
entonces X y Y tienen densidades g y h que están dadas por (2.2a) y
(2.2b),respectivamente, y si X y Y son discretas con función masa conjunta f, entonces
X y Y tienen funciones masa g y h que están dadas por (2.3a) y (2.3b), respectivamente.
EJEMPLO 6.2.1
Si X y Y son variables aleatorias discretas que pueden asumir solamente un número finito de
valores, entonces su función masa conjunta puede ser dada por una tabla. Las funciones
masa marginales de X y Y entonces pueden ser obtenidas sumando a través de las hileras y
hacia abajo sobre las columnas. Lo ilustramos en la Tabla 10.
Tabla 10
y
x 1 2 3 4 g(x)
1 0.05 0.05 0.10 0.00 0.20
2 0.10 0.10 0.05 0.05 0.30
3 0.05 0.05 0.00 0.00 0.10
4 0.15 0.05 0.05 0.15 0.40
h(y) 0.35 0.25 0.20 0.20
////
EJEMPLO 6.2.2
Las ecuaciones (2.1), (2.2) y (2.3) no son las únicas formas para calcular una función de
distribución marginal, densidad, o función masa. Por ejemplo, suponer que una muestra
aleatoria desordenada de tamaño k es seleccionada de una urna que contiene r bolas rojas, w
184 DISTRIBUCIONES MARGINALES E INDEPENDENCIA
r w b
g x
x k x
r w b
k
g x f ( x , y )dy
1 x 2 2
1dy 1 x2
1 x
2
para -1 x 1. Por supuesto, g(x) = 0 si x > 1, puesto que entonces f(x,y) = 0 para toda y.
EJEMPLO 6.2.4
Considere la función f, definida por
f x , y Cr exp 12 Qx , y
1 x 2 2rxy y 2
Cr 2 1 r 2 y Q( x , y )
1 r 2
para - < x < y - < y < . Mostraremos que f es una densidad bivariada y calcularemos
las densidades marginales
Por simple álgebra tenemos
Qx , y x 2 z 2 donde z y rx / 1 r 2
Así,
VECTORES ALEATORIOS 185
g x Cr exp 12 x 2 z 2 dy
12 x 2 12 z 2
1 r 2 Cr e e dz
12 x 2 1 12 x2
2 1 r 2 Cr e e (2.4)
2
para - < x < . Aquí hemos usado el hecho de que la función de densidad normal estándar
tiene integral 1, y hemos usado la definición de Cr en los dos pasos finales. Ahora se sigue
que
f x , y dydx g x dx 1
otra vez porque la densidad normal estándar tiene integral total 1, y se sigue que f es una
densidad bivariada.
La densidad f es conocida como la densidad normal bivariada estándar con parámetro r. Se
sigue de (2.4) que si X y Y tienen la densidad normal bivariada estándar con parámetro r,
entonces X tiene la densidad normal (univariada) estándar. Por simetría, Y también tiene la
densidad normal estándar. ////
Diremos que variables aleatorias distribuidas conjuntamente X y Y son independientes si y
sólo si
Pr X I ,Y J Pr X I Pr Y J (2.5)
para todos los intervalos I R y J R. Eso es, X y Y son independientes si y sólo si los
eventos X I y Y J son independientes para todos los intervalos I y J. Independencia
puede ser interpretada como en el Capítulo 3: X y Y son independientes si y sólo si el valor
tomado por X no provee información acerca de no provee información acerca de Y y
recíprocamente.
Ahora nosotros daremos un criterio para determinar si las variables aleatorias son
independientes.
Teorema 6.2.2 Si X y Y tienen una función masa conjunta f, entonces X y Y son
independientes si y sólo si
f x , y g x h y (2.6 a)
f x , y g x h y (2.6 b)
Pr X I ,Y J I J g x h y dydx
I g x dx J h y dy
Pr X I PrY J
así que X y Y son independientes. Esto establece la segunda aseveración del teorema, y
la prueba de la primera es similar. ////
EJEMPLO 6.2.5
Si X y Y tienen la distribución normal bivariada estándar con parámetro r, entonces X y Y son
independiente si y sólo si r = 0. Indiscutiblemente, las distribuciones marginales de X y Y
son ambas normal estándar (univariada), y el producto de sus densidades marginales es por
lo tanto
1
2
exp 12 ( x 2 y 2 ) (2.7)
Comparando (2.7) con la densidad conjunta de X y Y (Ejemplo 6.2.4), vemos que (2.7)
define una densidad para el par (X,Y) si y sólo si r = 0. ////
Otro criterio para independencia puede ser dado en términos de funciones de distribución.
Teorema 6.2.3 Permita que X y Y tengan función de distribución conjunta F. Entonces
X y Y son independientes si y sólo si
VECTORES ALEATORIOS 187
Pr a X b,c Y d Pr a X b Pr c Y d (2.9)
siempre que a < b y c < d. Esto establece (2.5) para intervalos de la forma I = (a,b] y J =
(c,d]. Ahora podemos mostrar que (2.5) se cumple para todos los intervalos I y J por simples
argumentos límites (Problema 6.17). ////
Definimos la distribución conjunta Q de X1,... Xn por Q(B) = Pr(X B), y también nos
referiremos a Q como la distribución del vector X = (X1,... Xn). Como en los casos univariado
y bivariado, podemos mostrar que Q es una medida de probabilidad.
Si X1,... Xn son todas variables aleatorias discretas, como las definidas en la Sección
5.2, definimos la función masa conjunta f de X1,... Xn por
para x = (x1,... xn) Rn. También nos referiremos a f como la función masa del vector X =
(X1,... Xn). Es entonces fácilmente verificado que f tiene las siguientes propiedades:
f x 0 (3.3 a)
para toda x = (x1,... xn) Rn; hay un subconjunto1 finito o infinito contable C Rn para el
cual
f x 0 si x C (3.3b)
f x 1 (3.3 c)
C
Pr X B f x (3.4)
BC
para cualquier B Rn para el cual el lado izquierdo de (3.4) esté definido. En particular, la
función masa conjunta f unívocamente determina la distribución conjunta.
Nos referiremos a cualquier función f que satisface (3.3) como una función masa n-
variables.
Similarmente, definimos una densidad n-variables para ser una función real f que está
definida sobre Rn y satisface
1
4 Si Ci es un conjunto finito o infinito contable para el cual Pr (Xi Ci)=1, entonces C = C1 x ... x Cn es un conjunto
finito o infinito contable para el cual Pr (X C) = 1.
VECTORES ALEATORIOS 189
f x 0 (3.5 a)
R f xdx 1
n (3.5b)
Si X1,... Xn son variables aleatorias distribuidas conjuntamente, diremos que X1,... Xn son
absolutamente continuas conjuntamente con densidad conjunta f si y sólo si
para todos los rectángulos B Rn. En este caso también diremos que el vector X = (X1,... Xn)
es absolutamente continuo con densidad f. Si (3.6) se cumple para todos los rectángulos B
Rn, entonces puede ser mostrado que (3.6) se cumple para todos los subconjuntos B Rn
para los cuales ambos lados estén definidos (compare Teorema 5.3.1). Más aún, una
densidad conjunta f unívocamente determina la distribución conjunta de X1,... Xn.
EJEMPLO 6.3.1
a Considere una urna que contiene bolas de n diferentes colores, digamos ri 1
bolas de color i, i = 1,... n. Si una muestra de tamaño k r = r1 + ··· + rn es
seleccionada de la urna sin reemplazo y permitimos a Xi ser el número de bolas de
color i en la muestra, i = 1,.., n, entonces X = (X1,... Xn) será un vector aleatorio para el
cual
r1 rn
...
x1 x n
Pr X 1 x1 ,..., X n x n (3.7)
r
k
siempre que x1,... xn sean enteros no negativos cuya suma sea k. Ver Teorema 1.4.2. La
Ecuación 3.7 define la función masa hipergeométrica de n-variables con parámetros
r1,... rn y k.
b Considere un dado de k lados, y sea pi la probabilidad de que la i-ésima cara
aparezca sobre cualquier lanzamiento dado, i=1,..,k (los pi no necesitan ser iguales). Si
n lanzamientos independientes del dado son hechos, y si dejamos a Xi ser el número de
lanzamientos sobre los cuales la i-ésima cara aparece, entonces X = (X1,... Xk) será un
1
5 Las integrales que aparecen en (3.5b) y (3.6) son integrales n-dimensionales, y dx denota el elemento volumen dx1,...
dxn. Reglas para evaluar integrales multiples serán dadas en la siguiente sección.
190 MAYORES DIMENSIONES
n x1
Pr X 1 x1 ,..., X k xk p1 ... pkxk (3.8)
x1 ,.., xk
siempre que x1,... xk sean enteros no negativos cuya suma sea n. Ver Teorema 4.1.2.
Nos referiremos a (3.8) como la función masa multinomial con parámetros n 1 y p =
(p1,... pn). Ver problemas 6.24 a 6.27 para mayores propiedades de la distribución
multinomial. ////
EJEMPLO 6.3.2
Sea B una región de Rn con volumen Bfinito y positivo (n- dimensional). Suponer también
que la frontera de B tiene volumen cero (n-dimensional). Entonces, la función f definida por
1
xB
f x B (3.9)
0 xB
define una densidad para X1, y densidades para Xi, i 2, pueden ser obtenidas de (3.10) y un
renombramiento apropiado. Nos referiremos a (3.10) como la densidad marginal de X1. Más
generalmente, si k < n, entonces
define una densidad conjunta para X1,... Xk. Algunas veces nos referiremos a g como la
densidad marginal de X1,... Xk.
EJEMPLO 6.3.3
a Permita a (X1,X2,X3) tener la densidad uniforme sobre el conjunto B de x =
VECTORES ALEATORIOS 191
r1 rn
...
f ( x1 ,..., xn ) 1 n
x x
r
k
r1 r2 ... rn
f1 x
x k x
r
k
n x1
f x1 ,..., xk p1 ... pkxk
x1 ,..., xk
n
f1 x p1x ( 1 p1 )n x
x
x = 0,... n. De hecho X1 es el número de veces que un evento con probabilidad p1 ocurre
en n repeticiones independientes. ////
Si X1,... Xn son variables aleatorias distribuidas conjuntamente, diremos que X1,... Xn son
independientes por pares si y sólo si Xi y Xj son independientes siempre que i j y diremos
que X1,... Xn son mutuamente independientes si y sólo si
Pr X 1 I1 ,..., X n I n Pr X j I j
n
(3.12)
j 1
siempre que I1,... In sean intervalos de números reales. Como en el caso de eventos, las dos
nociones de independencia no son equivalentes (ver Problema 6.29), y es la última la que es
más interesante. En concordancia, usaremos el término no adjetivado de “independiente”
para significar mutuamente independiente.
Ahora nosotros daremos un criterio para determinar si las variables aleatorias son
independientes.
Teorema 6.3.1 Si X1,... Xn son variables aleatorias discretas con función masa
conjunta f, entonces X1,... Xn son independientes si y sólo si
i 1
para toda x = (x1,... xn) Rn, donde fi denota la función masa marginal de Xi, i = 1,...
n. Similarmente , si X1,... Xn son individualmente absolutamente continuas con
densidades (marginales) f1,... fn, entonces X1,... Xn son independientes si y sólo si
f xi
n n 1 1
i 1 i 1 Ji B
i 1 i 1
////
Pr Y A, Z B Pr X 1 I1 ,..., X n I n
k n
Pr X j I j Pr X j I j ////
j 1 j k 1
Pr Y A Pr Z B
194 EJEMPLOS
6.4 EJEMPLOS1
Muchas probabilidades interesantes son de la forma Pr (X B), donde X es un vector
aleatorio y B es una región adecuada de Rn. Si X es absolutamente continua con densidad f,
entonces
Pr X B B f x dx (4.1)
Pr X B f x
B
El punto es que para evaluar estas probabilidades, debemos ser capaces de evaluar sumas e
integrales múltiples, y por ello dedicamos esta sección a una revisión de técnicas para
evaluar sumas e integrales múltiples. Por simplicidad, restringiremos nuestra atención a
integrales puesto que las técnicas para manejar sumas son similares .
La idea básica es la siguiente. Sea f una función integrable continua sobre R2 y sea B una
región cuya frontera tiene área cero. Entonces
B
f x , y dxdy B f x , y dy dx
x
= B y f x , y dx dy
(4.2)
donde para cada x, Bx denota el conjunto de y R para las cuales(x,y) B, y para cada y, By
denota el conjunto de x R para los cuales (x,y) B (ver Figura 10).
Por lo tanto, la evaluación de una doble integral puede ser realizada por la evaluación iterada
de integrales individuales, eso es, evaluando
hx B f x , y dy
x
1
6 Esta sección puede ser omitida sin pérdida de continuidad.
VECTORES ALEATORIOS 195
EJEMPLO 6.4.1
Considere dos partículas radioactivas que se desintegran independientemente a la misma
tasa, y denote por X y Y sus tiempos de vida. ¿Cuál es la probabilidad que la primera
partícula dure al menos dos veces el tiempo de la segunda antes de desintegrarse?. Denote
por X y Y los tiempos hasta que las dos partículas se desintegran. Entonces podemos suponer
que X y Y son variables aleatorias distribuidas exponencialmente, independientes con el
mismo parámetro , y requerimos la probabilidad de que X 2Y, eso es, Pr ((X,Y) B),
donde B es el conjunto de (x,y) R2 para los cuales x 2y 0. La densidad conjunta de X y
Y es
2 e x y x 0, y 0
f x , y
0 de otra manera
Así, debemos evaluar (4.1) con la f y B dadas. Usando la Ecuación (4.2), encontramos que ,
196 EJEMPLOS
B y 2 y ,
B f x , y dx 2 y e
2 x y
y dx e y 2 y e x dx
e y e 2 y e 3 y
así que
B f x , y dxdy 0 e dy 13
3 y
Por simetría, la probabilidad que la segunda partícula sobreviva al menos dos veces el
tiempo de la primera es Pr (Y 2X) = 13 . Por lo tanto, la probabilidad de que una partícula
dure al menos dos veces el tiempo de la otra es Pr(X 2Y) + Pr(Y 2X)= 23 . ////
J h y dy I g x dx
Este hecho fue usado en el Ejemplo 6.1.3a y en la prueba del Teorema 6.2.2. ////
En dimensiones mayores, también es posible reducir integrales múltiples a integrales
individuales iteradas. Por simplicidad, nos limitamos al caso de tres variables x1, x2, y x3. La
fórmula básica es
B f x dx B f x1 , x2 , x3 dx3 dx2 dx1
x1
(4.4)
donde Bx1 es el conjunto de (x2,x3) para los cuales (x1,x2,x3) B. La integral interior sobre el
lado derecho de (4.4) es ahora una integral de dos dimensiones que puede ser manipulada
VECTORES ALEATORIOS 197
1 0 xi 1, i 1,2,3
f x1 , x2 , x3
0 de otro modo
Bx1
f x1 , x2 , x3 dx3 d x2 0
1 / 2 x1
0
2 / 3 x2
dx3 dx2
Por lo tanto,
////
Las condiciones más generales, bajo las cuales (4.2 ) y (4.4) son válidas son algo más
complicadas1. Ellas son válidas, sin embargo, si todas las integrales que aparecen en ellas
existen como integrales (Riemann) ordinarias o como integrales impropias, absolutamente
convergentes. Uno por lo tanto automáticamente verifica la validez de las Ecuaciones (4.2) y
(4.4) haciendo los cálculos indicados.
1
7 Ver Thomas (1972), pp. 250-256, para una discusión elemental de (4.2); ver Apostol (1957), pp. 260-268, para una
discusión más completa de (4.2) y (4.4).
198 PROBLEMAS
6.5 PROBLEMAS
6.1 Sea seleccionada una muestra aleatoria ordenada de tamaño k sin reemplazo de una urna
conteniendo r bolas rojas, w bolas blancas y b bolas negras. Denoten X y Y el número de
bolas rojas y blancas en la muestra, respectivamente.
(a) Encontrar la función masa conjunta de X y Y.
(b) Encontrar la funciones masa marginales de X y Y, respectivamente.
(c) ¿Son X y Y independientes?
En el Problema 6.1 sea X el número de la extracción sobre la cual la primera bola roja es
extraída y sea Y el número de la extracción sobre la cual la primera bola blanca es extraída.
Responda las partes (a) a (c).
6.3 Mostrar que la función f, definida por f(x,y) = 1/2(1 + x2 + y2)3/2 para < x < y
< y < , es una densidad bidimensional. Es conocida como la densidad Cauchy
bidimensional estándar.
(a) Mostrar que las densidades marginales son ambas Cauchy unidimensional estándar.
(b) Si X y Y tienen la función de distribución Cauchy bidimensional estándar, ¿son X y
Y independientes?
6.4 Mostrar que la función f, definida por f(x,y) = Cx -1 y -1(1 x y) -1 para x > 0, y> 0, y
x + y 1, con C = ( + + )/()()(), es una densidad bidimensional. Aquí >
VECTORES ALEATORIOS 199
0, > 0, y > 0. Mostrar que las densidades marginales son densidades beta. ¿Son X y
Y independientes?
(a) Mostrar que la función f , definida por f(x,y) = (½ )(1 + x) exp (x y), x > 0, y > 0, es
una densidad bidimensional. (b) Si X y Y tienen densidad f, encontrar las densidades
marginales de X y Y . (c) ¿Son X y Y independientes?
(a) Mostrar que la función f, definida por f(x,y) = (½)e-x para x > 0 y x < y < x es una
densidad bidimensional. (b) Si X y Y tienen densidad f, encontrar las distribuciones de X y Y.
(c) ¿Son X y Y independientes?
6.7 Permita que X y Y tengan la densidad del Problema 6.4. Encontrar la densidad conjunta
de W y Z, donde W = X/(1 X) y Z = Y/(1 Y). Sugerencia: Use (1.11b).
6.8 Permita que X y Y tengan densidad conjunta f. Si f(x,y) = g(x)h(y) para toda x y y, donde
g y h no son necesariamente las densidades de X y Y , mostrar que X y Y son
independientes.
6.9 Si X y Y tienen la densidad conjunta f(x,y) = 8xy para 0 x y 1 y f(x,y) = 0 de otra
manera, ¿son X y Y independientes?
6.10 Sea g una densidad unidimensional continua, y sea f(x,y) = 2g(x)g(y) para x y y f(x,y)
= 0 si x > y. Mostrar que f es una densidad bidimensional. Si X y Y tienen densidad
conjunta f, encontrar las densidades marginales de X y Y. ¿Son X y Y independientes?
6.11 Si X y Y tienen densidad conjunta, entonces Pr (X = Y) = 0. ¿Es el resultado
necesariamente cierto sólo si suponemos que X y Y tienen distribuciones absolutamente
continuas (unidimensionales)?
6.12 Permita que X y Y tengan una densidad conjunta continua f. Mostrar que
2
f x , y Pr X x ,Y y
xy
Permita que X y Y tengan función de distribución conjunta F, y sean a < b y c < d números
reales. Exprese F(b,d) F(b,c) F(a,d) + F(a,c) como una probabilidad.
6.14 Permita que X y Y tengan función de distribución conjunta F. Para < a < y < b
< exprese F(a,b) F(a,b) F(a,b) + F(a,b) como una probabilidad.
Permita que X y Y tengan función de distribución conjunta F, y sea a < b y c < d. Exprese Pr
(a X b, c < Y d) en términos de F.
6.16 Permita que X y Y tengan distribución conjunta F, y denote G la función de distribución
marginal de X. Mostrar que G(a) = lim F(a,n), donde el límite es tomado cuando n
. Sugerencia: Considere los eventos An que X a y Y n y aplique el Teorema 2.5.1.
200 PROBLEMAS
j 1
para B T. Así, w-1 es una función de la clase de todos los subconjuntos de T en la clase de
11 Tácitamente suponemos a través del capítulo que w(X) es un vector o variable aleatoria, eso es, satisface (1.1) del
Capítulo V.
204 DISTRIBUCIONES UNIVARIADAS
todos los subconjuntos de D, y x w-1(B) si y sólo si w(x) B. El Lema 5.1.1 asegura que
w-1 conmuta con las operaciones de unión, intersección, y complementación.
w-1 no debe ser confundida con la función inversa, que denotaremos por v. Diremos que w es
uno a uno si y sólo si w(x1) w(x2) siempre que x1 D, x2 D, y x1 x2. Si w es uno a uno,
entonces para cualquier y E, el rango, habrá una única x D para la cual w(x) = y, y
podemos definir una función v sobre E permitiendo v(y) = x si y sólo si w(x) = y. v es
conocida como la función inversa de w. Enfatizamos que v puede ser definida sólo si w es
uno a uno.
Si w es uno a uno con inversa v, entonces v es uno a uno y la inversa de v es w. Más aún, las
relaciones
v w x x y w v y y (1.1a )
Pr Y I Pr X w1 I
para todos los intervalos I R.
TEORÍA DE DISTRIBUCIONES 205
g y f x (1.2)
xw1 y
para - < y < . En particular, si w en uno a uno con función inversa v, entonces
g y f v y (1.2a )
para - < y < . Nosotros ilustramos con algunos ejemplos, en todos los cuales tomamos D
= R.
EJEMPLO 7.1.3
a Sea X con función de distribución F, y sea Y = aX + b una función lineal de X. Si
a > 0, entonces Y y si y sólo si X (y - b)/a, así que (1.3) requiere
y b y b
G( y ) Pr X F
a a
y b yb
G( y ) Pr X 1 F
a a
para y 0 y G(y) = 0 para y < 0. Si F tiene una densidad continua f, entonces G(y) =
F(y) - F(-y) para y > 0 y G tiene densidad g = G´, donde g(y) = f(y) + f(-y) para y > 0
por diferenciación. ////
Diremos que w es creciente si x < y implica w(x) < w(y), y diremos que w es decreciente si x
< y implica w(x) > w(y). Además, diremos que w es estrictamente monótona si w es creciente
o decreciente. Observe que si D es un intervalo y w tiene una derivada positiva en todos
lados w´, entonces w será creciente. De hecho, si x < y, entonces w(y) - w(x) = w´(z)(y - x),
donde x < z < y por el teorema del valor medio de cálculo diferencial así w(y) > w(x).
Asimismo, si D es un intervalo y w tiene una derivada negativa en todas partes, entonces w
será decreciente.
Si w es estrictamente monótona, entonces w será uno a uno y tendrá una función inversa v.
Más aún, si w es creciente, entonces tendremos w(x) y si y sólo si x v(y); y del mismo
modo, si w es decreciente, entonces w(x) y si y sólo si x v(y) (ver Figura 11). Así, si w es
creciente, la Ecuación (1.3) se simplifica a
G y Pr X v y F v y (1.4a )
G y 1 F v y (1.4b)
para y E. El Ejemplo 7.1.3a trata el caso especial cuando w es una función lineal.
EJEMPLO 7.1.4
Permita que X tenga una función de distribución F que es continua y estrictamente creciente
sobre D. Entonces, Y = F(X) tiene la distribución uniforme sobre el intervalo (0,1). Sin lugar
a dudas, permitiendo que H denote la función inversa de F, encontramos de (1.4a) que G(y)
= F(H(y)) = y para 0 < y < 1. ////
Si F es absolutamente continua, y si la función v es razonablemente suave, las Ecuaciones
TEORÍA DE DISTRIBUCIONES 207
g y f v y v' y y E (1.5)
aplicable. Más aún, por (1.1b) v es diferenciable con derivada v´(y) = 1/w´(v(y)), que es
positiva. Por lo tanto, podemos diferenciar (1.4a) para obtener
g y G' y f v y v' y
que es (1.5) puesto que v´ es positiva. El caso de w decreciente puede ser manejado
análogamente, y podemos tomar g(y) = 0 para y E puesto que la Pr (Y E) = 1. ////
Tomando w(x) = ax + b, x D, donde a 0, encontramos que w´(x) = a 0 y que v(y) = (y -
b)/a para y E. Por lo tanto, tenemos el siguiente corolario, que extiende al Lema 5.5.1.
Corolario 7.1.1 Sea D un intervalo abierto, y permita que X tenga densidad f que
es continua sobre D. Además, haga Y = aX + b, donde a 0. Entonces Y tiene densidad
y b
g y a
1
f y E (1.6)
a
EJEMPLO 7.1.5
a Si X tiene la distribución normal con parámetros y 2, 2 > 0, entonces Y = aX+
b tiene la distribución normal con parámetros a + b y a22. Para ver esto, permitamos
que
1 1 x 2
f x exp
2 2
en (1.6) y encontremos
1 y b 1 1 y a b 2
g y f exp
a a a 2 2 a
f x e x x0
g y 2 yf y 2 2ye y
2
y0
g y f e y e y e y
f ( y ) f ( y )
g( y ) y0
2 y
Yj w j ( X1 ,..., X n )
para todos los intervalos Ij R, j = 1,... k, puesto que Y Ij si y sólo si X wj-1(Ij), j = 1,...
k. Más aún, dejando que w denote la función vectorial
w( x ) ( w1 ( x ),..., wk ( x ))
para x = (x1,... xn) D, y siendo Y el vector aleatorio Y = w(X) = (Y1,... Yk), tenemos la
relación
para todos los subconjuntos B Rk para los cuales el lado derecho de (2.2) sea significativo.
Consideremos ahora algunos ejemplos, en todos ellos tomaremos D = Rn.
EJEMPLO 7.2.1
a Sean X1,... Xn independientes con función de distribución común F, y Y = máx
(X1,... Xn) (en este caso tenemos k = 1). Entonces el evento Y y ocurre si y sólo si
todos los eventos Xi y, y = 1,... n ocurren. Por tanto, la función de distribución de Y
está dada por
G y Pr Y y
Pr X1 y ,..., X n y
n
Pr X i y F y
n
i 1
para - < y < . Si F tiene una densidad f continua por piezas, entonces G tiene
densidad
g y nF y f y
n1
y
F y2 F y1
n
siempre que y1 < y2. De nuevo, si X tiene una densidad f continua por piezas, podemos
212 DISTRIBUCIONES MULTIVARIADAS
diferenciar para obtener una densidad para Y = (Y1,Y2). Una densidad para Y es
g y1 , y2 n n 1 F y2 F y1 f y1 f y2
n 2
k 1
para - < y < .
PRUEBA Denote Gk la función de distribución de Yk , y sea Ai el evento Xi
y para y = 1,... n. Entonces Yk , el k-ésimo más pequeño de X1,... Xn, es menor que o
igual a y si y sólo si al menos k de los eventos A1,... An ocurren. Más aún, los A1,... An
son independientes con probabilidad común P(Ai) = Pr (Xi y) = F(y) para i = 1,... n..
Por tanto, por el Corolario 4.1.1, tenemos
n n
Gk y F y 1 F y
i n i
(2.3)
i k i
Ahora diferenciamos, por la regla del producto, para obtener una densidad. Tenemos
n n
Gk' y i F y 1 F y f y
i 1 ni
i k i
n
n i F y 1 F y
n
f y
i n i 1
i k i
n n 1 n
Ahora, (i + 1) = n = (n-i) , así que el (i + 1)-ésimo término en la
i 1 i i
primera suma cancela el i-ésimo término en la segunda, dejando
TEORÍA DE DISTRIBUCIONES 213
n
Gk' y k F y 1 F y f y
k 1 n k
k
n 1
F y 1 F y f y
k 1 n k
n
k 1
n 1 k 1
g k y n y 1 y
n k
(2.4)
k 1
sea Ai = wi-1({yi}) el conjunto de x R para las cuales wi(x) = yi, i = 1,2. Entonces, por
(2.1),
Pr Y1 y1 ,Y2 y2 Pr X1 x1 , X 2 x2 (2.6)
x1 ,x2 A1 A2
Ahora, puesto que X1 y X2 son independientes, tenemos Pr (X1 = x1, X2 = x2) = Pr (X1 =
x1) Pr (X2 = x2), así que el lado derecho de (2.6) es simplemente
Pr X1 x1 Pr X 2 x2
x1A1 x2 A2
que es Pr (Y1 = y1) Pr (Y2 = y2), por (1.2). Por tanto, Pr (Y1 = y1, Y2 = y2) = Pr (Y1 = y1)
Pr(Y2 = y2) para todo y1 y y2, así que Y1 y Y2 son independientes por el Teorema 6.2.2.
////
El Teorema 7.2.1 es también cierto si las Xi o Yj son vectores aleatorios, pero su prueba en
este caso será omitida.
EJEMPLO 7.2.3
a Si X1 y X2 son independientes, entonces así son Y1 = X12 y Y2 = X22.
b Si X1, X2, X3, X4 son independientes, entonces así son Y1 = X1 + X2 y Y2 = X3 + X4
porque los vectores aleatorios (X1,X2) y (X3,X4) son independientes por el Ejemplo
6.3.6. ////
7.3 CONVOLUCIONES
Considere dos variables aleatorias independientes X y Y, y denote Z su suma Z = X + Y. ¿Qué
puede ser dicho acerca de la distribución de Z?
Si ambas X y Y son variables aleatorias valuadas en los enteros, entonces Z también estará
valuada en los enteros. Más aún, para cada entero fijo k, el evento Z = k es la unión sobre j
de los eventos mutuamente exclusivos X = j y Y = k - j. Por tanto, si f y g denotan las
funciones masa de X y Y, respectivamente, entonces la función masa de Z puede ser
calculada como sigue:
TEORÍA DE DISTRIBUCIONES 215
h k Pr Z k
Pr X j ,Y k j (3.1)
j
f j g k j
j
para k = 0, 1, 2,.... El miembro final de (3.1) define una función que es conocida como la
convolución de f y g. Así hemos mostrado que la función masa de Z = X + Y es la
convolución de f, la función masa de X, y de g, la función masa de Y.
Hay una fórmula correspondiente para la suma de dos variables aleatorias independientes
absolutamente continuas. Es decir, si X y Y son independientes con densidades f y g,
respectivamente, entonces la suma Z = X + Y tiene densidad h, donde
h z g z x f x dx
(3.2)
para - < z < , y h es conocida como la convolución de f y g. Para establecer (3.2) denote
H la función de distribución de Z. Entonces, H(z) = Pr ((X,Y) B), donde B es el conjunto de
(x, y) R2 para los cuales x + y z. Por la Ecuación (4.2) del Capítulo 6, esto también puede
ser escrito
B
H z f x g y dx dy g y f x dy dx
zx
El cambio de variable y´ = x + y en la integral interior ahora reduce H(z) a
H z g y' x f x dy' dx
z
z
g y x f x dx dy
h y dy
z
donde h está definida por (3.2). Así, h es una densidad para Z, como se aseguró.
Teorema 7.3.1 Si X y Y son variables aleatorias independientes, valuadas en los
enteros, con funciones masa f y g, entonces la función masa de Z = X + Y está dada por
la convolución (3.1). Asimismo, si X y Y son variables aleatorias independientes
absolutamente continuas con densidades f y g, entonces una densidad para su suma Z
= X + Y está dada por la convolución (3.2).
216 CONVOLUCIONES
EJEMPLO 7.3.1
Si X y Y tienen distribuciones binomiales con la misma p, 0 < p < 1, digamos
m
Pr X k p k q m k k 0,..., m
k
n
Pr Y k p k q n k k 0,..., n
k
k n k j n k j m j m j
p q p q
j 0 k j j
k n m
p k q m n k
j 0 k j j
m n k m n k
p q
k
para k = 0,... m + n. Aquí hemos usado la identidad del Ejemplo 2.3.6a en el paso final.
Debemos también observar que la segunda igualdad arriba se sigue del hecho que Pr (X = j)
= 0 para j < 0 y Pr (Y = k - j) = 0 para j > k. Reducciones de este tipo son muy comunes en la
evaluación de convoluciones. ////
EJEMPLO 7.3.2
Ahora consideremos dos variables aleatorias Poisson independientes X y Y, digamos
e k e k
f k y g k
k! k!
para k = 0, 1,... donde y son positivos. Entonces la función masa de la variable Z = X +
TEORÍA DE DISTRIBUCIONES 217
Y es
k 1 1
h k j e k j e
j 0 j! k j !
e k k j k j
k! j 0 j
1
k e
k!
para k = 0, 1,.... (Usamos el teorema binomial en el paso final.) Así, la suma Z = X + Y tiene
la distribución Poisson con parámetro + . ////
Más ejemplos de convoluciones discretas serán encontrados en los problemas al final de este
capítulo. Ahora consideremos el caso absolutamente continuo.
EJEMPLO 7.3.3
a Sean X y Y variables aleatorias independientes distribuidas exponencialmente,
digamos
f x g x e x x0
h z g z x f x dx
0 e z x e x dx
z
2 e z 0 dx 2 ze z
z
para z > 0 y h(z) = 0 para z 0. Así, la suma de dos variables aleatorias independientes
distribuidas exponencialmente (con el mismo parámetro ) tiene la distribución gama
con parámetros = 2 y (ver Sección 5.4).
b Más generalmente, si X y Y son independientes, X tiene la distribución gama con
parámetros 1 y , y Y tiene la distribución gama con parámetros 2 y (el mismo) ,
entonces Z = X + Y tiene la distribución gama con parámetros = 1 + 2 y , como
puede ser visto por un cálculo semejante al dado en la parte a (ver también Secciones
7.4 y 8.4). En particular, si X tiene la distribución ji-cuadrada con j grados de libertad y
Y tiene la distribución ji-cuadrada con k grados de libertad, entonces Z = X + Y tiene la
distribución ji-cuadrada con j + k grados de libertad. Para ver esto, simplemente haga
1 = j/2, 2 = k/2, y = ½. ////
218 CONVOLUCIONES
EJEMPLO 7.3.4
a Si X y Y son variables aleatorias independientes normal estándar, entonces Z = X
+ Y tiene la distribución normal con parámetros = 0 y 2 = 2. Indiscutiblemente, X y
Y tienen la misma densidad f, donde f(x) = (1/ 2 ) exp ( 12 x 2 ) , - < x < . Eso es, f
= g. Por tanto,
1 1 1
g z x f x exp z x x 2
2
2 2 2
1 1 2 z
2
exp z x
2 4 2
para - < z < , como se aseguro. [Puesto que el integrando es una densidad normal
con = z/2 y 2 = ½, la integral en (3.3) es 1.]
b Más generalmente, si X y Y son independientes, X tiene la distribución normal con
parámetro de localidad y parámetro de escala , y Y tiene la distribución normal con
parámetro de localidad y parámetro de escala , entonces Z = X + Y tiene la
distribución normal con parámetro + y 2 2 por un cálculo similar al dado en
la parte a (ver también Sección 8.4). ////
EJEMPLO 7.3.5
7.4 JACOBIANOS1
El útil, simple Teorema 7.1.1 se generaliza de una dimensión a varias, y consideraremos su
generalización en esta sección. Empezamos con unas pocas observaciones acerca de
transformaciones de Rn, n 2. Considere una región D Rn, y sean w1,... wn funciones reales
definidas sobre D. Entonces, la función vectorial
w x w1 x ,..., wn x (4.1)
Los jacobianos juegan el mismo papel en varias dimensiones que el que juegan las derivadas
en una.
Teorema 7.4.1 Sea w una transformación uno a uno, continuamente diferenciable de
una región abierta D Rn sobre otra región E Rn, y suponer también que Jn(x) 0
para cualquier x D. Además, sea X = (X1,... Xn) un vector aleatorio absolutamente
continuo para el cual Pr (X D) = 1, y suponer que X tiene una densidad f. Si Y =
w(X), entonces Y tiene densidad g, donde
g y f v y J v y
Pr Y B Pr X w1 B w1 B f x dx
w 1
B
f x dx B f v y J v y dy
así que
Pr Y B B g y dy
EJEMPLO 7.4.1
1
3 Ver Apostol (1957), p. 271, para el caso en el cual f es continua sobre D.
TEORÍA DE DISTRIBUCIONES 221
f x1 , x2 4 x1 x2
para 0 < x1 < 1 y 0< x2 < 1 y f(x1,x2) = 0 para cualesquiera otros valores de x1 y x2, y defina
las variables
Y1 X1 y Y2 X1 X 2
D x1 , x2 :0 x1 1,0 x2 1
Para y = (y1,y2) E, la ecuación y = w(x) tiene una solución única x = (x1,x2), dada por
y2
x1 = v1 ( y1 , y2 ) = y1 y x2 = v2 ( y1 , y2 ) =
y1
Así, w es uno a uno, y v ha sido encontrada. Falta sólo calcular Jv(y) y aplicar el Teorema
7.4.1. Tenemos
1 0
J v y det 2
1
1 y1
y2 y1 y1
que es positiva y continua. Así, Jw(x) 0 para x D, y por tanto la condición del teorema es
satisfecha. Por el Teorema 7.4.1 ahora obtenemos una densidad para el par aleatorio Y =
(Y1,Y2) como
g y1 , y2 f y1 , y2 y11 y11 4 y2 y11
EJEMPLO 7.4.2
Sean X1 y X2 independientes, y permita que Xi tenga la distribución gama con parámetros i
y (la misma) , i = 1, 2. Así, las variables X1 y X2 tienen densidad conjunta
1
f x1 , x2 x111 x2 2 1e x1 x2
1 2
x1
w1 x1 , x2 y w2 x1 , x2 x1 x2
x1 x2
y2 y1
J v y1 , y2 det y2 y E
2 y 1 y1
g( y1 , y2 ) = f ( y1 y2 , (1 - y1 ) y2 ) y2
1
y111 1 y1 2 y2 1e y2
1
1 2
g1 y cy 1 1 1 y
2 1 1 y
0 y2 e 2 dy2
1 2 1 1
y 1 y 2
1
1 2
para 0 < y < 1. (Para evaluar la integral, hacemos los cambios de variable u = y2 y usamos
la definición de la función gama.) Así, vemos que Y1 tiene la distribución beta con
parámetros 1 y 2. Asimismo, nosotros podemos encontrar la densidad marginal de la
variable Y2,
1
g2 y y 1e y
para y > 0, así que Y2 tiene la distribución gama con parámetros = 1 + 2 y . Finalmente,
observamos que g(y1,y2) = g1(y1)g2(y2) para toda y1 y y2, así que Y1 y Y2 son variables
aleatorias independientes. Puesto que ambas Y1 y Y2 dependen de X1 y X2, la última
observación es algo sorpresiva. Depende del hecho de que las variables X1 y X2 tuvieran
distribuciones gama y no necesariamente sería cierto si ellas tuvieran alguna otra función de
distribución. ////
Ahora consideraremos transformaciones lineales, eso es, transformaciones de la forma
w( x ) = xA + b
para x Rn, donde A = (aij) es una matriz n por n y b = (b1,... bn) es un vector de constantes.
Si A es no singular, entonces la transformación w es invertible con inversa v(y) = (y - b)A-1,
donde A-1 denota la matriz inversa de A. El jacobiano Jv de la transformación es la constante
Jv(y) = det A-1 = 1/(det A). Así, nosotros tenemos el siguiente corolario al Teorema 7.4.1.
224 JACOBIANOS
Corolario 7.4.1 Sea X = (X1,... Xn) un vector aleatorio con densidad f, y haga Y =
XA + b, donde A es una matriz n por n no singular y b Rn. Entonces Y tiene densidad
g, donde
g y
1
det A
f y b A
1
para y Rn.
EJEMPLO 7.4.3
Una matriz A n por n se denomina ortogonal si y sólo si AA´ = I = A´A, donde la prima
denota la traspuesta e I denota la matriz idéntica n por n. Si A es ortogonal, entonces A-1 =
A´, así que A es no singular; más aún, det A2 = det AA´ = det I = 1, así que det A = 1.
Ahora decimos que si X1,... Xn son variables aleatorias independientes normal estándar y si
Y1,... Yn son definidas por Y = XA, donde A es ortogonal, X = (X1,... Xn), y Y = (Y1,... Yn),
entonces Y1,... Yn son de nuevo variables aleatorias independientes normal estándar.
Para ver esto, observe que una densidad para X está dada por
para x = (x1,... xn) Rn por independencia (Teorema 6.3.1). Puesto que xx´ = x12 + . . . + xn2, f
puede ser escrita en la forma
n
1 2 xx'
1
f x e
2
para x Rn. Ahora sea Y = XA, donde A es ortogonal. Entonces, por el Corolario 7.4.1, Y
tiene densidad
g y
1
det A
f yA1 f yA'
n n
1 2 yA' Ay' 1 2 yy'
1 1
e e
2 2
para y Rn. Eso es, Y tiene la misma distribución como X, como se aseguró. ////
Concluimos esta sección con fórmulas generales para las densidades de sumas, diferencias,
cocientes, y productos de dos variables aleatorias absolutamente continuas conjuntas.
TEORÍA DE DISTRIBUCIONES 225
g y f y x , x dx
g y f y x , x dx
para - < y < , respectivamente. Más aún, si Pr (X2 > 0) = 1, entonces X1/X2 y X1X2
tienen densidades
h1 y 0 xf xy , x dx
h2 y 0 x 1 f yx 1 , x dx
PRUEBA Probaremos sólo la primera aseveración del corolario puesto que
las pruebas de los otros tres son semejantes. Sean Y1 = X1 + X2 y Y2 = X2. Entonces la
transformación inversa es X2 = Y2 y X1 = Y1 - Y2, el jacobiano de lo cual es Jv(y) = 1.
Así, Y1 y Y2 tienen densidad conjunta g(y1,y2) = f(y1 - y2, y2) para - < y1, y2 < . Así Y1
tiene densidad marginal
g1 y f y y2 , y2 dy2
f x1 , x2 2 e x1 x2
para x1 > 0 y x2 > 0 y f(x1,x2) = 0 para otros valores de x1 y x2. Encontraremos las
distribuciones de Y = X1 - X2 y Z = X1/X2.
a Primero encontremos la distribución de Y. Para y > 0, esta es
g y 2 0 e x y e x dx
2 e y 0 e 2 x dx e y
2
Por lo tanto,
y
g y e
2
para - < y < . g es conocida como la densidad exponencial bilateral con
parámetro .
b Asimismo, Z = X1/X2 tiene densidad
h1 z 0 x 2 e xz e x dx
1
0 x 2 e 1 z x dx
1 z 2
para z > 0. ////
EJEMPLO 7.4.5
Sean X1,... Xn variables aleatorias independientes que están uniformemente distribuidas sobre
el intervalo (0,1), sea Y1 = mín (X1,... Xn), y sea Y2 = máx (X1,... Xn). Encontremos la
distribución del rango R = Y2 - Y1. Por el Ejemplo 7.2.1b, Y1 y Y2 tienen densidad conjunta
f y1 , y2 n n 1 y2 y1
n2
X i = Zi (5.1)
donde Z1,... Zn son variables aleatorias independientes normal estándar. Aquí, los términos
Zi denotan los errores de medición, y > 0 representa la precisión del dispositivo de
medida, con valores grandes de correspondiendo a mediciones imprecisas. El parámetro
puede o no ser conocido.
EJEMPLO 7.5.1
a Para determinar el contenido de nicotina promedio en una marca particular de
cigarros n = 400 cigarros son fumados. Entonces dejamos que Xi denote la cantidad de
nicotina encontrada en el i-ésimo cigarro, i = 1,... n.
b Para determinar la ganancia de peso que puede ser esperada de una nueva dieta,
n animales experimentales son alimentados con la dieta. En este ejemplo, permitimos a
Xi denotar la ganancia de peso del i-ésimo animal. ////
Para estimar la cantidad de la Ecuación (5.1), parece natural tomar el promedio de las
observaciones
1
X X1 X n
n
Por tanto, la interrogante que confrontamos es: ¿Qué tan cerca podemos esperar que X esté
de ? Si el parámetro de la Ecuación (5.1) es conocido, entonces la respuesta a nuestra
pregunta es fácil. Sin duda, tenemos
N
X nZ
donde Z = (Z1 + ... + Zn)/n. Ahora, por el Teorema 7.3.2, Z1 + ... + Zn tiene la función de
distribución normal con parámetro de localidad 0 y parámetro de escala n , así que nZ =
(Z1 + ... + Zn)/ n tiene la distribución normal estándar por el Ejemplo 7.1.5a. Se sigue
entonces que
228 MUESTREO DE UNA DISTRIBUCIÓN NORMAL
a a
Pr
n
X
n
Pr a
n
X a
Pr a nZ a
a a 2 a 1
a a
I X ,X (5.2)
n n
Xi X
1 n 2
S2 (5.3)
n 1 i1
Ahora encontraremos la distribución de la variable aleatoria
n X
T
S
que puede entonces ser usada en la misma forma que usamos la distribución de
n / X para ubicar cotas sobre el error X .
1
5 La sumatoria es dividida por n - 1 en lugar de n porque los números Xi - X , i = 1,... n satisfacen una restricción
lineal,
n
i 1 X i X 0.
TEORÍA DE DISTRIBUCIONES 229
k 1
2
gk t 1
k 1
k t 2
2
k 1
2 k
para - < t < . En particular. Pr (T > t) = Hk(t) para t > 0, donde
H k t 2 t gk s ds
Probamos el Teorema 7.5.1 abajo, pero primero indicaremos algunas aplicaciones. Se sigue
del Teorema 7.5.1 que
aS aS
Pr X Pr T a 1 H k a
n n
para cualquier a > 0. Así, el intervalo I = X aS / n , X aS / n es un intervalo de
confianza para con coeficiente de confianza = 1 - Hk(a). La Tabla 11 da los valores de a
para los cuales Hk(a) = 1 - para valores seleccionados de k y .
EJEMPLO 7.5.3
Si en el Ejemplo 7.5.1b alimentamos n = 26 animales experimentales y observamos una
ganancia de peso promedio de X = 62.5 gramos con una estimada de S = 3.16 gramos,
entonces podemos estar 95 porciento confiados que 61.2 < < 63.8. Aquí tomamos a = 2.06
y encontramos que aS/ n = 1.3. ////
Ahora probaremos el Teorema 7.5.1. Comenzamos con un resultado preliminar que es
interesante en sí mismo.
Teorema 7.5.2 Sean Z1,... Zn variables aleatorias independientes normal estándar,
y defina R por
R Zi Z
n 2
(5.4)
i 1
1
ain i 1,..., n
n
1
aij i 1,..., j ; j n
j j 1
j
a j j 1 jn
j j 1
aij 0 i j 1; j n
Entonces, es fácilmente verificado que la matriz A es ortogonal, eso es, AA´ = I (la
idéntica n × n) = A´A. Sea el vector aleatorio W = (W1,... Wn) definido por W = ZA,
donde Z = (Z1,... Zn). Eso es, sea
Wn nZ
i1 Zi jZ j 1
j
Wj jn (5.5)
j j 1
Tabla 11
k
Hk(a) 5 10 25
0.01 4.03 3.17 2.79 2.60
0.05 2.57 2.23 2.06 1.96
0.10 2.015 1.81 1.71 1.645
Entonces, puesto que Z1,... Zn son variables aleatorias independientes normal estándar,
y puesto que A es ortogonal, se sigue W1,... Wn son también variables aleatorias
independientes normal estándar (Ejemplo 7.4.3). Más aún, puesto que WW´ =
(ZA)(ZA)´ = ZAA´Z = ZZ´, tenemos
donde el último paso se sigue por simple álgebra. Puesto que Wn2 = n Z por (5.5),
tenemos
n 1
R Wi 2
i 1
de la cual el teorema se sigue fácilmente. Sin duda, puesto que cada Wi tiene la
distribución normal estándar, cada Wi2 tiene la distribución ji-cuadrada con un grado de
TEORÍA DE DISTRIBUCIONES 231
libertad (Ejemplo 7.1.7), y por tanto R tiene la distribución ji-cuadrada con n-1 grados
de libertad [Teorema 7.3.2(iii)]. Más aún, puesto que R depende sólo de W1,... Wn-1
mientras que Z depende sólo de Wn, se sigue que R y Z son independientes (Teorema
7.2.1). ////
PRUEBA Del Teorema 7.5.1 Para aplicar el Teorema 7.5.2 a la prueba del
Teorema 7.5.1, escribimos X y S en términos de Z y R. Antes hemos observado que (
n /)( X -) = n Z , y un cálculo similar produce (n-1)S2 = 2R. Por tanto,
X nZ
T n (5.7)
S R / n 1
k
T Y y UR
R
U
R U y Y T
k
1
C 2 k 1 1 t2
gk t u exp 1 u du
k 0 2 k
1
k 1
1
k 1
C 22 t2 2
1
k 1
1 0 v 2 exp v dv
k k
k 1
2
1
k 1
k t
2 2
k 1
2 k
para - < t < , como se aseveró. ////
La densidad gk encontrada en el Teorema 7.5.1 es conocida como la densidad t con k grados
de libertad. Tablas más extensas pueden ser encontradas en Beyer (1966).
1
6 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad.
TEORÍA DE DISTRIBUCIONES 233
1
transcurre. De estas tres suposiciones, derivaremos una descripción exacta del
comportamiento observable de la substancia radioactiva.
Sea G(t) = Pr (X1 > t) = 1 - F(t), t 0. Entonces A2 requiere que G(s + t)/G(s) = G(t) para
toda s > 0 y t > 0 o, equivalentemente,
G( s + t ) = G( s)G( t ) ( 61
.)
Finalmente, si t > 0 es cualquier número real, entonces hay una sucesión de números
racionales r1, r2,... para los cuales rn t cuando n y rn > t para cualquier n =
1,2,.... Puesto que G es continua por la derecha (Teorema 5.8.1) y e t es continua,
ahora tenemos
para t > 0 arbitraria. Finalmente, > 0 puesto que G(t) 0 cuando t . ////
Así, hemos mostrado que la función de distribución común F de X1,... XN es la función de
distribución exponencial
F ( t ) = 1 e- t t0
donde > 0 es como en el Lema 7.6.1. La mediana de F [la solución de F(m) = 1/2],
m = 1log2
N 1
hk y N F y 1 F y f y
k 1 N k
k 1
N 1
y k 1 N k y
N 1 e e e y
k 1
para y > 0 y hk(y) = 0 para y 0. En particular, Y1, el tiempo al cual el primer decaimiento
ocurre, tiene la distribución exponencial con parámetro = N.
Ahora introduzcamos el proceso de conteo Nt, definido para t > 0 por
Nt = k si y sólo si Yk t Yk 1
1
lim Pr N t k t k e t k 01
, ,2,...
k!
por el Teorema 4.3.1. Así, Nt tiene aproximadamente la distribución Poisson con parámetro
t. es algunas veces denominada la intensidad de la radiación.
Es también posible describir el proceso de decaimiento en términos de los tiempos entre
llegadas (los tiempos entre decaimientos),
Zi = Yi Yi-1 i = 1,..., N
Teorema 7.6.2 Z1,... ZN son variables aleatorias independientes. Más aún, Zi tiene
la distribución exponencial con parámetro i = (N - i + 1) para i = 1,...., N.
Eso es, el tiempo de espera hasta que ocurra el primer decaimiento es distribuido
exponencialmente con parámetro = 1 = N. De ahí en adelante, se inicia un nuevo
proceso con N - 1 átomos inestables, y el tiempo de espera hasta que el siguiente
decaimiento ocurra es distribuido exponencialmente con parámetro 2 = (N - 1). De ahí en
adelante, el proceso inicia de nuevo con N - 2 átomos inestables, etc.
PRUEBA Del Teorema 7.6.2 Por el Problema 7.22, Y1,... YN tienen densidad
conjunta
h y1 ,..., y N N! N exp y1 ... y N
para 0 < y1 < y2 < < yN < y h(y1,... yN) = 0 para otros valores de y1,... yN. Haga
Wi = ( N i 1)Zi = ( N i + 1)( Yi Yi-1 )
Ahora se sigue fácilmente del Teorema 7.4.1 que W1,... WN tienen densidad conjunta
g w1 ,..., wN N exp w1 wN
236 DESCOMPOSICIÓN RADIOACTIVA
para wi > 0, i = 1,... N, y g(w1,... wN) = 0 para otros valores de w1,... wN. Eso es, W1,...
WN son variables aleatorias independientes, y Wi tiene la distribución exponencial con
parámetro para i = 1,... N. Así,
Wi
Zi
N i 1
son independientes, por el Teorema 7.2.1, y Zi tiene la distribución exponencial con
parámetro i = (N - i +1), por el Ejemplo 7.1.5b. ////
REFERENCIAS
Para un desarrollo más completo de las ideas de la Sección 7.5, ver Hogg y Craig (1970),
cap. 6. Para un desarrollo diferente de la distribución Poisson como el modelo apropiado
para la descomposición radioactiva, ver Feller (1968), cap. 17.
TEORÍA DE DISTRIBUCIONES 237
7.7 PROBLEMAS
7.1 Una moneda no cargada es lanzada n veces. Cada vez que un águila aparece ganas un
dólar, y cada vez que un sol aparece pierdes un dólar. Denote X sus ganancias netas
(posiblemente negativas). Encontrar la función masa de X.
7.2 Permita que X tenga la distribución geométrica con parámetro p, 0 < p < 1. Encontrar la
función masa de Y = mín (X,10).
7.3 Sea X uniformemente distribuida sobre (0,1). Encontrar una densidad para Y = sen
(½)X.
7.4 Sea X uniformemente distribuida sobre (0,1). Encontrar densidades para Y = sen 2X y
Z = cos 2X.
7.5 Sea X uniformemente distribuida sobre (0,1). Encontrar una densidad para Y = X/(1
X).
7.6 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar una densidad para
X, donde > 0.
7.7 Tenga X la distribución normal con parámetro de localidad y parámetro de escala .
Encontrar una densidad para Y = eX. La distribución de Y se denomina distribución log
normal.
7.8 Permita que X tenga la función de distribución normal estándar . ¿Cuál es la
238 PROBLEMAS
distribución de (X)?
7.9 Permita que X tenga la función de distribución normal estándar . ¿Cuál es la
distribución de (X)2?
7.10 Permita que X tenga la distribución normal con parámetro de localidad y parámetro
de escala . Encontrar una densidad para Y = X2.
7.11 Permita que X tenga la distribución Cauchy estándar. Encontrar una densidad para Y =
X2 .
7.12 Mostrar que si X tiene la distribución Cauchy estándar con densidad f(x) = 1/(1 + x2)
para < x < , entonces 1/X también tiene la densidad Cauchy estándar.
7.13 Permita que X tenga densidad f; sea Y = X si X < 0, y sea Y = 2X si X > 0. Encontrar
una densidad para Y.
7.14 Permita que X tenga la distribución exponencial con parámetro , y sea Y = [X] el
mayor entero que es menor o igual a X. Encontrar la función masa de Y.
7.15 Sean X y Y como en el Problema 7.14, y sea Z = X Y. Encontrar una densidad para Z.
7.16 Sean Y y Z como en el Problema 7.15. Mostrar que Y y Z son independientes.
7.17 Sea G una función de distribución continua que tiene una derivada continua G´en todos
excepto un número finito de puntos, digamos a1,, an, donde G´ puede no existir.
Mostrar que
Gx g y dy
x
para toda x, < x < , donde g(y) = G´(y), y ai, y g puede estar definida
arbitrariamente en los puntos a1,, an. Sugerencia: Para a1 < x < a2, escribir G(x) =
G(x) G(a1 + ) + G(a1 + ) G(a1 ) + G(a1 ), use el teorema fundamental del
cálculo, y permita que 0. Entonces proceda por inducción.
7.18 Probar el Teorema 7.1.1:
(a) Bajo la suposición de que f es continua por piezas, eso es, continua en todos excepto
un número finito de puntos.
(b) Bajo la suposición de que la función w(x) = 0 en un número finito de puntos y w´ no
cambia de signo.
7.19 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1). Sea Y1 = mín (X1,, Xn), y Y2 = máx (X1,, Xn). Encontrar una
densidad conjunta para Y1 y Y2.
7.20 Encontrar densidades para Y1, Y2, y (Y1,Y2), como fueron definidas en el Problema 7.19,
TEORÍA DE DISTRIBUCIONES 239
cuando X1,, Xn son variables aleatorias independientes las cuales son distribuidas
exponencialmente con parámetro > 0.
7.21 Sean X1,, X5 variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1), y denoten Y1,, Y5 los estadísticos de orden. Encontrar la
probabilidad de que 0.3 < Y3 < 0.7.
7.22 Sean X1,, Xn variables aleatorias independientes con densidad común f, y sean Y1,,
Yn los estadísticos de orden. Mostrar que una densidad conjunta para Y1,, Yn es
F y1 1
n! k 1
B = {x Rk : x12 + + xk2 1}
Encontrar la función de distribución de R, donde R2 = X12 + + Xk2.
7.27 Sean X y Y variables aleatorias independientes, y sean u y v funciones crecientes.
Mostrar directamente que u(X) y v(Y) son independientes.
7.28 Sean X y Y variables aleatorias independientes las cuales están uniformemente
240 PROBLEMAS
z 0 z 1
f z
2 z 1 z 2
hz y f zy g y dy
H z F z y dy
1 a
2a a
H z F z y dG y
8.1 ESPERANZA
Sea X una variable aleatoria discreta con función masa f, y sea C = {x0,x1, ...} un conjunto
infinito contable o finito para el cual Pr (X C) = 1. Definimos la esperanza, o valor
esperado, de X para ser el número
E X xf x (1.1)
C
j xi f n xi
1 n k
Xn X
n j 1 i 0
donde fn(xi) es la frecuencia relativa con la cual Xj = xi durante las n repeticiones. Eso es,
1
1 Recuerde que C xf(x) significa que los números xf(x), x C, deben ser sumados. La suma converge absolutamente si
y sólo si C xf(x) es finita. Éste será siempre el caso si C es un conjunto finito pero puede fallar si C es infinito.
244 ESPERANZA
fn(xi) = 1/n (el número de veces Xj = xi), como en la Sección 2.1. Ahora de acuerdo a la
interpretación frecuentista de probabilidad, fn(xi) converge a Pr (X = xi) = f(xi) cuando n
. Esto sugiere que X n convergerá a
xi f xi xf x E X
k
i 0 C
cuando n , y en la Sección 9.2 mostramos que este es, de hecho, el caso. Eso es, E(X)
representa un promedio empírico idealizado para X en la misma forma que las
probabilidades representan frecuencias relativas idealizadas.
EJEMPLO 8.1.1
a Si Pr (X = c) = 1, donde c es una constante, entonces nosotros podemos tomar C = {c}
y obtenemos E(X) = c 1 = c por la Ecuación (1.1). En particular, E(0) = 0 y E(1) = 1.
b Considere un apostador quien gana un dólar con probabilidad p y pierde un dólar
con probabilidad q = 1 p. Si X denota su ganancia (positiva o negativa), podemos
tomar C = {1,1} y obtenemos E(X) = 1 p 1 q = p q.
c Si un dado balanceado de n lados es lanzado una vez y X denota el número de puntos
que aparece, entonces X tiene la distribución uniforme discreta; eso es, Pr (X = k) = 1/n,
k = 1,,n. Por tanto,
1 1 nn 1 n 1
EX k
n
k 1 n n 2 2
E X xf x dx
(1.2)
EJEMPLO 8.1.2
x f x dx
1
2 La integral converge absolutamente si y sólo si es finita; ver Apéndice B.
ESPERANZA 245
xdx b 2 a 2 a b
E X a
b
b a 2b a 2
E X 0 xe x dx ye y dy 2
1 1 1
0
d Si X tiene la distribución Cauchy [con densidad f(x) = 1/(1 + x2), < x < ],
entonces
provisto que la integral en (1.3) converge absolutamente. Más aún, la integral que aparece en
1
3 La integral de Riemann-Stieltjes es discutida en el Apéndice B. Los lectores quienes deseen hacerlo así pueden
xdFx C xf x
considerar como una notación que significa si F es discreta con función masa f y significa
(1.3) existirá para muchas funciones de distribución que no son ni discretas ni absolutamente
continua. Podemos por tanto extender la definición de esperanza como sigue. Si X es
cualquier variable aleatoria con función de distribución F, definimos la esperanza, o valor
esperado, de X por (1.3) provisto solamente que la integral en la Ecuación (1.3) converge
absolutamente.
Si X es una variable aleatoria, eso es, si Pr (X 0) = 1, entonces F(x) = 0 para x < 0, así
que (1.3) se reduce a
E X 0 xdF x
(1.4)
que es totalmente significativa aun si la integral diverge (necesariamente a ). Podemos por
tanto hacer una extensión final de la definición de esperanza permitiendo tener a las
variables aleatorias no negativas esperanza infinita. Eso es, si X es no negativa, definimos
E(X) por (1.4), aun si la integral diverge.
EJEMPLO 8.1.3
a Dejemos que X tenga la distribución uniforme sobre (0,2), y sea Y = máx(1,X).
Entonces la función de distribución de Y es
0 y 1
y
G y 1 y 2
2
1 y2
Por tanto,
E Y 1G1 G1
1 2
1
xdx 12 34 5
4
2
1
0 zf z dz 2 1 z 1 dz 12 loga 1 log2
a 1 a
que diverge a cuando a . Por tanto, E(Z) = . Observe que E(Z) no es igual a
E(X)/E(Y) = 1. ////
ESPERANZA 247
1
Concluimos esta sección con una descripción geométrica útil e interesante de esperanza.
Teorema 8.1.1 Sea X cualquier variable aleatoria, y denote F su función de
distribución. Entonces
en el siguiente sentido: si uno u otro lado de (1.5) es finito, entonces así es el otro y
ellos son iguales.
El Teorema 8.1.1 admite la siguiente interpretación geométrica. En la Figura 12 E(X) es el
área entre la gráfica de F y la línea de altura 1 para x 0 menos el área entre la gráfica de F
y la línea de altura 0 para x 0.
PRUEBA Para probar el teorema, integraremos por partes las dos integrales
que aparecen en la siguiente expresión para E(X):
1
4 El resto de esta sección trata un tópico especial y puede ser omitido.
248 ESPERANZA
0 xdF x bF b 0 F x dx
b b
bF b 1 0 1 F x dx
b
(1.7)
(ver Teorema B.5 del Apéndice B). Suponer que la primera integral en (1.6) es finita.
Entonces tenemos
0 b1 F b b b dF x b xdF x
que tiende a cero cuando b , puesto que es la cola de una integral convergente. Por
tanto, permitiendo b en la Ecuación (1.7), encontramos que
0 xdF x 0 1 F x dx
(1.8)
si el lado izquierdo de (1.8) es conocido para ser finito. Si el lado derecho de (1.8) es
finito, entonces
lim 0 1 F x dx
b
b
0 1 F x dx
así que (1.8) también se cumple. Así hemos mostrado que un lado de (1.8) es finito si y
sólo si el otro lo es, en cuyo caso ellos son iguales. Un argumento similar mostrará que
E X 0 1 F x dx
finita o infinita.
ESPERANZA 249
finita o infinita.
PRUEBA El primer corolario se sigue directamente del teorema, y el
segundo entonces se sigue del hecho de que si X está valuada en los enteros, entonces
Pr (X > x) = Pr (X k) para k 1 x < k.
EJEMPLO 8.1.4
Si X tiene la distribución geométrica con parámetro p, entonces Pr (X k) = qk1, k = 1,2,,
así que E(X) = 1 + q + q2 + = 1/(1 q) = 1/p. ////
D wx dF x
1
5 Lectores quienes no están familiarizados con la integral de Riemann-Stieltjes pueden considerar a
como una notación que significa D wx f x si F es discreta con función masa f y significa D wx f x d x si
F es absolutamente continua con densidad f.
250 PROPIEDADES DE LA ESPERANZA
wx f x wx f x
x D y E x B y
y f x
y E x B y
yPrY y E Y (2.3)
y E
E Y 0
sinx 1
2
dx cos 0 cos 2 0
2 2
E Y x 2 dF x
1
6 Ver, por ejemplo, Rudin (1964), p. 66.
ESPERANZA 251
E X 2 0 x 2 e x dx 3 2 2 2
////
Las Ecuaciones (2.3) y (2.4) también permanecen válidas si X = (X1,... Xn) es un vector
aleatorio, f denota la función masa o densidad de X, y D denota el conjunto de x Rn para
las cuales f(x) > 0 [y dx es interpretado como el elemento volumen en Rn en la Ecuación
(2.4)].
EJEMPLO 8.2.2
a Sean X1 y X2 variables aleatorias independientes distribuidas exponencialmente
con parámetro común = 1, y sea Y = X1X2. Entonces
E Y 0 0 x1 x2 e x1 x2 dx1dx2 0 xe x dx 2 1
2 2
b Permita que (X, Y) tenga función masa conjunta f, y sea D un conjunto infinito
contable o finito para el cual f(x,y) = 0 si (x,y) D. Si E(X) es finita, entonces
E X xf x , y
D
donde la sumatoria se extiende sobre todo (x,y) D. Esto se sigue del Teorema 8.2.1
tomando w(x,y) = x para (x,y) D.
Regresamos ahora a algunas propiedades básicas de la esperanzasu linealidad y
monotonicidad como un operador sobre variables aleatorias.
Teorema 8.2.2 Sean X y Y cualesquiera dos variables aleatorias distribuidas
conjuntamente con esperanzas finitas, y sean y cualesquiera números reales.
Entonces
EX Y E X EY
E X Y x y f x , y
D
xf x , y yf x , y E X E Y
D D
E XY xyf x , y
C
xg x yh y E X E Y
D E
E Y E X i
n
i 1
E X xdF x
(3.1)
2 D X x dF x
2
(3.2)
2 E X 2 2
2 E X 2 E X 2 2E X 2
E X 2 2 2 2 E X 2 2
Lema 8.3.3 Sea X una variable aleatoria con media y varianza 2. Entonces, la
media y la varianza de la variable aleatoria Y = aX + b son = a + b y 2 = a22,
respectivamente.
PRUEBA = E(Y) = E(aX + b) = aE(X) + b = a + b por el Corolario 8.2.1. Por
tanto,
2 E Y 2 E aX a 2 a 2 E X 2 a 2 2
por el mismo corolario. ////
EJEMPLO 8.3.1
a Permita que X tenga la distribución uniforme sobre (0,1). Entonces
E X 0 xdx
1 1
2
E X 2 0 x 2 dx 13
1
x k x 1 x
E X k 0
e dx
y k 1 y k k
k 0 e dy
para k = 1,2,. En particular, = E(X) = ( + 1)/() = /, y E(X2) = ( + 1)/2,
así que se obtiene 2 = /2. En particular, la media y la varianza de una función de
distribución Ji-cuadrada con k grados de libertad ( = k/2 y = 1/2) son = k y 2 =
2k. ////
EJEMPLO 8.3.2
Si Z tiene distribución normal estándar , entonces Z tiene media E(Z) = 0 por el Ejemplo
8.1.2b y Z2 tiene la distribución Ji-cuadrada con un grado de libertad por el Ejemplo 7.1.7.
Eso es, Z2 tiene la distribución gama con parámetros = ½ y = 1/2. Por lo tanto, la
varianza de Z es E(Z2) = 1 por el Ejemplo 8.3.1. Más generalmente, si X tiene la distribución
ESPERANZA 257
2 12 n 2
2 E S 2 E Y1 Y2 2
E Y 2 E Y Y E Y
2 2
1 1 2 2
2 E Y12 E Y2 2 12 2 2
k E X k (4.1)
k x k dF x
(4.1a)
provisto que la integral que aparece sobre el lado derecho de (4.1a) converge absolutamente.
Por supuesto, la integral de Riemann-Stieltjes en (4.1a) simplifica a una integral ordinaria si
F es absolutamente continua y a una suma si F es discreta.
EJEMPLO 8.4.1
a Permita que X tenga la distribución beta con parámetros y . Entonces
1 k 1 1
k x x 1 x dx
0
k
k
k k 1k
k k 1 k
donde para el real x, (x)k = x(x 1)(x k + 1). En particular, la media y la varianza
son = 1 = /( + ) y 2 = 2 12 = /( + )2 ( + + 1) por simple álgebra.
b Análogamente, si X tiene la distribución gama con parámetros y , entonces
k 1k
k
k
por el Ejemplo 8.3.1c. ////
De nuevo, sea X cualquier variable aleatoria. Definimos la función generatriz de momentos
ESPERANZA 259
de X por
M t E e tX (4.2)
provisto que la esperanza que define a M(t) es finita para todo t en algún intervalo no
degenerado (a,b), a < b. Si F denota la función de distribución de X, entonces
M t e tX dF x
(4.2a)
por el Teorema 8.2.1, provisto que la esperanza sobre el lado derecho de (4.2a) converge
absolutamente. Otra vez, la integral de Riemann-Stieltjes en (4.2a) se simplifica a una
integral ordinaria si F es absolutamente continua y a una suma si F es discreta.
Tanto los momentos como la función generatriz de momentos de una variable aleatoria X
dependen solamente sobre la función de distribución de X por (4.1) y (4.2). Algunas veces
nos referiremos a la función generatriz de momentos de X como la función generatriz de
momentos de F. El nombre función generatriz de momentos se deriva del hecho de que los
momentos de X pueden ser calculados diferenciando M(t) en t = 0.
Teorema 8.4.1 Sea X cualquier variable aleatoria con una función generatriz de
momentos que es finita sobre algún intervalo abierto que contiene al cero, digamos
M(t) < para -h < t < h, donde h > 0. Entonces X tiene momentos
k M ( k ) 0
d k tX
dk
k
dk
M t k E e E k e E X k e tX
tX
dt dt dt
de lo cual el teorema se sigue haciendo t = 0. Por supuesto, la igualdad crucial
(segunda) requiere justificación puesto que un intercambio de límites está involucrado.
Regresaremos a este punto en la siguiente sección. ////
Tomando logaritmos podemos obtener un método simple para calcular la media y la varianza
de una variable aleatoria.
Corolario 8.4.1 Sea X una variable aleatoria con función generatriz de momentos
que es finita sobre un intervalo abierto que contiene a cero. Además, sea t = log
M(t). Entonces la media y la varianza de X están dadas por
260 LA FUNCIÓN GENERATRIZ DE MOMENTOS
M 0
2
n n n
M t e kt p k q nk pet q nk q pet
n k n
k 0 k k 0 k
para - < t < , donde la igualdad final se sigue del teorema binomial. Por diferenciación
podemos rederivar el resultado que = np y 2 = npq. ////
EJEMPLO 8.4.3
Si X tiene la distribución Poisson con parámetro , entonces
1
M t e kt
1 k
e e e t e e e e ( e 1 )
k t t
k 0 k! k 0 k !
para todo t, < t < . En este ejemplo, t = log M(t) = (et 1) es fácil de diferenciar, y
encontramos que = 0 = y 2 = 0 = . Por tanto, la media y varianza de la
distribución Poisson son ambas . ////
EJEMPLO 8.4.4
a Si X tiene la distribución binomial negativa [con función masa f(k) =
k 1 r k r
p q ,k r , r 1,... ], entonces
r 1
ESPERANZA 261
k 1 r k r
M t e kt p q
k r r 1
pe k 1 r k r
t
p1 q1 (4.3)
1 k r r 1
p
donde hemos hecho q1 = qet y p1 = 1 q1. Ahora, si q1 < 1, entonces la suma final en
(4.3) es la suma de probabilidades binomiales negativas con parámetros r y p1 y es por
tanto 1. Se sigue que
r
pet
M t
1 qe
t
rqet rqet
' t r and ' ' t
1 qet 1 qe t 2
x 1e x
M t 0 e tx
dx
x 1 t x
0 e dx
y 1e y
0 dy
t t
M t
t
N t E e tY E e atX bt e bt E e atX e bt M at
para toda t para la cual M(at) sea finita. ////
EJEMPLO 8.4.6
Si Z tiene la distribución normal estándar, entonces Z tiene función generatriz de momentos
M t e 2
1 2
t
(4.4.)
para < t < . Indiscutiblemente, puesto que x2 2tx = (x t)2 t2, tenemos
12 x 2
M t e tx
e 1 12 x 2 tx
dx e dx
2 2
12 x t 2
1 2
t e
e 2
dx
2
N t e t M t exp t 12 2 t 2 ////
Hemos visto que la función generatriz de momentos es una herramienta útil para calcular
medias y varianzas. Es también útil para encontrar la distribución de una suma de variables
aleatorias independientes. La técnica depende de los siguientes dos resultados.
Teorema 8.4.2 Sean X y Y variables aleatorias con funciones de distribución F y
G, respectivamente. También, permita que X tenga una función generatriz de
momentos M, y permita que Y tenga una función generatriz de momentos N. Si M(t) =
N(t) (finita) para todo t en algún intervalo no degenerado, entonces F(x) = G(x) para
toda x, < x < .
Eso es, si X y Y tienen la misma función generatriz de momentos , ellas tienen la misma
distribución. Así, podemos determinar la distribución de una variable aleatoria encontrando
su función generatriz de momentos.
La prueba del Teorema 8.4.2 está fuera del alcance del libro; probaremos un resultado
relacionado en la Sección 8.4.1, sin embargo.
En aplicaciones del Teorema 8.4.2, será útil tener el siguiente teorema.
Teorema 8.4.3 Sean X1,... Xn variables aleatorias independientes con funciones
generatrices de momentos M1,... Mn, respectivamente. Si M1,... Mn son todas finitas
sobre el mismo intervalo (a,b), a < b, entonces la suma S = X1 + + Xn tiene función
generatriz de momentos
M t M i t
n
i 1
e tX 1 , ,e tX n
son independientes por el Teorema 7.2.1. Por tanto, por el Corolario 8.2.4,
n n
E e tS E e t X1 X n E e tX i E e tXi M i t
n
i 1 i 1 i 1
M i t exp ti 12 i t 2
2
para < t < , donde y denota la media y i2 la varianza de Xi, i = 1,,n.
Ahora se sigue del Teorema 8.4.3 que la función generatriz de momentos de S = X1 + +
Xn es
M t exp t 12 2t 2
para < t < , donde = 1 + + n y 2 = 12 + + n2. Puesto que M es la función
generatriz de momentos de una distribución normal con media y varianza 2, se sigue
ahora del Teorema 8.4.2 que S tiene la distribución normal con media y varianza 2. ////
De manera semejante uno puede establecer las siguientes aseveraciones.
Teorema 8.4.4 Sean X1,... Xk variables aleatorias independientes, y sea S la suma
S = X1 + + X k .
(i) Si cada Xi tiene la distribución binomial con parámetros ni y la misma p,
entonces S tiene la distribución binomial con parámetros n = n1 + + nk y p.
(ii) Si cada Xi tiene la distribución binomial negativa con parámetros ri y la
misma p, entonces S tiene la distribución binomial negativa con parámetros r =
r1 + + rk y p.
(iii) Si Xi tiene distribución Poisson con parámetro i, entonces S tiene la
distribución Poisson con parámetro = 1 + + k.
(iv) Si cada Xi tiene la función de distribución gama con parámetros i y la
misma , entonces S tiene la distribución gama con parámetros = 1 + + k
y .
1
8.4.1 Funciones Generatrices
Sea a0, a1, a2, una sucesión de números reales. Entonces definimos la función generatriz
de la sucesión a0, a1, a2, para ser
At a k t k (4.5)
k 0
1
7 En esta sección probamos un caso especial de los Teoremas 8.4.1 y 8.4.2. Los resultados de esta sección son usados
sólo en las Secciones 10.6 y 12.5, y puede ser omitida sin pérdida de continuidad.
ESPERANZA 265
provisto que la serie converge para toda t en algún intervalo no degenerado alrededor de
cero, digamos para h < t < h. Si X es una variable aleatoria no negativa valuada en los
enteros, y si
ak Pr X k
At E t X (4.6)
M t A e t (4.7)
EJEMPLO 8.4.8
a Si ak = 1 para k = 0, 1, 2,, entonces la función generatriz de a0, a1, a2, es A(t)
= 1/(1 t) para 1 < t < 1 por el Ejemplo 1.7.3b.
b Si ak = 1/k! para k = 0, 1, 2,, entonces la función generatriz de a0, a1, a2, es
A(t) = et para < t < por el Ejemplo 1.7.3a.
c Si X tiene la distribución binomial con parámetros n y p, entonces X tiene la función
generatriz A(t) = (q + pt)n para < t < por (4.7) y el Ejemplo 8.4.2.
d Análogamente, si X tiene la distribución Poisson con parámetro , entonces X
tiene función generatriz A(t) = e(t 1) para < t < .
e Si X tiene la distribución binomial negativa con parámetros r y p, entonces X tiene
función generatriz A(t) = [pt/(1 qt)]r para q -1 < t < q -1. ////
Las funciones generatrices tienen propiedades semejantes a aquellas de las funciones
generatrices de momentos, pero puesto que sólo variables aleatorias discretas están
involucradas, las funciones generatrices son más simples que las funciones generatrices de
momentos, y será posible tratarlas más ampliamente; en particular, probaremos análogos a
los Teoremas 8.4.1 y 8.4.2.
Usamos el hecho de que una serie de potencias puede ser diferenciada término a término.1
Así si A es la función generatriz de a0, a1, a2,, y si A(t) converge para h < t < h, donde h >
0, entonces
1
8 Ver, por ejemplo, Rudin (1964), p. 158.
266 LA FUNCIÓN GENERATRIZ DE MOMENTOS
A' t kak t k 1 (4.8)
k 1
y A(t) también converge para h < t < h. Más generalmente, la j-ésima derivada de A existe
y está dada por
A j t k j a k t k j (4.9)
k j
para h < t < h, donde (k)j = k(k 1) (k j + 1). Observe que A(j) es la función generatriz
de la sucesión a0 , a1 ,..., donde ak k j j ak j para k = 0, 1,.
el límite de A(t) cuando t 1 con t < 1. La Ecuación (4.10) es válida ya sea que E(X)
sea finita o infinita.
PRUEBA Tenemos ak = Pr (X = k) 0 para k = 0, 1, 2,, y así A es una
función no decreciente, por (4.8). Por tanto, A(1) existe. Ahora
A' t kak t k 1 kak E X
k 0 k 0
para todo t < 1. así que A(1) E(X). Más aún, para cualquier n = 1, 2,
A1 lim kak t k 1 lim kak t k 1 kak
n n
k 0 k =0 k 0
k 0 k 0
A 0 B k 0 bk
1 k 1
ak
k! k!
n 0 n 0 k 0
a k t k bn k t n k Bt a k t k At Bt (4.12)
k 0 nk k 0
pi t
Ai t
1 qi t
p1 p2 t 2
C t
1 q1t 1 q2t
y C converge para 1 < t < 1. Expandamos C como una fracción parcial como
p1 p 2 t 2 q1 q2
C t
q1 q 2 1 q1t 1 q 2
t
=
p1 p 2 k 1
q1 q 2k 1 t k 2
q1 q 2 k 0
El coeficiente de tk en la expansión de C(t) es simplemente ck = Pr (Y = k). Así
Pr Y k
p1 p2
q1 q2
q1k 1 q2k 1
para k = 2, 3,. ////
E X aY b
2
entonces el problema puede ser establecido como sigue. Encuentre constantes a y b que
minimicen E[(X aY b)2].
1
9 Esta sección trata un tópico especial y puede ser omitida.
ESPERANZA 269
E X Y
a (5.1)
2
PRUEBA Por el Lema 8.3.1 sabemos que para cualquier a, E[(X aY b)2]
es minimizada tomando b = E(X aY) = a. Con esta selección de b, tenemos
E X aY b E X 1 aY1
2 2
(5.2)
E X 1 aY1 E X 1 2aE X 1Y1 a 2 E Y1
2 2
2
2 2aE X 1Y1 a 2 2
C X ,Y E XY E X EY (5.7)
es completamente útil. Su prueba es similar a esa del Lema 8.3.2 y será dejada como un
ejercicio.
La Ecuación (5.7) tiene una consecuencia teórica interesante, es decir, si X y Y son variables
aleatorias independientes, entonces C(X,Y) = 0, y consecuentemente r = 0 también. De
hecho, si X y Y son independientes, entonces E(XY) = E(X)E(Y) por el Teorema 8.2.3. Puesto
que hemos interpretado a r como una medida de dependencia entre X y Y, debemos
ciertamente anticipar este resultado. Es posible, sin embargo, para variables aleatorias
dependientes no estar correlacionadas, eso es, tener correlación cero, como veremos en los
siguientes ejemplos.
EJEMPLO 8.5.1 Permita que X y Y tengan densidad conjunta
2 0 x y 1
f x , y
0 de otro modo
E XY 20 0 xydxdy 0 y 3 dy 14
1 y 1
así que
ESPERANZA 271
13 23 1
1
r 4
////
18 2
EJEMPLO 8.5.2
Sean X y Z variables aleatorias independientes con medias cero y varianzas 2 y 2,
respectivamente. Si Y = X + Z, entonces la varianza de Y es r2 = 2 + 2 por el Teorema
8.3.1, y
C X ,Y E XY E X 2 E XZ 2
EX
1 1
xdx 0
2 1
E XY E X 3 1 x 3 dx 0
1 1
2
1 x 2 2rxy y 2
f x , y
1
exp
2 1 r 2 2 1 r 2
para < x,y < . Entonces r es la correlación entre X y Y. Para ver esto observe
272 COVARIANZA Y CORRELACIÓN
Más aún, la integral interior es simplemente la media de una distribución normal con
media = ry y varianza 2 = 1 r2, eso es, ry. Así,
E XY ry 2
1 12 y 2
e dy r
2
como se aseveró.
b Más generalmente, permita que W y Z tenga la distribución normal bivariada
estándar con parámetro r, 1 < r < 1, y sea
X W y Y Z
donde < , < , > 0, y > 0. Entonces, por una simple aplicación del Corolario
7.4.1, X y Y tienen densidad conjunta
1 Q x , y
g x , y
1
exp
2 1 r 2 2 1 r
2
x x y y
2 2
dondeQx, y 2r
.
C S ,T C X i ,Y j
m n
(5.8 a)
i 1 j 1
2 i 2 2 C X i , X j
m m i 1
(5.8 b)
i 1 i 2 j 1
PRUEBA Tenemos
m n m n
E ST E X iY j E X iY j
i 1 j 1 i 1 j 1
n m n
E S E T E X i E Y j E X i E Y j
m
i 1 j 1 i 1 j 1
así que
C S ,T E ST E S E T
E X i Y j E X i E Y j C X i ,Y j
m n m n
i 1 j 1 i 1 j 1
Esto establece (5.8a), de la cual (5.8b) se sigue tomando m = n y Xi = Yi, i = 1,,m. ////
274 EJEMPLOS
mm 1
EX i
m
n
E Xi
2
y E X i X j
nn 1
nk
E S kp y DS kpq (5.9)
n 1
8.6 EJEMPLOS1
EJEMPLO 8.6.1 Muestreo estratificado
Considere una población que consiste de t estratos, t 2, como en el Ejemplo 3.3.6.
Deseamos conducir una encuesta de opinión para aprender, por ejemplo, cuál proporción de
la población favorece a un candidato político o tema particular. Denote ni el tamaño del i-
ésimo estrato, y denote mi el número de personas en el i-ésimo estrato quienes favorecen al
1
10 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad.
ESPERANZA 275
p 1 p1 2 p2 t pt
Por supuesto, 1 + + t = 1.
Suponer ahora que 1,,t son conocidos, que p1,,pt y p son desconocidos, y que
deseamos conducir una encuesta de opinión para saber acerca de ellos. Suponer también que
tenemos suficientes recursos para tomar una muestra de tamaño k de la población.
Dos posibilidades presentan ellos mismos. Podemos tomar una muestra aleatoria simple.
Eso es, podemos tomar una muestra aleatoria de la población entera. Si hacemos eso, y si
denotamos por X el número de personas en la muestra quienes favorecen al candidato o
tema, entonces podemos estimar p por
1
p̂ X
k
nk
E p̂ p D p̂
1
y pq (6.1)
k n 1
donde q = 1 p.
Otra posibilidad es tomar una muestra estratificada. Eso es, dividimos el tamaño de la
muestra k en grupos de tamaños k1,,kt, donde k1 + k2 + + kt = k, y tomamos una muestra
de tamaño ki del i-ésimo estrato para i = 1,,t. Si denotamos por Xi el número de personas
en la muestra del i-ésimo estrato quienes favorecen al candidato o tema, entonces podemos
estimar pi por p i X i k i y p por
ˆp̂ 1 p̂1 t p̂t
t 1 n ki
D ˆp̂ i pi qi i
2
(6.2)
i 1 k i ni 1
D p̂ D ˆp̂
1 t 1 2
pq y i pi qi
k i 1 k i
Seleccionemos ahora los tamaños de muestra ki para ser proporcionales a los tamaños de los
estratos. Eso es, sea ki = ik para i = 1,,t. Entonces tenemos
D ˆp̂
1 t
i pi qi
k i 1
1 t 1 1 t
i i i i pi p
2
p q pq
k i 1 k k i 1
Esto es estrictamente menor que (1/k)pq D( p̂ ) a menos que p1 = p2 = = pt. Así, tenemos
D( p ) < D( p̂ ) a menos que p1 = p2 = = pt, en cuyo caso D( ˆp̂ ) D( p̂ ). ////
EJEMPLO 8.6.2 Un problema de inventario
Un comerciante tiene que almacenar una cantidad de bienes z para satisfacer una demanda
aleatoria X. El comerciante compra sus bienes a un costo fijo c y las vende a un precio fijo p
> c. ¿Cuánto debe el ordenar si desea maximizar su ganancia esperada?
Supondremos, por simplicidad, que la demanda X tiene una función de distribución
ESPERANZA 277
absolutamente continua F con densidad f, que es positiva sobre (0,). También suponemos
que la demanda no es negativa, así que F(x) = 0 para x 0. Si el comerciante ordena z
unidades de inventario, su ganancia es
Y p min X , z cz
Aquí hemos usado el Teorema 8.2.1 para calcular la esperanza del mín (X,z). Si ahora
diferenciamos E(Y) con respecto a z, encontramos
E Y p1 F z c
d
dz
que es cero si y sólo si F(z) = (p c)/p. Más aún, puesto que la segunda derivada de E(Y) es
pf(z), que es negativo, vemos que el extremo es un máximo. Así, el comerciante debe
ordenar z0 unidades, donde z0 es la solución a la ecuación
pc
F z
p
En el caso especial que F sea la distribución exponencial con parámetro , encontramos z0 =
(log p log c)/. ////
REFERENCIAS
Si X es cualquier variable aleatoria, entonces la función característica de X está definida por
(t) = E(eitX) para < t < , donde i denota 1 . Las funciones características tienen
propiedades semejantes a aquellas de las funciones generatrices de momentos y tienen la
ventaja que cada variable aleatoria tiene una función característica. Por otro lado, ellas son
más complicadas puesto que exponenciales complejos están involucrados. Para los lectores
interesados en las funciones características, recomendamos Parzen (1960), capítulo 9, para
un tratamiento elemental y Feller (1966), chap. 15, para un tratamiento más detallado.
Si X es una variable aleatoria no negativa, entonces M(t) = E(e-tX), t > 0, es conocida como
la Transformada de Laplace de X. Las transformadas de Laplace tienen varias propiedades
adicionales importantes que son discutidas en Feller (1966), capítulo 13.
Para un tratamiento más completo del muestreo estratificado y otros esquemas de muestreo
interesantes, ver Cochran (1963). Lectores interesados en modelos de inventarios (Ejemplo
8.6.2) deben consultar Arrow, Karlin, y Scarf (1958, 1962).
278 PROBLEMAS
8.7 PROBLEMAS
8.1 Permita que X tenga la distribución Rayleigh [con densidad f(x) = 2x exp (x2), x > 0,
y f(x) = 0 para x 0]. Encontrar E(X).
8.2 Permita que X tenga la distribución exponencial bilateral [ con densidad f(x) = (/2)e-
x
, x R]. Encontrar E(X).
8.3 Sean dos dados balanceados tirados, y denote X el número total de puntos que aparecen.
Encontrar E(X).
8.4 Dos dados balanceados son tirados. Si X denota el número máximo de puntos que
aparecen, encontrar E(X).
8.5 ¿Estaría dispuesto a jugar el siguiente juego repetidamente? Dos dados balanceados son
tirados. Ganas 3 dólares si 2, 7, ó 12 puntos aparecen y pierdes 1 dólar de otro modo.
8.6 Considere el siguiente juego. Una moneda balanceada es lanzada hasta que un águila
aparece. Si un águila aparece en el primer lanzamiento, ganas 1 dólar. De otro modo,
ganas n dólares, donde n es el número de lanzamientos requerido para obtener un
águila. ¿Cuál es tu ganancia esperada?
8.7 Sean X1,, Xn variables aleatorias independientes las cuales son uniformemente
distribuidas sobre (0,1). Encontrar el valor esperado de mín (X1,, Xn) y máx (X1,,
Xn).
ESPERANZA 279
8.8 Sean X1,, Xn como en el Problema 8.7. Encontrar el valor esperado de Yk, el k-ésimo
más pequeño de X1,, Xn.
8.9 Sea X cualquier variable aleatoria acotada, eso es, cualquier variable aleatoria para la
cual Pr (a < X b) = 1 para algunas constantes a y b. Para n = 1, 2,, defina una
variable aleatoria Xn por
Xn = k2n si k 1 < X2n k
Mostrar que lim E(Xn) = E(X) cuando n . Sugerencia: Esto se sigue fácilmente de
la definición de la integral de Riemann-Stieltjes.
8.10 Sea X cualquier variable aleatoria para la cual E(X) está definida, y para cualquier
entero n = 1, 2, sea Xn = X si X n y Xn = 0 si X > n. Mostrar que lim E(Xn) = E(X)
. Sugerencia: De nuevo, esto se sigue fácilmente de la definición de la integral de
Riemann-Stieltjes.
8.11 Permita que X tenga una función de distribución F, donde F(x) = 0 para x < 0 y F(x) = 1
(1 + x)2 para x 0. Encontrar la E(X).
8.12 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar las esperanzas de
cos 2X y cos (2X)2.
8.13 Permita que X tenga la distribución gama con parámetro = 2 y = 1. Encontrar la
esperanza de 1/X. Comparar su respuesta con 1/E(X).
8.14 Sea X una variable aleatoria, y sea D un intervalo para el cual Pr (X D) = 1. Permita
que X tenga densidad f la cual es continua sobre D, y sea w una función continuamente
diferenciable para la cual w´(x) 0 para cualquier x D. Sea Y = w(X). Mostrar
directamente que
E Y wx f x dx
D
8.15 Probar el Teorema 8.2.2 en el caso especial que X y Y tengan una densidad conjunta.
8.16 Si k bolas son ubicadas en n celdas de acuerdo a la estadística de Maxwell-Boltzmann
(cualquier bola es igualmente verosímil para ir dentro de cualquier celda), encontrar:
(a) El número esperado de bolas en la primera celda.
(b) El número esperado de celdas vacías.
8.17 Repita el Problema 8.16 para la estadística de Bose-Einstein (ver Sección 1.6).
8.18 Derive la desigualdad de Schwarz. Si X y Y son cualesquiera variables aleatorias para
las cuales E(X2) y E(Y2) son ambas finitas, entonces E(XY)2 E(X2)E(Y2). Sugerencia:
E[(X tY)2] es no negativa para toda t R. Encontrar su mínimo por diferenciación.
8.19 Derive la desigualdad de Minkowski. Si X y Y son variables aleatorias para las cuales
280 PROBLEMAS
i 1
8.32 Sean X1,, Xn variables aleatorias independientes con varianzas positivas finitas
12,, n2, respectivamente. Encontrar 1,, n las cuales minimizan la varianza de
1X1 + + nXn, sujeto a la restricción 1 + + n = 1.
Sea X una variable aleatoria positiva con media finita y varianza 2. Entonces, el cociente
/ es conocido como el cociente señal-a-ruido. Encontrar el cociente señal-a-ruido para las
distribuciones (a) gama; (b) Rayleigh; (c) Pareto; y (d) Poisson. Sus respuestas involucrarán
a los parámetros de estas distribuciones.
8.34 Si X tiene una distribución exponencial con varianza 2 = 1, encontrar Pr (X 1).
Sugerencia: Encontrar .
8.35 Considere tres básculas. Si un objeto es pesado en cualquiera de las tres básculas, el
resultado es una variable aleatoria normalmente distribuida cuya media es el verdadero
peso del objeto. Las varianzas de las tres máquinas son diferentes. De hecho, ellas son
12 = 1, 22 = 2, y 32 = 3. ¿Obtendría una estimación más precisa del verdadero peso
de un objeto pesándolo en la báscula 1 o pesándolo en las básculas 2 y 3 y usando el
promedio? (Suponga que los errores cometidos por las tres básculas son
independientes.)
8.36 Considere dos marcas de focos. La marca A se funde con una longitud de tiempo
normalmente distribuida con media A = 100 horas y desviación estándar A = 1 hora.
La marca B se funde con una longitud de tiempo distribuida normalmente con media B
= 102 horas y desviación estándar B = 10 horas. ¿Cuál marca tiene la mayor
probabilidad de fundirse para más de 90 horas?
8.37 Sea X una variable aleatoria con esperanza finita. Mostrar que E(X a) es mínima
cuando a es una mediana de X.
8.38 Suponer que la masa es distribuida sobre el intervalo I = (0,1] de acuerdo a una
distribución masa F. Eso es, suponer que la cantidad de masa en el intervalo (a,b] es
F(b) F(a) para 0 a b 1, donde F es una función continua por la derecha no
decreciente. El centro de gravedad está definido para ser ese número a que minimiza
x a dF x . Derive una expresión para el centro de gravedad. Comente sobre
1 2
0
2
2 x 2 dF x x dF x F 1 F 01
1 1
0 0
282 PROBLEMAS
8.40 Si X es una variable aleatoria con momentos 1, 2,, definimos los momentos
centrales de X por k = E[(X )k], k = 1, 2,, donde = 1 es la media de X. Exprese
los momentos centrales como combinaciones lineales de los momentos ordinarios 1,
2,.
8.41 La asimetría y curtosis de una variable aleatoria X son definidos para ser
s = 3 -3 y k = 4 -4 3
donde k denotan los momentos centrales de X y 2 = 2 denota la varianza de X.
Derive las siguientes dos propiedades de asimetría y curtosis:
(a) Si Y = aX + b, donde a y b son constantes, entonces Y tiene la misma asimetría y
curtosis como X.
(b) Si X tiene una distribución normal entonces s = 0 = k.
Asimetría y curtosis pueden ser pensadas como medidas de que tanto la distribución de
X se desvía de la normalidad.
8.42 Calcular la asimetría y curtosis de X cuando X tiene cada una de las siguientes
propiedades:
(a) Binomial con parámetros n y p.
(b) Poisson con parámetro > 0.
(c) Uniforme sobre el intervalo (a,b) con a < b.
(d) Beta con parámetros y .
(e) Exponencial con parámetro .
8.43 Exprese los momentos de la función de distribución normal estándar en términos de la
función gama.
8.44 Permita que X tenga la distribución exponencial bilateral [con densidad f(x) = (/2)e- x,
< x < ].
(a) Encontrar la función generatriz de momentos de X.
(b) Encontrar los primeros cuatro momentos.
8.45 Si X tiene la función generatriz de momentos M(t) = (senh t)/t para t 0 y M(0) = 1,
¿cuál es la distribución de X?
8.46 Si X tiene una función generatriz de momentos M(t) = cosh t para < t < , ¿cuál es
la distribución de X?
8.47 Si X tiene función generatriz de momentos M(t) = exp (t + t2), ¿cuál es la función de
distribución de X?
ESPERANZA 283
k
n
8.56 Evaluar k j j para n y j arbitrarias.
8.57 Permita que U tenga la distribución uniforme sobre (0,1), y sea X = sen 2U y X = cos
2U. Mostrar que var (X + Y) = var X + var Y. ¿Son X y Y independientes?
8.58 Permita que X y Y tengan la densidad conjunta f(x,y) = 120xy(1 x y) para x > 0, y >
0, y x + y 1. Encontrar la correlación entre X y Y.
8.59 Más generalmente, permita que X y Y tengan la densidad conjunta f(x,y) = Cx - 1 y - 1(1
x y) - 1 para x > 0, y > 0, y x + y 1, donde C = ( + + )/()()(). Mostrar
que la correlación entre X y Y es .
8.60 Probar la Ecuación (5.7).
8.61 Probar el Lema 8.5.1.
8.62 Sean X y Y variables aleatorias independientes con media y y varianzas 2 y 2,
respectivamente. Sea W = X + Y y Z = X Y. Encontrar la correlación entre X y Z.
8.63 Permita que X1,, Xn tenga la distribución hipergeométrica multivariada (Ejemplo
284 PROBLEMAS
8.66 Use el resultado del Problema 8.65 para dar una prueba independiente del Teorema
2.4.1. Sugerencia: P(A) = E(IA).
9
9 TEOREMAS LÍMITES
Pr X r E X
r
(1.1)
2
Pr X 2 (1.2)
PRUEBA Aplicamos la desigualdad de Markov a Y = X con r = 2 y
encontramos que Pr (|X ) –2E{X 2} = –22. ////
EJEMPLO 9.1.1
a Denote X el número de águilas que resultan de n lanzamientos independientes de
una moneda que tiene probabilidad p de ocurrir en águila sobre cada lanzamiento, así
que X tiene la distribución binomial con parámetros n y p. Sea Y = X/n la frecuencia
relativa de águilas. Entonces
Pr Y p 01
. Pr X np 01
. n
npq 100 pq
2
(1.3)
0.01n n
puesto que la media y varianza de X son np y npq, respectivamente. Más aún, puesto
que pq = p(1 p) 1/4, 0 p 1, (1.3) puede ser además acotada por 25/n. Así, si n
1000, la probabilidad que Y difiera de p por más de 0.1 es a lo más 0.025 para cualquier
p posible.
b Si X tiene la distribución normal estándar, entonces Pr (X 2) = 1 Pr (2 < X <
2) = 0.046 1/20 por el Ejemplo 5.6.1a. La desigualdad de Chebyshev proporciona
sólo que Pr (X 2) 1/4, sin embargo. ////
Como este ejemplo indica, la desigualdad de Chebyshev puede horrorosamente sobreestimar
Pr (X ). De hecho, horrorosamente sobreestima Pr (X ) para la mayoría de las
distribuciones, aunque hay situaciones en las cuales es exacta (Problema 9.4). La virtud de la
desigualdad de Chebyshev es su generalidad, no su exactitud. La desigualdad de Chebyshev
es válida para cualquier variable aleatoria con una varianza finita, mientras que la estimación
más exacta Pr (X 2) 1/20 del Ejemplo 9.1.1b depende sobre X que tiene la distribución
normal estándar.
La desigualdad de Chebyshev apoya la interpretación de la varianza como una medida de la
tendencia de una variable aleatoria para desviarse de su media (Sección 8.3). En verdad, la
desigualdad de Chebyshev provee una cota sobre la probabilidad de que X se desvíe de su
media por más que en términos de y 2, la varianza de X.
En el caso extremo que 2 = 0 tenemos el siguiente corolario.
Corolario 9.1.2 Sea X una variable aleatoria con varianza 2 = 0. Entonces, Pr
(X = ) = 1, donde = E(X).
PRUEBA Si 2 = 0, entonces Pr (X ) = 0 para cualquier > 0 por la
desigualdad de Chebyshev. Dejando 0, tenemos entonces Pr (X > 0) = 0,
TEOREMAS LÍMITES 287
como se aseveró.
Otra variación útil sobre la desigualdad de Markov, la desigualdad de Bernstein, puede ser
establecida como sigue.
Teorema 9.1.2 Sea S cualquier variable aleatoria con una función generatriz de
momentos M. Entonces para cualquier s y cualquier t > 0, tenemos
Pr S s e st M t (1.4)
Pr S ns e nst M0 t
n
Pr S ns e nst M 0 t
n
Tabla 12
n
10 25 50 100
0.1 0.9512 0.8823 0.7785 0.6060
0.2 0.8177 0.6045 0.3655 0.1336
0.5 0.2728 0.0389 0.0015
y sea S = X1 + + Xn. La función generatriz de momentos de X1 es
E etX1 12 et 12 e t cosh t
para < t < , así que la función generatriz de momentos de S es M(t) = (cosh t)n
(Teorema 8.4.3). También, la media y varianza de X1 son 0 y 1, respectivamente, así que la
media y varianza de S son 0 y n. Haciendo s = n, ahora encontramos que t0 = n/n = , y por
tanto
n
Pr S n e cosh
2
(1.6)
para > 0. El lado derecho de (1.6) está dado en la Tabla 12 para varios valores de n y . ////
1
Xn X1 X n
n
E S n n y D S n n 2
2
1
2
1
E Xn E S n y D Xn D S n (2.1)
n n n
por el Lema 8.3.3. El punto para ser observado es que la varianza de X n es substancialmente
menor que esa de cada una de las Xi individuales si n es grande. Si recordamos que la
varianza es una medida de la tendencia de una variable aleatoria para desviarse de su media,
entonces vemos que el promedio X n tiende a desviarse mucho menos de que lo que las Xi
lo hacen. Esta simple observación es la base para los resultados de esta sección.
Decimos que una sucesión de variables aleatorias Y1, Y2, converge en probabilidad a otra
variable aleatoria Y cuando n si y sólo si
lim Pr Yn Y 1 (2.2a )
n
Pr Yn 1 1
n
X1 X n
Xn 1 n 1
n
2
Pr X n 1
2
D X n
n 2
x dF x
(2.3)
verdad, si A es un evento que puede ocurrir sobre cada uno de n ensayos independientes,
entonces la frecuencia relativa con la cual A ocurre es simplemente fn(A) = X n, donde Xi = 1
si A ocurre sobre el iésimo ensayo y Xi = 0 de otro modo, i = 1,,n,. Puesto que X1,... Xn
son independientes con una distribución común, el Teorema 9.2.2 afirma la convergencia de
X n a la media = E(Xi), que es simplemente P(A). Puesto que E(X1 ) es finita en este
2
Pr X n
n n y dF y
n
y varianza
n 2 n y 2 dF y n 2
n
(2.4)
Pr X n Pr X n n 12
Pr Y n n 1
2 Pr X n Yn (2.5)
Ahora, por la desigualdad de Chebyshev , Pr ( Yn n (1/2)) 4n2/n. Más aún, por
(2.4),
n 2 n y 2 dF y n n y dF y ny
n n
Pr Yn n 12 4 2 12 (2.6)
Pr X n Yn Pr X k Yk
n
k 1
n Pr X1 n
n x n dF x 1 x n x dF x
que tiende a cero cuando n , puesto que es la cola de una integral convergente. Así, hay
una n1 para la cual Pr ( X n Yn ) (1/2) para toda n n1. Combinando esta información con
(2.5) y (2.6), ahora vemos que Pr ( X n ) siempre que n máx(n0,n1). ////
no usó realmente la independencia de las Xi muy fuertemente. Sólo usó el hecho de que ellas
no estaban correlacionadas, que se sigue de la independencia pero es una condición mucho
más débil (ver Ejemplo 8.5.3). De hecho, todo lo que realmente es necesario es que las Xi
sean asintóticamente no correlacionadas en el sentido de que
lim C X i , X j 0 (3.1)
Pr X n 1
2
D X n
lim D X n 0 (3.2)
n
Ahora
2
1 n n
D X n C X i , X j
n i1 j 1
por el Teorema 8.5.2. Dada > 0, hay por (3.1) un entero m para el cual C(Xi,Xj) /2
provisto sólo que i j m. Más aún, por la desigualdad de Schwarz (Sección 8.5),
tenemos también
C X i , X j i j b
1
2
D X n b C X i , X j
n i j m
i j m
nmb n n m
2
n 2n 2
y (3.2) se sigue. ////
Si requerimos que las Xi en el Teorema 9.3.1 de hecho no sean correlacionadas, la suposición
de que sus varianzas sean acotadas puede ser relajada.
Teorema 9.3.2 Sean X1,... Xn variables aleatorias no correlacionadas con media
común y varianzas 12,,n2, respectivamente. Si hay constantes > 0 y < 1 tal
que
k 2 k k 1,, n n 1
1 1
1 sin ky dy
2
E Xk2 1
2
2
y E X j Xk
cos j k y cos j k y dy 0 para j k . Por tanto, las X i no
1 1
4 1
están correlacionadas y tienen media común = 0 y varianza común 2 = 1/2. Ahora se
sigue del Teorema 9.3.1 o del Teorema 9.3.2 que X n converge a = 0 en probabilidad, aun
cuando las Xk son altamente dependientes. ////
EJEMPLO 9.3.2
Sean X0,... Xn–1 no correlacionadas con media común E(Xi) = 0 y varianza E(Xi2) = 2, y
defina
k
Yk 2 j X k j
j 1
TEOREMAS LÍMITES 295
k
E Yk 2 j E X k j 0
j 1
1 4
k k
E Yk 2 4 j E X k2 j 4 j 2 1
3
k 2
j 1 j 1
m
C Yj ,Yk E Yj Yk 2 k j 4 i
i 1
que tiende a cero cuando k j . Por tanto, el Teorema 9.3.1 se aplica y afirma que Yn
converge a 0 en probabilidad cuando n . ////
Otra aplicación de la ley débil de los grandes números consiste en usar métodos
probabilísticos para probar un teorema famoso de análisis, el teorema de aproximación de
Weierstrass, que afirma que cualquier función continua sobre el intervalo cerrado [0,1]
puede ser uniformemente aproximada a cualquier grado deseado de exactitud por un
polinomio.
Teorema 9.3.3 Sea g cualquier función continua definida sobre el intervalo
cerrado [0,1]. Entonces hay una sucesión de polinomios gn, n = 1, 2,, para la cual
lim gn(p) = g(p) uniformemente en 0 p 1 cuando n .
PRUEBA Permita que Sn tenga la distribución binomial con parámetros n y
p, sea X n = Sn/n, y defina gn por
g n p E g X n
k 0 n k
n n k
k n n k
1 p
j k j
g
k 0 j 0 n k j
para 0 p 1 y n = 1, 2,. Así sólo necesitamos mostrar que gn converge a g
uniformemente cuando n tiende a infinito, eso es, para cada > 0, hay un entero n0 para
el cual gn(p) g(p) para toda n n0 y toda p, 0 p 1. Puesto que g es continua, g
es acotada y uniformemente continua. Por tanto, hay una constante b para la cual g(p)
b, 0 p 1, y dada > 0, hay una constante para la cual g(p1) g(p2) /2
296 EL TEOREMA DEL LÍMITE CENTRAL
Pr X n p pq
n 2
1
4n 2
para toda n = 1, 2, por la desigualdad de Chebyshev. Sea An el evento X n p < , y
sea I An la función indicadora de An, así que I An = 1 o 0 de acuerdo a X n p < o X n
p . Entonces I An g( X n) g(p) /2 por la selección de , así que
g n p g p E g X n g p
E I An g X n g p
+ E 1 I An g X n g p
2
Pr X n p 2b Pr X n p
2b
2 4n 2
que es menor que provisto que n b/ 2. ////
Los polinomios gn son conocidos como los polinomios de Bernstein, en honor a S. Bernstein,
a quien se debe esta prueba.
para toda a, < a < , donde denota la función de distribución normal estándar
12 x 2
e
a
a
dx
2
Eso es, si substraemos la media n = E(Sn) de Sn y dividimos la diferencia por la desviación
estándar n D S n , obtenemos una variable aleatoria S *n cuya función de distribución
Pr (Sn a) es aproximadamente la función de distribución normal estándar (a). Se sigue
que
a n
Pr S n a Pr S n
n
5
Pr S n a a
n 3
lim Pr a S n b b a
n
(4.2)
S np
lim Pr n (4.3)
n npq
para toda < . Por supuesto, (4.3) es simplemente el teorema límite de la integral de
DeMoivreLaplace, del cual aplicaciones prácticas fueron dadas en la Sección 4.5.
EJEMPLO 9.4.2
Suponer que n números son aproximados al entero más cercano y después sumados. Qué tan
grande podemos esperar encontrar una diferencia entre la suma de los números aproximados
y la suma de los números originales; eso es, ¿qué tan grande será el error total debido a la
aproximación?
Denote Xi el error introducido por la aproximación del iésimo número, i = 1,,n, y suponer
que X1,... Xn son independientes con una distribución uniforme común sobre el intervalo
(1/2,1/2]. Entonces X1,... Xn son idénticamente distribuidas con
1 1
21 x dx 0 y 2 21 x 2 dx 121
2 2
Puesto que el error total es Sn = X1 + + Xn, el teorema del límite central provee una
respuesta a nuestra pregunta. Por ejemplo, si n = 12, este afirma que Pr (1 < Sn 1) = Pr
(1 < S *n 1) es aproximadamente (1) (1) = 0.683. Más generalmente, muestra que
n
Pr
n
12
Sn
12
Pr S n
es aproximadamente () (), que es casi 1 para 3. Por tanto, el error de
aproximación crece como n en lugar de n. ////
El teorema del límite central puede ser visto como un suplemento a la ley débil de los
grandes números. En verdad, en la notación de la sección previa, tenemos
TEOREMAS LÍMITES 299
S n n
n
X n
n
S n
Así, si X1,... Xn son independientes e idénticamente distribuidas con media y varianza 2,
entonces X n converge a a la tasa 1/ n en el sentido de que ( n / )( X n ) tiene una
1
distribución que se aproxima a la normalidad.
El teorema del límite central también tiene implicaciones que conciernen a la clasificación
de juegos como limpios en la Sección 9.2. En verdad, si X1,... Xn denota las ganancias de n
jugadas de un juego, si la ganancia esperada = E(Xi) sobre cada jugada es = 0, y si la
varianza 2 = E(Xi2) es finita , entonces para cada > 0 tenemos, para n grande,
Pr S n a n Pr S n
a
a
1
a
Pr S n a n
así que la probabilidad de ganar al menos a n es aproximadamente la misma que la de
perder al menos a n .
En adición a las aplicaciones arriba citadas, el teorema del límite central tiene algunas
implicaciones importantes para la construcción de modelos. En verdad, establece que
cualquier variable aleatoria que está determinada como la suma de un número grande de
variables aleatorias independientes, idénticamente distribuidas con varianza finita tendrá
aproximadamente una distribución normal. Más aún, el requisito de que los sumandos sean
idénticamente distribuidos puede ser relajado al requisito de que cada uno contribuya
insignificantemente a la suma (Sección 9.4.1). Muchos fenómenos que ocurren naturalmente
pueden ser pensados de esta manera, eso es, como la suma de muchas desviaciones
independientes, cada una de las cuales contribuye poco. Por ejemplo, tales atributos como
las alturas y los coeficientes de inteligencia de los individuos son determinados por muchos
factores ambientales y genéticos independientes o casi independientes cada uno de los cuales
contribuye sólo en una pequeña cantidad. Del mismo modo, muchos errores de producción y
medida son la suma de varios errores independientes más pequeños.
Suponer ahora que deseamos construir un modelo para algún fenómeno del tipo de anterior.
Probablemente desearemos hacer algunas suposiciones acerca de la distribución del
fenómeno, y en vista del teorema del límite central, normalidad parece ser la suposición
natural. Por ejemplo, en los ejemplos antes mencionados, alturas, coeficientes de
1
2 Para un resultado relacionado, ver Sección 11.8.
300 EL TEOREMA DEL LÍMITE CENTRAL
n t
n
M n t exp t M
n
t n
log M n t n t (4.4)
n
t t
2 3
t t
2
16 t1
n n 2 n n
t 2 16 t1 t
3
log M n t (4.5)
2 3 n
TEOREMAS LÍMITES 301
Ahora, el último término en (4.5) contiene el factor 1/ n y por tanto tiende a cero cuando n
tiende a infinito, así que lim logM n t t 2 2 cuando n o, equivalentemente,
1 2
lim M n t lim exp log M n t e
t
2
n n
como se aseguró.
1
9.4.1 El Teorema de Lindeberg-
Hay una versión más general del teorema del límite central que permite a las variables
aleatorias X1,... Xn tener distribuciones diferentes. Es conocido como el teorema de
LindebergFeller y puede ser establecido como sigue.
Teorema 9.4.3 Sean X1,... Xn variables aleatorias independientes con funciones de
distribución F1,... Fn, medias 1,... n, y varianzas finitas 12,... n2. Sea
n 1 n n 2 12 n 2
n 2
lim n 2 x x k dFk x 0 (4.6)
n
k i
lim Pr S *n a a
n
(4.7)
1
3 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad.
302 EL TEOREMA DEL LÍMITE CENTRAL
x x k dFk x 0
2
n
para k = 1,... n, así que el lado izquierdo de (4.6) es de hecho igual a cero para n n0.
b Sean Y1,... Yn variables aleatorias independientes con función de distribución
común F, media común , y varianza positiva finita común 2, y sea Xk = kYk, k = 1,...
n. Entonces, la condición LindebergFeller es satisfecha.
Por simplicidad, consideramos sólo el caso donde = 0 y 2 = 1. En este caso k2 = k2,
así que
n 2 12 n 2 ~ 0 x 2 dx 13n3
n
k 2 x / n x 2 dF x
n
n
n 2 k 2 x / n x 2 dF x x / n x 2 dF x
k 1 n n
lim max n 2 k 2 0
k n
(4.8)
cuando n .
PRUEBA Podemos suponer que k = 0, k = 1,... n. Si es dada, 0 < < ½,
entonces tenemos
TEOREMAS LÍMITES 303
n
2 n 2 x x 2 dFj x (4.9)
n
j 1
para k = 1,... n. Ahora, por (4.6), hay una n0 para la cual el segundo término en la
última línea de (4.9) es a lo más 2n2 para n n0. Por tanto, para n n0, tenemos
n 2 max k 2 2 2
k n
n 2 4 k 1 13 4 n 1
n
k 1
Gn x F an x bn
n
es
para < x < . Ahora mostraremos como escoger las constantes an y bn de tal manera que
Gn se aproxime a un límite cuando n . Por simplicidad, consideraremos sólo el caso
donde F(x) < 1 para toda < x < . El caso donde F(b) = 1 para algún b (finito) es tratado
en los problemas al final de este capítulo.
Consideremos algunos ejemplos.
EJEMPLO 9.5.1
Suponer que F(x) = 1 x para x 1. En este caso podemos asignar an = n y bn = 0 para
obtener
n
x
Gn x 1
n
para anx 1, y se sigue fácilmente que
lim Gn x exp x
n
para toda x > 0 (ver Lema 4.3.1).
EJEMPLO 9.5.2
Sea F la función de distribución exponencial F(x) = 1 e–x para x 0. En este caso podemos
asignar an = 1 y bn = log n para obtener
n
e x
Gn x 1
n
para x –log n, así que
TEOREMAS LÍMITES 305
lim Gn x exp e x
n
para – < x < . ////
Estos ejemplos son más generales de lo que ellos puedan parecer en principio. De hecho,
tenemos el siguiente teorema.
Teorema 9.5.1 Suponer que existen constantes positivas c y para las cuales
1 F x ~ cx
cuando x . Defina an y bn por an = cn y bn = 0. Entonces
lim Gn x exp x x
n
(5.1)
cuando n . Si ahora expandimos (anx + bn) en una serie de Taylor alrededor de bn,
encontramos que
an x bn bn cn 1an x
donde cn es un valor intermedio y bn – cn anx. En particular, puesto que anbn–1
0, debemos también tener que cn bn y dcn 1an 1 cuando n por definición de
an. Exponenciando y usando las definiciones de an y bn, ahora encontramos que
1 F an x bn ~ c an x bn exp dbn dcn 1an x
donde exp dc 1
n
an x e x
c an x bn exp dbn
1 1
c an x bn exp log log n log d log c ~
n n
cuando n . Por tanto, cuando n ,
1 x
1 F an x bn ~ e
n
y
n
Gn x 1 1 F an x bn
1
n
~ 1 e x exp e x
n
como se aseguró. ////
EJEMPLO 9.5.3
Si F es la función de distribución normal estándar, entonces
1
1 F x ~
1 x2
e 2
x 2
REFERENCIAS
La prueba usual del teorema del límite central usa funciones características. Parzen (1960),
caps. 9 y 10, da tal prueba del Teorema 9.4.1 junto con los resultados preliminares sobre
funciones características. Feller (1966), cap. 15, da pruebas de los Teoremas 9.4.1, 9.4.3, y
9.4.4 vía funciones características.
308 PROBLEMAS
9.6 PROBLEMAS
9.1 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (1,1). Use la desigualdad de Chebyshev para estimar Pr ( X n 0.05).
¿Qué tan grande debe ser n para que la cota sea menor o igual a 0.05?
9.2 Permita que X tenga la distribución binomial con parámetros n y p, 0 < p < 1.
(a) Use la desigualdad de Chebyshev para estimar Pr ( X p 0.1), donde X = X/n.
(b) ¿Qué tan grande debe ser n para que la cota sea menor o igual a 0.05 para p, 0 < p <
1?
9.3 Sean X y Y variables aleatorias conjuntamente distribuidas con varianzas finitas y
coeficiente de correlación r. Si r = 1, entonces hay constantes a y b para las cuales Pr
(Y = aX + b) = 1. Mostrar esto y encontrar las constantes a y b. Sugerencia: Encontrar a
y b para las cuales X aY b tenga varianza cero.
9.4 Mostrar que si X es una variable aleatoria la cual es igual a >0 con probabilidad p y es
igual a 0 con probabilidad q = 1 p, entonces la desigualdad de Markov es, de hecho,
una igualdad. Mostrar que si X es igual cada una con probabilidad p < ½ y X = 0 con
probabilidad 1 2p, entonces la desigualdad de Chebyshev es una igualdad.
9.5 Sean X1,, Xn independientes con media , varianza 2, y cuarto momento central
finito = E[(X1 )4]. Mostrar que E[(X1 )4] 34/n2 + /n3.
TEOREMAS LÍMITES 309
Pr X n para
9.6 Sean X1,, Xn como en el Problema 9.5. Mostrar que n 1
cualquier > 0.
9.7 Sean X1,, Xn variables aleatorias independientes con función de distribución común
F. Mostrar que si hay un número b para el cual F(b) = 1 y F(a) < 1 para cualquier a < b,
entonces máx (X1,, Xn) b en probabilidad cuando n .
9.8 Sean Xn y Yn variables aleatorias conjuntamente distribuidas. Mostrar que si Xn X y
Yn Y en probabilidad cuando n , entonces Xn + Yn X + Y en probabilidad
cuando n .
9.9 Si Xn y Yn son variables aleatorias conjuntamente distribuidas para las cuales Xn X y
Yn Y en probabilidad cuando n , mostrar que XnYn XY en probabilidad
cuando n .
9.10 Sean X1,, Xn variables independientes con media finita y varianza 2. Mostrar que
S n2
1
X i X n 2
n
9.17 Repita el Problema 9.1 usando el teorema central del límite en lugar de la desigualdad
de Chebyshev.
9.18 Repita el Problema 9.2 usando el teorema central del límite en lugar de la desigualdad
de Chebyshev.
9.19 Permita que Xn tenga la distribución Poisson con parámetro = n, y sea Yn = (Xn n)/
n . Mostrar que la función generatriz de momentos de Yn converge a la función
generatriz de momentos de la distribución normal estándar. ¿Qué sugiere esto?
9.20 Si X tiene la distribución Poisson con parámetro 100, estimar la probabilidad que 85
X 110.
9.21 Si X tiene la distribución gama con parámetros = 400 y = 1, estimar la probabilidad
que 390 X 450.
9.22 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente
distribuidas sobre (0,1), y sea Yn = máx (X1,, Xn). Mostrar que la función de
distribución de Zn = n(1 Yn) se aproxima a un límite, y evaluar ese límite.
Sea F una función de distribución, y sea b un número real para el cual F(b) = 1 y F(x) < 1
para x < b. Suponer también que hay números positivos c y para los cuales 1 F(x) c(b
x) cuando x b. Sean X1,, Xn independientes con función de distribución común
F, y sea Gn la función de distribución de an(b Mn), donde Mn = máx (X1,, Xn) y an
= n. Encontrar el límite de Gn cuando n .
9.24 Sean X1,, Xn variables aleatorias independientes las cuales tienen la distribución gama
con parámetros = k, un entero positivo, y = 1, y sea Mn = máx (X1,, Xn). ¿Cómo
deben an y bn ser escogidas para que la función de distribución de Mn* = (Mn bn)/an se
aproxime a un límite cuando n .
9.25 Sean X1,, Xn variables aleatorias independientes para las cuales Xk = k, cada una
con probabilidad ½, donde > 0, k = 1,, n. Mostrar que la condición Lindeberg-
Feller es satisfecha.
9.26 Sea Xk uniformemente distribuida sobre el intervalo (ak,ak), donde ak > 0, k = 1,, n.
Suponer también que ak 1, k = 1,, n, n 1. Mostrar que la condición Lindeberg-
Feller es satisfecha si y sólo si a12 + + an2 cuando n .
10
10 ESPERANZA Y DISTRIBUCIONES CONDICIONALES
Eso es, definimos h(y x) para ser la probabilidad condicional del evento Y = y dado que X =
x. Análogamente, si h(y) > 0, definimos la función masa condicional de X dado que Y = y por
la fórmula
f x , y
g x y x (1.1b)
h y
Observamos que para cualquier x D, la función h( x) define una función masa. En verdad,
permitiendo ser a E el conjunto infinito contable o finito para el cual h(y) > 0, encontramos
que f(x,y) h(y) = 0 para y E. Más aún,
312 FUNCIONES MASA Y DENSIDADES CONDICIONALES
g x
h y x
1
f x , y 1
yE g x yE g x
para x D por la Ecuación (2.3) del Capítulo 6. Más aún, si X y Y son variables aleatorias
independientes, entonces f(x,y) = g(x)h(y) para toda x y y, así que
h y x h y (1.2)
para < y < y x D. Por supuesto, los papeles de X y Y pueden ser intercambiados en la
discusión anterior.
EJEMPLO 10.1.1
a Sea un dado balanceado rolado n veces, denote X el número de ases que aparecen,
y denote Y el número de seises. Entonces
n x y
1 1 4
x y
n
f x , y
x , y , n x y 6 6 6
para todos los enteros no negativos x y y para los cuales x + y n (ver Teorema 4.1.2).
También,
n x
n 1 5
x
g x
x 6 6
para x = 0,,n, por el Teorema 4.1.1. Se sigue que
n x y
n x 1 4
y
h y x
y 5 5
y = 0,,n x y x = 0,,n. Así, la distribución condicional de Y dado que X = x es
binomial con parámetros n x y 1/5. Podemos interpretar este resultado como sigue:
dado que habían x ases, Y tiene la distribución del número de seises en n x
lanzamientos de un dado de cinco lados (sin ases).
b Sean X y Y variables aleatorias independientes que tienen distribuciones
binomiales, digamos
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 313
m
Pr X x p x q m x x 0, , m
x
n
Pr Y y p y q n y y 0, , n
y
y sea Z = X + Y. Entonces, la distribución condicional de X, dado que Z = z donde z =
0,,m + n, es hipergeométrica. Indudablemente, tenemos
m n z m n z
Pr Z z p q
z
para z = 0,, m + n, así que
Pr X x , Z z
g x z
Pr Z z
Pr X x Pr Y z x
Pr Z z
m x m x n z x n z x m n
p q p q
x z x x z x
m n z m n z m n
p q
z z
n
para x = 0,, m y z = 0,, m + n. [Recuerde que 0 si k < 0 ó k > n.] ////
k
Ahora consideremos el caso absolutamente continuo. Así, permita que X y Y tengan densidad
conjunta f, y denoten g y h las densidades marginales de X y Y, respectivamente. Sea D el
conjunto de x R para los cuales g(x) > 0. Entonces para x D definimos la densidad
condicional de Y dado que X = x por la fórmula
f x , y
h y x y (1.4a )
g x
y análogamente, si h(y) > 0 definimos la densidad condicional de X dado que Y = y por la
fórmula
f x , y
g x y x (1.4b)
h y
Como en el caso discreto, h(·|x) define una densidad para cada x D, y
314 FUNCIONES MASA Y DENSIDADES CONDICIONALES
f x , y h y x g x (1.5)
para < y < y x D. Más aún, si X y Y son independientes, entonces f(x,y) = g(x)h(y)
define una densidad para X y Y, en cuyo caso
h y x h y (1.6)
para < y < y x D. Por supuesto, los papeles de X y Y pueden ser intercambiados en la
discusión anterior.
Hay dos elementos inusuales en el caso absolutamente continuo. Primero, h(y | x) no da ya la
probabilidad condicional del evento Y = y dado el evento X = x. Ambos eventos tienen
probabilidad cero. Más aún, hay alguna ambigüedad en la definición de h(y | x) y g(x | y),
puesto que hay alguna ambigüedad en la selección de f (recuerde que una densidad puede ser
cambiada sobre un conjunto finito sin afectar su integral). Realmente debemos referir a h(·|
x) y g(·| y) como densidades condicionales con respecto a f, pero la frase nominadora será
omitida.
EJEMPLO 10.1.2
Permita que (X,Y) tenga la distribución uniforme sobre el círculo unitario. Eso es, permita
que X y Y tengan la densidad conjunta
f x , y 1 x2 y2 1
g x 2 1 1 x 2 1 x 1
y g(x) = 0 para otros valores de x (ver Ejemplo 6.2.3). Se sigue que para 1 < x < 1,
h y x
1
1 x2 y 1 x2
2 1 x 2
Para ver esto debemos primero encontrar una densidad conjunta para X y Z y la densidad
marginal de Z. Una densidad conjunta para X y Y es
d x , y 2e x y
para x > 0 y y > 0, y d(x,y) = 0 para otros valores de x y y por independencia. Así, por el
Teorema 7.4.1, una densidad conjunta para X y Z es f(x,z) = d(x, z x), la cual se simplifica a
f x , z 2 e z
para 0 < x < z y f(x,z) = 0 para otros valores de x y z. La densidad marginal de Z puede ser
ahora calculada por una integración directa (fue también encontrada en las Secciones 7.3 y
8.4) como
h z 2 ze z
g x z
1
z
para 0 < x < z, como se aseveró. ////
EJEMPLO 10.1.4
Permita que X y Y tengan la distribución normal bivariada estándar con parámetro
(coeficiente de correlación) r, 1 < r < 1. Entonces la distribución condicional de Y dado que
X = x es normal con media rx y varianza 1 r2. Para ver esto recuerde del Ejemplo 6.2.3
12 Q x , y
f x , y Cr e x
y
1 12 x 2
g x e x
2
donde Cr1 2 1 r 2 y
x 2 2rxy y 2
Q x , y
1 r2
Podemos escribir Q x , y x 2 z 2 , donde
316 FUNCIONES MASA Y DENSIDADES CONDICIONALES
y rx
z
1 r2
así que
1 y rx 2
h y x 2 Cr e
12 z 2 1
exp 2
2 1 r 2 2 1 r
para < x < y < y < , como se aseveró. Por supuesto, los papeles de X y Y pueden
ser intercambiados en este ejemplo. ////
Retornemos brevemente a las Ecuaciones (1.3) y (1.5). Por ejemplo, (1.5) establece que si X
y Y tienen densidad conjunta f, entonces
f x , y h y x g x (1.5)
h y x g x
g x y (1.8)
h y
para x D y h(y) > 0. Las Ecuaciones (1.7) y (1.8) pueden ser consideradas como
extensiones del teorema de Bayes para el caso absolutamente continuo, y la discusión
general del teorema de Bayes (Sección 3.2) se aplica a (1.7) y (1.8). Las fórmulas
correspondientes en el caso discreto,
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 317
f x , y h y x g x x D (1.3)
h y h y x g x (1.7a )
x D
h y x g x
g x y (1.8)
h y
para h(y) > 0 son, de hecho, simplemente restablecimientos del teorema de Bayes.
EJEMPLO 10.1.5
Permita que X tenga la distribución uniforme sobre el intervalo (0,1), y condicionalmente,
dado X = x, permita que Y tenga la distribución uniforme sobre el intervalo (0,x). Eso es, sea
g x 1 0 x 1
h y x
1
y 0 y x
x
Entonces
11
h y y dx log y
x
para 0 < y < 1, y
g x y
1
log y
x
para y < x < 1. Es interesante observar que la distribución condicional de X dado Y = y no es
uniforme, aun cuando la distribución condicional de Y dado X = x es uniforme.
h y x H y x
d
dy
para < y < y x D, siempre que la derivada exista. Además, definimos la función
1
masa condicional de X dado Y = y por medio de una variación sobre el teorema de Bayes.
Eso es, definimos
h y x g x
g x y (1.9)
h y
para x D y y E. Se sigue fácilmente que
g x y h y
h y x (1.10)
g x
para x D y y E.
Como en los casos absolutamente continuo y discreto, las relaciones
h y h y x g x y E (1.12)
xD
pueden ser obtenidas (ver Problema 10.21). Se sigue fácilmente que h(· | x) es una densidad
para cualquier x D y que g(· | y) es una función masa para toda y E. Más aún, si X y Y
son independientes, entonces Pr (Y y | X =x) = Pr (Y y) para < y < y x D, así que
h y x h y y E
x D (1.13)
por diferenciación, y
1
2 Es suficiente que la derivada exista en todos excepto un número finito de puntos.
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 319
g x y g x x D
y E (1.14)
por (1.9).
EJEMPLO 10.1.6
Sea Z una variable aleatoria absolutamente continua, y suponer que Z tiene una densidad
continua f la cual es positiva en todas partes. Calcularemos Pr (Z > 0 | |Z | = y) para y > 0.
Sea X la indicadora del evento Z > 0. Eso es, sea X = 1 si Z > 0, y sea X = 0 si Z 0.
También, sea Y = |Z |. Entonces, X tiene la función masa
h y f y f y y0
H y 0 Pr Y y X 0
Pr Z y Z 0
Pr y Z 0 F 0 F y
Pr Z 0 F 0
para y > 0. Por tanto,
f y
h y 0 y0
F 0
por diferenciación y análogamente,
f y
h y 1 y0
1 F 0
Pr Z 0 Z y Pr X 1 Y y g1 y puede ser ahora encontrada de la Ecuación
(1.9). Sin duda, tenemos
h y 1r1 f y
g1 y
h y f y f y
para y > 0. En particular, g(1 y) = ½ para toda y > 0 si f es simétrica, eso es, f(x) = f(x) para
320 FUNCIONES MASA Y DENSIDADES CONDICIONALES
toda x. ////
Algunas veces es natural describir una distribución mezclada conjunta especificando la
distribución incondicional de una variable y la distribución condicional de la otra. En tales
casos muchas probabilidades y probabilidades condicionales interesantes pueden ser
calculadas directamente de (1.9) a (1.12). Ilustraremos este procedimiento con algunos
ejemplos.
EJEMPLO 10.1.7
a Sea Y un punto seleccionado del intervalo unitario de acuerdo a la distribución
uniforme, y entonces permita que una moneda con probabilidad Y de ocurrir en águila
sea lanzada hasta que un águila aparezca. Denote X el número de lanzamientos
requeridos para obtener un águila. Entonces parece más natural describir una
distribución conjunta para X y Y especificando primero la densidad marginal de Y y
entonces la función masa condicional de X dado Y = y. De hecho, estamos dando que Y
tiene la distribución uniforme, así que
h y 1 0 y 1
g x y y1 y
x 1
para x = 1, 2, y 0 < y < 1. La función masa incondicional de X ahora puede ser
calculada de (1.11) para ser
1
g x 0 y1 y dy 0 1 uu x 1du
1 x 1 1
x x 1
para x = 1, 2,. (Aquí hicimos el cambio de variable u = 1 y.) La densidad
condicional de Y dado que X = x ahora puede ser calculada de (1.10) para ser
g x y h y
h y x x x 1 y1 y
x 1
g x
para 0 < y < 1 y x = 1, 2,.
b Ahora permita que Y tenga la distribución beta con parámetros > 0 y > 0, y
sea X el número de águilas en n lanzamientos independientes de una moneda que tiene
probabilidad Y de ocurrir en águila sobre cada lanzamiento. En este caso estamos
dando que Y tiene densidad
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 321
1
h y y 1 y
1
g x y y y x 1 y
n n x
1 n
g x 0 y ' 1 1 y dy
' 1
x
n ' '
x ' '
' '
para 0 < y < 1 y x = 0,, n. Así, la distribución condicional de Y dado X = x es de
nuevo beta , pero con nuevos parámetros, x y n x .
////
Pr Y B X x Pr Y y X x h y x (2.1)
yB yB
donde h(· x) denota la función masa condicional de Y dado X = x. Sin embargo, si X y Y son
absolutamente continuas (conjuntamente), entonces la probabilidad condicional de que Y
B dado que X = x no está definida porque el último evento tiene probabilidad cero. Ahora
definiremos la notación Pr (Y B | X = x) en el caso absolutamente continuo por una
fórmula análoga a (2.1). Sean X y Y conjuntamente absolutamente continuas , denote g la
322 PROBABILIDAD CONDICIONAL
Pr Y B X x B h y x dy (2.2)
H y x Pr Y y X x (2.3)
Pr Y 0 X x
1 a
dy
2a 0
1
2
1
3 Que esta definición de H es consistente con la dada en la Sección 10.1.1 se sigue de (1.9) y (1.10).
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 323
y rx
Pr Y y X x
1 r2
Pr Y A B X x Pr Y A X x Pr Y B X x
Pr Y B X x Pr Y B
Pr X ,Y B D Pr Y Bx X x g x dx
Pr X ,Y B Pr X ,Y B, X D
Pr X ,Y B , X D D B f x , y dy dx
x
D Bx
h y x dy g x dx
D Pr Y Bx X x g x dx
En particular,
Pr Y B D Pr Y B X x g x dx (2.6)
Pr X A,Y B AD Pr Y B X x g x dx
Pr Y B AD g x dx
Pr X AD Pr Y B
Pr X A Pr Y B
Pr Z z Pr X ,Y B D H z x g x dx
donde D denota el conjunto de x R para las cuales g(x) > 0. Diferenciación ahora muestra
que Z tiene densidad
f z D h z x g x dx
para z .
En el caso absolutamente continuo, donde Pr (X = x) = 0, es natural esperar Pr (Y B | X =
x) para ser el límite cuando 0 de Pr (Y B | |X x| ) = Pr (Y B, |X x| )/ Pr (|X
x| ). Ahora mostraremos que esto es de hecho el caso bajo algunas modestas
condiciones de regularidad.
Teorema 10.2.4 Sean X y Y variables aleatorias absolutamente continuas
conjuntamente, denote g la densidad marginal de X, y denote D el conjunto de x R
para las cuales g(x) >0. Además, sea B R y defina la función w sobre D por
w x Pr Y B X x x D
326 PROBABILIDAD CONDICIONAL
wa lim Pr Y B X a
cuando 0.
PRUEBA Puesto que g en a y g(a) > 0, tenemos (a , a + ) D para > 0
suficientemente pequeña. Más aún, para tal , tenemos
Pr Y B, X a a w x g x dx
a
Pr X a a g x dx
a
por la definición de una densidad. Ahora, por el teorema fundamental del cálculo,
1 a
lim g x dx ga
2 a
o
Pr X 1, Y a Pr Z a a f z dz
a
Pr Y a Pr Z a Pr Z a
Pr X 1, Y a f a
Pr X 1 Y a
Pr Y a f a f a ////
Z w X ,Y
E Z X x w x , y h y x (3.1)
yE
provisto que la suma converge absolutamente. Aquí h(· x) denota la función masa
condicional de Y dado X = x.
Análogamente, si X y Y son conjuntamente absolutamente continua, si g denota la densidad
condicional de X, y si D denota el conjunto de x R para las cuales g(x) > 0, entonces
definamos la esperanza condicional de Z dado X = x para x D por
provisto que la integral converge absolutamente. Aquí h(· x) denota la densidad condicional
de Y dado X = x.
Si X y Y tienen una distribución mezclada, entonces nosotros podemos también definir la
esperanza condicional de Z dado X = x por una versión apropiada de (3.1) o (3.2). De hecho,
si X es absolutamente continua y Y es discreta, entonces definimos E(Z | X = x) por (3.1); y si
328 ESPERANZA CONDICIONAL
E Z X x w x , y dH y x
(3.3)
h y x x x 1 y1 y
x 1
EY X x x x 1 0 y 2 1 y dy
1 x 1
E Z X x I B x , y dH y x
B 1dH y x Pr Y Bx X x
x
E 1Z1 2 Z2 X x 1 E Z1 X x 2 E Z2 X x
Más aún, si w1(x,y) w2(x,y) para toda y R, entonces E(Z1 | X = x) E(Z2 | X = x). En
particular, |E(Z1 | X = x)| E(|Z1| | X = x).
E Z X x E Z
La prueba es dejada como un ejercicio. Nuestro siguiente teorema asegura que dado X = x,
las funciones de X actúan como escalares en esperanzas condicionales.
u x w x , y h y x dy
u x E w X ,Y X x
como se aseveró. ////
Nuestro siguiente teorema y su corolario son los resultados más importantes de esta sección.
Teorema 10.3.4 Sean X y Y variables aleatorias conjuntamente distribuidas, y sea D
un subconjunto de R para el cual Pr (X D) = 1. También, sea Z = w(X,Y) una
variable aleatoria para la cual E(Z | X = x) está definida para cualquier x D. Si E(Z)
es finita, entonces
E Z D E Z X x dG x (3.5)
E Z w x , y f x , y
x , y D E
w x , y h y x g x
x , y D E
[ w x , y h y x ]g x
x D y E
E Z X x g x D E Z X x dG x
x D
E Z X X (3.6)
donde (x) = E(Z | X = x) para cada x D. El resultado del Teorema 10.3.4 ahora puede ser
establecido
E Z E E Z X (3.5' )
EJEMPLO 10.3.2
a Permita que X tenga la distribución uniforme sobre (0,1), y condicionalmente
dado X = x, permita que Y tenga la distribución uniforme sobre (0,x), 0 < x < 1, como
en el Ejemplo 10.1.5. Entonces, h(y x) = 1/x, 0 < y < x < 1, así que
EY X x
1 x
0
ydy 12 x
x
332 ESPERANZA CONDICIONAL
0 < x < 1. Eso es, E(Y | X) = 1 X. Puesto que E(X) = 1 , ahora se sigue que
2 2
EY E EY X E 12 X 1
4
2 x E{[Z x ]2 X x}
2 x E Z 2 X x x
2
(3.7)
D Z E D Z X D E Z X
En palabras, la varianza de Z es la esperanza de su varianza condicional más la
varianza de su esperanza condicional
PRUEBA Podemos suponer que E(Z) = 0, en cuyo caso D(Z) = E(Z2) = E[E(Z2 |
X)]. Más aún, por (3.7) E(Z2 | X) = 2(X) + (X)2, así que
E Z 2 E 2 X E X
2
(3.8)
Finalmente, E[(X)] = E(Z) = 0, por el Teorema 10.3.4, así que E[(X)2] = D[(X)]. El
teorema se sigue. ////
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 333
f x , y
h y x y Rn (4.1)
g x
Pr Y B X x B h y x dy (4.2)
Y finalmente, si Z = w(X,Y) es una variable aleatoria que está determinada como una función
de X y Y, entonces nosotros definimos la esperanza condicional de Z dado que X = x para x
D por
E Z X x zdK z x
(4.4)
donde K(· | x) denta la función de distribución condicional de Z dado X = x . Eso es, K(z | x)
= Pr (Z z | X = x) para z R y x D. La equivalencia de (4.3) y (4.4) puede ser establecida
aplicando el Teorema 8.2.1 a la distribución condicional de Y dado X = x y la función Z =
1
4 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad.
334 DIMENSIONES MAYORES
y
h y x g x
g x y (4.6)
h y
si h(y) > 0.
EJEMPLO 10.4.1
a Permita que X1,,Xm y Y1,,Yn tengan la distribución multinomial, digamos
f x1 ,..., x m , y1 ,..., y n
N x1
p1 pmm q1 1 qn n
x y y
x1 , , x m , y1 , , y n
N x1
g x1 , , x n p1 pmm r
x k
x1 , , x m , k
que se simplifica a
k q1 y1 qn yn
y1 , , y n r r
s1 sm r1 r1
x x m y1 y1
f x1 , , x m , y1 , , y n 1
s1 sm r1 rn
k
r1 rn
y yn
h y1 , , y n x1 , , x m 1
r1 rn
k
h y1 , , y n x hi yi x
n
i 1
para toda y = (y1,,yn) Rn y toda x D, entonces diremos que Y1,,Yn son independientes
condicionalmente dado X. En este caso, la densidad marginal de Y será
336 DIMENSIONES MAYORES
h y1 ,, y n D hi yi x g x dx
n
i 1
g x e x x0
y h y1 ,, yn x x n e x y1 yn
para yi > 0, i = 1,, n. La densidad marginal de Y = (Y1,,Yn) es entonces
h y1 , , y n 0 x n e x y1 yn e x dx
n!
0 x n e x 1 y1 yn dx
1 y1 yn n1
para yi > 0, i = 1,, n. [La igualdad final se sigue del cambio de variables x = x(1 + y1 +
+ yn) y la definición de la función gama.] Haciendo z = y1 + + yn, ahora se sigue de (4.6)
que la densidad condicional de X dado Y = y = (y1,,yn) es
g x y
1 z x n e 1 z x
n 1
n!
para x > 0 y yi > 0, i = 1,, n. Eso es, la distribución condicional de X dado Y = y es gama
con parámetros = n + 1 y = 1 + z. Por tanto,
n 1
E X Y y ////
1 z
Ahora consideraremos una extensión del Teorema 10.3.4. Sea X, Y y Z vectores aleatorios
absolutamente continuos conjuntamente, y denoten f, h, y g la densidad conjunta de X, Y, y
Z, la densidad marginal de X dado Y, y la densidad marginal de X, respectivamente. Además,
sea
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 337
W w X ,Y , Z
una variable aleatoria que está determinada como una función de X, Y, y Z, y suponer que las
esperanzas condicionales
x EW X x
v x , y E W X x ,Y y
existen siempre que g(x) > 0 y h(x,y) > 0. Como en la sección previa, denotaremos a las
variables aleatorias (X) y v(X,Y) por E(W | X) y E(W | X,Y), respectivamente, así que el
Teorema 10.3.4 (como extendido a dimensiones mayores) asegura que
EW E EW X E EW X ,Y (4.7)
Teorema 10.4.1 Con las notaciones y suposiciones del párrafo previo, nosotros
tenemos
E EW X ,Y X x EW X x
siempre que g(x) > 0. Eso es, E[E(W | X,Y) | X] = E(W | X).
PRUEBA Denote k(· | x,y) y l(·,· | x) la densidad condicional de Z dado X = x y Y
=y y la densidad condicional de Y y Z dado X = x, respectivamente. Entonces
f x , y , z f x , y , z g x l y , z x
k z x , y
h x , y h x , y g x h y x
v x , y w x , y , z k z x , y dz
w x , y , z l y , z x dz
1
h y x
E EW X ,Y X x
E v X ,Y X x v x , y h y x dy
338 TEORÍA DE DECISIÓN
donde la integral se extiende sobre las y para las cuales h(y x) > 0. Combinando estas
expresiones, encontramos
E E W X ,Y X x w x , y , z l y , z x dydz
EW X x
Pr X B B g x dx
1
5 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad.
2
6 Si A es finito, esto significa que L(a,x) debe ser continua debe ser continua en x para cada a.
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 339
h y D h y x g x dx
R E L Y , X
donde la esperanza es tomada con respecto a la distribución conjunta de X y Y. Por supuesto,
debemos suponer que la política es suficientemente regular para que la esperanza
definiendo a R( ) exista. Llamaremos a tales políticas políticas regulares, y consideraremos
sólo políticas regulares.
Una política regular 0 será denominada óptima si minimiza la pérdida esperada. Eso es, 0
es óptima si y sólo si
R 0 R
para cualquier otra política regular . La cuestión obvia entonces es: ¿Cómo podemos
determinar una política óptima? La respuesta la provee el siguiente teorema.
Teorema 10.5.1 Si la política regular 0 tiene la propiedad
E L 0 y , X Y y min E La , X Y y
aA
(5.1)
340 TEORÍA DE DECISIÓN
para cualquier y E, entonces 0 es óptima. Eso es, la política óptima puede ser
determinada permitiendo que 0(y) sea esa acción a A que minimiza la pérdida
esperada condicional dado Y = y para cada y E.
PRUEBA La prueba del teorema es fácil. Indudablemente, si es cualquier
política regular, entonces se sigue de (5.1) que
E L 0 y , X Y y E L y , X Y y
para cualquier y E. Por tanto, por el Teorema 10.3.4,
R 0 E E L 0 y , X Y y h y dy
E E L y , X
Y y h y dy R (5.2)
como se aseveró. [Si Y es discreta, la integral en (5.2) debe ser remplazada por una
sumatoria, pero el resultado es el mismo.] ////
EJEMPLO 10.5.1
Suponer que deseamos determinar la probabilidad de que una moneda caiga en águila. Aquí
podemos tomar al estado de la naturaleza para ser la probabilidad en cuestión, en cuyo caso
D = (0,1), el intervalo unitario abierto. Más aún, puesto que nos piden suponer el estado de
la naturaleza, podemos tomar el espacio de acciones para ser A = D = (0,1). Para la función
pérdida L, parece natural tomar
La , x c x a
2
(5.3)
o posiblemente
La , x c x a
donde c es una constante positiva. Consideraremos sólo la función pérdida (5.3) en este
ejemplo, dejando la otra función pérdida para un problema. Para aprender acerca del estado
de la naturaleza desconocido, podemos lanzar la moneda varias veces y contar el número de
águilas. Si lanzamos la moneda n veces y denota Y el número de águilas, entonces la
distribución condicional de Y dado X = x será binomial con parámetros n y x. Eso es,
tendremos
n
h y x x y 1 x
n y
y
matemática, supondremos que nuestra opinión a priori está adecuadamente representada por
una densidad beta, digamos
1
g x x 1 x
1
para 0 < x < 1, donde > 0 y > 0. Los parámetros y quizá sean seleccionados para
representar nuestra opinión a priori. Por ejemplo, la selección = = 6 puede ser apropiada
si tuviéramos una fuerte creencia de que X está cerca de ½, mientras que la selección = =
1 (la distribución uniforme) puede ser apropiada si tuviéramos muy poca opinión a priori
acerca de X.
Habiendo especificado el problema completamente, ahora lo resolveremos. El primer
paso es encontrar la distribución condicional de X dado Y. Por el Ejemplo 10.1.7b, esta es
beta con parámetros = + y y = + n y. Eso es,
' '
para 0 < x < 1 y = 0,... n. Enseguida, nosotros debemos minimizar la pérdida esperada
condicional
E La , X Y y c 0 x a g x y dx
1 2
con respecto a a. Por el Lema 8.3.1 sabemos que esto es hecho tomando
a E X Y y 0 xg x y dx
1
Finalmente, del Ejemplo 8.4.1a, sabemos que la esperanza de la densidad beta es /( + ).
Por tanto, la política óptima es
y
0 y E X Y y
n
Supongamos que deseamos decidir si una cantidad desconocida x es positiva o negativa. Más
precisamente, supongamos que todos los valores reales de x son posibles, en cuyo caso D =
R, y que se nos pide tomar una de las dos acciones a0 y a1, donde a0 representa la decisión de
que x 0 y a1 la decisión de que x > 0. También nosotros supondremos que no hay pérdida
por tomar una decisión correcta y que la pérdida por una decisión incorrecta es proporcional
a |x|. Eso es, nosotros tomamos nuestra función pérdida para ser
0 si a a0 y x 0 o a a1 y x 0
La , x
c x de otra manera
donde c es una constante positiva. Finalmente, nosotros suponemos que se nos permiten
hacer n mediciones sobre x, digamos Y1,,Yn, que están sujetas a error de medición. De
hecho, suponemos que dado X = x, Y1,,Yn son independientes y tienen la distribución
normal con media x y varianza 2. Finalmente, suponemos que nuestra opinión a priori
acerca de X está adecuadamente descrita por una distribución normal con media y varianza
2.
Sea L0(a,x) = L(a,x) L(a0,x), a A, x R. Entonces minimizamos E[L( (y),X)] con
respecto a si y sólo si minimizamos
E L0 Y , X E L Y , X E La0 , X
con respecto a , porque la diferencia es independiente de . Ahora L(a0,x) = 0 para toda x
R, y L0(a1,x) = cx para todo x R. Por tanto,
E L0 a0 , X Y y 0 (5.4a )
E L a , X
0 1 Y y cE X Y y (5.4b)
para toda y Rn. Por el Teorema 10.5.1, una política óptima es hacer (y) = a1 si y sólo si
(5.4b) es menor que (5.4a). Eso es,
a1 si E X Y y 0
0 y (5.5)
ao si E X Y y 0
2 nz 2
E X Y y
2 n 2
donde z = y = (y1 + + yn)/n.
Como en el problema anterior, el resultado (5.5), la forma general de la política óptima,
depende sólo de la función pérdida y no de otras especificaciones del problema.
población i, y los tamaños de las generaciones previas k0,,kn-1. Supondremos que f(0) > 0,
puesto que de otra manera la probabilidad de extinción es trivialmente cero.
Es fácil calcular E(Xn). Denote el número esperado de progenie de un sólo individuo. Eso
es, sea
jf j
j 0
Gn t E t X n Pr X n j t n
j 0
F t E t Zni f j t j
j 0
E t X n X 0 ,, X n1 F t
X n 1
Gn t E t X n E E t X n X 0 , , X n1
= E F t
X n 1
G n 1 F t
para 1 t 1. ////
Definamos Fn recursivamente por F1(t) = F(t), F2(t) = F F(t), y Fn(t) = Fn-1° F(t) para 1 t
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 345
para 0 < t < 1. Si f(j) > 0 para alguna j 2, entonces f(j)tj-1 < f(j) y consecuentemente F (t) <
F (1) = 1 para 0 < t < 1; y si f(j) = 0 para toda j 2, entonces F (t) = f(1), que es menor
que 1 porque f(0) > 0. Ahora, si < 1, entonces 1 = 1 F() = F ()(1 ) con < <
1 por el teorema del valor medio. Se sigue que F () = 1, contradiciendo la suposición de
que 1 (ver Figura 14).
346 PROCESOS RAMIFICADOS
REFERENCIAS
10.7 PROBLEMAS
10.1 Sea una muestra aleatoria de tamaño k extraída sin reemplazo de una urna que
contiene r bolas rojas, b bolas negras, y w bolas blancas (k n = r + b + w). También,
denoten X y Y el número de bolas blancas y rojas en la muestra, respectivamente.
Encontrar la función masa condicional de Y dado X = x para todos los posibles valores
de x. Interpretar sus resultados.
10.2 Sean X y Y variables aleatorias independientes que tienen la distribución Poisson con
parámetros > 0 y > 0, respectivamente. También, sea Z = X + Y. Mostrar que la
función masa condicional de X dado Z = z es binomial con parámetros n = z y p =
/( + ) para z = 0, 1, 2,.
10.3 Sean X y Y variables aleatorias independientes las cuales están geométricamente
distribuidas con el mismo parámetro p, 0 < p < 1, y sea Z = X + Y. Para z = 2, 3,,
encontrar la función masa condicional de X dado Z = z.
10.4 Sean dos dados balanceados lanzados, y sean X y Y la suma y el número máximo de
puntos que aparecen sobre los dos dados, respectivamente. Para y = 1, 6, encontrar
la función masa condicional de X dado Y = y.
10.5 Generalice el Problema 10.4 a tres dados.
10.6 Permita que X y Y tengan densidad Cauchy bidimensional
f x , y 1 2 1 x 2 y
3 , < x, y < . Encontrar la densidad condicional de X
ESPERANZA Y DISTRIBUCIONES CONDICIONALES 349
10.43 Sean X1,, Xn independientes con densidad común f, y denoten Y1,, Yn los valores
ordenados de X1,, Xn. Encontrar la densidad condicional de Y2,, Yn -1 dado Y1 = y1
y Yn = yn para todos los posibles valores de y1 y yn.
10.44 En el Problema 10.43 sea 1 < k < n, y encontrar la densidad condicional de Y1,, Yk -
1, Yk +1,, Yn dado Yk = y para todos los posibles valores de y. Comente sobre su
resultado.
10.45 Probar el siguiente resultado: si X1,, Xn son independientes con una función de
distribución común F, y si S = X1 + + Xn, entonces E(Xi S) = (1/n)S para i = 1,,
n.
10.46 Para estimar la intensidad x > 0 con la cual una substancia radiactiva decae, la
substancia es observada por t > 0 unidades de tiempo y el número de emisiones Y es
registrado. Suponer que la función masa condicional de Y dado X = x es h(y x) =
(1/y!)(tx)ye-tx para y = 0,1, 2, (ver Sección 7.6) y que la distribución a priori de X es
gama con parámetros > 0 y > 0. Si la pérdida por estimar x con a es (x a)2,
encontrar la política óptima y la pérdida esperada total incurrida por usar la política
óptima.
10.47 En el Problema 10.46 sea = 1 y = 1, y suponer que tú debes decidir si x 1 ó x >
1. Si hay pérdida unitaria para una decisión incorrecta y ninguna pérdida para una
decisión correcta, y si es observado que Y = 0, ¿cuál decisión haría?
10.48 Para estimar la probabilidad X con la cual una moneda cae águila, la moneda es
lanzada hasta que una águila aparece y el número de lanzamientos Y es registrado. Si
la distribución a priori de X es uniforme sobre el intervalo (0,1), y si la pérdida por
estimar X con a es (X a)2, ¿cómo estimaría X?
10.49 En el Problema 10.48 suponer que deseamos decidir si X ½ ó X > ½ y que la pérdida
para una decisión errónea es X ½ con ninguna pérdida para una decisión correcta.
Describe la política óptima.
10.50 Condicionalmente, dado X = x sean Y1,, Yn distribuidas normalmente con media x y
varianza 1, y sea X normalmente distribuida con media y varianza 2. Si la pérdida
incurrida por estimar X con a es X a, encontrar la estimación óptima de X.
10.51 En el Problema 10.50 encontrar la pérdida esperada en la que se incurre cuando la
política óptima es usada.
10.52 Mostrar que si Y y Z son condicionalmente independientes dado X, entonces E[w(Z)
X = x, Y = y] = E[w(Z) X = x] para todas las selecciones de x y y para las cuales las
esperanzas condicionales están definidas.
11
11 CAMINATAS ALEATORIAS1
para cualquier selección de los intervalos I1,,In para cualquier n = 1, 2,. También,
diremos que las variables aleatorias X1, X2, son idénticamente distribuidas si ellas tienen la
misma función de distribución.
Si X1, X2, son independientes e idénticamente distribuidas, denominaremos a la sucesión
de sumas parciales S0, S1, S2, , definida por S0 = 0 y
Sn X1 X n
1
1 Este capítulo trata un tópico especial y puede ser omitido.
354 SUCESIÓN INFINITA DE VARIABLES ALEATORIAS
para n = 1, 2,, una caminata aleatoria. Podemos considerar la sucesión S0, S1, S2, como
las alturas sucesivas de una partícula que se mueve una distancia vertical Xk en cada tiempo
total k, y es esta interpretación la que inspira el nombre de caminata aleatoria (ver Figura
15). Podemos también considerar a S0, S1, S2, como las ganancias acumuladas de un
jugador quien juega una sucesión de juegos independientes y gana Xk en el k-ésimo juego
para cualquier k = 1, 2,.
En el caso especial de que la distribución común de X1, X2, este dada por
Pr ( X k 1) p y Pr ( X k 1) q
donde 0 < p < 1 y q = 1 p, la caminata aleatoria será denominada simple. En este caso la
caminata aleatoria se puede mover por saltos unitarios. Hemos graficado una posible
realización de una caminata aleatoria simple en la Figura 15.
En este capítulo estudiaremos caminatas aleatorias en algún detalle. Comenzaremos con dos
observaciones útiles simples.
CAMINATAS ALEATORIAS 355
para k = 0, 1, 2,. Entonces S0 , S1 , S2 , es de nuevo una caminata aleatoria, y (
S1 , , Sk ) tiene la misma distribución como ( S1 , , Sk ) para cualquier k. Además, (
S1 , , Sk ) es independiente de ( S0 , , Sn ) para cualquier k.
a Sk b para k 0, , n 1 y Sn b
que el jugador gane todo el dinero de la casa después de exactamente n juegos del juego.
Requerimos la probabilidad del evento
Ba Bna
n0
puesto que los eventos B1a , B2a , son mutuamente excluyentes. En particular, tenemos
0 0 y c 1 (2.3)
CAMINATAS ALEATORIAS 357
puesto que B0c es cierto y Bn0 es imposible para cualquier n. Para 0 < a < c, calcularemos a
por el siguiente nuevo método. Derivaremos una ecuación diferencia que la a debe
satisfacer, y entonces resolveremos la ecuación diferencia sujeta a las condiciones frontera
(2.3).
Lema 11.2.1 Para 0 < a < c = a + b, tenemos a p a 1 q a 1 .
a P( Ba )
Pr ( Ba | X 1 1) Pr ( X 1 1)
Pr ( Ba | X 1 1) Pr ( X 1 1)
p a 1 q a 1
entonces
1 a
a (2.4)
1 a b
que
a 1 a 1
a a 0 ( k 1 k ) 1 k (2.5)
k 0 k 0
358 EL PROBLEMA DE LA RUINA DEL JUGADOR
1 si p 12
a lim (a ,b) a (2.6)
b
si p 12
donde (2.6) define a a. Eso es, un jugador inexperto (p < ½) con certeza pierde todo su
dinero contra una casa infinitamente rica, pero un jugador experimentado perderá con
probabilidad a donde = q/p y a es la fortuna inicial del jugador.
La Tabla 13 da los valores de a para ciertos valores de p y a.
Por ejemplo, un jugador quien inicia con a = 12 dólares y gana con probabilidad p = 0.6 es
virtualmente cierto para prosperar contra una casa infinitamente rica.
Ahora mostraremos que (2.6) da, de hecho, la probabilidad deseada. El primer elemento del
negocio es mostrar que a ,b es la probabilidad de que el jugador pierda cuando la casa
inicia con b dólares.
Lema 11.2.2 Sean a y b enteros positivos, y sea D el evento –a < Sn < b para
cualquier n = 1, 2,. Entonces P(D) = 0.
PRUEBA Para n = 1, 2,, sea Dn el evento que –a < Sk < b para k = 1,, n. Entonces
la ocurrencia de D implica la ocurrencia de Dn para cualquier n, así que P(D) P(Dn) para
cualquier n = 1, 2,. Sea c = a + b. Entonces
CAMINATAS ALEATORIAS 359
Pr (| Sc | c) p c q c 0
Sea Zk = Skc – Skc-c para k = 1, 2,. Entonces Z1, Z2, son independientes e idénticamente
distribuidas (Lema 11.1.1), y Pr (|Zk| c) = p c + q c = d, digamos, para cualquier k = 1, 2,.
Por tanto,
P( Dnc ) Pr ( a S k b , k 1, , nc)
Pr ( a S kc b , k 1, , n )
Pr ( c Z k c , k 1, , n )
n
Pr ( c Z k c ) (1 d ) n
k 1
para cualquier n = 1, 2,. Se sigue que P(D) (1 – d)n para cualquier n = 1, 2,, y
consecuentemente, que P(D) = 0. ////
a Sk b para k 1, ,n y Sn a
Así, Cab es el evento que el jugador pierda cuando la casa inicia con b dólares.
Corolario 11.2.1 P(Cab) = a ,b 1 a .
PRUEBA Sean Ba y D como en el Teorema 11.2.1 y Lema 11.2.2,
respectivamente. Entonces Ba, Cab, y D son eventos exhaustivos mutuamente
excluyentes, así que P(Ba) + P(Cab) + P(D) = 1. Además, P(D) = 0 por el Lema 11.2.2,
así que P(Cab) = 1 – P(Ba) = 1 a , como se aseveró. ////
Ahora probaremos que a proporciona la probabilidad de perder contra una casa
infinitamente rica. Sea Ca el evento que
Así, Ca es el evento de que el jugador pierda contra una casa infinitamente rica.
PRUEBA Defina los eventos Cab como en el anterior corolario. Entonces para a
fija, Cab implica Ca(b+1) para cualquier b, así que Ca1, Ca2, es una sucesión creciente
de eventos. Más aún, la unión de Ca1, Ca2, es simplemente Ca. Por tanto, por el
Teorema 2.5.1, tenemos
360 EL PROBLEMA DE LA RUINA DEL JUGADOR
Es posible ver el resultado del Teorema 11.2.2 en otra forma. Diremos que la caminata
aleatoria S0 , S1 , S2 , pasa a través o visita un entero a si
Puesto que el jugador pierde contra una casa infinitamente rica si y sólo si S0 , S1 , S2 , pasa
a través de –a, donde a es la fortuna inicial del jugador, se sigue del Teorema 11.2.2 que si a
es un entero positivo y p ½, entonces la probabilidad de que S0 , S1 , S2 , pase a través de –
a es 1. Por simetría, si a es un entero positivo y p ½, entonces la
Tabla 13
a
p 2 4 6 8 12
0.600 0.444 0.198 0.088 0.039 0.008
0.667 0.250 0.063 0.016 0.004
0.750 0.111 0.012 0.001
para n = 1, 2,. De este modo, Bn es el evento que Ak ocurra para alguna k n. Por lo tanto,
el evento
B Bn (3.2)
n 1
es el evento que infinitamente muchos de los eventos A1, A2, ocurran, porque B ocurre si y
sólo si Ak ocurre para alguna k n para cualquier n = 1, 2,. Denominaremos a B el evento
que An ocurre infinitamente a menudo, y escribiremos B = {An, i.m.}. La terminología B =
lim sup An es también usada.
En esta sección probaremos dos teoremas que relacionan la probabilidad de B a las
probabilidades de los eventos A1, A2,. Estos teoremas son conocidos como los lemas de
Borel-Cantelli.
Teorema 11.3.1 Sea A1, A2, cualquier sucesión infinita de eventos, y B = {An,
i.m}. Si
P( An ) (3.3)
n 1
entonces P(B) = 0.
PRUEBA Para cualquier n, tenemos así que B1, B2, es una sucesión
decreciente. Se sigue del Teorema 2.5.1 que
P( B) lim P( Bn )
n
Además,
P( Bn ) P( Ak )
k n
para cualquier n, así que la convergencia de la serie (3.3) implica que lim P(Bn) = 0
362 LOS LEMAS DE BOREL-CANTELLI
2n 1
P( An ) p n q n ~ (4 pq) n
n n
cuando n por la fórmula de Stirling (Sección 1.8). Si p ½entonces 4pq < 1, así que
P(A1) + P(A2) + Eso es, si p ½, entonces la probabilidad de que la caminata
aleatoria S0 , S1 , S2 , regrese a 0 infinitamente a menudo es cero. Si p = ½, entonces 4pq = 1
y la serie P(A1) + P(A2) + diverge. De hecho, si p = ½, entonces
Pr ( Sn 0, i.m.) 1
así que
CAMINATAS ALEATORIAS 363
nm
Bn Ak
k n
Para cualquier número real x, se tiene la desigualdad 1 – x < e-x, ya que el segundo
término en la expansión de la serie de Taylor de ex en x = 0 es positivo. Por tanto,
nm nm
P( Bn ) e P ( Ak ) exp P( Ak ) (3.5)
k n k n
nm
P( Bn ) lim exp P( Ak ) 0
m k n
f ( x) e x
para x > 0 y f(x) = 0 para x 0. Sea An el evento que Xn > a log n, donde a > 0. Entonces An
ocurre infinitamente a menudo con probabilidad 1 si a y An ocurre infinitamente a
menudo con probabilidad 0 si a > 1. De hecho, A1, A2, son independientes (puesto que An
está determinado por Xn), y
Es interesante que si A1, A2, son eventos independientes, entonces Pr (An, i.m.) es 0 o 1,
364 RECURRENCIA
11.4 RECURRENCIA
En esta sección justificaremos el enunciado del Ejemplo 11.3.1 que una caminata aleatoria
simétrica (p = ½), simple regresa a 0 infinitamente a menudo. De hecho, mostraremos que
una caminata aleatoria simétrica simple visita cualquier entero infinitamente a menudo.
Además, puesto que Bnj implica Sn = a, Bnj y Bj+1 ocurrirán simultáneamente si y sólo si
Bnj ocurre y
Sea Cn el evento definido por (4.2). Entonces P(Cn) = 1 por el Lema 11.1.1 y los
resultados de la Sección 11.2. Más aún, Bnj B j 1 Bnj Cn , así que
P( B j 1 ) P( Bnj ) P( B j ) 1
n 1
donde el último paso se sigue de la hipótesis de inducción. Por tanto, P(Bj) = 1 para
toda j = 1, 2, por inducción matemática.
Ahora se sigue fácilmente que P(B) = 1. De hecho, PB PB1 PB2 =
0 + 0 + = 0, así que P(B) = 1.
////
Eso es, Xn converge a X con probabilidad 1 si y sólo si P(C) = 1, donde C denota el conjunto
de s S para las cuales lim Xn(s) = X(s) cuando n . Equivalentemente, Xn converge a X
con probabilidad 1 si y sólo si P(D) = 0, donde D = C denota el conjunto1 de s S para las
cuales Xn(s) falla a converger a X(s) cuando n .
Teorema 11.5.1 Sean X, X1, X2, variables aleatorias que están definidas sobre
el mismo espacio de probabilidad. Entonces Xn converge a X con probabilidad 1
cuando n si y sólo si
1
2 Que C y D son eventos es mostrado en la prueba del Teorema 11.5.1.
366 CONVERGENCIA CON PROBABILIDAD1
Pr (| X n X | , i.m.) 0 (5.2)
donde Dj denota el evento que |Xn – X| 1/j infinitamente a menudo. Puesto que 1/j >
1/(j + 1) para cualquier j = 1, 2,debemos tener Dj Dj+1 para cualquier j. Eso es,
D1, D2, es una sucesión creciente de eventos. Como consecuencia del Teorema 2.5.1
se tiene que
P ( D j ) P ( D j 1 ) y P( D) lim P( D j )
j
El Teorema 11.5.1 tiene varios corolarios interesantes. Sean X, X1, X2, variables aleatorias
que están definidas sobre el mismo espacio de probabilidad, y sea > 0. Entonces el evento
que |Xn – X| para infinitamente muchos valores de n es
D Bn
n 1
donde Bn es el evento que |Xk – X| para alguna k n. Además, B1, B2, es una sucesión
decreciente de eventos , así que P(D) = lim P(Bn) cuando n . Por tanto, tenemos el
siguiente corolario.
Corolario 11.5.1 Sean X, X1, X2, variables aleatorias que están definidas sobre el
mismo espacio de probabilidad. Entonces Xn converge a X cuando n si y sólo si
para cualquier > 0 (Sección 9.2). Puesto que (5.3) implica (5.4), tenemos otro corolario.
Corolario 11.5.2 Sean X, X1, X2, variables aleatorias que están definidas sobre el
mismo espacio de probabilidad. Si Xn converge a X con probabilidad 1 cuando n ,
entonces Xn converge a X en probabilidad cuando n .
Para ver esto observe que Xn/n 0 con probabilidad 1 cuando n si y sólo si
Pr (| X n | n , i.m.) 0 para cualquier > 0 por el Teorema 11.5.1. Además puesto que X1,
X2, son independientes, la última condición es equivalente a
Pr (| X n | n) (5.5)
n 1
por los Teoremas 11.3.1 y 11.3.2. Así, necesitamos sólo mostrar que (5.5) es equivalente a la
finitud de m.
Sea Y el entero más grande que es menor que o igual a |X1–1|. Entonces 0 |X1–1| – Y < 1,
así que E(Y) es finita si y sólo si m = E(|X1|) es finita. Ahora
Pr (| X n | n) Pr (| X 1 | n) Pr (Y n)
así que
368 ALGUNAS DESIGUALDADES
Pr (| X n | n) Pr (Y n) E (Y )
n 1 n 1
Teorema 11.6.1 Sean X1,... Xn variables aleatorias independientes con medias E(Xi)
= 0, i = 1, n, y varianzas finitas i2 = E(Xi2), i = 1,, n. Entonces para cualquier
> 0,
2
Pr (max | S k | )
k n 2
donde 2 = 12 + + n2 es la varianza de Sn.
Observe que la desigualdad de Chebyshev da la misma cota para la probabilidad del evento
más pequeño, |Sn| .
PRUEBA Para k = 1,, n, sea Ak el evento que |Sk| y |Sj| < para j = 1,, k –
1. Entonces A1,,An son mutuamente excluyentes, y la unión A = A1 An es el
evento que |Sk| para alguna k = 1,, n. Por tanto,
n
Pr (max | S k | ) P( Ak ) (6.1)
k n k 1
CAMINATAS ALEATORIAS 369
Denote I Ak la función indicadora del evento Ak, k = 1,, n. Eso es, sea I Ak = 1 si Ak
ocurre, y sea I Ak = 0 si Ak no ocurre. Entonces 2 I Ak Sk2 I Ak para todas las posibles
realizaciones de X1,... Xn. Por tanto,
P( Ak ) E ( I Ak ) 2 E (S k2 I Ak ) (6.2)
E (S k2 I Ak ) E ( S n2 I Ak ) (6.3)
para k = 1,, n. Para ver esto observe que Ak está determinado por X1,... Xk y es por lo
tanto independiente de Sn – Sk = Xk+1 + + Xn. Así,
E[ I Ak S k (S n S k )] E ( I Ak S k ) E (S n S k ) 0
Por tanto,
E ( I Ak S n2 ) E ( I Ak S k2 ) E[ I Ak (S n S k ) 2 ] E ( I Ak S k2 )
para toda x, – < x < . Si X es una variable aleatoria con función de distribución F,
entonces (6.4a) es equivalente a
Pr ( X x) Pr ( X x) (6.4b)
370 ALGUNAS DESIGUALDADES
para toda x, – < x < . Así, X tiene una función de distribución simétrica (alrededor de 0) si
y sólo si X y –X tienen la misma función de distribución.
EJEMPLO 11.6.1
Si F tiene una densidad f para la cual f(x) = f(–x) para toda x, – <x< , entonces F es
simétrica. De hecho,
F ( x) f ( y) dy x f ( y) dy 1 F ( x)
x
para – < x < , y F es continua. En particular, las distribuciones normal estándar y Cauchy
sin simétricas alrededor de cero. ////
EJEMPLO 11.6.2
Si X1,... Xn son variables aleatorias independientes, todas las cuales tienen distribuciones
que son simétricas alrededor de 0, entonces (X1,... Xn) y (–X1,... –Xn) tienen las mismas
distribuciones. Consecuentemente, S = X1 + +Xn y –S = –X1 – –Xn tienen las mismas
distribuciones. Eso es, S tiene una distribución que es simétrica alrededor de 0. ////
Pr (max S k ) 2 Pr ( Sn )
k n
Pr ( M ) Pr ( M , Sn ) Pr ( M , Sn )
Pr ( Sn ) Pr ( M , Sn < ) (6.5)
Pr ( M , Sn < ) Pr ( Sn ) (6.6)
n
Pr ( M , S n < ) Pr ( Ak , S n < ) (6.7)
k 1
Aquí la igualdad de en medio se sigue del hecho que Sn Sk tiene una distribución
simétrica (Ejemplo 11.6.2), y la desigualdad final se sigue del hecho que Ak y Sn Sk >
0 implican Ak y Sn .
Substitución en (6.7) ahora produce
n
Pr ( M , S n < ) Pr ( Ak , S n )
k 1
Pr ( M , S n ) Pr ( S n )
Pr (min S k ) 2 Pr (S n ) (6.8)
k n
para > 0. Cuando se combina con la conclusión del Teorema 11.6.2, (6.8) produce el
siguiente corolario.
Corolario 11.6.1 Sean X1,,Xn como en el enunciado del Teorema 11.6.1. Entonces
para cualquier > 0,
Pr (max | S k | ) 2 Pr (| S n | )
k n
En el caso de una caminata aleatoria simétrica simple, los argumentos usados en la prueba
del Teorema 11.6.2 producen la siguiente igualdad.
Teorema 11.6.3 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y escriba
Mn = máx(S0, S1,,Sn) para n = 1, 2,. Entonces
372 ALGUNAS DESIGUALDADES
Pr (M a) Pr (S n a) Pr( S n a)
Pr ( Ak , S n a) Pr ( Ak , S n S k 0) P( Ak ) Pr ( S n S k 0)
P( Ak ) Pr ( S n S k 0) Pr ( Ak , S n S k 0)
Pr ( Ak , S n a)
Substitución en (6.9) ahora produce Pr (Mn a, Sn < a) = Pr (Mn a, Sn > a) = Pr (Sn >
a), como se aseveró. ////
El Teorema 11.6.3 tiene una aplicación interesante. Sea S0, S1, S2, una caminata aleatoria
simétrica simple. Si a es cualquier entero, entonces la probabilidad que S0, S1, S2, pase a
través de a es 1 por los resultados de la Sección 11.2. De hecho, la caminata aleatoria
visitará a infinitamente a menudo (Sección 11.4). Sea Na el tiempo en el cual la caminata
aleatoria pasa primero a través de a. Eso es,
Pr ( N a n) Pr (M n a) Pr (S n a) Pr (S n a)
entero que es menor que o igual a a2t, donde t > 0, y aplicamos el teorema del límite central
(Sección 4.5 y 9.4), encontramos
S a 1
Pr ( S n a) Pr n 1
n n t
cuando a . Más aún, el mismo límite es obtenido para Pr (Sn > a). Por lo tanto, hemos
encontrado la distribución límite de Na. Resumimos nuestros resultados en el siguiente
teorema.
Teorema 11.6.4 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y sea Na
el tiempo del primer paso a través de a. Entonces cuando a ,
1
lim Pr ( N a a 2 t ) 21
t
Teorema 11.7.1 Sea X1, X2, variables aleatorias independientes con medias 1,
2, y varianzas finitas 12, 22,. Si
k2
(7.1)
k 1 k2
Pr (| X n | , i.o.) 0
para cualquier > 0. Sea > 0 dado, y permita An sea el evento que X n . Además,
permita ser a Bn el evento que X k para alguna k, 2n-1 < k 2n. Entonces la
ocurrencia de An infinitamente a menudo implica la ocurrencia de Bn infinitamente a
menudo, y así será suficiente mostrar que Pr (Bn, i.m.) = 0. Ahora Bn implica que Sk =
X1 + + Xk k para cualquier k, 2n-1 < k 2n, lo cual (a su vez) implica que Sk
2n-1 para alguna k 2n. Se sigue de la desigualdad de Kolmogorov (Teorema 11.6.1)
que
2n
P( Bn ) Pr (max | S k | 2 n1 ) 4 2 4 n k2
k n k 1
Por lo tanto,1
2n
2
P ( Bn ) 4 4 n k2 4 2 4 n k2
n 1 n 1 k 1 k 1 2n k
Sea j = jk el entero más pequeño el cual es mayor que o igual a log2 k, el logaritmo de k
en base 2. Entonces
4 n 4 n ( 34 )4 j 2k 2
2n k n j
Por lo tanto,
2
k2
P( Bn ) 8
n 1 k 1 k2
la cual es finita por suposición. Por lo tanto, Pr (Bn, i.m.) = 0 por los lemas de Borel-
Cantelli (Teorema 11.3.1). El Teorema 11.7.1 se sigue. ////
En particular, la condición (7.1) es satisfecha si X1, X2, tienen la misma varianza 12 = 2
para toda k = 1, 2,.
Corolario 11.7.1 Sean X1, X2, variables aleatorias independientes con media
común y varianza (finita) 2 común. Entonces X n cuando n con
probabilidad 1.
1
3 El intercambio en el orden de las sumatorias está justificado porque los sumandos son no negativos. Ver Apóstol
(1957), p. 374.
CAMINATAS ALEATORIAS 375
Enseguida mostramos que si X1, X2, son idénticamente distribuidas, la suposición de que
ellas tienen una varianza finita puede ser omitida.
Lema 11.7.1 Sea a1, a2, una sucesión de números reales. Si lim ak = a cuando n
, entonces lim an a cuando n , donde an (a1 an ) / n para n = 1,
2,.
La prueba del Lema 11.7.1 será dejada como un ejercicio. El siguiente teorema es conocido
como la ley fuerte de los grandes números.
Teorema 11.7.2 Sean X1, X2, variables aleatorias independientes idénticamente
distribuidas, y denote F su función de distribución común. Si la media
x dF ( x)
X n ( X n Yn ) (Yn n ) (n )
k
k2 E (Yk2 ) k y 2 dF ( y) B y 2 dF ( y)
k
j
j 1
así que
k
k 2 k2 k 2 B y 2 dF ( y ) j
k 1 k 1 j 1
k 2 B y 2 dF ( y )
j 1 k j j
Más aún,
k 2 j 1 k 2 j 1 j 1 x 2 dx 2 j 1
k j k j 1
Se sigue que
2
k 2 k2 B y 2 dF ( y )
k 1 j j 1
j
2B | y | dF ( y )
j
j 1
2 | y | dF ( y ) 2 E (| X 1 |)
1
( S n n ) X n 0 (8.1)
n
con probabilidad 1 cuando n . Postulamos que si X1, X2, tienen una varianza positiva
finita 2, entonces la convergencia en (8.1) toma lugar a la tasa
an 2 2 n log (log n)
para n 3. Con mayor precisión, postulamos que
Pr (( S n n ) (1 )an , i.o.) 0 (8.2 a)
Pr (( S n n ) (1 )an , i.o.) 1 (8.2 b)
para cualquier > 0. Este resultado es conocido como la ley del logaritmo iterado.
Por supuesto, el resultado (8.2) se aplica a Sn también como a Sn. Combinando los
resultados para Sn entonces produce
Pr (| S n n | (1 )an , i.o.) 0 (8.3 a)
Pr (| S n n | (1 )an , i.o.) 1 (8.3b)
para cualquier > 0.
Teorema 11.8.1 Sean X1, X2, variables aleatorias independientes e idénticamente
distribuidas con media y varianza positiva finita 2. Entonces (8.2) se cumple.
PRUEBA Probaremos el Teorema 11.8.1 sólo en el caso que X1, X2, tengan
una distribución normal común. Además, no hay pérdida de generalidad en suponer que
= 0 y 2 = 1. En este caso Sn tendrá la distribución normal con media 0 y varianza n
para cualquier n (Ejemplo 8.4.7). Denote la función de distribución normal estándar.
Usaremos la relación
1 1 x2
1 ( x) ~ e 2 (8.4)
x 2
para infinitamente muchos valores de k, será suficiente mostrar que Pr (Ak, i.m.) = 0.
Ahora para n 3, an es una función creciente de n, así que Ak implica
max S n (1 )ank 1
nnk
P Ak 2 Pr S nk 1 ank 1 21 d k (8.5)
1
donde d k nk 1 ank 1 . Ahora, cuando k ,
2
puesto que nk ~ ck y log (log ck-1) = log[(k 1) + log c] ~ log k cuando k . Por la
selección de c tenemos (1 + )2c –1 > 1 + 2. Por lo tanto, tenemos
para todos los valores de k suficientemente grandes. Ahora se sigue de (8.4) y (8.6) que
1
1
1 d k
1
dk 2 k
para k suficientemente grande. Por lo tanto, k 1 P Ak . Así, Pr (Ak, i.m.) = 0 por
el Teorema 11.3.1. Esto establece (8.2a).
Ahora probaremos (8.2b). Sea > 0 dado y seleccione ´ > 0 tan pequeño y c > 1 tan grande
que
c 2
(1 ) 2 1 y 1 1 (8.7)
c 1 c
Entonces A1, A2, son eventos independientes, puesto que diferentes A´s son
determinadas por diferentes X´s.
CAMINATAS ALEATORIAS 379
c
~ 2(1 ) 2 log k
c 1
1 1
1 (d k ) 1 (2 log k ) ~
dk 2 k
S nk S nk 1 1 (1 )ank
para infinitamente muchos valores de k. Más aún, por (8.2a) aplicada a X1, X2,, la
probabilidad es 1 de que
S nk 1 1 32 ank 1 1
REFERENCIAS
Para un tratamiento más detallado de caminatas aleatorias simples, incluyendo un desarrollo
más completo del problema de la ruina del jugador, ver Feller (1968).
CAMINATAS ALEATORIAS 381
11.9 PROBLEMAS
11.1 Sea X1, X2, cualquier sucesión infinita de variables aleatorias todas las cuales están
definidas sobre el mismo espacio de probabilidad. Además, denote Fn la función de
distribución conjunta de X1,, Xn para n = 1, 2,. Mostrar que
Fn(x1,, xn) = Fn+1(x1,, xn,) (P.1)
para todo (x1,, xn) Rn y toda n = 1, 2,.
11.2 Una sucesión de funciones de distribución Fn, n = 1, 2,, que satisface la condición
(P.1) es denominada una sucesión consistente. Mostrar que si G1, G2, son funciones
de distribución univariadas y si Fn(x1,, xn) = G1(x1)G2(x2) Gn(xn) para todo (x1,,
xn) Rn y toda n = 1, 2,, entonces Fn es una sucesión consistente.
11.3 Un teorema famoso, conocido como el teorema de la consistencia de Kolmogorov,1
asegura que si F1, F2, es cualquier sucesión consistente de funciones de
distribución, entonces hay una sucesión de variables aleatorias X1, X2, tal que la
función de distribución conjunta de X1,, Xn es Fn para cualquier n. Use el teorema
de la consistencia de Kolmogorov y el Problema 11.2 para mostrar la existencia de
una sucesión infinita de variables aleatorias independientes que tengan funciones de
distribución preasignadas arbitrariamente.
1
4 Para una prueba, ver Neveu (1965), cap. 3.
382 PROBLEMAS
11.4 Para n = 1, 2,, sea fn una función de densidad n-dimensional, y denote Fn la función
de distribución de fn. Si
f n x1 , , x n f n 1 x1 , , x n , y dy (P.2)
para todo (x1,, xn) Rn y toda n = 1, 2,, entonces F1, F2, es una sucesión
consistente de funciones de distribución.
11.5 Para cada y R, sea gy una función de densidad univariada. Suponer también que
gy(x) está acotada y conjuntamente continua en (x,y). Sea H cualquier función de
distribución univariada, y defina fn(x1,, xn) = g y x1 g y x 2 g y x n dH y para
(x1,, xn) R y n = 1, 2,. Mostrar que f1, f2, satisfacen la condición (P.2).
n
11.6 Use el resultado del Problema 11.5 para deducir la existencia de variables aleatorias
Y, X1, X2, con las siguientes propiedades. La distribución de Y es normal y
condicionalmente dado Y = y, la distribución de X1,, Xn es esa de variables
aleatorias normales independientes con media común y y varianza común 1.
11.7 Encontrar una densidad conjunta para X1,, Xn en el Problema 11.6.
11.8 Mostrar la existencia de variables aleatorias X1, X2, con la siguiente propiedad. Para
cualquier n = 1, 2,, X1,, Xn tienen la densidad conjunta fn, donde fn(x1,, xn) =
n!/(1 + x1 + + xn)n +1 si xi > 0 para i = 1,, n y fn(x1,, xn) = 0 para otros valores
de (x1,, xn).
NOTA: Los Problemas 11.9 a 11.14 se refieren al problema de la ruina
del jugador, descrito en la Sección 11.2.
11.9 Sea N el tiempo en el cual el juego termina. Eso es, sea N = mínima n 0 para la cual
ya sea Sn = a ó Sn = b ó si tal n no existe. Observe que Pr (N < ) = 1 por el Lema
11.2.2. Mostrar que E(N) < .
Sea a = E(N). Mostrar que a = 1 + pa+1 + qa –1 para 0 < a < c.
11.11 Mostrar que E(N) = ab si p = ½.
11.12 Mostrar que
c 1 a
E N
a
q p q p 1 c
si p ½.
Mostrar que PrBna X 1 1 PBna11 y que PrBna X 1 1 PBna11 para 0 < a < c y n = 1,
2,.
CAMINATAS ALEATORIAS 383
Use el Problema 11.13 y la Ecuación (2.2) para mostrar que P(Ba X1 = 1) = P(Ba+1) y P(Ba
X1 = 1) = P(Ba -1) para 0 < a < c.
11.15 Sea X1, X2, cualquier sucesión de variables aleatorias independientes e
idénticamente distribuidas para las cuales Pr (X1 = 0) < 1. Mostrar que Pr (a < Sn < b
para toda n = 1, 2,) = 0 para cualquier a > 0 y b > 0.
NOTA: Los problemas 11.16 a 11.22 estudian la probabilidad de que una
caminata aleatoria simple siempre retorne al origen.
11.16 Sea S0, S1, S2, una caminata aleatoria simple, y sea B el evento que Sn = 0 para
alguna n = 1, 2,. Mostrar que P(B) = 1 p q. Sugerencia: Escriba P(B) = Pr (B
X1 = 1) Pr (X1 = 1) + Pr (B X1 = 1) Pr (X1 = 1).
11.17 Sea un = Pr (S2n = 0), y sea vn = Pr (Sk 0 para k = 1,, 2n 1 y S2n = 0) para n = 1,
2,. Además, sea u0 = 1 y v0 = 0. Mostrar que
n
u n vk u nk (P.3)
k 1
n
11.23 Sea A1 , A2, una sucesión infinita de eventos. Nosotros definimos
lim inf An n 1 k n Ak . Mostrar que (lim sup An ) = lim inf An .
11.24 Sea S = (0,1) el intervalo unitario abierto. Sea A2n = (0, 1 1/n) y A2n –1 = (0, 1/n) para
n = 1, 2,. Encontrar lim sup An y lim inf An.
11.25 Sea X1, X2, variables aleatorias independientes, sean J1, J2, intervalos, y sea An el
evento Xn Jn para n = 1, 2,. Mostrar que A1, A2, son eventos independientes.
11.26 Sean X1, X2, variables aleatorias independientes que son uniformemente
distribuidas sobre (0,1). ¿Cuál es la probabilidad de Xn < 1/n, i.m.; cuál es la
probabilidad de Xn < 1/n2, i.m.?
384 PROBLEMAS
11.27 Sean X1, X2, variables aleatorias independientes las cuales tienen la distribución
exponencial estándar. Sea Ba el evento Xn > log n + a log (log n), i.m. para a > 0.
¿Para cuáles valores de a se cumple P(Ba) = 1?
11.28 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y sea Nk el tiempo del k-
ésimo retorno al origen. Mostrar que N1 y N2 N1 son variables aleatorias
independientes.
11.29 Encontrar la función generatriz de N2. Encontrar Pr (N2 = n) para n = 1, 2,.
11.30 Mostrar que Xn X con probabilidad 1 cuando n si y sólo si sup k n X k X 0
en probabilidad cuando n .
11.31 Mostrar que Xn X con probabilidad 1 cuando n si y sólo si la siguiente
condición es satisfecha. Para cualquier > 0 y > 0, hay un entero n0 = n0(,) para el
cual Pr (Xk X para alguna k = n0,, n) para toda n n0.
11.32 Sea U una variable aleatoria que está uniformemente distribuida sobre (0,1). Sea Ank
el evento k 1 < nU < k para k = 1,, n y n = 1, 2,. Además, permita que X1, X2,
sean I A , I A , I A , . Mostrar que Xn 0 en probabilidad pero Xn no converge a 0
11 21 22
Pr X i 1 1
2 Pr X i 1 (1.1)
e interprete el evento Xi = 1 (Xi = 1) como aquel evento donde el jugador gana (pierde) el i-
ésimo juego para i = 1, 2,. Observe que cada juego es limpio en el sentido de que si el
jugador apuesta cualquier cantidad w en el i-ésimo juego, sus ganancias esperadas en el i-
ésimo juego son w Pr (Xi = 1) w Pr (Xi = 1) = 0.
Permitamos que el jugador empleé un sistema por lo cual entendemos una regla para
1
1 Este capítulo trata un tópico especial y puede ser omitido.
388 SISTEMAS DE JUEGO
puesto que el jugador gana la cantidad WkXk en el k-ésimo juego para k = 1, 2,.
Llamaremos a Yn la fortuna del jugador en el tiempo n.
EJEMPLO 12.1.1
El siguiente sistema ha fascinado a los jugadores por años: Dobla tus apuestas hasta que
ganes un juego; entonces retírate. Formalmente, sea W1 = w, una constante, y sea
w 2w 2n2 w 2n1 1 w
en los primeros n 1 juegos, pero el ganará 2n-1w en el n-ésimo juego. Por lo tanto, la
probabilidad es 1 de que el jugador ganará w.
Por supuesto, hay una trampa. El jugador debe tener tanto tiempo ilimitado como capital
ilimitado para emplear la estrategia de este ejemplo, porque el perderá los primeros n juegos
con probabilidad 2-n > 0 para cualquier n = 1, 2,. Por ejemplo, si un jugador inicia con una
reserva inicial de Y0 = 2m 1 dólares y no tiene crédito, y si el apuesta 1 dólar (w = 1) en el
primer juego, entonces (1.4) debe ser modificada a
MARTINGALAS 389
2 k 1 si X i 1 para i para k m
Wk
0 de otro modo (1.4 a)
En este caso el jugador perderá todo su dinero si el pierde los primeros m juegos, lo que
ocurre con probabilidad 2-m; y, como arriba, el ganará 1 dólar si el gana al menos 1 de los
primeros m juegos. Por lo tanto, sus ganancias esperadas son
1 Pr ganar 2m 1 Pr perder 1 1 2 m 2m 1 2 m 0
Por lo tanto, las ganancias esperadas usando el sistema (1.4a) son 0. La probabilidad de
ganar, 1 2-m, puede ser significativamente alta, sin embargo. ////
Ahora probaremos que en la ausencia de tiempo ilimitado ningún sistema de juego
convertirá una sucesión de juegos limpios en un juego favorable.
Teorema 12.1.1 Sean X1, X2, variables aleatorias independientes con distribución
común dada por (1.1), y sea Yn definida por (1.2) y (1.3) para n = 1, 2,. Además, sea
Xn = (X1,,Xn) para n = 1, 2,. Entonces
E Yn1 X n Yn (1.5)
E Yn Y0 (1.6)
para n = 1, 2,.
PRUEBA Primero probemos (1.5). Tenemos Yn+1 = Yn + Wn+1Xn+1 por (1.3), así
que
por el Teorema 10.3.1. Ahora Yn y Wn+1 están determinadas por Xn, y Xn+1 es
independiente de Xn. Por lo tanto,
E Yn X n Yn
12.2 MARTINGALAS
En la sección previa, definimos una sucesión de variables aleatorias Y0, Y1, para
representar las fortunas de un jugador quien juega una sucesión de juegos limpios, y
encontramos que tenían la propiedad
E Yn1 X 1 , , X n Yn (2.1)
para n = 1, 2,. Diremos que la sucesión Y1, Y2, es una submartingala con respecto a X1,
X2, si y sólo si
E Yn (2.2)
E Yn1 X n x n wn x n (2.3)
para todo xn Dn para cualquier n = 1, 2,. Suponemos que las esperanzas condicionales
en (2.3) pueden estar definidas por una de las recetas de la Sección 10.3. En la secuela
escribiremos (2.3) en la forma equivalente
E Yn1 X n Yn (2.3 a)
MARTINGALAS 391
(ver Sección 10.3). Además, diremos que Y1, Y2, es una martingala con respecto a X1,
X2, si y sólo si hay igualdad en (2.3) y (2.3a). Así, Y1, Y2, es una martingala con
respecto a X1, X2, si y sólo si (2.1) y (2.2) se cumplen para cualquier n = 1, 2,, y Y1,
Y2, es una submartingala con respecto a X1, X2, si y sólo si (2.2) y (2.3a) se cumplen
para cualquier n = 1, 2,. Observe que Y1, Y2, es una martingala con respecto a X1, X2,
si y sólo si Y1, Y2, y Y1, Y2, son ambas submartingalas con respecto a X1, X2,.
Donde no hay peligro de confusión, omitiremos la frase calificadora “con respecto a X1,
X2,.”
La sucesión Y1, Y2, de la sección previa es una martingala. Varios ejemplos
adicionales ahora serán dados.
Ejemplo 12.2.1
Muchas martingalas interesantes pueden ser construidas de variables aleatorias
independientes.
a Sean X1, X2, variables aleatorias independientes con esperanza común E(Xk) = 0
para k = 1, 2,. Entonces la sucesión de sumas parciales
Sn X1 X n n 1,2,
define una martingala. Observe primero que E Yn E S n 2 sn 2 2sn 2 para n =
1, 2,. Más aún, puesto que S n21 S n 2S n X n1 X n21 y
2
por los Teoremas 10.3.2 y 10.3.3, tenemos E S n21 X n E S n 2 X n E X n21 X n
S n2 n21 , donde la igualdad final también se sigue de los Teoremas 10.3.2 y 10.3.3.
Se sigue que E Yn1 X n E S n21 X n sn21 S n 2 n21 sn21 S n 2 sn 2 Yn para n =
392 MARTINGALAS
rn
Yn
rn bn
rn c
E Yn1 X n
rn rn bn
rn bn c rn bn rn bn c rn bn
rn
Yn
rn bn
para todo (x1,, xn) Rn para toda n = 1, 2, (ver Sección 6.3 y Problema 11.4). Sea g1,
g2, cualquier otra sucesión de funciones de densidad la cual satisface la condición de
consistencia (2.4), y suponga, por simplicidad, que fn(x1,, xn) es positiva para toda x =
(x1,, xn) Rn.
g n X 1 ,, X n
Yn n 1,2,
f n X 1 ,, X n
Entonces Y1, Y2, es una martingala. Para ver esto observe que una densidad condicional
para Xn+1 dado Xn = xn es
f n1 x n , y
h y x n
f n x n
g n+1 x n , y
E Yn1 X n x n h y x n dy
f n1 x n , y
g n+1 x n , y g x
dy n n
f n x n f n x n
Yn E Z X 1 ,, X n n 1,2,...
probabilidad que una bola roja sea extraída en la n-ésima extracción es Pr (Xn = 1). Todavía
más
donde la penúltima igualdad se sigue del Lema 12.3.1. Así, la probabilidad incondicional de
extraer una bola roja es la misma para cada extracción. ////
Lema 12.3.2 Sea Y1, Y2, una submartingala con respecto a X1, X2,. Si n y k son
enteros positivos para los cuales n < k, entonces
E Yk X n Yn
Por inducción, tenemos E Yk X n1 Yn1 , y por (2.3a) tenemos E Yn1 X n Yn .
Consecuentemente, E Yk X n E Yn1 X n Yn . Esto completa la inducción de la cual
la primera aseveración del lema se sigue. La segunda puede ser establecida por un
argumento análogo el cual usa (2.1) en lugar de (2.3a). Alternativamente, la segunda
aseveración del lema puede ser establecida aplicando la primera a las submartingalas
Y1, Y2, y Y1, Y2,. ////
Ahora daremos un método para construir submartingalas de martingalas.
Lema 12.3.3 Sea Y1, Y2, una martingala con respecto a una sucesión X1, X2,.
Entonces Y1, Y2, es una submartingala con respecto a X1, X2,. Si, además,
E(Yn2) < para toda n = 1, 2,, entonces Y12, Y22, es una submartingala con
respecto a X1, X2,.
PRUEBA El lema usa (2.1) y el Teorema 10.3.1. De hecho, tenemos
E Yn1 X n E Yn1 X n Yn para n = 1, 2,. Esto establece la primera aseveración,
y la segunda se sigue de un argumento similar. ////
396 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
N n si y sólo si X n Bn (4.2)
Si pensamos de X1, X2, como los resultados de una sucesión de juegos, como en la Sección
12.1, entonces podemos considerar a N como una regla la cual le dice a un jugador cuanto
tiempo continuar jugando las partidas, eso es, interrumpir después de la N-ésima partida. La
condición (4.1) entonces requiere que el jugador interrumpa en algún tiempo finito., y la
condición (4.2) requiere que la decisión de interrumpir después de la n-ésima partida
dependa sólo de los resultados de las primeras n partidas y no de los resultados de
cualesquiera partidas posteriores. Eso es, (4.2) requiere que al jugador no le sea permitido
mirar en el futuro.
EJEMPLO 12.4.1
Sea S0, S1, S2, una caminata aleatoria simple. Eso es, sean X1, X2, variables aleatorias
independientes e idénticamente distribuidas las cuales toman los valores 1 y 1 con
probabilidades p y q = 1 p, respectivamente, y sea Sn = X1 + + Xn para n = 1, 2,.
a Si p ½ y a es un entero positivo, entonces la variable aleatoria Na definida por Na
= mínima n 1 para la cual Sn = a ó si no existe tal n es un tiempo de interrupción
(con respecto a X1, X2,). Indudablemente, Na toma sólo valores enteros positivos o el
valor , y Pr (Na < ) = 1 por el Teorema 11.2.3. Más aún, el evento Na = n ocurre si y
sólo si Sk < a para k = 1, , n 1 y Sn = a, y el último evento está determinado por
MARTINGALAS 397
Aj Xj 1 B j Xn1 B j R n j
para j n. Por lo tanto, el evento N n es
A j X n1 B j R n j X n1 B j R n j
n n n
j 1 j 1 j 1
Así, el evento dado por N n está determinado por X1,, Xn en el sentido de (4.2). El
evento N > n es el complemento del evento N n, y así está determinado por X1,, Xn
también.
Ahora sea k un entero positivo, y sea M = mín(N,k). Entonces el evento dado por M = j
es el mismo como el evento N = j si j < k; es el evento que N > k 1 si j = k; y es
imposible si j > k. En cualquier caso, el evento dado por M = j está determinado por
X1,, Xn, como se requirió. ////
Ahora suponer que Y1, Y2, es una martingala y que N es un tiempo de interrupción con
398 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
respecto a la misma sucesión X1, X2,. Entonces podemos definir una variable aleatoria YN
haciendo YN = Yn si N = n, donde n = 1, 2,, y haciendo YN = 0 si N = . Equivalentemente,
podemos definir YN por la fórmula
YN Yn I An (4.3)
n1
Suponer primero que Y1, Y2, es una submartingala. Entonces Yn E Yk X n para n =
1,, k por el Lema 12.3.2. Más aún, puesto que I An está determinada por Xn, nosotros
también tenemos E Yk I An X n I An E Yk X n por el Teorema 10.3.3. Por lo tanto,
Yn I An I An E Yk X n E Yk I An X n
para n = 1,, k. Se sigue que
E YN E Yk I An E Yk I A1 I Ak
k
n1
MARTINGALAS 399
E YNk E Y1
para cualquier k = 1, 2,. Ahora cuando k , Nk N, y así parece razonable esperar que
E YNk E YN , dejando E(YN) = E(Y1).
Para instrumentar este programa, tendremos que imponer algunas condiciones adicionales
sobre la martingala Y1, Y2, y el tiempo de interrupción N. Requeriremos que
E YN (4.6 a)
lim E Yk I B 0
k
(4.6 b)
k
E Y1 E YN 1 I Bk E Yk I Bk (4.7)
por el Teorema 12.4.1. Puesto que el segundo término del lado derecho de (4.7) tiende
a 0 cuando k por la suposición (4.6b), será suficiente mostrar que el primero se
aproxima a E(YN). Denote F la función de distribución conjunta de N y YN. Entonces
400 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
E YN 1 I Bk 0 y dF x , y
k
la cual converge a
0 y dF x , y E YN
E Yk I Bk
2
E Yk Pr N k ck Pr N k
2
E S N E N (4.8)
PRUEBA Es posible deducir el Teorema 12.4.3 del Teorema 12.4.2, pero una
prueba directa es muy simple, y daremos una prueba directa. Suponer primero que X1,
X2, todas variables aleatorias no negativas. Denote An el evento N = n, y denote Bn el
evento N > n para n = 1, 2,. Entonces
n
E S N E S n I An E X k I An E X k I An
n 1 n 1 k 1 k 1 n k
E X k I An E X k I Bk 1 (4.9)
k 1 nk k 1
Aquí el intercambio en el orden de las sumas está justificado porque todos los
sumandos son no negativos.1 La justificación del intercambio de esperanzas y
sumatorias es más difícil, pero también puede ser justificado para variables aleatorias
no negativas.2 Ahora Bk-1 está determinado por X1,, Xk-1 por el Lema 12.4.1, y por lo
tanto Bk-1 es independiente de Xk. Se sigue que
E X k I Bk 1 E X k PBk 1 Pr N k
Por lo tanto,
E S N Pr N k E N
k 1
por el Corolario 8.1.2. Esto completa la prueba de (4.8) en el caso especial donde X1,
X2, son no negativas.
En el caso general, cuando X1, X2, no son supuestas no negativas por más tiempo,
primero aplicamos el caso especial a X1, X2, y deducimos que la serie en (4.9)
converge absolutamente. La convergencia absoluta de la serie es también suficiente
para justificar el intercambio en el orden de las sumatorias y el intercambio de
esperanzas y sumatorias. La prueba del Teorema 12.4.3 en el caso general entonces
procede como en el caso especial. ////
1
2 Ver, por ejemplo, Apóstol (1957), p. 374.
2
3 Ver, por ejemplo, Neveu (1965), pp. 3742.
402 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
ab.
Cuando p ½, los juegos ya no son limpios, así que la técnica usada arriba no puede parecer
ser aplicable. Es, sin embargo. Nosotros tenemos que ser sólo un poco inteligentes. Sea =
q/p. Entonces
E X i p q 1 1
así que
Yn Sn n 1,2,
define una martingala por el Ejemplo 12.2.1c. Puesto que YN máx ( c, -c) y N > k implica
Yk máx ( b, -a) por (5.1), se sigue del Ejemplo 12.4.3a y el Teorema 12.4.2 que E(YN) =
E(Y1) = 1. También, E(YN) = b + (1 ) -a por cálculo directo. Así,
1 a
(5.2)
1 a b
Haciendo b en (5.2), encontramos que la probabilidad de perder contra un oponente
infinitamente rico es
a
si p 1
lim 1
2
b 1 si p 1
2
Más aún, puesto que nosotros perdemos frente a un oponente infinitamente rico si y sólo si
Sn = a para alguna n = 1, 2,, tenemos
Pr S n a para alguna n 1,2, 1 (5.3)
si p ½. Eso es, en el lenguaje de la Sección 11.2, un paso a través de a es cierto si p ½ y
a > 0. Por simetría, un paso a través de a es cierto si p ½ y a > 0. ////
EJEMPLO 12.5.2
Podemos usar el Teorema 12.4.2 para calcular la distribución del tiempo del primer paso a
través de a (Ejemplo 12.4.1a). Suponer p ½, y sea a un entero positivo. Entonces el tiempo
del primer paso a través de a, Na = mínima n 1 para la cual Sn = a ó si tal n no existe, es
un tiempo de interrupción por el Ejemplo 12.4.1a. Para referencia posterior, observamos que
S Na a y
N a k implica Sk a (5.4)
Calcularemos la función generatriz de Na. Para t > 1, tenemos la identidad
404 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL
E t X i pt qt 1
Sea = (t) = pt + qt –1, y observe que (t) > 1 para t > 1. Se sigue del Ejemplo 12.2.1c que la
sucesión
t Sn
Yn n 1,2,
n
es una martingala. Por (5.4), YNa t a Na t a para t > 1, y Na > k implica Yk < ta/k ta
para t > 1. Por lo tanto, las condiciones (4.6) son satisfechas, y se sigue del Teorema 12.4.2
que E( YN a ) = E(Y1) = 1. Puesto que S Na a con probabilidad 1, tenemos
E Na t a (5.5)
para t > 1. Ahora para 0 < s < 1, sea
t 1
1
2qs
1 1 4 pqs2
Entonces t es una solución del a ecuación pt + qt –1 = s, y es fácilmente verificado que t > 1.
Substitución en (5.5) ahora produce
a
1 1 4 pqs2
E s Na
2qs
(5.6)
para 0 < s < 1. Así hemos encontrado la función generatriz P(s) = E( s N a ), 0 < s < 1, de la
variable aleatoria Na.
La función generatriz P unívocamente determina la distribución de Na (Sección 8.4.1). Por
ejemplo, la esperanza de Na es E(Na) = P´(1). Después de algunos cálculos, encontramos
que E(Na) = a/(p q) si p > ½ y E(Na) = si p = ½.
Si a = 1, la función generatriz P puede ser expandida por el teorema binomial generalizado
(Sección 1.7) como
1 12
Ps 4 pq s 2 n1
n
n1 2q n
1 12
Pr N1 2n 1 1n1 4 pqn
2q n
a 2n a n n a
Pr N a 2n a p q
2n a n a
para n = 1, 2,. Omitimos los detalles. ////
Pr maxYn a
n k
1
a
E Yk (6.1)
n k
Pr max Yn a a 1 E Yk (6.2 a)
Pr max Yn a a 2 E Yk
n k
2
(6.2 b)
para a > 0.
PRUEBA La desigualdad (6.2a) es una consecuencia del Teorema 12.6.1 y el
Lema 12.3.3, el cual asegura que si Y1, Y2, es una martingala, entonces Y1, Y2, es
una submartingala. La prueba de (6.2b) es semejante. ////
EJEMPLO 12.6.1
La desigualdad (6.2b) contiene la desigualdad de Kolmogorov (Sección 11.6) como un caso
especial. Indudablemente, si X1, X2, son variables aleatorias independientes con
esperanzas E(Xk) = 0 y varianzas finitas E(Xk2) para k = 1, 2,, entonces Sn = X1 + + Xn, n
= 1, 2,, define una martingala, así que
Pr max S n a a 2 E S k
n k
2
(6.3)
12.7 PROBLEMAS
NOTA: Los resultados de la Sección requieren la independencia de los
resultados X1, X2,. Los problemas 12.1 a 12.5 muestran cómo construir
sistemas de juego los cuales trabajan cuando los resultados exhiben un tipo
particular de dependencia.1
Sea una muestra aleatoria ordenada de tamaño n extraída sin remplazo de
una urna que contiene n bolas rojas y n bolas blancas. Suponer también que
tú ganas el i-ésimo juego si la i-ésima bola extraída es roja y que tú pierdes
de otra manera. Suponer también que te es permitido apostar cualquier
cantidad entre 1 y 10 dólares en cada extracción.
12.1 Sea Xi = 1 si la i-ésima bola extraída es roja, y sea Xi = 1 de otro modo. Mostrar que
Pr (Xi = 1) = ½ = Pr (Xi = 1) para i = 1,, n. Eso es, cada juego es limpio.
12.2 Suponer n = 2 y considere la siguiente estrategia. Tu apuestas w1 = 1 dólar en la
primera extracción. Si la primera bola extraída es roja, entonces tu también apuestas
w2 = 1 dólar en la segunda extracción; pero si la primera bola extraída es blanca,
entonces tu apuestas w2 = 10 dólares en la segunda extracción. Mostrar que tus
ganancias esperadas son 1.5 dólares.
12.3 Para cualquier n, uno puede emplear la siguiente estrategia. Apueste w = 10 dólares
1
4 Una aplicación más práctica de estas ideas puede ser encontrada en H. O. Thorp, “Beat the Dealer,” Blaisdell, Nueva
York, 1962.
408 PROBLEMAS
en aquellas extracciones que son extraídas cuando la urna contiene más bolas rojas
que bolas blancas, y apueste w = 1 dólar en las otras extracciones. Calcule las
ganancias esperadas que resulten de esta estrategia para:
(a) n = 3 (b) n = 4 (c) n = 5
12.4 La estrategia del Problema 12.3 es, de hecho, óptima. Eso es, produce la ganancia
esperada más grande. Verificar esto en el caso n = 2.
12.5 Sean X1, X2, variables aleatorias independientes con media común = 0. ¿Cuáles de
las siguientes sucesiones son martingalas con respecto a X1, X2,?
(a) Yn = Sn/n, n = 1, 2,
(b) Yn = Sn / n , n = 1, 2,
(c) Yn = X1 X2 Xn, n = 1, 2,
(d) Yn = exp Sn, n = 1, 2,
12.6 Sean Y, X1, X2, variables aleatorias con las siguientes propiedades. La variable
aleatoria Y tiene la distribución exponencial estándar, y para cualquier n = 1, 2, la
distribución condicional de X1,, Xn dado Y = y > 0 es esa de variables aleatorias
distribuidas exponencialmente, independientes con parámetro común y. Mostrar que
Yn = (n + 1 )/(1 + X1 + + Xn) es una martingala con respecto a X1, X2,.
Sugerencia: Calcule la E(Y X1,, Xn).
12.7 Sean X, X1, X2, variables aleatorias. Suponer que la variable aleatoria X tiene la
distribución normal con media y varianza 2 y que dado X = x, X1, X2, son
variables aleatorias independientes distribuidas normalmente con media x y varianza
1. Mostrar que la variable Yn = ( -2 + Sn)/(n + -2), n = 1, 2, es una martingala
con respecto a las variables X1, X2,.
12.8 Sean X1, X2, variables aleatorias independientes normal estándar, y sea Sn = X1 +
+ Xn. Mostrar que para cualquier R, Yn() = exp (Sn (1/2)n2) es una
martingala con respecto a X1, X2,.
12.9 Sea Yn() como en el Problema 12.8, y sea H cualquier función de distribución sobre
R. Mostrar que
Yn Yn dH
S n2
exp
Yn 2n 2
n 1
es una martingala con respecto a X1, X2,. Sugerencia: Aplique el Problema 12.9 con
H igual a la función de distribución normal estándar.
12.11 Sea N un entero positivo o una variable aleatoria valuada en infinito que está
determinada como una función de una sucesión X1, X2,. Suponer también que Pr (N
< ) = 1. Mostrar que N es un tiempo de interrupción con respecto a X1, X2, si y
sólo si el evento N n está determinado por X1,, Xn para cada n = 1, 2,.
12.12 Sean M y N tiempos de interrupción con respecto a la misma sucesión X1, X2,.
Mostrar que mín (N,M) y máx (N,M) son también tiempos de interrupción con
respecto a X1, X2,.
12.13 Sean X1, X2, variables aleatorias independientes idénticamente distribuidas las
cuales toman los valores 1 y 1 con probabilidades p y q = 1 p, respectivamente:
¿cuáles de las siguientes variables aleatorias son tiempos de interrupción?
(a) N = mínima n 1 para la cual Xn = 1 ó si tal n no existe.
(b) N = mínima n 1 para la cual Sn 10 ó si tal n no existe.
(c) N = mínima n 1 para la cual Sn+1 = 0 ó si tal n no existe.
Justifique sus respuestas.
12.14 Calcular E(SN) para la variable aleatoria N de la parte (a) en el Problema 12.13.
12.15 Sea Y1, Y2, una martingala, y sea N un tiempo de interrupción con respecto a la
sucesión X1, X2,. Suponer también que hay una constante b para la cual Pr (Yn b)
= 1 para toda n = 1, 2,. Mostrar que E(YN) E(Y1). Interprete su resultado en
términos de juego.
NOTA: Los Problemas 12.16 a 12.22 bosquejan una aplicación del teorema de la
interrupción opcional a la teoría de la renovación. Nosotros suponemos que los eventos
ocurren en el tiempo y que los tiempos entre eventos sucesivos son variables aleatorias no
negativas independientes e idénticamente distribuidos X1, X2,. Nosotros también
suponemos que X1 tiene una media finita positiva. El tiempo en el cual el n-ésimo evento
ocurre es entonces Sn = X1 + + Xn. Una aplicación particular es para la teoría de colas,
donde Sn es considerada como el tiempo en el cual el n-ésimo cliente entra a un negocio para
ser servido.
12.16 Sea t > 0 y N1 = mínimo entero positivo n para el cual Sn > t ó si tal n no existe.
Así, Nt 1 eventos han ocurrido por el tiempo t. Mostrar que N es un tiempo de
410 PROBLEMAS
12.23 Sea Y1, Y2, una martingala no negativa con esperanza común E(Yn) = 1. Mostrar que
Pr (Yk > a para alguna k 1) 1/a para a > 1.
12.24 Sean X1, X2, variables aleatorias independientes normal estándar, y sea Sn = X1 +
+ Xn para n 1. Además, sea cn(a)2 = (n + 1)[a2 + log (n + 1)] para n 1. Mostrar que
Pr (Sn cn(a), para alguna n 1) e a 2 . Sugerencia: Use los Problemas 12.23 y
2
12.10.
13
13 APÉNDICES
(a ,b) {x R : a x b}
(a ,b] {x R : a x b}
[a ,b) {x R : a x b}
[a ,b] {x R : a x b}
(a,b) será denominado el intervalo abierto de a a b; (a,b] será denominado el intervalo
abierto por la izquierda y cerrado por la derecha de a a b; [a,b) será denominado el intervalo
cerrado por la izquierda y abierto por la derecha de a a b; y [a,b] será denominado el
intervalo cerrado de a a b. Usamos (a,b) para denotar tanto al intervalo abierto desde a hasta
b como al par ordenado cuya primer componente es a y cuya segunda componente es b. El
significado de la notación (a,b) siempre será claro del contexto en la cual sea usada.
Si A y B son conjuntos, decimos que A es un subconjunto de B y escribimos A B si y sólo
si a A implica a B. Por ejemplo, Z R. Note que A = B si y sólo si A B y B A.
Hay un conjunto distinguido , denominado el conjunto vacío. Este conjunto no contiene
elementos y es subconjunto de cualquier otro conjunto.
Si A y B son conjuntos, entonces el conjunto B A = {a B: a A} es denominado la
diferencia. Es también conocido como el complemento de A con respecto a B. Cuando no
hay peligro de confusión, la frase calificadora “con respecto a B” será omitida y escribiremos
A´ para B A.
Si A y B son conjuntos, definimos su unión e intersección A B y A B como sigue: A B
consiste de todos los objetos a para los cuales a A ó a B, o ambas; y A B consiste de
todos los objetos a para los cuales a A y a B. La notación AB también será usada para A
B. Por ejemplo, si A = {0,1,2,3,4} y B = {3,4,5,6,7}, entonces A B = {0,,7} y A B =
{3,4}.
En general, si I es un conjunto y si Ai es un conjunto para cada i I, entonces definimos la
unión e intersección de la colección Ai, i I, como sigue. La unión I Ai consiste de todos
los objetos a para los cuales a Ai para algún i I; y la intersección I Ai consiste de todos
los objetos a para los cuales a Ai para toda i I. Si I = 1, 2,, n es el conjunto de los
primeros n enteros, entonces escribiremos
n n
Ai y Ai
i 1 i 1
( Ai ) Ai y ( Ai ) A
I I I I
n
sF ( P, g ) g( ti )[ F ( xi ) F ( xi1 )]
i 1
Por supuesto, sF(P,g) depende de t1,, tn también como de F, P, y g. Si lim sF(P,g) existe
cuando P se hace infinitamente fina, y si el límite es independiente de la selección de t1,,
tn, entonces diremos que g es integrable (Riemann-Stieltjes) con respecto a F sobre [a,b,], y
definimos la integral (Riemann-Stieltjes) de g con respecto a F sobre [a,b,] para ser
a g dF lim s F P , g
b
(B.1)
En el caso especial cuando F(x) = x para a x b, diremos que g es integrable sobre [a,b] y
escribiremos
a g x dx a g d F
b b
a g dF 1 a g1 dF 2 a g 2 dF
b b b
a g dF 1 a g dF1 2 a g dF2
b b b
Teorema B.3 Sea g integrable con respecto a F sobre [a,b]. Si a < c < b, entonces g es
integrable con respecto a F sobre [a,c] y [c,b]. Además,
a g dF a g dF c g dF
b c b
Teorema B.4 Sea F no decreciente sobre [a,b], y sean g y h integrables con respecto
416 APÉNDICE B. INTEGRACIÓN
a g dF a h dF
b b
EJEMPLO B.1
a Sea F0(x) = 0 para x < 0, y sea F0(x) = 1 para x 0. Si a < 0 < b, y si g es cualquier
función continua sobre [a,b], entonces
a g dF g 0
b
(B.2)
De hecho, dada > 0, hay una > 0 para la cual g(x) g(y) siempre que a x b,
a y b, y x y . Sea P cualquier partición de norma P , y sea P cualquier
refinamiento de P. Escriba P = {x0, x1,, xn} y seleccione i de modo que xi–1 < 0 xi;
además, sea xi–1 < ti xi para i = 1,, n. Entonces puesto que F(xj) F(xj-1) = 0 para j
i, tenemos s F0 P , g g ti ; más aún, puesto que ti , también tenemos g(ti) g(0)
. Ecuación (B.2) se sigue.
b Sean 1,,n y t1,, tn cualesquiera constantes con a < t1 < t2 < < tn < b.
Entonces la función F definida por
F ( x ) i F0 x ti
n
i 1
para a x b es una función escalera con saltos de altura i en los puntos ti para i =
1,, n. Por el Teorema B.2, Ejemplo B.1a, y traslación tenemos
a g dF i g ti
b n
i 1
EJEMPLO B.2 Suponer que F es continuamente diferenciable sobre [a,b]. Sea f = F´. Si
g es cualquier función sobre [a,b] para la cual fg es integrable sobre [a,b], entonces g es
integrable con respecto a F sobre [a,b] y
APÉNDICES 417
a g dF a fg dx
b b
(B.3)
En particular, (B.3) se cumple si g es continua sobre [a,b]. De hecho, si P = {x0, x1,, xn} es
cualquier partición de [a,b], podemos escribir F(xi) F(xi-1) = f(si)(xi xi-1) con xi-1 < si < xi
para i = 1,, n por el teorema del valor medio. Así si xi-1 ti xi, i = 1,, n, entonces
s F P , g g t i f si xi xi 1
n
i 1
f t i g t i xi xi 1 g t i f si f t i xi xi 1
n n
(B.4)
i 1 i 1
lim s F P , g a fg dx
b
Otros dos teoremas de interés dan las fórmulas para la integración por partes y cambio
de variables.
Teorema B.5 Sea g integrable con respecto a F sobre [a,b]. Entonces F es
integrable con respecto a g sobre [a,b], y
a g dF a F dg F bg b F a g a
b b
Teorema B.6 Sea g integrable con respecto a F sobre [a,b]. Además, sea h una
función creciente sobre un intervalo [,] con h() = a y h() = b. Finalmente, sean
Corolario B.1 Sean las hipótesis del Teorema B.6 satisfechas con F(x) = x, a x b,
y sea h continuamente diferenciable sobre [,]. Entonces
418 APÉNDICE B. INTEGRACIÓN
a g dx g hx hx dx
b
Suponer que g tiene una discontinuidad infinita en un punto c y que g es integrable con
b
respecto a F sobre [a,b] para cualquier b < c. Si a g dF se aproxima a un límite finito
cuando b c, y si F es continua en c, decimos que g es integrable impropiamente con
respecto a F sobre [a,c] para ser
a g dF lim
c b
g dF
bc a
(B.5)
b
La integral c g dF está definida análogamente cuando g tiene una discontinuidad infinita en
c, y g es integrable con respecto a F sobre [a,b] para cualquier a > c. Si g tiene una
c b
discontinuidad infinita en c, y si a g dF y c g dF están ambas definidas, donde a < c < b,
entonces decimos que g es integrable impropiamente sobre [a,b] y definimos la integral
impropia de g con respecto a F sobre [a,b] para ser
a g dF a g dF c g dF
b c b
a a
Integrales de la forma g dF se definen de manera semejante. Si ambas g dF y
a g dF están definidas, entonces decimos que g es integrable impropiamente con respecto
a F sobre (,) y definimos
g dF g dF a g dF
a
(B.7)
APÉNDICES 419
Si g es integrable impropiamente con respecto a F sobre (,), entonces decimos que la
integral en el lado izquierdo de (B.7) converge absolutamente.
Los Teoremas B.1 a B.4 permanecen válidos si el término “integrable” es reemplazado
por “integrable impropiamente” a través de ellos. Esto puede ser visto tomando límites.
420 APÉNDICE C. TABLAS
ESTES, W. K.: El Enfoque Estadístico a la Teoría del Aprendizaje, en S. Koch (ed.), “Psychology:
A Study of Science,” vol. 2, McGraw-Hill, New York, 1959.
FELLER, W.: “An Introduction to the Theory of Probability and Its Applications,” vol. 2, Wiley,
New York, 1966.
_____: “An Introduction to the Theory of Probability and Its Applications,” 3a ed., vol. 1, Wiley,
New York, 1968.
HOGG, R., y A. CRAIG: “Introduction to Mathematical Statistics,” Macmillan, New York, 1970.
KARLIN, S.: “A First Course in Stochastic Processes,” Academic, New York, 1966.
NEVEU, J.: “Mathematical Foundations of the Calculus of Probability,” trans. A. Feinstein, Holden-
Day, San Francisco, 1965.
PARZEN, E.: “Modern Probability Theory and Its Applications.” Wiley, New York, 1960.
RIORDEN, J.: “An Introduction to Combinatorial Analysis,” Wiley, New York, 1958.
RUDIN, W.: “Principles of Mathematical Analysis,” 2a ed., McGraw-Hill, New York, 1964.
SELBY, S.: “Standard Mathematical Tables,” 14ava ed., Chemical Rubber, Cleveland, 1965.
SMOKLER, H. E., y H. E. KYBURG, JR. (eds.): “Studies in Subjective Probability,” Wiley, New
York, 1964.
THOMAS, G. B., JR.: “Calculus and Analytical Geometry,” alt. Ed., Addison-Wesley, Reading,
Mass., 1972.
TODHUNTER, I.: “A History of the Mathematical Theory of Probability from the Time of Pascal to
That of Laplace,” Macmillan, London, 1865.
TUCKER, H.: “A graduate Course in Probability,” Academic, New York, 1967.
APÉNDICES 427
10
1.6 264 1.8 (a) 107, (b) (10)7 1.10
2
10 9 (4) 2 (13) 2 13(4) 2 4(13) 2
1.14 (a) , (b) 10 1.20 (a) ,(b) , (c ) ,(d )
4 3 (52) 2 (52) 2 (52) 2 (52) 2
1.24 No; la probabilidad que al menos un estudiante será seleccionado más de una vez es 1
(10)5 105 = 0.6976.
4 48 4 48 4 48 4 48
1.26 (a) 2 11
, (b)
2 11 3 10 4 9
52 52
13 13
428 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS
6 4 6 4 6 4
13
1.28
4
1.32 (a) 2 1
, (b)
2 1 3 0
52 10 10
13 3 3
5
2 3
1.40 2
1
1.34 17
70
2
2 3
5 2 3
13 39
13 394 (4) 2 2 1 (4) 3
1.42 (a) 5 , (b)
2 (4)
1.44 , (b) , (c ) 3
52 525 (6) 3 (6) 3 (6) 3
Capítulo 2
13 13 39 39
4 4
k 7 k 13 k 13
2.34 2.40
52 52
13 13
2
13 39 4 13 26
4
2.42 1
6 7 2 6
52
13
Capítulo 3
4 2 4 6 4 k
4 4
3 2 (5) 2 3 2 (5) 2 2 , (b) k 2 k ,2,4 k
3.2 (a) , (b) 3.4 (a) 4
(8) 3 (8) 3 5 6 6
5 6k
k 2 k
13 10
5 2 20
3.6 3.8 3.12
26 47
45
5 2
4
3.16
1
3.18 (a) 0.75, (b) 0.25
4 4
k 1 k
3.38 k 1
6
k2 2
3.36 0.38, (b) 0.38 3.40 7
441
3.42 P( A ) 0 o 1 3.44 A y B son independientesen (a)
5
3.48 9
430 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS
Capítulo 4
4 k 8 k
4 5 13 8 3 1
k k
4 8
4.2 4.6 0.6785
k 2 2 18 18 k 6 k 4 4
10 10 10
4.8 (0.85) 8 (0.15) 2 , (b) (0.85) k (0.15)10k 0.95
8 k 7 k
4! n k n k 1
4.10 4.12 2 para k n
44 n
6 6 6 1 1
4 2
4.13 1 1 1
; ;
4 2 4
4.14 2 4.15
3 2,2,2 4 2
4.22 (r 1) / (k 1) 4.24 1 10
k 0 p(k ;2 5)
4.30 n 96
4.34 Sí; si el dado estuviera balanceado, la probabilidad de obtener al menos 2500 ases sería
aproximadamente 1 (1225) < 0.001.
Capítulo 5
1 1
5.4 arcsen 0.5
2
13(39) x 1
x 1,2, ,40
5.10 f ( x) (52) x
0 de otro modo
1
x 1,2,
5.14 f ( x) x( x 1)
0 de otro modo
log 100
5.16 0.328;al menos 5.18 2.5e 1 5.24 (a) c 83 , (b) c 12
log 0.8
1
5.30 (arctan3 arctan1) 5.32 (a) 0.3, (b) 0.3
0 x0 1
0 x 1
5.40 F ( x) x 0 x 1 5.42 f ( x) 2 x
1 x 1 0 de otro modo
APÉNDICES 431
Capítulo 6
12 y 2 0 y z 1
h( y , z )
0 de otro modo
(b) no
6.24 (a) Multinomial con parámetros n y p1 ,, p6 , (b) binomial con parámetros n y
p1 p2 p3 , (c) multinomial con parámetros n y p1 p2 p3 , p4 , p5 , p6 .
1
6.32 2
Capítulo 7
1
1 x 1
7.5 Tanto Y como Z tienen densidad f ( x) 1 x 2
0 de otro modo
1 1 / 1
x 0 x 1
7.6 f ( x)
0 de otro modo
7.24 g ( y) 1 y , 1 y 1
Capítulo 8
161
8.2 0 8.4 36 8.6 1
8.8 k/(n + 1) 8.12 0; 12
n 1 2 2(n 1)
8.28 ; 8.30 2
n 1 (n 2)(n 1) 2
i2
8.32 i n 2 8.34 1 e 1 8.36 Marca A
j 1 j
q p 1 6 pq 1 1
8.42 (a) s ;k , (b) s ; k , (c) s 0; k 1.2 ,
nqp npq
(e) s 2; k 6
2
8.44 (a) M (t ) , t 8.46 Pr (X = 1) = 1
= Pr (X = 1)
t
2 2 2
1 2
8.50 f ( x) (e 2 x e 1x ) para x 0
1 2
Capítulo 9
100 pq
9.2 (a) Pr ( X p 0.1) , (b) n 500
n
APÉNDICES 433
9.16 0.996
n
9.18 (a) Pr ( X p 0.1) 21 - 0.1 , (b) n 96
pq
9.20 0.774
9.22 lim Pr (Z n z) 1 e z para z 0
n
Capítulo 10
1
10.4 Pr ( X x Y y) , x y 1, , 2 y
y
1 1 y2
10.6 g ( x y) , x
2 1 x 2
y2 3
( ) x 1 (1 x y ) 1
10.8 g ( x y) , para 0 x 1 y 1
( )( ) (1 y ) 1
10.10 (a) normal con media (½)z y varianza ½, (b) normal con media x y varianza 1.
( )( y 1)
10.12 h( y ) para y 1, 2,
( )( y )
( y)
10.14 h( y ) para y 0,1, 2,
y!( )(1 ) y
1
10.16 h( y ) para 0 y
2 max (1, y ) 2
arcsen 0.5
10.20 Sea ; la distribución condicional de X es uniforme sobre el conjunto
4
finito {, (1/4) , (½ ) + , (3/4) }.
10.22 1 x2 10.26 (y + 1)2- y y2 y 1
(1 x) (1 x) 2 mz
10.28 ; 10.30
( ) 2 ( 1) mn
2 D(Y )
10.32 ; 10.36 a r ; b E (Y ) aE( X )
1 ( 1) 2 ( 2) D( X )
q1
donde s
q1 q n
rk r1 r2
10.40 k´p y k pq , donde r = r1 + + rn, p yq=1p
r 1 r
1
10.42 h( y1 , y 3 y 2 ) para 0 y1 y 2 y 3 1
y 2 (1 y 2 )
y
10.46 ( y) ;
t ( t)
2
10.48 ( y )
y2
2 ny
10.50 ( y)
2 n
13
ÍNDICE
ÍNDICE
Análisis combinatorio .........................3–10 e independencia ................ 186, 270, 271
Aprendizaje Coeficientes binomiales ..... 8, 9, 16, 32, 33
teoría matemática de ...........................97 generalizados ...................................... 33
Arrow, K. ......................................277, 425 Coeficientes multinomiales .................... 10
Asimetría ...............................................282 Combinaciones ................. 4, 6, 10, 38, 282
Biometrika ...............................................34 Combinaciones de Eventos .............. 59–62
Blackwell, D. ................................347, 425 Conjuntos de Borel ........................... 49, 52
Bridge7, 10, 39, 42, 71, 78, 95, 99, 103, Control de calidadVéase Muestreo de
106, 127 aceptación
Caminatas aleatorias .......................353–54 Convergencia
Centro de gravedad ...............................281 con probabilidad uno308, 363, 364, 365,
Cochran, W. G. .....................................425 367, 368, 373, 374, 375, 376, 377,
Cociente señal-a-ruido ..........................281 384, 385, 404
Cocientes de variables aleatorias240, 246, en probabilidad ......................... 289, 367
224–25 Convergencia con probabilidad uno ... 365–
Coeficiente de correlación ..............268–74 68
de valor absoluto uno271, 273, 308, Convergencia en probabilidad ........ 367–68
322, 328 Convoluciones ...................... 214, 216, 217
436 ÍNDICE
222, 241, 320, 339, 351, 353, 381, 194, 205, 317, 322, 328
399 ni discretas ni absolutamente continuas
de un vector aleatorio ............... 187, 189 .............................. 154, 162, 168, 246
Ecuación de renovación ........................ 383 simétricas .......................................... 371
Encuestas de opinión .................. 11, 21, 26 Funciones indicadoras134, 169, 201, 285,
y muestreo estratificado .................... 274 296, 398
Ensayos repetidos ................................... 91 Funciones lineales de variables aleatorias
y la distribución binomial ................. 101 distribución de .................................. 157
y la distribución binomial negativa .. 107 esperanza de ..................... 254, 269, 341
Esperanza ...................... 243, 249, 311, 327 función generatriz de momentos de 262,
como una integral ............................. 279 300
infinita ............................................... 246 mediana y moda ............................... 173
linealidad .................................. 251, 329 Funciones masa
monotonicidad .......................... 251, 329 bivariadas ......................... 177, 179, 181
Esquema de la urna de Polya condicionales311, 318, 320, 321, 322,
como una martingala ........................ 394 327, 334, 343, 348, 352
Estadística de Bose-Einstein ..... 29, 41, 279 conjuntas177, 179, 181, 182, 183, 184,
Estadística Maxwell-Boltzman ....... 29, 279 185, 188, 190, 192, 198, 251, 253,
Estadísticos de orden 327, 330
de una distribución exponencial ....... 234 marginales ........................................ 190
Estes, W. K. .................................... 97, 426 multivariadas .................................... 188
Eventos Hogg, R. ....................................... 236, 426
combinaciones de ............................. 284 Independencia
independencia de ...................... 362, 383 condicional ....... 335, 336, 343, 344, 352
Eventos: ........... Véase Teoría de conjuntos de eventos84, 85, 86, 87, 88, 99, 101,
Expansión decimal .................... 69, 85, 384 107, 117, 192, 200, 201, 362, 363,
Feller, William34, 35, 236, 277, 291, 301, 378
302, 303, 307, 310, 347, 380, 384 de variables aleatorias185, 200, 353,
Fermi-Dirac estadística ..................... 29, 41 362, 383, 393, 396
Fórmula de Stirling33, 34, 42, 122, 131, por pares ....................... 86, 87, 192, 201
152, 362 Integral Riemann-Stieltjes Véase Integrales
Función de pérdida ............................... 338 Interpretación frecuentista
Función inversa de esperanza ..................................... 290
valuada en un conjunto ..................... 137 Interpretación subjetiva
valuada en un punto .......................... 204 consistencia ........................................ 47
Funciones de distribución de probabilidad condicional ............... 74
condicionales ............ 318, 322, 328, 333 Juegos, limpio, favorable, desfavorable299
de un par aleatorio: ....... Véase conjuntas Karlin, Samuel.............. 277, 347, 425, 426
de una variable aleatoria ................... 154 k-etas ordenadas ..................... 4, 5, 7, 8, 11
discretas139, 140, 141, 154, 155, 174, Kyburg, H. E. ................................. 66, 426
ÍNDICE 439
Máximo y mínimo cartesiano ...... 91, 92, 177, 324, 338, 413
convergencia en probabilidad de ......289 Promedio móvil .................................... 295
Máximo y mínimo:Véase Estadísticos de Rango, el ............................................... 226
orden; Rango Regresos al origen ................................ 383
Mecánica estadística ...............................29 como tiempos de interrupción .......... 397
Media Riorden, J. ....................................... 35, 426
condicional ........................................332 Scarf, H. ........................................ 277, 425
y la desigualdad de Chebyshev .........286 Si X tiene la distribución binomial con
Media: ..............................Véase Esperanza parámetros n y p, Distribución binomial
Mediana.................................................281 función de distribución1, 4, 7, 11, 12,
Mínimo ............... Véase Máximo y mínimo 13, 14, 15, 17, 19, 20, 21, 22, 29, 32,
Momento de inercia ..............................281 36, 37, 38, 39, 40, 41, 44, 46, 47, 48,
Momentos .............................................258 58, 67, 68, 70, 77, 80, 83, 84, 85, 91,
central ................................................282 95, 97, 103, 119, 125, 129, 130, 134,
factorial .............................................283 143, 144, 155, 156, 157, 158, 169,
Muestreo 171, 178, 180, 181, 185, 186, 187,
con y sin reemplazo ............................12 192, 198, 199, 200, 201, 208, 216,
estratificado .........................................87 223, 241, 244, 245, 252, 256, 258,
ordenado y desordenado11, 12, 13, 14, 265, 274, 276, 277, 281, 282, 283,
22, 23, 24, 25, 38, 40, 42, 57, 58, 75, 288, 295, 301, 305, 310, 328, 333,
77, 84, 87, 94, 102, 198, 274, 407 334, 340, 342, 349, 356, 357, 358,
Muestreo de aceptación ....................11, 18 359, 377, 378, 379, 382, 383, 392,
Neveu, Jacques66, 160, 347, 381, 401, 426 397, 400, 402, 403, 408, 409, 410,
Parámetros.............................................141 412, 413, 415, 418, 427, 431, 432
localidad y escala ..............................158 Sigmas álgebras .............................. 69, 170
Parzen, Emanuel ...................277, 307, 426 Smokler, H. E. ................................ 66, 426
Permutaciones .......................................4, 7 Submartingalas390, 391, 394, 395, 398,
Póquer3, 7, 11, 17, 18, 20, 38, 39, 70, 71, 405, 406
95 desigualdad para ............................... 405
Predicción .............................127, 254, 268 Suma de variables aleatorias
Probabilidad independientes
clásica ....................................................2 media y varianza de .......................... 257
condicional ........................................333 Suma de variables aleatorias
continuidad de .....................................64 independientes:Véase Teorema del
medida .................................................50 límite central; Leyes del logaritmo
Problema de la fosforera de Banach .....128 iterado; Leyes de los grandes números
Problema del colector de cupones ..........11 Sumas de potencias de enteros ................. 8
Problema del día de nacimiento ........15, 31 Teorema binomial ............................... 8, 38
Problemas de apareamiento ....................71 generalizado ........................................ 33
Producto Teorema de consistencia de Kolmogorov
440 ÍNDICE