Probabilidades - Aravena, Del Pino, Quintana 2023-05-27 18-13-13

Departamento de Estadı́stica
Pontificia Universidad Cat ólica de Chile
PROBABILIDADES
Versi ón Preliminar 2002.2
Ricardo Aravena
Guido del Pino
Fernando Quintana
Agosto, 2002
Cap´
ıtulo 1
Introduccioń
1.1 Modelos Probabilı́sticos y Determinı́sticos
La Teorı́a de Probabilidad es una rama de las Matem áticas que permite estudiar todo tipo de
fen ómenos en que aparecen conceptos como indeterminismo, incertidumbre, impredecible, hete-
rogeneidad, variabilidad, errores de medici ón, imprecisi ón y azar. En esta secci ón desarrollamos
algunas de estas ideas para motivar el estudio de dicha teorı́a.
1.1.1 Determinismo y leyes fı́sicas
La imposibilidad pr áctica de conocer los valores de todas las variables que influyen sobre el com-
portamiento de un sistema hace que los modelos determinı́sticos tengan un ámbito de aplicaci ón
limitado. En estos modelos, el cumplimiento de ciertas condiciones garantiza la ocurrencia de un
hecho dado. El paradigma cl ásico es la Mecánica de Newton, donde se puede predecir exactamente
la trayectoria de un objeto, una vez especificadas la posici ón inicial, la velocidad inicial y todas
las fuerzas que act úan sobre él. Desde un punto de vista filos ófico, la idea es que si tuvi éramos
toda la informaci ón y contáramos con un modelo adecuado, podrı́amos determinar completamente
todos los acontecimientos relacionados. A ún dentro del ámbito de la Fı́sica, tal idea est á en abierta
contradicci ón con las teorı́as más modernas, como la Mec ánica Cuántica.
Si somos tan afortunados como para disponer de un modelo te órico perfecto que vincula los
valores de ciertas variables con los de otras, su aplicaci ón se ve entrabada por la imposibilidad de
conocer estos valores con absoluta precisi ón, es decir, cuando hay errores de medici ón. Los modelos
probabilı́sticos constituyen una alternativa atractiva a los modelos determinı́sticos en situaciones de
este tipo.
Por otra parte, muchas de las leyes que rigen los fen ómenos fı́sicos y quı́micos han sido descu-
biertos experimentalmente. Este es el caso de la ley de Boyle: P V = κT , que relaciona la presi ón
P , el volumen V , y la temperatura T de un gas. Los errores de medici ón hacen que las f órmulas
matemáticas no se verifiquen de manera exacta con datos experimentales. C ómo ajustar modelos
te óricos a datos experimentales o c ómo rechazar teorı́as a partir de estos datos es un problema
importante que se ataca utilizando m étodos estadı́sticos, para los cuales la Teorı́a de Probabilidad
1
´
CAP ITULO ´
1. INTRODUCCI ON
sirve de base. Cabe hacer notar, adem ás, que leyes experimentales como la ley de Boyle rigen s ólo
aproximadamente y para ciertos rangos de valores de las variables.
1.1.2 Probabilidad y leyes cientı́ficas
La Teorı́a de Probabilidad proporciona no s ólo un marco conveniente para estudiar el ajuste de

modelos matem áticos a datos que contienen errores de medici ón, sino tambi én una base para desa-
rrollar modelos te óricos en ciertas ciencias. Tal es el caso de las leyes de la Termodin ámica, donde
se vinculan la presi ón y la temperatura de un gas con la energı́a cinética total de un enorme n úmero
de moléculas, cuyo movimiento individual es obviamente impredecible. En otras palabras, coexiste
una gran incertidumbre a nivel microsc ópico con una virtual certeza a nivel macrosc ópico del gas.
Algo análogo ocurre con las poblaciones humanas, donde la libertad del individuo es compatible
con un comportamiento bastante predecible a nivel agregado. La herramienta te órica que permite
fundamentar estas aseveraciones es la Ley de los Grandes N úmeros, popularmente conocida como
la Ley de los Promedios. Ella establece que, bajo ciertas condiciones, se puede predecir con exacti-
tud el valor del promedio, a ún cuando los valores individuales sean por completo inciertos. Hemos
privilegiado la discusi ón de ejemplos fı́sicos, donde hist óricamente los modelos determinı́sticos
han tenido bastante éxito. En las ciencias biol ógicas y sociales los modelos determinı́sticos son
s ólo interpretables en t érminos de un comportamiento promedio. Interesa definir qu é significa pro-
medio en este contexto y deducir el comportamiento promedio a partir de supuestos m ás simples de
naturaleza probabilı́stica.
1.1.3 Heterogeneidad y variabilidad
Una dificultad para emplear modelos determinı́sticos es la presencia de heterogeneidad o variabi-

lidad. A modo de ejemplo, consideremos las siguientes situaciones: (a) la composici ón de un lote
de mineral varı́a entre un lote y otro; (b) los tubos cat ódicos en mil televisores de un fabricante
determinado no tendr án exactamente las mismas especificaciones; (c) la vida útil de mil equipos
presentará gran variabilidad; (d) el n úmero de autom óviles que pasan por una intersecci ón no será el
mismo en dos intervalos de cinco minutos tomados aproximadamente a la misma hora.
Las leyes básicas se refieren generalmente a medios homog éneos, por ejemplo, gases y lı́quidos
ideales. La heterogeneidad complica notablemente la formulaci ón matemática y rara vez se dispone
de informaci ón precisa que permita tomarla en cuenta en el modelo.
1.1.4 Fen o´menos ca o´ticos y probabilidad
Los fen ómenos ca óticos son aquellos en que una peque ñı́sima perturbaci ón de las condiciones
iniciales de un sistema genera grandes cambios en el estado final del mismo. El matem ático Henri
Poincaré estudi ó este tipo de fen ómenos a principios de siglo y utiliz ó el carácter impredecible de
estos fen ómenos como un modelo fı́sico para la probabilidad. El lanzamiento de una moneda, el
lanzamiento de un dado, o el hacer girar la ruleta, son ejemplos familiares en que el resultado se
puede interpretar como el estado final de un sistema cuya evoluci ón es ca ótica.
Aravena, del Pino, Quintana: PROBABILIDADES 2

´
CAP ITULO ´
1. INTRODUCCI ON
1.1.5 Vocabulario asociado a la probabilidad
El término probabilı́stico, se usa vagamente como contraposici ón a determinı́stico y se le aso-

cia implı́citamente con palabras como incierto, impredecible, variable y presencia de error. Hay
incerteza en la respuesta a preguntas tan diversas como ¿Qui én es el culpable de un crimen?, ¿Ten-
dré cáncer?, ¿Acertar á el disparo en el blanco?, ¿Ser á hombre o mujer mi futuro hijo?, ¿Aprobar é el
examen?. La variabilidad aparece en los lotes de material, en la diversidad gen ética, en el clima y
en las posturas polı́ticas. Como ya se ha mencionado, los errores de medici ón aparecen en variables
fı́sicas, pero tambi én en exámenes de laboratorio y en la determinaci ón del nivel socioecon ómico.
A menudo la incerteza se refiere a la respuesta correcta a ciertas preguntas, o a la verdad o
falsedad de ciertas proposiciones. Cuando la pregunta admite Sı́ o No por respuesta, ella tiene
asociada la proposici ón la respuesta es afirmativa y el suceso que ocurre si y s ólo si la respuesta
correcta es positiva. Si la pregunta es ¿Se quemar á la ampolleta la pr óxima vez que se la encienda?
el suceso asociado A ocurre cuando la ampolleta se quema. Del mismo modo, el suceso asociado a
la pregunta ¿Saldr á un as al lanzar un dado? es B : Sale un as. Las probabilidades de estos sucesos
se escriben en modo subjuntivo, e.g. P (A) es la probabilidad que se queme la ampolleta y P (B) es
la probabilidad que salga un as.
Muchos modelos determinı́sticos son causales, por lo que el t érmino probabilı́stico se asocia
con ausencia de causa. En otras palabras, atribuimos un hecho al azar, palabra que el lector ha-
brá encontrado en relaci ón a los juegos de azar. En estos juegos, suelen intervenir procedimientos
mecánicos de car ácter ca ótico, como lanzar un dado, tirar una moneda al aire, barajar un naipe,
hacer girar la ruleta, o elegir una bolita en juegos como el KINO, el LOTO y otros. El resultado de
tal juego es claramente incierto, impredecible, y variable.
1.2 Interpretaciones del Concepto de Probabilidad
1.2.1 Interpretaci oń frecuentista
La interpretaci ón frecuentista o empı́rica de la probabilidad se aplica directamente en aquellos

casos donde es posible repetir fı́sicamente un experimento muchas veces y bajo condiciones con-
troladas. Cuando para cada repetici ón del experimento se determina un n úmero real, como el valor
de cierta variable cuantitativa, se sabe empı́ricamente que, bajo ciertas condiciones, los promedios
exhiben una gran estabilidad a medida que el n úmero de repeticiones aumenta. Este es un ejemplo
de regularidad estadı́stica y se conoce popularmente bajo el nombre de Ley de los promedios (Ley
de los grandes n úmeros en teorı́a de probabilidad). Ya hemos mencionado que esta idea sirve de
base para la teorı́a estadı́stica de la termodin ámica. Ella es tambi én clave para los m étodos de
simulaci ón computacional, conocidos como m étodos de Monte Carlo.
Para fijar ideas, consideremos un ejemplo m ás pedestre, pero sencillo de llevar a cabo, – insta-
mos al lector a hacerlo – que consiste en lanzar repetidamente un dado. Para el i- ésimo lanzamiento
anotamos el resultado xi que muestra el dado – un n úmero entre 1 y 6 – y calculamos secuencial-

´
CAP ITULO ´
1. INTRODUCCI ON
mente para n = 1, 2, 3, . . . el promedio tn de los primeros n n úmeros obtenidos, i.e.

n
1X
tn = xi .
n
i=1
El gráfico de tn versus n, donde se unen los puntos consecutivos por segmentos rectos, presenta
inicialmente gran inestabilidad, pero para valores grandes de n él se asemeja a una curva suave que
tiende asint óticamente a una recta horizontal, a una altura aproximada de 3.50.
Una modificaci ón del ejemplo anterior es determinar en cada lanzamiento si ocurre un seis o
no. Definiendo xi = 1 en caso positivo y xi = 0 en caso negativo, tn coincide con la proporci ón pn
de veces que sale un seis en los primeros n lanzamientos del dado. La Ley de los Grandes N úmeros
implica que pn tiene un valor lı́mite, el cual coincide con la probabilidad que salga seis al lanzar
un dado. Si el dado es equilibrado el gr áfico de pn versus n presentar á una ası́ntota horizontal, a
una altura de aproximadamente 0.167. La interpretaci ón frecuentista define esta probabilidad como
ese valor lı́mite. Como la Ley de los Grandes N úmeros es un resultado matem ático, que depende
de ciertos axiomas pero no de una interpretaci ón particular, no queda claro si tenemos derecho a
utilizar a priori la existencia del lı́mite sin caer en un argumento circular.
Por el momento denominemos suceso a algo cuya ocurrencia o no queda determinada por el
resultado de un experimento repetible. Sea Ω el conjunto de resultados posibles en cualquiera de
estas repeticiones– que se denominar á posteriormente espacio muestral – y sea A ⊆ Ω el conjunto
de resultados favorables al suceso de inter és, es decir, aquellos para los que éste tiene lugar. Los
elementos del conjunto complementario Ω \ A son, entonces, los resultados desfavorables. La
probabilidad del suceso depende exclusivamente del conjunto A y no de la descripci ón en palabras
del suceso de inter és. Tiene sentido ası́ denotarla por P (A) y, de hecho, podemos identificar al
suceso con A si lo deseamos.
Para entender mejor la interpretaci ón de P (A) e introducir la notaci ón, consideremos un mill ón
de lanzamientos de un dado. Los resultados posibles son 1, 2, 3, 4, 5 y 6. La segunda columna de
la siguiente tabla muestra el n úmero de veces que ocurri ó cada n úmero (los valores son ficticios
para simplificar la aritm ética). La tercera columna muestra las proporciones empı́ricas, las que
debieran parecerse bastante a los valores lı́mites, o sea, a las probabilidades correspondientes, dado
√
el elevado n úmero de repeticiones del experimento (lanzamientos del dado). El sı́mbolo en las
restantes columnas indica los resultados favorables para diversos sucesos, indicando las dos últimas
filas cuantas veces ocurri ó cada uno y la proporci ón respectiva.
ω Nn (ω) pn (ω) ω≥5 ω es ω≤4 ω entre

(en miles) par 3y4
√
1 200 .20
√ √
2 180 .18
√ √
3 170 .17
√ √ √
4 160 .16
√
5 150 .15
√ √
6 140 .14
N úmero 290 480 710 330
(en miles)
Pn (A) .29 .48 .71 .33

´
CAP ITULO ´
1. INTRODUCCI ON
Denotemos por ω a un resultado posible del experimento y supongamos que éste se repite
n veces. Denotemos por Nn (ω) al n úmero de veces que ocurre el resultado ω, por Nn (A) al
n úmero de veces que ocurre el suceso representado por el subconjunto A, y por p n (ω) = Nnn(ω) y
Pn (A) = Nnn(A) a las proporciones respectivas. Si los lı́mites existen, las probabilidades que ocurra
el resultado ω y el suceso representado por A se definen por
def
p(ω) = lim pn (ω) probabilidad que ocurra ω.
n→∞
def
P (A) = lim Pn (A) probabilidad que ocurra A.
n→∞
La funci ón P que asigna a cada suceso A su probabilidad se denomina distribuci ón de probabilidad.
La funci ón p(·) se denomina funci ón de probabilidad y se expresa normalmente como una tabla o
como una f órmula matem ática. Cuando los elementos de ω son los valores de una variable aleatoria
X, la funci ón P se denomina tambi én distribuci ón de probabilidad de X y se suele denotar por PX .
P
Claramente Nn (A) = Nn (ω). Dividiendo por el n úmero de repeticiones y tomando el
ω∈A
lı́mite cuando n → ∞, la definici ón frecuentista de la probabilidad implica que ella es no negativa
y satisface, adem ás, las importantes igualdades
P (Ω) = 1. (1.2.1)
X
P (A) = p(ω). (1.2.2)
ω∈A
La igualdad (1.2.2) se traduce en la siguiente regla, v álida por ahora s ólo para la interpretaci ón
frecuentista:
Para un espacio muestral finito la probabilidad que un suceso ocurra es la suma de las
probabilidades de los resultados favorables.
Las propiedades
P (∅) = 0, (1.2.3)
X
p(ω) = 1, (1.2.4)
ω∈Ω
pueden obtenerse de la misma forma, pero tambi én se desprenden l ógicamente a partir de (1.2.1)
y (1.2.2). Por (1.2.2), la funci ón de probabilidad permite calcular las probabilidades de todos los
sucesos asociados con el experimento. La afirmaci ón recı́proca es trivialmente cierta. Por lo tanto:
La funci ón de probabilidad determina la distribuci ón de probabilidad y viceversa.
Si ω1 , ω2 , . . . , ωn es una enumeraci ón de los elementos de Ω, se acostumbra escribir pi en vez de

p(ωi ) para simplificar la notaci ón, con lo cual (1.2.2) queda
X
P (A) = pi , (1.2.5)
{i/ωi ∈A}
n
X
pi = 1. (1.2.6)
i=1

´
CAP ITULO ´
1. INTRODUCCI ON
Un concepto probabilı́stico clave es el de sucesos mutuamente excluyentes, es decir, que la

ocurrencia de uno de ellos torna imposible que alg ún otro ocurra. Para una familia de sucesos esta
condici ón equivale a que a lo m ás uno de ellos puede ocurrir. Un resultado ω no puede ser favorable
a m últiples sucesos de esta familia, lo que significa que los conjuntos que los representan son
disjuntos. Recı́procamente, si los conjuntos de resultados favorables a dos sucesos son disjuntos,
los sucesos son mutuamente excluyentes. Se deduce de (1.2.2) la propiedad aditiva:
P (A ∪ B) = P (A) + P (B) si A y B son disjuntos, (1.2.7)
lo que se generaliza a una uni ón disjunta de un n úmero finito de sucesos. Cuando convenga, P es-
cribiremos una uni ón de conjuntos disjuntos reemplazando el sı́mbolo ∪ por el suma (+ o ), i.e.
Pn n
S
A + B en vez de A ∪ B y Ai en vez de Ai . Con esta convenci ón notacional, la propiedad de
i=1 i=1
aditividad puede escribirse de manera sugerente como
k k
!
X X
P Ai = P (Ai ). (1.2.8)
i=1 i=1
1.2.2 Interpretaci oń subjetiva
La interpretaci ón frecuentista es muy especulativa cuando la probabilidad se refiere a situaciones

de carácter irrepetible, como conseguir empleo durante el pr óximo mes, que un familiar se case con
su pareja actual, que el candidato XYZ gane las pr óximas elecciones presidenciales, etc. Cuando la
probabilidad se aplica en casos como estos, ella se interpreta m ás bien como grado de certeza. Dado
que este último varı́a entre un sujeto y otro, aunque se refiera a un mismo hecho, esta interpretaci ón
se denomina subjetiva. Para precisar el valor de esta probabilidad subjetiva para un sujeto determi-
nado, podemos plantearle otros sucesos de probabilidad conocida y establecer comparaciones.
En la vida cotidiana es raro poder contestar preguntas importantes sin alg ún margen de duda, lo
que genera expresiones como estoy casi seguro que, me inclino a pensar que, y otras por el estilo,
de carácter cualitativo. La interpretaci ón de la probabilidad como grado de certeza, expresado en
una escala continua entre 0 y 1, representa una cuantificaci ón de las expresiones anteriores.
El enfoque subjetivo de la teorı́a de probabilidad ha sido el tema de muchas investigaciones ma-
temáticas y filos óficas, sobre las cuales no podemos extendernos. Lo que haremos es traducir los
resultados intuitivos de la interpretaci ón frecuentista en un sistema de axiomas, los cuales son apli-
cables a cualquier interpretaci ón de la probabilidad, incluyendo la subjetiva. Cabe hacer notar, sin
embargo, que los axiomas se pueden obtener a partir de consideraciones sobre el comportamiento
racional frente a la toma de decisiones con incertidumbre.
De esta manera, suponemos que las propiedades (1.2.1), (1.2.2), (1.2.3) y (1.2.4) siguen siendo
aplicables. El espacio muestral se interpreta como un listado de todas las alternativas posibles
(escenario en la terminologı́a de los economistas). Por ejemplo, si se quiere apostar en una carrera
de caballos, pese a no estar seguro de cu ál va a ganar, se debe asignar una probabilidad de ganar a
cada uno. Si se piensa en invertir dinero en comprar dolares, para venderlos un mes despu és, se tiene
incerteza sobre el futuro valor del dolar, que puede identificarse con ω. Tambi én se puede simplificar
el problema y atribuir una probabilidad a que el alza del dolar exceda una cota determinada.

´
CAP ITULO ´
1. INTRODUCCI ON
A nivel intuitivo, si la ocurrencia del suceso A implica la del suceso B, debi éramos tener un
mayor grado de certeza en B que en A. Identificando los sucesos con conjuntos, la afirmaci ón
anterior corresponde a
A ⊆ B ⇒ P (A) ≤ P (B).
Esta propiedad de monotonicidad parece un supuesto mı́nimo cuando lo que interesa es decidir cu ál
de dos sucesos es m ás probable. En la interpretaci ón frecuentista las probabilidades se comportan
como proporciones y satisfacen un supuesto de aditividad P (C ∪ D) = P (C) + P (D). El or-
den relativo entre dos probabilidades se preserva si aplicamos una transformaci ón g estrictamente
creciente definida sobre [0, 1]. En otras palabras,
P (A) ≤ P (B) ⇒ g(P (A)) ≤ g(P (B)).
Si denotamos por p a la probabilidad de un suceso, una transformaci ón útil y que tiene importancia
p
hist órica es g(p) = 1−p . En inglés se le llama a g(p) odds y no existe una traducci ón universalmente
aceptada. En algunos libros se usa el t érmino momios. Aunque sea un anglicismo usaremos la
palabra chances, dado su uso en apuestas, como carreras de caballos o concursos de belleza. Ası́, si
uno cree algo 3 a 2, lo que significa es
p 3
= ,
1−p 2
3
lo que implica p = 3+2 = 0.6. Una apuesta 1 a 1 corresponde a p = 0.5. A diferencia de la
probabilidad, las chances no son aditivas.
1.2.3 Equiprobabilidad y la regla de Laplace
1.2.3.1 Regla de Laplace
Hay situaciones muy especiales en las que se puede argumentar que todos los resultados posibles
son equiprobables, es decir, tienen la misma probabilidad. Este argumento se justifica habitualmente
apelando a un argumento de simetrı́a y puede interpretarse de manera frecuentista o subjetiva. Por
ejemplo, las caracterı́sticas geométricas y fı́sicas de una moneda permiten sospechar que el supuesto
de equiprobabilidad se cumple aproximadamente. En t érminos frecuentistas, esto significa que
para un n úmero grande de lanzamientos, la proporci ón de caras sea muy parecida a la de sellos,
aunque los n úmeros de caras y de sellos sean muy distintos. Desde el punto de vista subjetivo, la
equiprobabilidad indica que nos es indiferente apostar a que sale sello o que sale cara, lo que puede
sustentarse tanto en consideraciones fı́sicas como en la experiencia empı́rica previa que tengamos.
Por cierto, no podemos esperar que la equiprobabilidad se cumpla exactamente con monedas reales,
sino de manera aproximada. Matem áticamente hablando, una moneda ideal o moneda equilibrada
arroja resultados equiprobables por definici ón. Algo parecido pasa con un dado ideal, donde las 6
caras son equiprobables.
Desde el punto de vista frecuentista la equiprobabilidad significa que la funci ón de probabilidad
es constante. Por (1.2.4) su valor es el recı́proco de la cardinalidad del espacio muestral y aplicando
(1.2.2) se llega a la famosa regla, atribuida a Laplace:
Cuando los resultados posibles son equiprobables, la probabilidad de un suceso es el

n úmero de casos favorables dividido por el n úmero de casos posibles,

´
CAP ITULO ´
1. INTRODUCCI ON
donde la palabra casos se usa como sin ónimo de resultado. En libros antiguos de Algebra, esta regla
suele aparecer como definici ón de probabilidad. Esto es muy peligroso, ya que se puede f ácilmente
caer en contradicci ón con la interpretaci ón frecuentista.
1.2.3.2 Algunos modelos equiprobables
Un modelo fı́sico para la generaci ón de resultados equiprobables es el de una urna de N fichas, de
las cuales se extrae una al azar. Cada ficha tiene probabilidad N1 de ser elegida. Si se extraen al
azar y de manera independiente n fichas de la urna, el resultado es representable por un arreglo o
muestra ordenada y = (y1 , y2 , . . . , yn ). El elemento yi es la ficha o cualquier identificador. Sin
pérdida de generalidad, podemos enumerar las fichas de la urna de 1 hasta N y usar este n úmero
como yi . Los arreglos de largo n son equiprobables, tanto si el muestreo se hace sin reposici ón (se
restituye a la urna la ficha seleccionada) o con reposici ón (cuando se la restituye). El n úmero de
tales arreglos es N n y N (N − 1) × · · · × (N − n + 1), respectivamente. Cuando el suceso de inter és
se refiere s ólo al n úmero de fichas de cada color en la muestra, el orden en que aparecen los colores
es irrelevante. Sin embargo, la equiprobabilidad de las muestras no ordenadas s ólo ocurre para
muestreo sin reposici ón. En este caso, cada una de estas muestras corresponde a n! arreglos y, por
lo que su probabilidad es

n! N
= .
N (N − 1) × · · · × (N − n + 1) n
Este resultado implica que hay N

n muestras no ordenadas. Como cada una se puede representar por
N

un subconjunto de tama ño n de otro de tama ño N , n es también el n úmero de estos subconjuntos.
Otro modelo com ún es el de n lanzamientos de un dado equilibrado de N caras. Probabilı́sti-
camente, él equivale a una muestra con reposici ón de n fichas de una urna que contiene a N fichas.
Fı́sicamente, el dado se puede lograr para muy pocos valores de n. Una moneda es equivalente a un
dado de dos caras.
Ejemplo 1.2.1 Calcular la probabilidad de obtener una suma de k al lanzar dos dados,
donde 1 < k < 6.
Como los 36 pares (x, y) son equiprobables, basta con contar aquellos que son favora-
bles. Pero un tal par satisface x + y = k, de modo que toma la forma (x, k − x). Por
ejemplo, para k = 4, los resultados favorables son (1, 3), (2, 2) y (3, 1) y la probabili-
4
dad es 36 = 91 . El resultado general es
k−1
P (Suma = k) = .
36
Ejemplo 1.2.2 Calcular la probabilidad de obtener una suma de 6 al lanzar tres dados.
Sea xi el resultado del i- ésimo dado y sea x = (x1 , x2 , x3 ). El espacio muestral consta
de 63 = 216 resultados equiprobables. Sea B = {x/x1 + x2 + x3 = 6} y sea Aj el
suceso sale j en el primer dado y la suma es 6. Si x1 = j, x es favorable si y s ólo si
x2 + x3 = 6 − j. Entonces, B = B1 + B2 + B3 + B4 . Pero card (Bi ) = 5 − i, de
10
modo que card (B) = 4 + 3 + 2 + 1 = 10. La probabilidad buscada es P (B) = 216 .

´
CAP ITULO ´
1. INTRODUCCI ON
Finalmente, muchos problemas interesantes involucran permutaciones. Barajar un naipe de k

cartas significa elegir al azar uno de los k! órdenes posibles, lo que equivale a elegir al azar una
permutaci ón. Probabilı́sticamente, esto equivale a obtener una muestra ordenada de tama ño k de
una urna con k fichas.
Ejemplo 1.2.3 Se baraja al azar un naipe de 4 cartas, asign ándole a cada una las letras
a, b, c y d. A continuaci ón mostramos un listado exhaustivo de las 24 permutaciones
de estas letras.
bcde bced bdce bdec becd bedc 6
cbde cbed cdbe cdeb cebd cedb 6
dbce dbec dcbe dceb adebc decb 6
ebcd ebdc ecbd ecdb edbc edcb 6
La probabilidad de cualquier suceso se obtiene contando casos favorables y dividiendo

por 24.
• Por inspecci ón, hay 6 resultados en que la primera letra es b, de modo que la
6
probabilidad que esto ocurra es 24 = 14 . Análogamente, la probabilidad que la
1
segunda letra sea c es tambi én 4 . La probabilidad que alguno de estos dos sucesos
ocurra no es 12 , debido a que estos sucesos no son mutuamente excluyentes. En
efecto, abcd y abdc son los dos casos en que ambos sucesos ocurren. Por lo tanto,
hay 6 + 6 − 2 = 10 resultados favorables y la probabilidad buscada es 10 24 .
12 1
• La probabilidad que la letra b aparezca antes de la c es 24 = 2 , lo que es evidente
por simetrı́a.
• La probabilidad que ninguna de las letras caiga en su ubicaci ón natural, i.e. 1
9
para b, 2 para c, 3 para d y 4 para e, es 24 , lo que se obtiene marcando estos casos
en el listado y contando cuantos hay.
• Se deja al lector con paciencia repetir esto para las 120 permutaciones de 5 ele-
mentos, que aparecen en la siguiente tabla.
abcde abced abdce abdec abecd abedc acbde acbed acdbe acdeb
acebd acedb adbce adbec adcbe adceb adebc adecb aebcd aebdc
aecbd aecdb aedbc aedcb bacde baced badce badec baecd baedc
bcade bcaed bcdae bcdea bcead bceda bdace bdaec bdcae bdcea
bdeac bdeca beacd beadc becad becda bedac bedca cabde cabed
cadbe cadeb caebd caedb cbade cbaed cbdae cbdea cbead cbeda
cdabe cdaeb cdbae cdbea cdeab cdeba ceabd ceadb cebad cebda
cedab cedba dabce dabec dacbe daceb daebc daecb dbace dbaec
dbcae dbcea dbeac dbeca dcabe dcaeb dcbae dcbea dceab dceba
deabc deacb debac debca decab decba eabcd eabdc eacbd eacdb
eadbc eadcb ebacd ebadc ebcad ebcda ebdac ebdca ecabd ecadb
ecbad ecbda ecdab ecdba edabc edacb edbac edbca edcab edcba
12 12 12 12 12 12 12 12 12 12
44
Contrario a la intuici ón de la mayorı́a, el n úmero obtenido es 120 , que es leve-
9
mente inferior a 24 .

´
CAP ITULO ´
1. INTRODUCCI ON
1.3 Modelo de Probabilidad Finito
1.3.1 Caso general
La funci ón de probabilidad y la distribuci ón de probabilidad ya fueron ya definidas en el contexto

frecuentista, obteni éndose la serie de relaciones (1.2.1)–(1.2.8).
Definici oń 1.3.1 Sea Ω un espacio muestral finito. Sea p(·) una funci ón no negativa con dominio
Ω que satisface las condiciones:
X
p(ω) = 1, p(ω) ≥ 0. (1.3.1)
ω∈Ω
La distribuci ón de probabilidad generada por p(·) es la funci ón P (·) que asigna a todo A ⊂ Ω el
valor
X
P (A) = p(ω). (1.3.2)
ω∈A
Por (1.3.2), la distribuci ón de probabilidad P (·) determina p(·), pues
p(ω) = P ({ω}), ω ∈ Ω. (1.3.3)
Todas las ecuaciones (1.2.1)–(1.2.8) rigen por definici ón o como consecuencia l ógica. En particular,
la probabilidad de un suceso es la suma de las probabilidades de los resultados favorables.
Ejemplo 1.3.1 Por ejemplo, el Teorema del Binomio indica que

n
X n
(p + q)n = pk q n−k .
k
k=0
Por lo tanto, si p > 0, q > 0, p + q = 1, la funci ón

n k n−k
p(k) = p q , k = 0, 1, . . . , n,
k
se puede usar como la funci ón de probabilidad de cierta distribuci ón. De hecho, ella
corresponde a la famosa distribuci ón Binomial, que estudiaremos posteriormente.
Cuando la funci ón de probabilidad se entrega como un listado de resultados y de las probabi-
√
lidades correspondientes, basta marcar los resultados favorables, por ejemplo, con , y sumar las
probabilidades respectivas para obtener la probabilidad de un suceso. Cuanto se desea automatizar
el procedimiento computacionalmente, conviene generar una columna (o fila) adicional, en que los
√
se reemplazan por 1 y los blancos por 0, la que se interpreta como la funci ón indicatriz del suceso.

´
CAP ITULO ´
1. INTRODUCCI ON
Ejemplo 1.3.2 Un equipo tiene dos componentes (a) y (b) e interesa si ellas est án
operativas o no. Definamos
x1 = 1 si (a) funciona, x1 = 0 en caso contrario.
x2 = 1 si (b) funciona, x2 = 0 en caso contrario.
El estado del equipo est á determinado por el par (x1 , x2 ), al cual podemos considera
como el resultado del experimento. Los resultados se pueden enumerar como indica la
tabla. Las probabilidades asignadas en la última columna son positivas y suman 1, de
modo que tal asignaci ón es válida.
Resultado x1 x2 Probabilidad
ω1 1 1 0.6
ω2 1 0 0.2
ω3 0 1 0.1
ω4 0 0 0.1
Consideremos ahora los sucesos:
S1 : (a) está operativa.

S2 : (b) está operativa.
S3 : Exactamente una componente est á operativa.
S4 : Al menos una componente est á operativa.
La tabla siguiente muestra c ómo representar estos sucesos usando las variables como
subconjuntos.
S1 : x1 = 1 A1 = {(1, 0), (1, 1)} B1 = {ω1 , ω2 }

S2 : x2 = 1 A2 = {(0, 1), (1, 1)} B2 = {ω1 , ω3 }
S3 : x1 + x 2 = 1 A3 = {(0, 1), (1, 0)} B3 = {ω2 , ω3 }
S4 : x1 + x 2 ≥ 1 A4 = {(0, 1), (1, 0), (1, 1)} B4 = {ω1 , ω2 , ω3 }
La tabla siguiente muestra c ómo representar esta misma informaci ón de una manera
más c ómoda:
Resultado x1 x2 S1 : S2 : S3 : S4 :
x1 = 1 x 2 = 1 x 1 + x 2 = 1 x 1 + x 2 ≥ 1
√ √ √
ω1 1 1
√ √ √
ω2 1 0
√ √ √
ω3 0 1
ω4 0 0
√
Reemplazando en la columna correspondiente a Si el sı́mbolo por 1 y un blanco por
0, se obtiene una nueva columna. Multiplic ándola término a término por la colum-
na de probabilidades se obtiene la probabilidad de Si . La siguiente tabla ilustra este
procedimiento.

´
CAP ITULO ´
1. INTRODUCCI ON
Resultado
x1 x2 pi y1 p i y1 y2 p i y2 y3 p i y3 y4 p i y4
1 1 0.6 1 0.6 1 0.6 0 0 1 0.6
1 0 0.2 1 0.2 0 0 1 0.2 1 0.2
0 1 0.1 0 0 1 0.1 1 0.1 1 0.1
0 0 0.1 0 0 0 0 0 0 0 0
1.0 P (S1 ) = 0.8 P (S2 ) = 0.7 P (S3 ) = 0.3 P (S4 ) = 0.9
1.3.2 Resultados favorables equiprobables
Cuando para un suceso dado todos los resultados favorables son equiprobables, es decir,
p(x) = p(x0 ) ∀x, x0 ∈ A, (1.3.4)
la probabilidad P (A) se puede encontrar mediante la f órmula
P (A) = card (A) × p(x0 ), donde x0 ∈ A. (1.3.5)
En otras palabras, la probabilidad del suceso se obtiene multiplicando la probabilidad de un resul-

tado favorable (cualquiera de ellos da lo mismo) por el n úmero de resultados favorables. El c álculo
de card A requiere habitualmente de las herramientas de teorı́a combinatoria.
Ejemplo 1.3.3 Se lanzan 5 monedas id énticas, pero no necesariamente equilibradas.

Nos interesa la probabilidad de obtener exactamente dos caras entre las cinco monedas.
Sea 0 < p < 1 la probabilidad que una moneda determinada salga cara, y q = 1 − p
la probabilidad que salga sello. Sea yi = 1 si la i-ésima moneda es cara, e yi = 0
en caso contrario. Un resultado cualquiera del experimento se puede escribir como
y = (y1 , y2 , y3 , y4 , y5 ), pero estos 32 resultados no son equiprobables, a menos que
p = 0.5. En un capı́tulo posterior veremos que bajo un supuesto de independencia
entre los lanzamientos se deduce que la funci ón de probabilidad es
5
P 5
P
yi 5− yi
pi=1 q i=1 .
Cada resultado favorable tiene probabilidad p2 (1−p)3 , de modo que son equiprobables.
Para desarrollar nuestra intuici ón, escribamos dos resultados favorables, por ejemplo,
(1, 0, 0, 1, 0) y (0, 1, 1, 0, 0). Cada resultado favorable queda determinado por la posi-
ci ón de los unos (o de los ceros). Como hay 10 maneras de elegir 2 elementos de un
conjunto de 5, la probabilidad buscada es 10p2 q 3 .
Ejemplo 1.3.4 Sea x = (x1 , · · · xn ) ∈ Ω = {0, 1}n , y sea Ai el suceso xi = 1. En-

n
P
tonces, Sn (x1 , . . . , xn ) = xi es el n úmero de sucesos Ai que ocurre. Impongamos,
i=1
además, un supuesto de simetrı́a, que dice que la probabilidad de cada resultado x no
depende del orden de sus argumentos. Esto implica que la probabilidad de x depen-
de s ólo del valor s de Sn (x), o sea, es igual a g(s) para cierta funci ón g. Bajo este

´
CAP ITULO ´
1. INTRODUCCI ON
supuesto, todos los casos favorables para el suceso S n = s son equiprobables. Ellos
están en correspondencia uno a uno con los ns conjuntos {i/xi = 1} de cardinalidad

s. Por (1.3.4),
n
P (Sn = s) = g(s).
s
El valor de g(s) se puede calcular tomando cualquier resultado favorable, por ejemplo,
una sucesi ón de s unos seguida de n − s ceros.
Ejemplo 1.3.5 Una situaci ón práctica que queda cubierta por el resultado anterior es
el de una poblaci ón de tama ño N , m de cuyos integrantes poseen un atributo dado,
por ejemplo, ser mujer, tener un ingreso superior a un monto dado, haber padecido
cierta enfermedad, etc. Definiendo xi = 1 si la i-ésima persona en la muestra posee el
atributo y xi = 0 en caso contrario, Sn (x) = s es el n úmero de personas en la muestra
que poseen el atributo.
Se deja al lector verificar que
M s (N − M )n−s
g(s) = para muestreo con reposici ón,
Nn
y
M [s] (N − M )[n−s]
g(s) = para muestreo sin reposici ón,
N [ n]
donde a[r] = a × (a − 1) × · · · × (a − r + 1). De aquı́ se obtiene
s
M n−s

n M
P (Sn = s) = 1−
s N N
para muestreo con reposici ón, y
[s]
n M (N − M )[n−s]
P (Sn = s) =
s N [ n]
n!M !(NM )!(N − n)!
=
s!(n − s)!(M − s)!(N − M − n + s)!N !
M N −M

s n−s
= N

n
para muestreo sin reposici ón.
1.3.3 Simulaci oń del caso finito a partir del caso equiprobable
Si sabemos generar N resultados equiprobables, es posible generar resultados aleatorios para cual-
quier espacio muestral finito, bajo la condici ón que las probabilidades de los resultados tengan la
forma Nr . Si las probabilidades est án dadas por fracciones, basta elegir N como el m áximo com ún
denominador, o un m últiplo de éste. Si ellas están expresadas de modo decimal, con r cifras, se
puede tomar N = 10s con s ≥ r.

´
CAP ITULO ´
1. INTRODUCCI ON
Consideremos nuevamente la urna y agreguemos un nuevo ingrediente al modelo. Suponemos

que existe una conjunto en correspondencia biunı́voca con el conjunto de fichas de la urna. Llama-
mos a este conjunto poblaci ón y a sus elementos individuos. Extraer una ficha al azar de la urna
equivale a seleccionar un individuo de la poblaci ón al azar. Supongamos, adem ás, que hay una va-
riable definida para los individuos, como edad, peso, n úmero de cargas familiares, renta, candidato
preferido, pasta de dientes favorita, etc. El n úmero de valores distintos est á acotado por N pero
puede ser muy inferior. Finalmente, establecemos una correspondencia biunı́voca entre el conjunto
de valores de la variable y un conjunto de colores, que se aplicar án a las fichas. Por ejemplo, si
un grupo consta de 60 personas con ingreso alto y 140 personas de ingreso bajo, elegir una per-
sona al azar equivale a extraer al azar una ficha, de una urna con 60 fichas blancas y 140 negras.
Denotaremos por m al n úmero de colores.
Un consecuencia inmediata de la equiprobabilidad, que tiene importantes aplicaciones, es:
La probabilidad que la ficha extraida sea de un color determinado coincide con la

proporci ón de fichas de ese color en la urna.
Para demostrar este hecho, introducimos algo de notaci ón. El espacio muestral natural es el conjun-
to Ω de las N fichas en la urna. Denotemos por t a un color (valor de la variable) y por x al color
de la ficha extraida (el valor que toma la variable para aquel elemento de la poblaci ón asignado a
la ficha extraida). Sea Ω(t) el conjunto de fichas de ese color en la urna, y N (t) su n úmero. Si se
realizan muchas extracciones con reposici ón, la proporci ón de fichas de color x se aproxima a la
probabilidad p(x) que el color de la ficha extraida sea x. Pero p(x) es la probabilidad que la ficha
seleccionada pertenezca a Ω(x). Por equiprobabilidad se obtiene
card (Ω(x)) N (x)

p(x) = = ,
card (Ω) N
lo que justifica la afirmaci ón anterior.
Ejemplo 1.3.6 Se desea simular, a partir de una urna con mil fichas, un dado de 6 caras
con probabilidades dadas en la segunda columna de la siguiente tabla:
1 0.3 1–300
2 0.2 301–500
3 0.15 501–650
4 0.10 651–750
5 0.14 751–890
6 0.11 891–1000
Como las probabilidades tienen dos decimales bastarı́a con 100 fichas, pero 1000 es
m últiplo de 100, de modo que lo pedido es factible. Enumerando las fichas de 1 a
1000, podemos tomar Ω = {1, 2, . . . , 1000} y subdividirlo en 6 conjuntos Ω(x) de
cardinalidad 1000p(x), donde p(x) es la probabilidad de la cara con el n úmero x. La
tercera columna de la tabla muestra una de las muchas subdivisiones posibles.

´
CAP ITULO ´
1. INTRODUCCI ON
1.3.3.1 Extracciones sucesivas de una urna
Cuando s ólo interesa el color de las fichas, lo natural es tomar como resultado al arreglo ordenado
x = (x1 , x2 , . . . , xn ), donde xi es el color de la ficha obtenida en la i– ésima extracci ón (no con-
fundir con la i- ésima ficha en la urna). Si m es el n úmero de colores, hay mn arreglos x cuando el
muestreo es con reposici ón.
El caso de extracciones sucesivas al azar y con reposici ón nos da un modelo fı́sico concreto para
entender la repetici ón de experimentos en la interpretaci ón frecuentista. La ausencia de asociaci ón
entre las distintas extracciones se denomina independencia o independencia estadı́stica y se tra-
tará en el pr óximo capı́tulo. Los lanzamientos repetidos de un dado o una moneda es otro modelo
simple de repeticiones independientes de un experimento. Si X i representa al resultado incierto de
la i-ésima extracci ón, tenemos una sucesi ón de variables aleatorias independientes, cada una de las
cuales tiene a p(x) como funci ón de probabilidad.
Con m = 2 y m = 6 podemos simular n lanzamientos de una moneda o un dado no equilibra-
dos. En el caso equilibrado basta poner un mismo n úmero de fichas de cada color en la urna (una
ficha de cada color basta).
Ejemplo 1.3.7 Una urna contiene 2 fichas blancas y una negra. Se extraen, en forma
consecutiva, dos fichas de esta urna. Interesa listar los resultados cuando el muestreo
es con o sin reposici ón. Enumeremos las fichas, de modo que las dos primeras sean
blancas y la última sea negra.
Si el muestreo es con reposici ón, de los cuatro espacios muestrales
Ω1 = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}
Ω2 = {(b, b), (b, n), (n, b), (n, n)}
Ω3 = {11, 22, 33, 12, 13, 23}
Ω4 = {bb, bn, nn}
s ólo Ω1 tiene elementos equiprobables, de modo que la probabilidad de cada resultado
es 19 . Si el muestreo es sin reposici ón, de los cuatro espacios muestrales
Ω5 = {(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)}
Ω6 = {(b, n), (n, b), (b, b)}
Ω7 = {12, 13, 23}
Ω8 = {bn, bb}
Ω5 y Ω7 tienen elementos equiprobables, con probabilidades 16 y 31 , respectivamente. A
partir de estos espacios con elementos equiprobables se puede deducir las probabilida-
des de los resultados en otros espacios. Por ejemplo, a 11 y 12 en Ω 3 se le asocian los
subconjuntos {(1, 1)} y {(1, 2), (2, 1)} en Ω1 , lo que implica que sus probabilidades
respectivas son 91 y 29 . La equiprobabilidad de los elementos de Ω7 proviene del hecho
que todos ellos est án asociados con subconjuntos de cardinalidad 2 en Ω 1 .

´
CAP ITULO ´
1. INTRODUCCI ON
1.4 Pre ámbulos para la Formulaci ón Axiom ática
1.4.1 Experimentos y resultados
En la interpretaci ón frecuentista se considera un experimento repetible, que tiene ciertos resultados
posibles, y se identifica un suceso con el conjunto de resultados para los cuales él ocurre, es decir,
los resultados favorables. La incerteza que tenemos sobre un suceso determinado deriva de la incer-
teza sobre el resultado del experimento. Es importante distinguir entre el resultado obtenido en una
realizaci ón del experimento, que es único, y un resultado potencial. Antes de realizar el experimen-
to, se tiene un conjunto de resultados potenciales y existe incerteza sobre cual ser á el resultado que
se obtenga. Una vez realizado el experimento, el resultado se conoce y la incerteza desaparece.
En la formulaci ón general de la teorı́a de probabilidad, que incluye la interpretaci ón subjetiva,
la palabra experimento se utiliza en un sentido muy amplio. Si bien en algunas ocasiones se realiza
efectivamente un experimento de laboratorio y se miden los valores de diversas variables, esta es la
excepci ón más bien que la regla. Situaciones tales como elegir al azar una persona de una poblaci ón
y hacerla llenar un cuestionario, o lanzar dados o monedas, o incluso anotar los tiempos de llegada
de los autom óviles a una intersecci ón durante un cierto perı́odo, serı́an difı́cilmente denominados
experimentos en el lenguaje usual. En situaciones donde las probabilidades son interpretables sub-
jetivamente, como la probabilidad que un empleado reci én contratado tenga un buen desempe ño en
su trabajo, no es f ácil visualizar cu ál puede ser el experimento correspondiente.
Matemáticamente, el experimento es un concepto no definido, es decir, se elude definirlo pa-
ra evitarse problemas y ampliar el campo de aplicaci ón de la teorı́a. Para eludir la definici ón, la
estrategia consiste en centrar la atenci ón en la colecci ón Ω de resultados potenciales, a la que se
denomina espacio muestral, por razones hist óricas que discutiremos m ás adelante. Podemos inter-
pretar al experimento como un mecanismo abstracto o caja negra que genera resultados inciertos.
Esta incerteza se transfiere a todo suceso cuya ocurrencia dependa del resultado del experimento.
El conjunto de resultados favorables representa matem áticamente al suceso. Por analogı́a con el
caso frecuentista, debi éramos esperar que la probabilidad de un suceso coincida con la suma de las
probabilidades de los resultados (casos) favorables.
Toda situaci ón admite m últiples descripciones y el resultado de un experimento no es la excep-
ci ón. Esto implica que el espacio muestral Ω admite diversas especificaciones. El punto de partida
de la teorı́a moderna de la probabilidad, creada por el matem ático ruso Kolmogorov en 1933, es
considerar a Ω como especificado externamente, es decir, la teorı́a no indica en absoluto c ómo ele-
girlo. No obstante esto, la especificaci ón de los resultados, y por tanto de Ω, es esencial para la
aplicaci ón de modelos probabilı́sticos a situaciones reales.
La elecci ón de lo que consideraremos resultado debe evitar que dos resultados distintos corres-
pondan al mismo acontecimiento. A su vez, el listado de resultados potenciales debe ser exhaustivo,
de modo que se cubran todas las eventualidades. Una manera m ás sintética de expresar esto es que
exactamente un resultado ocurra en cualquier realizaci ón del experimento.
Ejemplo 1.4.1 En el caso de un dado es posible describir su trayectoria, su posici ón fi-
nal sobre la mesa, la cara que queda hacia arriba, el n úmero que est á escrito en tal cara,
etc. Cualquiera de estas cosas puede considerarse como resultado del experimento.

´
CAP ITULO ´
1. INTRODUCCI ON
Ejemplo 1.4.2 Se lanzan dos monedas al aire. Si distinguimos las monedas (por ejem-
plo pintándolas de distintos colores), es natural distinguir 4 resultados: (cara, cara),
(cara, sello), (sello, cara), y (sello, sello)). Si no se distinguen, lo único que sabemos
es el n úmero de caras, lo que da tres resultados posibles. Sin embargo, en probabilidad
los resultados de un experimento no requieren ser observables, lo que contrasta con el
uso habitual en los experimentos reales. M ás adelante veremos numerosos ejemplos
en que los elementos del espacio muestral m ás conveniente son no observables.
1.4.2 Sucesos y subconjuntos
Dada una familia A de sucesos de inter és y un espacio muestral Ω, la idea es identificar a cada
suceso A ∈ A con el subconjunto de Ω formado por los resultados favorables. La dificultad surge
cuando no es claro si cierto resultado ω ∈ Ω es favorable o no, pues el subconjunto queda indefinido.
Diremos que Ω est á adaptado a A cuando la dificultad mencionada no se presenta para ning ún par
(ω, A), con ω ∈ Ω, A ∈ A. En otras palabras, Ω est á adaptado a A si para cualquier resultado que
se produzca, y dado un único suceso de inter és A, siempre existe un espacio muestral Ω adaptado
a él, o sea, a {A}. Basta tomar Ω = {ω1 , ω2 } e identificar ω1 con la ocurrencia de A. Autom ática-
mente, el resultado ω2 indica que A no ocurri ó. La elecci ón can ónica es ω1 = 1 y ω2 = 0, lo que
equivale a escribir 1 y 0 para indicar la ocurrencia o no ocurrencia de A, respectivamente.
Ejemplo 1.4.3 Consideremos el lanzamiento de un dado y el suceso de inter és B: Sale

un as. La siguiente es una lista de espacios muestrales propuestos, algunos de los cuales
son inadmisibles porque violan los principios b ásicos enunciados.
(i) Ω = { mayor que 2, menor que 3 } es Inadmisible: Si el resultado es menor que

3, no podemos asegurar si sali ó un as o no.
(ii) Ω = {1, 2, 3, 4, 5} es Inadmisible: Puede salir un 6, el cual no est á en la lista.
(iii) Ω = { mayor que 1, menor que 2 } es Admisible: El suceso sale un as corres-
ponde al subconjunto { menor que 2 }.
(iv) Ω = { 1, entre 2 y 5, 6 } es Admisible: Exactamente uno de los resultados debe
ocurrir y el suceso de inter és corresponde al primero.
(v) {1, 2, 3, 4, 5, 6} es Admisible.
La elecci ón (v) tiene la ventaja de estar adaptada a cualquier suceso cuya ocurrencia
dependa exclusivamente del n úmero que se obtiene al lanzar el dado, e.g. Sale un
n úmero par o El n úmero excede 4.
Si se lanzan dos dados y consideramos como resultados posibles a Sale un 6 en el pri-
mer dado, Sale un 6 en el segundo dado y Otros casos, esta asignaci ón es inadmisible
ya que si sale un seis en ambos dados, los dos primeros resultados ocurren simult áne-
amente.
Consideremos una familia de sucesos expresada en t érminos de proposiciones l ógicas. Usando

los conectivos l ógicos y,o, y la negaci ón, se generan muchos otros sucesos. Por ejemplo, si se lanza

´
CAP ITULO ´
1. INTRODUCCI ON
un dado y el suceso Ai es que salga un as en el i- ésimo lanzamiento, la siguiente tabla muestra

algunos posibles sucesos de inter és.
B : sale alg ún as en los tres primeros lanzamientos A 1 o A2 o A3 .
C : no sale un as en el segundo lanzamiento no ocurre A 2 .
D : salen ases en el segundo y cuarto lanzamiento ocurren A 2 y A4 .
E : salen exactamente dos ases en los primeros tres lanzamientos muy tedioso de escribir.
Para ciertos prop ósitos, incluyendo la formulaci ón axiomática de la probabilidad, es conve-
niente traducir los sucesos originales al lenguaje de conjuntos. Los conectivos l ógicos y,o y la
negaci ón traducen en uni ón, intersecci ón y complementaci ón respectivamente. La tabla anterior se
reescribirı́a como sigue:
B : A1 ∪ A 2 ∪ A 3
C : A02
D : A2 ∩ A4
E : [(A1 ∩ A2 ) ∪ (A1 ∩ A3 ) ∪ (A2 ∩ A3 )] \ (A1 ∩ A2 ∩ A3 )
Un concepto clave en la teorı́a de probabilidad es el de sucesos mutuamente excluyentes, es de-
cir, que la ocurrencia de uno de ellos torna imposible que alg ún otro ocurra. Esta condici ón equivale
a a lo m ás uno de los sucesos de la familia puede ocurrir. Cuando a lo menos uno de los sucesos en
la familia ocurre necesariamente, decimos que la familia es exhaustiva. Una familia de sucesos es
a la vez mutuamente excluyente y exhaustiva si, en una misma realizaci ón del experimento, exac-
tamente uno de los sucesos de la familia debe ocurrir. Una manera com ún de generar familias de
este tipo es que cada suceso corresponda a un valor de una o m ás variables. Mirando a la familia de
sucesos como una familia de conjuntos, tenemos la equivalencia mostrada en la siguiente tabla.
Notaci oń probabilı́stica Notaci´ o n de conjuntos

Mutuamente excluyentes Disjuntos (intersecci ón vacı́a)
Exhaustiva Uni ón de los conjuntos es todo Ω
Mutuamente excluyente y exhaustiva Partici ón de Ω
El modelo probabilı́stico es un modelo matem ático que se representa por la terna (Ω, A, P ),
donde Ω es el espacio muestral, A es una familia de subconjuntos de Ω (que contiene a la familia
de sucesos de inter és), y P es una regla que asigna a cada A ∈ A un n úmero real entre 0 y 1, a la
que llamaremos distribuci ón de probabilidad.
1.4.3 Variables
Frecuentemente las preguntas que dan origen a los sucesos de inter és se pueden reformular en
términos de los valores que toman algunas variables. En tal caso, la ocurrencia del suceso est á en-
teramente determinada por los valores de las variables, y la incerteza sobre ellas se transmite a estos
sucesos. A cada variable se le puede asociar una serie de proposiciones o sucesos, por ejemplo, la
temperatura supera los 15 grados, la temperatura es inferior a 5 grados, la temperatura est á entre 6
y 14 grados, sale un n úmero par al lanzar el dado, gana un candidato particular, etc. Por otra parte,
un suceso puede depender de varias variables simult áneamente. Por ejemplo el suceso: el paciente
es obeso depende del peso, de la talla y de otras variables; el suceso la suma de los n úmeros ob-

´
CAP ITULO ´
1. INTRODUCCI ON
tenidos en tres lanzamientos de un dado es mayor que 14 depende de los valores de tres variables,
correspondiendo cada una al n úmero que se obtiene en un lanzamiento determinado.
Cuando hay una única variable de inter és, el espacio muestral m ás natural es simplemente un
listado de los posibles valores de esta variable.
Consideremos una poblaci ón finita de individuos, cada de los cuales tiene definidos los valores
de k variables, a las que denotamos por X1 , X2 , . . . , Xk . Los términos “individuo” y “poblaci ón”
se utilizan para tener una percepci ón más concreta, pero matem áticamente los individuos de una
poblaci ón son simplemente los elementos de un conjunto arbitrario. Si se enumeran los individuos
de la poblaci ón de 1 a N , todos los valores se pueden organizar como un arreglo rectangular, en que
cada fila corresponde a un individuo y cada columna a una variable. Si denotamos por x ij al valor
de la variable Xj para el i-ésimo individuo, la i- ésima fila de este arreglo es (xi1 , x21 , . . . , xik ).
Para ilustrar las ideas, consideramos la Tabla 1.4.1, que muestra las 10 primeras lı́neas de un
archivo computacional de 500 lı́neas. Cada una de ellas indica la comuna de residencia, el nivel
socio-econ ómico (mayor n úmero indica mayor ingreso), el n úmero de integrantes del grupo fa-
miliar, el n úmero de consultas m édicas efectuadas a lo largo de un a ño, el sexo y el peso para el
individuo correspondiente.
Identificador X1 : X2 : Nivel Socio X3 : Tama nõ X4 : N Consultas X5 : X6 : Peso

Comuna Econ o´mico Familia M e´dicas Sexo (kg)
1 A 1 3 3 M 74.8
2 A 1 3 2 F 54.2
3 A 1 4 4 M 69.7
4 A 3 4 2 F 58.4
5 C 3 3 8 M 64.6
6 C 4 3 1 F 64.5
7 B 2 3 6 M 72.1
8 A 3 2 2 F 66.0
9 C 3 1 4 M 71.6
10 A 2 2 2 M 72.9
Tabla 1.4.1: Primeras 10 lı́neas de un archivo de datos.
Ası́, el primer individuo es un hombre de 74.8 kg, que vive en la comuna A, de nivel socio-
econ ómico bajo. Su familia consta de tres personas y realiz ó tres visitas al médico el a ño pasado.
Las variables en nuestro ejemplo ilustran la diversidad que encontramos en la vida real. Ellas se
clasifican primariamente de acuerdo al conjunto E de valores posibles, pero tambi én se toma en
cuenta las estructuras adicionales definidas sobre E.
Denotemos a la variable por X y por E a su conjunto de valores posibles. Decimos que X es
finita si card (E) < ∞. Cuando card (E) = 2 decimos que la variable es binaria o dicot ómica.
Si los valores x ∈ E son no num éricos, se les denomina categorı́as y se dice que X es categ órica o
cualitativa. El sexo, el color, el nivel socio econ ómico, la preferencia por un candidato y la regi ón
de residencia son algunos ejemplos. A veces las categorı́as se codifican como n úmeros para efectos
computacionales, e.g hombre =1, mujer =2, pero carece de sentido efectuar operaciones aritm éticas
con estos c ódigos. Cuando las categorı́as poseen un orden natural y queremos enfatizar este aspecto,
decimos que la variable es ordinal. Ejemplos de variables ordinales son el nivel socioecon ómico, el

´
CAP ITULO ´
1. INTRODUCCI ON
grado de dureza, el grado de acuerdo con una medida gubernamental, etc.

Cuando E ⊆ R, se dice que X es cuantitativa. Ellas se denomina discreta si E es finito o nume-
rable. Lo más com ún es que una variable discreta sea un recuento, es decir, el n úmero de veces que
algo ocurre, en cuyo caso, el conjunto E de valores de la variable est á contenido en {0, 1, 2, 3, . . .}.
Cuando el n úmero total está acotado por n, por ejemplo, si X es el n úmero de transistores de-
fectuosos en un lote de tama ño n, E = {0, 1, . . . , n}. Un recuento binario tiene s ólo valores 1
y 0, que se pueden interpretar como presencia o ausencia de una caracterı́stica determinada, y se
la denomina variable indicatriz o indicadora. Toda variable binaria se puede recodificar como una
variable indicatriz. Por ejemplo, la variable binaria sexo se transforma en indicatriz si le asignamos
el c ódigo 1 a una mujer y 0 a un hombre. La suma de todos los valores de esta variable indicatriz
sobre la poblaci ón entrega el n úmero total de mujeres y el promedio coincide con la proporci ón de
mujeres en la poblaci ón.
Cuando no se conoce, a priori, una cota superior para los recuentos es usual tomar E =
{0, 1, 2, 3, . . .}. El n úmero de hijos de una pareja y el n úmero de llamadas telef ónicas efectua-
das en un lapso de 5 minutos son dos ejemplos donde se da esta situaci ón.
Como el n úmero de decimales en cualquier medici ón siempre es finito, una variable num érica
X observable es siempre discreta. Sin embargo, cuando tiene sentido imaginar valores intermedios
entre cualquier par (x1 , x2 ) de valores de X, es útil aceptar la existencia de una variable subyacente
Y , que toma valores y ∈ [a, b] ⊆ R, tal que x se puede interpretar como una buena aproximaci ón
de y. Se dice que la variable Y es continua. La mayorı́a de los modelos cientı́ficos emplea variables
continuas, e.g., edad, peso, estatura, nivel de colesterol, concentraci ón de calcio, temperatura, velo-
cidad y longitud. Habitualmente se ignora la distinci ón entre la variable subyacente Y y la variable
observada X, de modo que se act úa como si X fuese continua.
Ejemplo 1.4.4 Si el experimento consiste en medir una temperatura, el resultado suele

describirse por un n úmero real. Sin embargo, podemos hacer las siguientes considera-
ciones:
• La elecci ón de escala afecta este n úmero (por ejemplo, 0 grados Celsius, 32 gra-
dos Farenheit y 273 grados Kelvin corresponden a una misma temperatura).
• Si tomamos en consideraci ón el hecho que el instrumento de medici ón tiene una
precisi ón finita, el resultado se puede describir m ás fielmente como un intervalo
en R. Por ejemplo, si la precisi ón es de un decimal, un valor de 36.7 grados
corresponde realmente al suceso que la verdadera temperatura est á en el intervalo
[36.65, 36.75).
• Se puede considerar un experimento ideal en que el resultado sea la temperatura
exacta, pero claramente ella no es observable.
Cuando no se desea imponer una cota superior o inferior a priori, basta tomar b = ∞ o a = −∞
respectivamente. Mediante un cambio lineal de variable, o sea, una transformaci ón lineal afı́n, se
reduce el estudio de estas variables a E = R, E = R+ y E = [0, 1]. La clasificaci ón de las variables
en la Tabla 1.4.1 es:

´
CAP ITULO ´
1. INTRODUCCI ON
X1 : Comuna Categ órica

X2 : Nivel Socio-econ ómico Ordinal
X3 : Tama ño familia: Recuento
X4 : N úmero de consultas m édicas Recuento
X5 : Sexo Categ órica
X6 : Peso Continua
Un comentario final. Cuando la poblaci ón es finita, se puede concebir una tabla para la pobla-
ci ón total. Si Ω es el conjunto de todas las filas, y se identifica a la fila ω ∈ Ω con el elemento de la
poblaci ón, una variable asigna un valor a cada ω y, en consecuencia, se puede interpretar como una
funci ón definida sobre Ω, que es justamente la definici ón abstracta del concepto de variable.
Una ventaja del lenguaje de variables es que su uso es mucho m ás habitual que el de conjuntos.
Además, puede que sea claro que los sucesos de inter és correspondan a una variable, pero no
cuáles son exactamente los sucesos de inter és. Por ejemplo, nos puede interesar cu ál es el valor de
la temperatura, pero no tener claro si el suceso que la temperatura exceda 30 grados es de inter és.
1.4.4 Particiones, familias generadas y variables
Con un espacio muestral finito Ω, hay asociadas dos familias especiales de subconjuntos de Ω :
(i) La clase de los sucesos elementales {ω}, ω ∈ Ω.
(ii) La clase de todos los subconjuntos de Ω.
La primera clase constituye la partici ón más fina de Ω, mientras que todo suceso en (ii) es una
uni ón disjunta de algunos sucesos elementales. Cuando el resultado puede identificarse con el valor
de una variable finita, los sucesos elementales corresponden a la obtenci ón de un valor determinado
de la variable, mientras que los sucesos en (ii) son aquellos cuya ocurrencia o no, est á determinada
por el valor que se obtenga para la variable.
Una familia (A1 , . . . , Ak ) de subconjuntos b ásicos del espacio muestral Ω induce una partici ón
de Ω que consta de 2k términos. Cada t érmino es la intersecci ón de k subconjuntos, coincidiendo
el i-ésimo subconjunto en esta intersecci ón con Ai o su complemento A0i . Las uniones finitas de
los elementos de la partici ón inducida constituyen la familia de sucesos generada por A 1 , . . . , Ak ,
k
cuya cardinalidad es 22 . De esta forma, dos sucesos inducen una partici ón del espacio muestral
en 4 sucesos y la familia generada consta de 16 sucesos. Para tres sucesos, la partici ón inducida
y la familia generada constan de 8 y 256 sucesos respectivamente. La partici ón inducida por los
sucesos A y B es (A ∩ B, A ∩ B 0 , A0 ∩ B, A0 ∩ B 0 ). Para tres o más sucesos resulta tedioso detallar
los sucesos que forman la partici ón inducida por estos sucesos, sin contar con una notaci ón más
conveniente.
Con esta motivaci ón, consideramos la variable indicatriz de Ai , que toma el valor xi = 1 si Ai
y el valor 0 en caso contrario. El vector binario x = (x1 , . . . , xk ) determina cu áles sucesos b ásicos
ocurren y cu áles no lo hacen, siendo tambi én verdadera la afirmaci ón recı́proca. El conjunto for-
mado por los 2k arreglos x constituye un espacio muestral alternativo, que denotamos por X . Cada
elemento de X est á en correspondencia uno a uno con un suceso de la partici ón generada por los
Ai , al cual denotamos por Ex y los subconjuntos de X est án en correspondencia uno a uno con la

´
CAP ITULO ´
1. INTRODUCCI ON
familia de sucesos generada por los Ai . Con esta notaci ón y tomando A1 = A y A2 = B, tenemos
E11 = A ∩ B, E10 = A ∩ B 0 , E01 = A0 ∩ B y E00 = A0 ∩ B 0 . A continuaci ón mostramos como
escribir algunos sucesos generados por A y B como uniones de los E x y en términos de condiciones
que satisfacen los valores x1 y x2 .
Ocurre B E11 ∪E10 : x2 = 1
Ocurre exactamente uno de los dos sucesos E10 ∪E01 : x1 + x 2 = 1
Ocurre al menos uno de los dos sucesos E11 ∪E10 ∪E01 : x1 + x 2 > 0
No ocurre ninguno de los dos sucesos E00 : x1 + x 2 = 0
Ocurren ambos sucesos E11 : x1 = 1, x2 = 1
Para tres sucesos A1 , A2 , A3 , la ocurrencia de dos o m ás de ellos corresponde al nuevo suceso
{(x1 , x2 , x3 )/x1 + x2 + x3 ≥ 2} de X , que a su vez corresponde al subconjunto [(A 1 ∩ A2 ) ∪ (A1 ∩
A3 ) ∪ (A2 ∩ A3 )] \ (A1 ∩ A2 ∩ A3 ) de Ω.
Como card (X ) tiene 2k elementos y la suma de sus probabilidades es igual a 1, basta especi-
ficar 2k − 1 n úmeros no negativos cuya suma no exceda 1 para determinar las probabilidades de los
k
22 sucesos generados por A1 , A2 , . . . , Ak . Ası́, para k = 3, 7 n úmeros determinan 256 probabili-
dades, mientras que para k = 4, 15 n úmeros determinan 65536 probabilidades. Las probabilidades
de los sucesos generados pueden tambi én calcularse a partir de aquellas asociadas a 2k − 1 sucesos
adecuadamente seleccionados. Los sucesos Ai y todas sus intersecciones, de a 2, de a 3, . . ., de a k,
sirven para este fin, aun cuando esto dista de ser obvio.
1.5 Axiomas
La teorı́a de probabilidad, considerada como rama de las matem áticas, descansa en una serie de
axiomas y de t érminos que no se definen. Dentro de la teorı́a, no se hace uso alguno del significado
o la interpretaci ón del n úmero real que representa la probabilidad. El c álculo de probabilidades
es el conjunto de reglas de operaci ón que permite determinar la probabilidad de ciertos sucesos, a
partir de los valores de las probabilidades de otros. Los axiomas son reglas b ásicas, a partir de las
cuales se deducen las reglas de operaci ón.
1.5.1 Aditividad y medida
Las interpretaciones frecuentista y subjetiva son radicalmente diferentes, por lo que es una grata
sorpresa que exista una teorı́a unificada. Esto es posible porque el enfoque matem ático consiste en
imponer ciertos axiomas y obtener luego conclusiones mediante un razonamiento l ógico. La utili-
dad de este enfoque requiere que no haya contradicci ón entre los axiomas elegidos y las nociones
intuitivas. Con la interpretaci ón frecuentista las probabilidades son proporciones lı́mites, lo que
sugiere que las reglas de operaci ón con probabilidades sean an álogas a las referentes a operaciones
con proporciones.
Una propiedad clave que satisfacen las proporciones es la aditividad. Para escribir esto riguro-
samente, consideremos una partici ón finita (A1 , . . . , Ak ) de A ⊆ Ω, donde Ω es un conjunto finito.
La aditividad significa que la proporci ón de elementos de Ω que est án contenidos en A es la suma
de las proporciones correspondientes a los conjuntos A i .

´
CAP ITULO ´
1. INTRODUCCI ON
Con la notaci ón de (1.2.8), la aditividad de las proporciones se escribe como

k k
!
X X
Prop Ai = Prop(Ai ).
i=1 i=1
Muchos conceptos geom étricos y fı́sicos, tales como longitud, área, volumen, peso y carga
eléctrica, se pueden representar como una funci ón aditiva definida sobre una clase de conjuntos.
Por ejemplo, si cortamos un hilo en k pedazos y medimos la longitud de cada uno, la suma de estos
n úmeros coincide con la longitud original del hilo; si cortamos un pedazo de carne en k pedazos, los
pesamos por separado y sumamos los pesos, se recupera el peso original. Si bien los valores de la
longitud, el área, el volumen y el peso son todos positivos, ellos pueden ser positivos o negativos en
el caso de la carga el éctrica. Un caso semejante es el de una empresa con k sucursales. La ganancia
total de la empresa ser á la suma de las ganancias de cada sucursal (aditividad), pero algunas de estas
ganancias podrı́an ser eventualmente negativas (p érdidas).
En el caso de proporciones no tiene inter és considerar particiones infinitas, pero no ocurre lo
mismo con los ejemplos geom étricos y fı́sicos. Por ejemplo, un cı́rculo no es una uni ón finita
de rectángulos, pero se puede escribir como una uni ón numerable. Una medida es una funci ón m
definida sobre una clase de subconjuntos A de un conjunto Ω, que cumple el axioma de σ-aditividad,
también denominada aditividad numerable:
∞ ∞
!
X X
m Ai = m(Ai ). (1.5.1)
i=1 i=1
La longitud, el área, el volumen, el peso, la carga el éctrica, el n úmero de elementos y la proporci ón,
son todos ejemplos de medidas. A nivel de estas notas no enfatizaremos la aditividad numerable.
Decimos que una medida m es positiva si m(A) ≥ 0 para todo A ∈ A. En el caso del área de
una figura (o sea un subconjunto del plano) existen subconjuntos de inter és cuya área es infinita. Si
todos los subconjuntos de inter és están contenidos en una regi ón acotada Ω, el área de Ω es finita y
lo propio acontece con todos sus subconjuntos. Cuando la medida m satisface m(Ω) < ∞ se dice
que ella es finita. Si m(Ω) = 1 se dice que ella es normalizada.
La operaci ón de contar est á relacionada con una medida positiva, donde a cada subconjunto de
un conjunto finito Ω se le asocia su cardinalidad, i.e. el n úmero de elementos que contiene. La
aditividad de la cardinalidad es obvia; por ejemplo el n úmero de alumnos de un colegio se puede
obtener sumando los tama ños de todos los cursos. Matem áticamente,
k k
!
X X
card Ai = card (Ai ). (1.5.2)
i=1 i=1
La condici ón que los subconjuntos Ai sean disjuntos es ac á necesaria para evitar contar dos veces
el mismo elemento. La proporci ón m(A) de elementos contenidos en A, dada por
card (A)
m(A) = ,
card (Ω)
es también una medida normalizada. En general, toda medida positiva finita se puede normalizar,
dividiéndola por la medida de Ω. En el caso de la longitud, el área, el volumen y el peso, la
normalizaci ón se puede alcanzar con un simple cambio de unidades.

´
CAP ITULO ´
1. INTRODUCCI ON
La aditividad no se puede extender a familias no numerables de conjuntos sin generar resultados

paradojales. Por ejemplo, el área de un cı́rculo es positiva, mientras que el área de un conjunto con
un solo punto es 0. De valer la aditividad en este caso, la suma de muchos ceros serı́a un n úmero
positivo.
1.5.2 Axiomas de probabilidad
Con la formulaci ón conjuntista, la distribuci ón de probabilidad es una funci ón con valores reales,
definida sobre una familia A de conjuntos del espacio muestral Ω. En el caso finito A est á consti-
tuida por todos los subconjuntos de Ω. Con estas definiciones,
La probabilidad es una medida positiva y normalizada
Esta afirmaci ón es equivalente a imponer los siguientes Axiomas de Probabilidad:

La distribuci ón de probabilidad P es una funci ón definida sobre una clase A de subconjuntos
de Ω que satisface las siguientes condiciones:
k k
!
X X
Aditividad : P Ai = card (Ai ). (1.5.3)
i=1 i=1
Positividad : P (A) ≥ 0, para todo A. (1.5.4)
Normalizaci ón : P (Ω) = 1. (1.5.5)
∞ ∞
!
X X
Aditividad numerable : P Ai = P (Ai ) (1.5.6)
i=1 i=1
Tabla 1.5.1: Axiomas de Probabilidad

La aditividad significa que si un suceso se descompone en un n úmero finito de sucesos mutua-
mente excluyentes, su probabilidad es la suma de las probabilidades de los sucesos en esta descom-
posici ón. La aditividad numerable es an áloga para particiones infinitas. Tomando Ai = φ, para
i > n y demostrando previamente que P (φ) = 0, se deduce que la aditividad numerable garantiza
la aditividad, existiendo contraejemplos para la afirmaci ón recı́proca.
La σ-aditividad permite calcular probabilidades bajo ciertos procesos lı́mites. Cuando el lı́mite
B∞ de una sucesi ón de sucesos Bn existe, se requiere la σ-aditividad para garantizar que P (B ∞ )
coincide con el lı́mite de las probabilidades P (Bn ). Los casos m ás importantes donde el lı́mite
existe corresponden a sucesiones encajonadas de conjuntos, en cuyo caso el lı́mite es la uni ón de
todos los conjuntos para sucesiones crecientes y la intersecci ón de todos ellos en el caso decreciente.
n X ∞
S
Un ejemplo se sucesi ón creciente es Bn = Ai , siendo B∞ = Ai el lı́mite respectivo.
i=1 i=1
Ejemplo 1.5.1 Considere lanzamientos sucesivos de una moneda con probabilidad de

cara p, con 0 < p < 1. Sea Cn el suceso no sale cara en los primeros n lanzamientos.

´
CAP ITULO ´
1. INTRODUCCI ON
En el Capı́tulo 2 se demostrar á que P (Cn ) = pn , cuyo valor lı́mite es 0. Por otra parte
∞
T
Cn es una sucesi ón decreciente y, en consecuencia, C = lim Cn = Cn . El suceso
n=1
C ocurre si nunca sale cara. El axioma de σ-aditividad implica que la probabilidad de
este conjunto es 0.
La σ-aditividad es esencial para estudiar problemas donde una variable aleatoria toma valores
enteros no negativos, pero hay una cota superior natural. La σ-aditividad garantiza que la suma de
las probabilidades de todos los resultados coincide con la probabilidad que ocurra alguno de ellos y
por tanto es igual a 1. Por cierto la suma es realmente el valor de una serie.
1.5.3 Propiedades b a´sicas
A partir de los axiomas se puede obtener muchas propiedades útiles. Algunas valen para toda me-
dida, otras para toda medida positiva y otras para toda medida positiva normalizada. El tratamiento
axiomático nos entrega una herramienta poderosa para intuir las propiedades probabilı́sticas bási-
cas. Simplemente usamos un modelo concreto para el cual comprendemos bien alguna medida
positiva normalizada, evitando utilizar caracterı́sticas muy especiales de esa medida. Por ejemplo,
si una figura está contenida dentro de otra, el área de la primera no puede exceder el área de la
otra. Esta propiedad intuitiva vale para cualquier medida positiva y se denomina monotonicidad.
Formalmente, la funci ón de conjunto m es mon ótona si
C ⊆ D ⇒ m(C) ≤ m(D), (1.5.7)
• Concepto probabilı́stico: La probabilidad de un suceso imposible es nula.

Propiedad general: Si alg ún conjunto tiene medida finita, entonces la medida del conjunto
vacı́o es igual a 0.
Demostraci ón: Inmediata a partir de A = A ∪ ∅ ⇒ m(A) = m(A) + m(∅).
• Concepto probabilı́stico: Monotonicidad. Si la ocurrencia de C implica la de D, entonces
P (C) ≤ P (D).
Propiedad general: Toda medida positiva es mon ótona.
Demostraci ón: Consideremos la uni ón disjunta D = C + (D \ A). Por aditividad m(D) =
m(C) + m(D \ C) y por positividad m(D \ C) ≥ 0. Usando un diagrama de Venn e
identificando m con el área, es fácil visualizar los pasos de la demostraci ón en términos muy
intuitivos.
• Concepto probabilı́stico: La probabilidad que ocurra alg ún suceso es menor o igual a la
suma de las probabilidades respectivas.
Propiedad general: Para toda medida positiva, la medida de una uni ón numerable de conjun-
tos se puede acotar por la suma de sus probabilidades.
Demostraci ón: Si la desigualdad se cumple para uniones finitas, la σ-aditividad permite pasar
al lı́mite. Basta demostrar, entonces, que
k k
!
[ X
m Ai ≤ m(Ai )
i=1 i=1

´
CAP ITULO ´
1. INTRODUCCI ON
para toda medida positiva m. Por inducci ón se reduce la demostraci ón al caso k = 2. Para
obtener una idea intuitiva es útil construir diagramas de Venn para k = 2 y k = 3 y tomar a
m como el área.
Considerando un conjunto finito Ω y tomando m como la cardinalidad, la desigualdad se
produce al contar algunos elementos m ás de una vez. Si identificamos los elementos de Ω
con nombres de personas y Ai como una lista de algunos de estos nombres, la desigualdad nos
dice que el total de nombres puede ser mayor que la suma de los n úmeros de cada lista. Por
cierto, si no hay nombres repetidos, la desigualdad se transforma en igualdad. La ausencia
de repeticiones es equivalente a la intersecci ón vacı́a de los conjuntos en esta familia de
conjuntos.
• Concepto probabilı́stico: F órmula para la probabilidad que ocurra alg ún conjunto de una
familia dada.
Problema general: F órmula para la medida de una uni ón de conjuntos.
– Caso k = 2 :
m(A1 ∪ A2 ) = m(A1 ) + m(A2 ) − m(A1 ∩ A2 )
La demostraci ón es sencilla, siendo lo esencial considerar la partici ón (A1 \ A2 ) ∪
(A2 \ A1 ) ∪ (A1 ∩ A2 ). La desigualdad (1.5.13) para k = 2 se obtiene como corolario.
Notamos, adem ás, que m(A1 ∪ A2 ) = m(A1 ) + m(A2 ) si y s ólo si m(A1 ∩ A2 ) = 0.
Usando la analogı́a con área, si se corta un rect ángulo en dos pedazos, el área del borde
entre ellos es nula, de modo que se puede incorporar el borde a cada uno de los pedazos
sin alterar el área total.
– Caso general
k
[ k
X
m( Ai ) = (−1)j−1 αj , (1.5.8)
i=1 j=1
donde αj es la suma de la probabilidades de todas las intersecciones de j conjuntos. Por

ejemplo, para k = 3 se obtiene
m(A1 ∪ A2 ∪ A3 )) = m(A1 ) + m(A2 ) + m(A3 )
−m(A1 ∩ A2 ) − m(A1 ∩ A3 ) − m(A2 ∩ A3 )
+m(A1 ∩ A2 ∩ A3 )
Cuando m es la cardinalidad de un conjunto, (1.5.15) es una identidad combinatorial

que se conoce bajo el nombre de principio de uni ón-exclusi ón. La raz ón es que la
f órmula se puede interpretar como una manera de descontar repeticiones por exceso,
para posteriormente corregirlo, repiti éndose el ciclo varias veces.
Para facilitar las referencias posteriores entregamos una lista de las f órmulas probabilı́sticas que
hemos demostrado en un marco m ás general.
k k
!
X X
P Ai = P (Ai ) (1.5.9)
i=1 i=1

´
CAP ITULO ´
1. INTRODUCCI ON
P (φ) = 0, (1.5.10)
C ⊆ D ⇒ P (C) ≤ P (D) (1.5.11)
∞ ∞
!
X X
P Ai = P (Ai ), (1.5.12)
i=1 i=1
k k
!
[ X
P Ai ≤ P (Ai ) (1.5.13)
i=1 i=1
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) (1.5.14)
k
[ k
X
P( Ai ) = (−1)j−1 αj , (1.5.15)
i=1 j=1
donde αj es la suma de la probabilidades que ocurran j sucesos simult áneamente, al tomar exacta-
mente j sucesos a la vez.
1.5.4 Ejemplos
El primer ejemplo ilustra la idea de descomposiciones aditivas, en conjunto con argumentos de

simetrı́a.
Ejemplo 1.5.2 Calcular la probabilidad de obtener exactamente un par al lanzar 3 da-

dos balanceados. La siguiente tabla entrega una lista exhaustiva de resultados.
111 112 113 114 115 116 121 122 123 124 125 126
131 132 133 134 135 136 141 142 143 144 145 146
151 152 153 154 155 156 161 162 163 164 165 166
211 212 213 214 215 216 221 222 223 224 225 226
231 232 233 234 235 236 241 242 243 244 245 246
251 252 253 254 255 256 261 262 263 264 265 266
311 312 313 314 315 316 321 322 323 324 325 326
331 332 333 334 335 336 341 342 343 344 345 346
351 352 353 354 355 356 361 362 363 364 365 366
411 412 413 414 415 416 421 422 423 424 425 426
431 432 433 434 435 436 441 442 443 444 445 446
451 452 453 454 455 456 461 462 463 464 465 466
511 512 513 514 515 516 521 522 523 524 525 526
531 532 533 534 535 536 541 542 543 544 545 546
551 552 553 554 555 556 561 562 563 564 565 566
611 612 613 614 615 616 621 622 623 624 625 626
631 632 633 634 635 636 641 642 643 644 645 646
651 652 653 654 655 656 661 662 663 664 665 666
18 18 18 18 18 18 18 18 18 18 18 18
Si estos resultados son equiprobables – lo que justificaremos en el Capı́tulo 2 – la

90 5
probabilidad buscada es 216 = 12 . Una forma alternativa de c álculo, que no hace
uso de la lista completa, es utilizar las simetrı́as del problema y la aditividad. Sea A
el suceso sale un par, Ai el suceso sale un par de i y Aij el suceso sale un par de i

´
CAP ITULO ´
1. INTRODUCCI ON
6
P
y un n úmero j. Entonces, A = Ai , y por simetrı́a P (A) = 6P (A1 ). A su vez
i=1
5
P
A1 = A1j y la simetrı́a implica P (A1 ) = 5P (A12 ). Ası́ P (A) = 30P (A12 ). En
i=2
términos del conjunto Ω de los 216 arreglos, el suceso A 12 , que corresponde a 2 ases
y 1 dos, se identifica con el conjunto {211, 121, 112}, de modo que él corresponde a 3
resultados favorables. Esto muestra que
3 1 5
P (A12 ) = , P (A) = 90 × = .
216 216 12
Ejemplo 1.5.3 (Probabilidad geom e´trica) La elecci ón de un punto al azar en una
regi ón acotada de un plano se obtiene normalizando el área, es decir, la probabilidad
de un subconjunto es la raz ón entre su área y el área total del plano. Por ejemplo,
la probabilidad que un punto elegido al azar en un cuadrado caiga dentro del cı́rculo
inscrito es π4 . Si se puede realizar repetidamente este experimento, la proporci ón de
veces que el punto cae dentro del cı́rculo, multiplicada por 4, permite aproximar el
valor de π experimentalmente.
Un cálculo similar muestra que si se elige un punto al azar en un disco, la probabilidad
que la distancia al origen sea inferior a la mitad del radio es 14 . Por otra parte, el disco
se puede escribir como
{(r cos θ, r sin θ)/ 0 ≤ r ≤ R, 0 ≤ θ < 2π}.
La idea de elegir un punto al azar en un di ámetro del disco, e independientemente

hacer una rotaci ón al azar, se traduce en la elecci ón del par (r, θ) al azar dentro del
rectángulo [0, R] × [0, 2π). Bajo este supuesto, la probabilidad que la distancia al
origen sea inferior a la mitad del radio es 12 . Esto ilustra los peligros de atacar estos
problemas de manera puramente intuitiva.
De manera an áloga, la probabilidad que un punto al azar en cierto intervalo A cumpla
con ciertas condiciones es el cuociente entre la longitud del conjunto de puntos que
satisfacen la condici ón y la longitud de A. Para una regi ón acotada en el espacio, lo
propio vale con la longitud reemplazada por el volumen.
Ejemplo 1.5.4 Consideremos un experimento en que el resultado es un n úmero real

en el intervalo [0, M ]. Se nos indica que la probabilidad de un intervalo cualquiera
es proporcional al área bajo cierta curva positiva y continua, entre las rectas verticales
x = 0 y x = M . Esta área representa efectivamente una medida acotada sobre los
subconjuntos de [0, M ], pero no est á normalizada. Si la curva es el gr áfico de una
funci ón continua h ≥ 0, entonces
Z b
Z b h(x)dx
m([a, b]) = h(x)dx y P ([a, b]) = Z aM .
a
h(x)dx
0

´
CAP ITULO ´
1. INTRODUCCI ON
R1 1
Por ejemplo, si M = 1 y h(x) = x2 (1 − x), 0 h(x)dx = 12 y
P ([a, b]) = 4b3 − 3b4 − 4a3 + 3a4 .
La probabilidad que el resultado sea inferior a un n úmero b se obtiene tomando a = 0,

i.e. 4b3 − 3b4 . Esta es una funci ón estrictamente creciente en b, lo que est á de acuerdo
con la propiedad mon ótona de la probabilidad. Ella alcanza el valor 1 para b = 1, lo
que es simplemente la propiedad de normalizaci ón.
Ejemplo 1.5.5 Sea X = N ◦ de artı́culos defectuosos en un lote de 100 unidades. Los

valores posibles de X son 0, 1, 2, . . . , 100 y el espacio de probabilidad correspondiente
serı́a Ω = {0, 1, 2, . . . , 100}. Serı́a catastr ófico para la calidad del equipo que los 101
elementos de Ω fueran equiprobables. Se necesitan en principio 100 n úmeros para
determinar las probabilidades relevantes. Para facilitar los c álculos de probabilidades
del tipo P (X ≤ a), P (X > b), P (c < X < d), es preferible tabular las probabilidades
de los 100 sucesos: X ≤ x, x = 0, . . . , 99 (obviamente P (X ≤ 100) = 1). Esta idea
es enteramente an áloga a las distribuciones acumuladas de proporciones. Denotando
P (X ≤ x) por F (x) y a P (X = x) por p(x) se obtiene nuevamente un sistema
triangular de ecuaciones:
F (0) = p(0)
F (1) = p(0) + p(1)
F (2) = p(0) + p(1) + p(2)
..
.
F (x) = p(0) + p(1) + · · · + p(x)
..
.
F (99) = p(0) + p(1) + · · · + p(99),
cuya soluci ón es

p(x) = F (x) − F (x − 1). (1.5.16)
Los sucesos 0 ≤ X ≤ 2 y 2 ≤ X ≤ 3 no son mutuamente excluyentes pues ambos

ocurren cuando X = 2. Por lo tanto P (0 ≤ X ≤ 2 ó 2 ≤ X ≤ 3) = P (0 ≤ X ≤ 3)
= P (0 ≤ X ≤ 2) + P (2 ≤ X ≤ 3) − P (X = 2). Adem ás
P (a < X ≤ b) = F (b) − F (a). (1.5.17)
Advertencia: Es importante notar que la primera desigualdad en el lado izquierdo

de (1.5.17) es estricta, pero la segunda no lo es. Por ejemplo P (5 < X < 6) no
es F (6) − F (5) sino 0, ya que no hay n úmeros enteros estrictamente entre 5 y 6.
Análogamente, P (5 ≤ X ≤ 6) no es F (6) − F (5) sino F (6) − F (4). La clave est á en
reescribir, en caso de necesidad, la desigualdad en forma can ónica, es decir con las
desigualdades adecuadas. Por ejemplo 3 ≤ X < 6 ⇔ 2 < X ≤ 5, de modo que
P (3 ≤ X < 6) = P (2 < X ≤ 5) = F (5) − F (2). Observe que este procedimiento
usa fuertemente el hecho que los valores de X son n úmeros enteros.

´
CAP ITULO ´
1. INTRODUCCI ON
1.6 Modelo de Probabilidad Numerable
1.6.1 Caso general
Sea Ω numerable y sea P una distribuci ón de probabilidad dada. Se define la funci ón de probabili-
dad por p(ω) = P ({ω}), ω ∈ Ω.
Los sucesos básicos {ω} constituyen una partici ón numerable de Ω y todo A ⊂ Ω es una uni ón
numerable de los sucesos b ásicos {ω, ω ∈ A}. Por σ-aditividad,
X
P (A) = p({ω}). (1.6.1)
ω∈A
Esto indica que la probabilidad de un suceso sigue siendo la suma de las probabilidades de los
resultados favorables.
Aplicando (1.6.1), con A = Ω, se tiene
X
p(ω) = 1, p(ω) ≥ 0. (1.6.2)
ω∈Ω
Todas las ecuaciones (1.2.1) – (1.2.8) rigen por definici ón o como consecuencia l ógica.
Si se enumeran los t érminos de A, la suma en (1.6.1) es el valor de una serie. La no negatividad
de los términos garantiza que este valor no depende de la enumeraci ón elegida. Adem ás, (1.6.2)
garantiza la convergencia. El caso finito sale como corolario, donde no se requiere la σ-aditividad,
sino la aditividad finita.
1.6.2 Enteros no negativos
Si el resultado del experimento es un n úmero entero no negativo k, para el cual no queremos impo-
ner una cota superior, lo habitual es elegir Ω como el conjunto de enteros no negativos {0, 1, 2, . . .}.
Esta situaci ón ocurre frecuentemente cuando la variable es un recuento, e.g. n úmero de accidentes,
de llamadas telef ónicas, de llegadas a una intersecci ón, de clientes en una cola, etc. Las igualdades
(1.6.2) y (1.6.1) se transforman en
X∞
p(k) = 1,
k=0
y X
P (A) = p(k),
k∈A
respectivamente. Para verificar si
p(k) = 0.7 × 0.3k−1 , k > 0, p(0) = 0
define una funci ón de probabilidad v álida, basta verificar que los valores son no negativos y calcular
la suma. Si el experimento consiste en extraer artı́culos de un lote hasta que aparezca el primer

´
CAP ITULO ´
1. INTRODUCCI ON
defectuoso y k es el n úmero total de artı́culos que se extrae, P (X > 3) coincide con la probabilidad
que las primeras tres extracciones entreguen artı́culos no defectuosos. Un c álculo directo da
∞
X
P (X ≥ 3) = p(k) (1.6.3)
k=4
∞
X
3
= 0.7 × 0.3 0.3k−4 (1.6.4)
k=4
X∞
= 0.7 × 0.33 0.3j (1.6.5)
j=0
= 0.33 (1.6.6)
= 0.027 (1.6.7)
Si la serie converge pero la suma es c 6= 1, basta normalizar la funci ón dividiendo cada t érmino de
la serie por c. Basta, entonces, indicar el valor de la funci ón de probabilidad salvo por una constante
de proporcionalidad y determinarla usando (1.6.2). Por ejemplo, de la serie de Taylor de la funci ón
∞
X 1 k
exponencial se deduce que c = λ = eλ , de modo que
k!
k=0
e−λ k
p(k) = λ , λ > 0, k ≥ 0
k!
es una legı́tima funci ón de probabilidad. La distribuci ón de probabilidad correspondiente se deno-
mina distribuci ón de Poisson y est á determinada por el par ámetro ajustable λ.
1.6.3 Familias param e´tricas y series de potencia
Es muy excepcional conocer los valores exactos de la funci ón de probabilidad. Lo habitual es que
exista informaci ón empı́rica previa sobre las frecuencias relativas de los distintos valores posibles de
una variable aleatoria. Para que el modelo probabilı́stico tenga relevancia pr áctica se procura elegir
la forma de funci ón de probabilidad p de tal modo que se asemeje a la funci ón de probabilidad
empı́rica (donde las proporciones empı́ricas reemplazan a las probabilidades). El uso de familias
paramétricas, como la de Poisson, permite ajustar la funci ón de probabilidad a los datos mediante
la elecci ón de uno o m ás n úmeros reales, que se denominan par ámetros.
Muchas familias param étricas se pueden deducir a partir de series de potencia conocidas. Sea
∞
X
G(z) = ck z k , |z| < r, (1.6.8)
k=0
una serie de potencias con radio de convergencia r. El caso especial, en que todos los coeficientes
ck son nulos excepto un n úmero finito de ellos, da origen a un polinomio, para el cual r = ∞.
Si ck ≥ 0 para todo k, la funci ón p(·, θ) definida por
ck θ k
p(k, θ) = , θ < r, k ≥ 0, (1.6.9)
G(θ)

´
CAP ITULO ´
1. INTRODUCCI ON
es una funci ón probabilidad v álida para 0 ≤ θ < r.
Ejemplo 1.6.1 Una aplicaci ón de (1.6.8) y (1.6.9) a las conocidas expansiones
∞
X 1 k
ez = z , |z| < ∞,
k!
k=0
∞
X
z(1 − z)−1 = z k , |z| < 1
k=1
conduce a las funciones de probabilidad
λk e−λ
p(k, λ) = , λ > 0.
k!
y
p(k, θ) = (1 − θ)θ k−1 , k > 0, 0 < θ < 1.
La primera genera la distribuci ón de Poisson, y la segunda recibe el nombre de ge-
ométrica. Para θ = 0.3 se obtiene la funci ón de probabilidad en el ejemplo de los
artı́culos defectuosos.
Ejemplo 1.6.2 La funci ón G(z) = (1 + z)n es un polinomio y el coeficiente de z k es

ck = nk , que es no negativo. Por lo tanto,
k
n θ
p(k, θ) =
k G(θ)
θk

n
= , θ ≥ 0,
k (1 + θ)n
θ
define una familia param étrica. Si α = 1+θ , ésta se puede reescribir como

n k
α (1 − α)n−k , 0 ≤ α ≤ 1.
k

´
CAP ITULO ´
1. INTRODUCCI ON
1.7 Problemas
1. Sean tres sucesos E, F y G. Encuentre expresiones para los siguientes sucesos en lenguaje de
conjuntos.
a.- S ólo ocurre E.

b.- Ocurren tanto E como G, pero no ası́ F.
c.- Al menos uno de los sucesos ocurre.
d.- Al menos dos de los sucesos ocurren.
e.- Los tres sucesos ocurren.
f.- Ninguno de los tres sucesos ocurre.
g.- A lo más uno de ellos ocurre.
h.- A lo más dos de ellos ocurren.
i.- Exactamente dos de ellos ocurren.
2. Pruebe la desigualdad de Boole:

n
[ n
X
P( Ei ) ≤ P (Ei )
i=1 i=1
3. Demuestre que la probabilidad que ocurra exactamente uno de los sucesos E o F es igual a:
P (E) + P (F ) − 2P (E ∩ F ).
4. Demostrar que si P y Q son dos medidas de probabilidad definidas sobre un mismo espacio,
entonces aP +bQ es tambi én una medida de probabilidad para algunos n úmeros no negativos
a y b tales que a + b = 1. Dar un ejemplo encontrando valores a y b que cumplan las
condiciones.
5. Una caja contiene una ficha roja, una verde y una azul. Considere el siguiente experimento:
se saca una ficha de la caja, ésta es devuelta y se extrae una segunda ficha. Describir un
espacio muestral apropiado. Repetir lo anterior si la ficha se extrae sin reposici ón.
6. Se lanza un dado hasta que aparece un seis. ¿Cu ál es el espacio muestral de este experimen-
to?. Si En denota el suceso que son necesarios n lanzamientos para completar el experimento,
∞
¿qué elementos del espacio muestral est án contenidos en En ?. ¿Qué es ( En )c ?
S
i=1
7. Formular un modelo matem ático para los siguientes experimentos, describiendo el espacio
muestral e indicando las probabilidades asociadas a cada uno de sus elementos.
a.- Se lanza cinco veces una moneda.

b.- Se lanza un dado cinco veces.
c.- Se lanza cinco veces un dado cuyas caras est án marcadas 1, 1, 2, 2, 3, 4.

´
CAP ITULO ´
1. INTRODUCCI ON
8. En una tienda existen tres camisas de distinto tipo para la venta.
a.- Si dos hombres compran una camisa cada uno, ¿cu ántas posibilidades de compra hay?
b.- Si dos camisas son vendidas, ¿cu ántas posibilidades de venta hay?
9. Se seleccionan dos cartas al azar en un juego de naipes. ¿Cu ál es la probabilidad que una de
ella sea un as y la otra no est é entre 1 y 7?
10. Cinco fichas son aleatoriamente distribuidas en tres cajas A, B y C. Evaluar la probabilidad
de los siguientes sucesos:
a.- La caja A est á vacı́a.

b.- S ólo la caja A está vacı́a.
c.- Exactamente una caja est á vacı́a.
d.- Al menos una caja est á vacı́a.
e.- No hay cajas vacı́as.
f.- Dos cajas est án vacı́as.
g.- La caja A o la caja B est án vacı́as.
11. Repetir el ejercicio anterior con n fichas y tres cajas. Verificar la expresi ón general para el
ejercicio anterior.
12. Se ordena un grupo de 30 personas al azar y se les va preguntando de uno a uno el dı́a de
su nacimiento. Calcule la probabilidad que no haya dos personas con el mismo cumplea ños
entre las primeras (i) 10 (ii) 20 personas.
13. Suponga que de un mazo de n cartas marcadas de 1 a n, se extraen cartas aleatoriamente

y éstas van siendo ordenadas seg ún el orden de extracci ón. Sea A el suceso que la carta
1 aparezca en la primera posici ón y sea B el suceso que la carta 2 aparezca en la segunda
posici ón.
a.- Demuestre que P (A) = P (B) = 1/n.

b.- Demuestre que P (A ∩ B) = 1/n(n − 1).
c.- Demuestre que P (A ∪ B) = (2n − 3)/n(n − 1)
14. Suponga que 4 tarjetas marcadas 1, 2, 3, 4 se mezclan y luego se colocan al azar en 4 posicio-
nes fijas. Sea X el n úmero de coincidencias, i.e, el n úmero de veces que una tarjeta marcada
i queda en la posici ón i. Demuestre por enumeraci ón directa de los 24 resultados posibles
que P (X = x) es la siguiente:
k 0 1 2 3 4
9 8 6 1
P (X = k) 24 24 24 0 24
15. Si un n úmero de 3 dı́gitos (000 a 999) es elegido al azar, encontrar la probabilidad que
exactamente un dı́gito sea mayor que 5.
Resp : 0.432

´
CAP ITULO ´
1. INTRODUCCI ON
16. Suponga que h hombres y m mujeres se sientan aleatoriamente en h + m asientos puestos en

fila. Encontrar la probabilidad que todas las mujeres queden juntas.
h+1
Resp : .
(h+m
h )
17. Un experimento consiste en sacar diez cartas al azar de un naipe de 52 cartas.

a.- Si la extracci ón se hace con reemplazo, encontrar la probabilidad que no hayan dos
cartas con el mismo valor num érico.
b.- Si la extracci ón se hace sin reemplazo, encontrar la probabilidad que al menos nueve
cartas sean de la misma pinta.
4∗(13
9)
∗39+4∗(13
10)
Resp : a) 52∗48∗44∗···∗18
(52)10
b) .
(52
10)
18. Una caja contiene 2n helados, n de naranja, y n de lim ón. De un grupo de 2n personas, a < n
prefieren naranja, y b < n prefieren lim ón, mientras que las restantes 2n − a − b personas no
tienen preferencias. Demuestre que si los 2n helados se reparten al azar, la probabilidad que
todas las preferencias sean respetadas es
2n−a−b

n−a
2n
.
n
Desafı́os
19. Se lanza un par de dados hasta que la suma de ellos sea cinco o siete. Encuentre la probabili-
dad que la suma cinco aparezca primero.
Hint : Sea En la suma cinco aparece en el n- ésimo lanzamiento y cinco o siete no aparece en
∞
P
el lanzamiento n−1. Calcule P (En ) y argumente que P (En ) es la probabilidad deseada.
n=1
20. (Problema de Banach) El matem ático Banach mantenı́a dos cajas de f ósforos, una en cada
bolsillo y cada caja contenı́a n f ósforos. Cada vez que él necesitaba un f ósforo, seleccionaba
aleatoriamente uno de los bolsillos. Cuando él encontr ó que la caja seleccionada estaba vacı́a,
¿cuál es la distribuci ón del n úmero de f ósforos que quedaban en la otra caja ?
Hint: Divida en dos casos de acuerdo a que el bolsillo derecho e izquierdo est é vacı́o, pero
tenga cuidado con el caso en que ambos est én vacı́os.
21. Generalice el Problema 14 al caso de n tarjetas.
22. Una urna contiene n tarjetas enumeradas de 1 a n. Se sacan al azar las tarjetas una por una
y sin reemplazo. Si la tarjeta con el n úmero r aparece en la r- ésima extracci ón, entonces
diremos que ocurri ó un encuentro. Probar que la probabilidad que al menos un encuentro
ocurra es:
1 1 1 (−1)n−1
1− + − + ··· + → 1 − e−1
2! 3! 4! n!
cuando n → ∞.
Hint : Usar el Problema 13 y P (A1 ∪ A2 ∪ · · · ∪ An ).

Cap´
ıtulo 2
Probabilidad Condicional e
Independencia
2.1 Probabilidad Condicional e Informaci ón
2.1.1 Introducci oń
Analicemos las dos situaciones siguientes.
• La probabilidad de obtener dos caras al lanzar dos veces una moneda equilibrada es 14 . Sin
embargo, si alguien nos comunica que la primera moneda sali ó cara, la probabilidad relevante
es intuitivamente mayor. Dado que s ólo existe incertidumbre sobre el segundo lanzamiento,
el valor 21 parece reflejar mejor la situaci ón.
• La probabilidad de obtener al menos un as al lanzar dos dados es 11 36 , pues los 36 pares

(x1 , x2 ) son equiprobables. Si alguien nos informa que la suma de los dos dados es 5, po-
demos desechar casi todos los resultados y quedarnos s ólo con {(x1 , x2 )/ x1 + x2 = 5} =
{(1, 4), (2, 3), (3, 2), (4, 1)}. De estos 4 resultados hay 2 favorables, por lo que resulta ten-
tador usar la fracci ón 24 = 21 para representar nuestra incertidumbre. Cabe notar que la
equiprobabilidad implı́cita no es evidente.
• La probabilidad que una persona elegida al azar de una poblaci ón posea cierta caracterı́stica
genética coincide con la proporci ón α de personas de la poblaci ón que la poseen. Si la per-
sona se hace un test, que tiene un margen de error, y éste resulta positivo, interesa actualizar
esta probabilidad α para tomar en cuenta esta informaci ón.
El argumento implı́cito en los primeros dos casos es que resultados que eran equiprobables
siguen siéndolo luego de conocida cierta informaci ón. En estos tres ejemplos quedan de manifiesto
los siguientes hechos:
1. La informaci ón afecta la probabilidad.

2. La informaci ón se traduce en que cierto suceso F ocurre.
36
´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
3. Si sabemos que F ocurre, la ocurrencia de A implica la de A ∩ F .
La probabilidad buscada en los tres ejemplos se puede traducir en la probabilidad que ocurra A dado
que ha ocurrido F . Se la denotar á por P (A|F ) y se leer á probabilidad condicional de A dado F .
2.1.2 Interpretaci oń frecuentista
Identificando a A y F con los respectivos conjuntos de resultados favorables en un experimento

dado, y suponiendo él es repetible muchas veces, podemos interpretar las probabilidades como
proporciones. Sea N = 106 el n úmero de repeticiones y supongamos que F se cumple en 400000
de ellas, mientras que A y F ocurrieron conjuntamente 300000 veces. Es claro que F ocurri ó un
75% de aquellas repeticiones en que el suceso A se cumpli ó. Esta fracci ón parece reflejar mejor la
incerteza sobre A cuando se sabe que F ocurri ó, que simplemente la probabilidad que ocurra A.
2.1.3 Caso equiprobable
Si los n puntos de Ω son equiprobables y s ólo sabemos que F ocurre, parece natural usar F como
nuevo espacio muestral y suponer que sus m puntos siguen siendo equiprobables. Notemos que
1
1 n
= m.
m n
2.2 Definici ón Formal de Probabilidad Condicional
Las interpretaciones discutidas en la secci ón anterior sugieren c ómo definir la probabilidad condi-
cional usando un enfoque axiom ático.
Definició n 2.2.1 Si P (F ) > 0, la probabilidad condicional de A dado F , que se denota P (A|F ),

está dada por
P (A ∩ F )
P (A|F ) = , (2.2.1)
P (F )
que es equivalente a la regla multiplicativa
P (A ∩ F ) = P (F )P (A|F ). (2.2.2)
En la práctica es más frecuente tener una idea de los valores de P (A|F ) y P (F ), por lo que la
versi ón multiplicativa es la m ás útil.
Nota: Si alguien nos informa de un suceso, cuya ocurrencia era absolutamente segura, ello no de-
biera cambiar nuestras probabilidades. En otras palabras, P (A|F ) debiera coincidir con P (A). Esto
se desprende inmediatamente de la definici ón axiomática, tomando F = Ω, bastando la condici ón
P (F ) = 1.
La utilidad de una definici ón formal se muestra en el pr óximo ejemplo.

´
Ejemplo 2.2.1 Se dispone de tres cartas: (1) con ambas caras blancas, (2) con ambas
negras y (3) con una cara de cada color. Se elige una carta al azar y luego se pone sobre
una mesa, eligiendo al azar una de sus caras. Si la cara mostrada es negra, calcule la
probabilidad que la otra sea negra.
La intuici ón indica que hay s ólo dos cartas posibles, y por la simetrı́a del problema
ambas son equiprobables, de modo que la probabilidad buscada es 12 . Si el lector tiene
la paciencia de repetir muchas veces el experimento, se dar á cuenta que del conjunto
de repeticiones en que la cara mostrada es negra, mucho m ás de la mitad tiene la otra
cara negra. Esto muestra que la intuici ón no siempre funciona.
Para analizar formalmente el problema, marquemos cada cara de las cartas (con tinta
invisible), con las letras a y b. Hay entonces 6 resultados 1a, 1b, 2a, 2b, 3a, 3b, que
debieran ser equiprobables, por simetrı́a. La informaci ón que la cara visible es negra
se traduce en un suceso B = {2a, 2b, 3b}. La probabilidad que la carta visible sea
negra y que la otra tambi én lo sea es igual a la probabilidad del suceso {2a, 2b}. Por
definici ón de probabilidad condicional la probabilidad buscada es
2
P ({2a, 2b}) 6 2
= 3 = .
P ({2a, 2b, 3b}) 6
3
Sean ahora X e Y las variables indicatrices de los sucesos A y F respectivamente. La regla

multiplicativa (2.2.2) equivale a P (X = 1, Y = 1) = P (X = 1)P (Y = 1|X = 1). La idea
general es que el valor de una variable finita X afecta las probabilidades relativas a otra variable Y ,
lo que podemos escribir como P (Y = y|X = x). En nuestro caso P (Y = 1|X = 0) = P (A|F 0 ),
P (Y = 0|X = 1) = P (A0 |F ), y P (Y = 0|X = 0) = P (A0 |F 0 ). Intuitivamente, P (A) debiera ser
un valor intermedio entre P (A|F ) y P (A|F 0 ), o sea, alg ún promedio ponderado de estos valores.
Si estamos bastante seguros que F debe ocurrir, P (A) debiera estar m ás cerca de P (A|F ) que de
P (A|F 0 ), por lo que debiera aparecer con m ás peso en el promedio ponderado. La descomposici ón
aditiva A = (A ∩ F ) + (A ∩ F 0 ) implica P (A) = P (A ∩ F ) + P (A ∩ F 0 ). Aplicando la regla
multiplicativa a los pares (A, F ) y (A, F ) permite obtener la f órmula exacta
P (A) = P (F )P (A|F ) + P (F 0 )P (A|F 0 ). (2.2.3)
En otras palabras, la probabilidad marginal (no condicional) de A es un promedio ponderado de

las probabilidades condicionales. Si P (F ) = 0, P (A|F ) no est á definido pero le podemos asignar
cualquier n úmero entre 0 y 1, de modo que P (F )P (A|F ) = 0. Algo an álogo ocurre cuando
P (F 0 ) = 0. Con esta convenci ón, (2.2.3) vale sin restricciones. En t érminos de las variables
indicatrices, ella se reescribe como P (Y = 1) = P (X = 1)P (Y = 1|X = 1) + P (X = 0)P (Y =
1|X = 1). Usando los mismos argumentos, se demuestra que
P (Y = y) = P (X = 1)P (Y = y|X = 1) + P (X = 0)P (Y = 1|X = 0).
2.3 Independencia de dos sucesos
El concepto de independencia est á intuitivamente asociado con ausencia de efecto o de interacci ón.
Desde el punto de vista probabilı́stico, nos interesa expresar la idea que la ocurrencia o no de un

´
suceso no afecte la probabilidad que otro ocurra. En el lenguaje de variables, la idea es que el
valor que toma una variable no afecte las probabilidades de los valores de otra variable. Esta idea
aparece implı́citamente en la interpretaci ón frecuentista, pues se supone que lo que ocurra en una
de las repeticiones del experimento no afecta a las otras. Ya hemos mencionado que lanzamientos
sucesivos de una moneda o un dado, ası́ como el muestreo con reposici ón, parecen cumplir con esta
ausencia de interacci ón. El problema es c ómo dar una definici ón formal de este concepto, dentro
del marco axiom ático.
Si queremos expresar que la ocurrencia o no de un suceso F no afecta la probabilidad que otro
suceso A ocurra, parece natural imponer la condici ón
P (A|F ) = P (A|F 0 ), P (F ) > 0, P (F 0 ) > 0. (2.3.1)
La condici ón P (F ) > 0, P (F 0 ) > 0 es equivalente a 0 < P (F ) < 1, la que se requiere para que
queden bien definidas las probabilidades condicionales. Sin embargo, los casos excluidos corres-
ponden a la ocurrencia de un suceso seguro, lo que no debiera afectar nuestras creencias sobre otros
sucesos. Digamos provisionalmente que A es independiente de F cuando (2.3.1) se cumple. Por
otra parte, los otros casos corresponden a la ocurrencia de algo seguro, lo que no debiera afectar
nuestras creencias sobre la ocurrencia del suceso A. Para evitar imponer esto como condici ón, es
más conveniente reformular (2.3.1) como sigue. Por (2.2.3), P (A) es un promedio ponderado de
P (A|F ) y de P (A|F 0 ), de modo que la igualdad de dos de estas tres cantidades implica que todas
son iguales. Por lo tanto, (2.3.1) equivale a
P (A|F ) = P (A), P (F ) > 0. (2.3.2)
La definici ón de probabilidad condicional, hace que (2.3.2) equivalga a
P (A ∩ F ) = P (A)P (F ), (2.3.3)
donde la restricci ón P (F ) > 0 ha desaparecido. Desde un punto de vista pr áctico, (2.3.1), (2.3.2)
y (2.3.3) son efectivamente equivalentes.
Intercambiando A con F en la última ecuaci ón, se obtiene P (F ∩ A) = P (F )P (A), que es
idéntica con (2.3.3). Por esta raz ón decimos que la condici ón (2.3.3) es sim étrica en A y F . Una
consecuencia inmediata es que (2.3.1) equivale a
P (F |A) = P (F |A0 ).
Por lo tanto, la afirmaci ón A es independiente de F , es matem áticamente equivalente a F es in-

dependiente de A. Esta simetrı́a muestra que hay que tener sumo cuidado en la interpretaci ón de
esta condici ón y de su opuesto. Por ejemplo, el precio de una acci ón hoy incide sobre el precio
ma ñana. Por simetrı́a, esto indica que este precio futuro afecta el precio de hoy. Existe la tentaci ón
de intentar explicaciones sustantivas de este fen ómeno, lo cual puede llevar f ácilmente a contrasen-
tidos. Esencialmente, la noci ón probabilı́stica de de dependencia no discrimina entre A causa F y
F causa A. En vista de lo anterior, lo habitual es usar (2.3.3) como definici ón de independencia, lo
que cabrı́a traducir como A y F son independientes.
Para facilitar las referencias posteriores escribimos la definici ón formal:

´
o n 2.3.1 Los sucesos A y B son independientes si

Definici´
P (A ∩ B) = P (A)P (B) (2.3.4)
Advertencia: Si dos sucesos de probabilidad positiva son mutuamente excluyentes, la ocurrencia de

uno de ellos garantiza la no ocurrencia del otro, lo que constituye un caso extremo de dependencia.
Pese a esto, suele producirse confusi ón entre estos conceptos. El siguiente ejemplo complementa
estas aseveraciones intuitivas con una demostraci ón rigurosa.
Ejemplo 2.3.1 Demostrar que dos sucesos son independientes y mutuamente exclu-
yentes s ólo si uno de ellos tiene probabilidad nula.
Si A y B son independientes P (A ∩ B) = P (A)P (B). Si ellos son, adem ás, mutua-
mente excluyentes P (A ∩ B) = 0. El cumplimiento simult áneo de estas condiciones
equivale a P (A ∩ B) = P (A)P (B) = 0. Como A ∩ B ⊆ A, esto se cumple si y s ólo
si P (A)P (B) = 0, lo que, a su vez, equivale a P (A) = 0 o P (B) = 0.
2.4 Teoremas B ásicos
En esta secci ón enunciamos dos teoremas famosos, cuya demostraci ón es notablemente sencilla
dentro del enfoque axiom ático. Aunque el enunciado habla de una familia numerable de conjuntos,
el caso más importante, dentro del presente capı́tulo, es el caso finito. La única diferencia entre
ambos casos es la necesidad del axioma de σ-aditividad.
Teorema 2.4.1 (Ley de probabilidades totales) Considere una familia, posiblemente infinita, de
sucesos (Ai , i = 1, 2, . . . , I). Suponga que P (Ai ) > 0, i = 1, 2, . . . , I, y que exactamente uno
de los sucesos Ai ocurre. Si Ω es el espacio muestral, las condiciones se ñaladas corresponden a la
existencia de una partici ón de Ω con probabilidades positivas para cada elemento de la partici ón.
Entonces, para cualquier suceso B se cumple:
I
X
P (B) = P (Ai )P (B|Ai )
i=1 (2.4.1)
Ley de las Probabilidades Totales
Demostraci oń: Por definici ón de probabilidad condicional P (Ai )P (Bj |Ai ) = P (Ai ∩ Bj ). Pero
I
X
B= Ai ∩ Bj ,
i=1
y el resultado es consecuencia de la aditividad.

´
Teorema 2.4.2 (Teorema de Bayes) Bajo las mismas condiciones del teorema 2.4.1, se cumple
para cualquier 1 ≤ r ≤ I, y cualquier suceso B con P (B) > 0, que
P (Ar )P (B|Ar )
P (Ar |B) = I
P
P (Ai )P (B|Ai )
i=1 (2.4.2)
Teorema de Bayes
Demostraci oń: Por (2.4.1) el denominador de (2.4.2) coincide con P (B). Por otra parte, se tiene
que P (Ar )P (B|Ar ) = P (Ar ∩ B), de tal forma que el segundo miembro de (2.4.2) es P (A r ∩B)
P (B) y
el resultado se obtiene por definici ón de la probabilidad condicional.
Nota Importante: Recordar que los Teoremas 2.4.1 y 2.4.2 son v álidos para I finito o
infinito. En el primer caso no se requiere el axioma de σ-aditividad.
En ciertas aplicaciones del Teorema de Bayes se considera a P (A i ) como la probabilidad a

priori, es decir, previa a saber que B ocurri ó. De esta forma, P (Ai |B) se denomina probabilidad
a posteriori, que es la relevante una vez que se sabe que B ocurri ó. El denominador en (2.4.2) se
cancela al calcular razones entre probabilidades a posteriori:
P (Ai |B) P (Ai ) P (B|Ai )

= . (2.4.3)
P (Aj |B) P (Aj ) P (B|Aj )
La raz ón entre dos probabilidades a posteriori se obtiene multiplicando la raz ón entre las probabi-
lidades a priori correspondientes por el factor
P (B|Ai )
,
P (B|Aj )
que en aplicaciones estadı́sticas, se denomina raz ón de verosimilitud. En particular, tomando I = 2,

A1 = A, A2 = A0 , y aplicando (2.4.3) se obtiene:
P (A|B) P (A) P (B|A)

= . (2.4.4)
1 − P (A|B) 1 − P (A) P (B|A0 )
Este resultado, que tiene numerosas aplicaciones, se puede expresar como:
Las chances a posteriori se obtienen multiplicando las chances a priori por la raz ón
de verosimilitud.
Ejemplo 2.4.1 Un m édico examina la radiografı́a de t órax de un paciente y est á inde-

ciso en su diagn óstico entre cáncer al pulm ón y tuberculosis. Sobre la base de infor-
maci ón hist órica, se estima que la probabilidad que el c áncer produzca una radiografı́a
de este tipo es 0.6, la cual aumenta a 0.8 para la tuberculosis. En su experiencia, el
médico estima que el 70% de los pacientes que consultan por sı́ntomas similares tiene
cáncer y el 30% tiene tuberculosis.

´
(a) ¿Cuál es la probabilidad que el paciente tenga c áncer?

Sea A1 : el paciente tiene c áncer, A2 : el paciente tiene tuberculosis y B: el pa-
ciente tiene una radiografı́a del tipo observado. Las probabilidades de las 4 ramas
son:
Rama Prob. marginal Prob. condicional Producto
A1 B 0.7 0.6 0.42
A2 B 0.3 0.8 0.24
A1 B 0 0.7 0.4 0.28
A2 B 0 0.3 0.2 0.06
La suma de las dos primeras da P (B) = 0.66. Por divisi ón
42 24
P (A1 |B) = , P (A2 |B) = .
66 66
(b) Si la radiografı́a no hubiera sido del tipo que se observ ó, se presentarı́a nue-
vamente el problema de decidir entre c áncer y tuberculosis. Indique cu ál es la
probabilidad relevante y calc úlela.
La probabilidad adecuada es P (A1 |B 0 ). La probabilidad de B 0 es la suma de las
probabilidades de la tercera y la cuarta ramas, esto es, 0.28 +0.06=0.34. Alterna-
tivamente, podemos usar P (B 0 ) = 1−P (B) = 1−0.66 = 0.34. La probabilidad
buscada es 0.28 28
0.34 = 34 .
(c) Obtenga las chances de c áncer en cada una de los casos anteriores y deduzca las
probabilidades respectivas.
Aplicamos ahora (2.4.4).
Caso (a):
7 6 7
Chances de c áncer = × =
3 8 4
7 7 42
Prob. de cáncer = = =
7+4 11 66
Caso (b):
7 4 14
Chances de c áncer = × =
3 2 3
14 14 28
Prob. de cáncer = = = .
14 + 3 17 34
2.5 Tablas de probabilidades conjuntas y marginales
2.5.1 Tablas para sucesos
Consideremos dos particiones finitas o numerables cualesquiera, (A 1 , . . . , AI ) y (B1 , . . . , BJ ), del

espacio muestral Ω, en vez de (A, A0 ), (F, F 0 ), o (B, B 0 ). Estas dos particiones generan una par-
tici ón producto, cuyos elementos son las intersecciones A i ∩ Bj . Ella está ası́ constituida por

´
los sucesos básicos Ai ∩ Bj . La representaci ón gráfica natural de esta construcci ón es una tabla
bidimensional, donde la i- ésima fila corresponde a un Ai y la j-ésima columna a un Bj . La in-
tersecci ón de esta fila y esta columna es la celda (i, j), la cual representa al suceso A i ∩ Bj . Las
probabilidades de los sucesos Ai ∩ Bj se denominan probabilidades conjuntas y generan una ta-
bla, cuyas celdas contienen estas probabilidades. La suma total es 1 y ellas permiten calcular todas
las probabilidades de inter és que sean formulables en t érminos de las dos particiones. En parti-
cular, la suma de las probabilidades de la columna encabezada por B j coincide con P (Bj ), por
ser (Ai ∩ Bj , i = 1, 2, . . . , I) una partici ón de Bj . Análogamente, el total de la fila encabeza-
da por Ai coincide con P (Ai ). Estas probabilidades marginales son representables por dos tablas
unidimensionales. Es c ómodo ubicar las probabilidades marginales P (Ai ) en una columna adicio-
nal, es decir, como margen derecho de la tabla. Del mismo modo, las probabilidades marginales
P (Bj ) se ubican en una fila adicional, es decir, como margen inferior. La definici ón de probabilidad
condicional implica
P (Ai ∩ Bj )
P (Bj |Ai ) =
P (Ai )
P (Ai ∩ Bj )
P (Ai |Bj ) = ,
P (Bj )
o sea,
la probabilidad condicional se encuentra dividiendo la probabilidad conjunta por la

probabilidad marginal del suceso a la derecha del sı́mbolo “|”.
Las probabilidades P (Ai |Bj ) se representan por tablas separadas para cada j, pero es c ómodo
agruparlas como columnas de una misma tabla. El total de cada columna es ahora igual a 1. An álo-
gamente, las tablas que contienen las probabilidades P (B j |Ai ) se ubican como filas de una tabla
com ún, siendo 1 el total de cada fila.
A continuaci ón mostramos c ómo todo este proceso es, en realidad, m ás difı́cil de explicarlo
que llevarlo a cabo.
Ejemplo 2.5.1 Para I = 3, J = 4 la tabla de sucesos conjuntos es
B1 B2
A1 A1 ∩ B1 A1 ∩ B2
A2 A2 ∩ B1 A2 ∩ B2
A3 A3 ∩ B1 A3 ∩ B2
Si las probabilidades conjuntas est án dadas por la tabla
B1 B2
A1 0.1 0.3
A2 0.1 0.2
A3 0.2 0.1

´
se puede deducir de aquı́ las probabilidades marginales
Suceso Probabilidad
Suceso Probabilidad
A1 0.4
B1 B2
A2 0.3
0.4 0.6
A3 0.3
que son mejor representadas simult áneamente como m árgenes de la tabla de probabi-
lidades conjuntas:
B1 B2
A1 0.1 0.3 0.4
A2 0.1 0.2 0.3
A3 0.2 0.1 0.3
0.4 0.6 1
Dividiendo cada celda por los n úmero en los m árgenes se obtienen las probabilidades
condicionales:
B1 B2
P (B1 |Ai ) P (B2 |Ai ) Total 1 3
1 3 P (A1 |Bj ) 4 6
A1 4 4 1 1 2
1 2 P (A2 |Bj ) 4 6
A2 3 3 1 2 1
2 1 P (A3 |Bj ) 4 6
A3 3 3 1
Total 1 1
Las probabilidades en las tablas anteriores pueden interpretarse como proporciones. Suponga-
mos, por ejemplo, que i = 1, 2, 3 corresponde a nivel socio econ ómico bajo, medio y alto, y que
j = 2 significa estar a favor de un proyecto de rebaja de aranceles. De una encuesta a 1000 personas
se pueden obtener proporciones que coinciden num éricamente con las probabilidades conjuntas. Se
invita al lector a reinterpretar las dem ás tablas en este nuevo contexto.
2.5.2 Espacio producto y tablas para variables
En la práctica, las particiones (A1 , . . . , AI ) y (B1 , . . . , BJ ) son inducidas por dos variables dis-
cretas X e Y respectivamente. Cuando la partici ón está formada por un suceso y su negaci ón,
e.g., (F, F 0 ), (B, B 0 ), la variable es binaria. Sea {x1 , . . . , xi , . . . , xI } una enumeraci ón del con-
junto de valores X de X y sea {y1 , . . . , yj , . . . , yJ } una enumeraci ón del conjunto de valores
Y de Y . Definamos los sucesos Ai y Bj por X = xi e Y = yj respectivamente. Entonces
Ai ∩ Bj ⇔ (X = xi , Y = yj ). El espacio muestral m ás c ómodo es el espacio muestral producto
asociado al par de variables (X, Y ), que es el producto cartesiano
X × Y = {(xi , yj ), i = 1, . . . , I; j = 1, . . . , J.}.
Las etiquetas i y j son arbitrarias e innecesarias. En vez de X = x i y Y = yj , es preferible

escribir X = x y Y = y respectivamente. El punto (x, y) corresponde a la realizaci ón conjunta

´
de los sucesos X = x e Y = y. Este calificativo se extiende a las probabilidad correspondientes,

ası́ como a la funci ón de probabilidad p, la que se denota por pX,Y si se desea evitar confusiones.
Si los sucesos de inter és dependen s ólo de la variable X, el espacio muestral natural es X y lo
llamamos espacio marginal asociado a X. El calificativo marginal se emplea tambi én para los
sucesos X = x, para sus probabilidades, ası́ como para la funci ón de probabilidad definida sobre
X , a la que denotamos por pX , dada por pX (x) = P (X = x). Algo semejante ocurre con la
variable Y .
Las variables aleatorias X e Y se pueden interpretar como resultados potenciales de la primera
y segunda etapa de un experimento. Con esta notaci ón, podemos reformular los resultados para
sucesos en términos de una variable discreta.
La regla multiplicativa se traduce en
pX,Y (x, y) = pX (x)pY |X (y|x). (2.5.1)
Los teoremas fundamentales cobran un aspecto m ás amistoso:
Teorema 2.5.1 (Ley de probabilidades totales) Sea X una variable discreta con funci ón de pro-
babilidad positiva. Entonces X
pY (y) = pX (x)pY |X (y|x). (2.5.2)
x∈X
Teorema 2.5.2 (Teorema de Bayes para una variable discreta) Sea X una variable discreta con
funci ón de probabilidad positiva.
pX (x0 )pY |X (y|x0 )
pX|Y (x0 |y) = X . (2.5.3)
pX (x)pY |X (y|x)
x∈X
2.6 Experimentos secuenciales
2.6.1 Construcci oń del espacio muestral
Se lleva a cabo un experimento E0 obteniéndose un resultado x. De acuerdo a cual sea este resul-
tado, se realiza un segundo experimento, que denotamos por E x . No hay, a priori, ninguna relaci ón
entre los experimentos Ex . Llamamos X al espacio muestral, que suponemos numerable, asocia-
do con el experimento E0 y denotamos por pX a su funci ón de probabilidad. Del mismo modo,
denotaremos por Yx al espacio muestral correspondiente al experimento Ex .
Sea y el resultado de Ex . Si no conocemos x, el conjunto de valores posibles de la variable
correspondiente Y es [
Y= Yx .
x∈X
El resultado del experimento biet ápico es (x, y) ∈ X × Y, pero algunos elementos de este conjunto
pueden ser imposibles. Para no cambiar de espacio muestral, le asignamos probabilidad cero a tales
puntos. Por ejemplo, en muestras sin reposici ón en que x e y identifican completamente cada ficha,
los puntos (x, x) son imposibles.

´
Ejemplo 2.6.1 Sea E0 el lanzamiento de una moneda. Si sale cara se elige un n úmero
al azar del conjunto {a1 , a2 , a3 }; si sale sello, se elige un n úmero al azar del conjunto
{b1 , b2 }. Codificando cara =1, sello =2, tenemos X = {1, 2}, Y 1 = {a1 , a2 , a3 } e
Y2 = {b1 , b2 }. Si s ólo observáramos el resultado del segundo experimento, el espacio
muestral serı́a Y = {a1 , a2 , a3 , b1 , b2 }.
Ejemplo 2.6.2 Se lanza un dado y luego se lanza una moneda tantas veces como el
n úmero que indica el dado. En este caso X = {1, 2, 3, 4, 5, 6}. Codificando cara =1,
sello =0, tenemos
x Yx
1 {0, 1}
2 {0, 1} × {0, 1}
3 {0, 1} × {0, 1} × {0, 1}
4 {0, 1} × {0, 1} × {0, 1} × {0, 1}
5 {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1}
6 {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1}
En este caso Y resulta altamente artificial. Si consideramos como resultado del segundo
experimento al n úmero total de caras, esto se simplifica a
x Yx
1 {0, 1}
2 {0, 1, 2}
3 {0, 1, 2, 3}
4 {0, 1, 2, 3, 4}
5 {0, 1, 2, 3, 4, 5}
6 {0, 1, 2, 3, 4, 5, 6}
Si el interés está s ólo en el lanzamiento del dado, entonces Y = {0, 1, 2, 3, 4, 5, 6}.
2.6.2 Identificaci´
o n con probabilidades condicionales y regla multiplicativa
Por comodidad usaremos el lenguaje de variables. El supuesto clave es que tanto el espacio muestral
como las probabilidades asociadas con el experimento E x son conocidos. Denotemos por πx (·) la
funci ón de probabilidad asociada a Ex . Desde un punto de vista frecuentista, la proporci ón de
veces que se observa x tiende a pX (x) = P (X = x) y la proporci ón de veces que se obtiene (x, y)
tiene como lı́mite a pX (x)πx (y). Pero sabemos que este último lı́mite coincide con pX,Y (x, y) =
P (X = x, Y = y). Por definici ón de probabilidad condicional
πx (y) = P (Y = y|X = x) = pY |X (y|x).
La idea básica es:
Identificar la funci ón de probabilidad asociada al experimento Ex con la funci ón de

probabilidad condicional de Y dado X = x.

´
Ejemplo 2.6.3 Calculemos la probabilidad de obtener dos fichas blancas al extraer dos
fichas, sin reposici ón, de una urna que contiene dos fichas blancas y una negra. Si x e
y son los colores (b o n) de la primera y segunda ficha, X = Y = {b, n}. Por (2.5.1) la
probabilidad buscada es
pX,Y (b, b) = pX (b)P (Y = b|X = b).
En el cálculo de pX (b) podemos ignorar el hecho que habr á una segunda extracci ón.
Por equiprobabilidad se obtiene PX (b) = 32 . Por otra parte, dado X = b, se genera
fı́sicamente una nueva urna compuesta por una ficha de cada color. El experimento
Eb consiste en extraer una ficha al azar de esta urna y anotar su color, de modo que
πb (b) = 12 . Por lo tanto P (Y = b|X = b) = 12 . De aquı́ p(b, b) = 23 × 12 = 31 . El lector
debe verificar que el mismo resultado se obtiene considerando el espacio equiprobable
de las 6 muestras ordenadas.
En el ejemplo anterior, la representaci ón bietápica del experimento es natural en el contexto

del problema planteado. En otros ejemplos, esto no ocurre, pero la representaci ón bietápica sigue
siendo válida en un nivel puramente conceptual. Cabe recordar que las probabilidades obtenidas no
dependen de la representaci ón elegida; esta última es una herramienta de c álculo que puede o no
ser útil.
Por ejemplo, en la extracci ón de una muestra al azar ordenada y sin reposici ón, podemos pensar
que la primera etapa determina el conjunto de valores obtenido, mientras que la segunda genera un
orden particular. Podemos tambi én revertir el orden del tiempo y considerar como primera etapa
la segunda ficha extraida. En general, todo problema con espacio muestral X × Y y funci ón de
probabilidad pX,Y se puede representar secuencialmente. Simplemente se inventa un experimento
Ex con espacio muestral
Yx = {y ∈ Y/pX,Y (x, y) > 0}. (2.6.1)
2.6.3 Representaci oń por a´rboles
Un árbol es una estructura matem ática formada por nodos y arcos dirigidos. Una variable discreta
X genera un nodo para cada valor x. Previamente existe un nodo origen, rotulado por O, el que se
une a cada uno de estos nodos generando arcos dirigidos que emanan del origen, a los que se denota
por Ox. Al nodo Ox se le asigna la probabilidad pX (x) = P (X = x). La suma de los valores
asignados a todos los arcos emergentes del nodo origen es, por tanto, igual a 1.
Consideremos ahora una segunda variable discreta Y . A partir de cada nodo x se dibujan arcos
emergentes con nodos terminales rotulados por los valores de y, lo que genera un nuevo árbol a
partir de cada nodo rotulado por x. Juntando todos estos árboles con el árbol original, se forma
uno más grande en que aparecen ramas, constituidas por los arcos Ox y xy. Las ramas est á en
correspondencia uno a uno con los pares de valores (x, y) y con los nodos terminales. Hay que
distinguir acá entre nodo y r ótulo del nodo. Pueden haber muchos nodos terminales con el r ótulo
y, pero a cada uno de estos nodos llega un solo arco, que proviene de un nodo primario dado. Cada
rama se puede interpretar como un resultado del experimento biet ápico. El origen del árbol se
puede asociar con el suceso seguro Ω. El producto de los n úmeros asignados a los arcos de la rama

´
Oxy es pX (x)pY |X (y|x), que coincide con pX,Y (x, y). La regla multiplicativa corresponde, ası́, a
multiplicar los n úmeros de una rama. Esto es f ácilmente extensible a k variables X1 , . . . , Xk , lo
que veremos en la pr óxima secci ón.
Ejemplo 2.6.4 Mostramos un árbol para

I = 3, J = 2, el que tiene 6 ramas.
Ω

@
@
@
4 3 @ 3
10 10 @10
@
@

@
A1 A2 A3

B B B
B B B
1 B 3 1 B 2 2 B 1
4 4 3 3 3
B B B3
B B B

B
B
B
B1 B2 B1 B2 B1 B2

Cuando el experimento se describe secuencialmente, podemos asignar E 0 al origen y Ex al nodo
x. Las probabilidades que emanan de ese nodo corresponden, en este caso, a las probabilidades
πx (y).
Ejemplo 2.6.5 Sea una urna con 4 fichas negras y 2 blancas. Se extrae una muestra
ordenada de tama ño 2. Considere los colores del par de fichas extraido como resultado
del experimento.
(a) Calcule la probabilidad de cada resultado.
(b) Calcule la probabilidad que la segunda ficha sea negra.
(c) Calcule la probabilidad que la primera ficha sea negra, dado que la segunda tam-
bién lo es.
El diagrama de árbol que se muestra en la figura es una forma razonable de abordar este
problema. De este modo, las probabilidades de cada rama se obtienen de multiplicar
los n úmeros sobre cada arco, las que corresponden a lo pedido en (a).
Configuraci´
o n Inicial
xxx
xhh
4 Q 2
6 Q6
Q
Q
x Ficha 1 h
J J
3 J 2 4 J 1
5 J5 5 J5
J J
x h Ficha 2 x h

´
Ası́, P (nn) = 64 × 53 = 15 6
, P (nb) = 64 × 25 = 15 4
, P (bn) = 62 × 54 = 15 4
y
2 1 1
P (bb) = 6 × 5 = 15 . La probabilidad pedida en (b) se obtiene simplemente de sumar
6 4
las probabilidades de las ramas que terminan en •, lo que da 15 + 15 = 23 . Finalmente,
lo pedido en (c) es una aplicaci ón del Teorema de Bayes. El resultado es 53 , y los
detalles se dejan al lector como ejercicio.
2.6.4 Relaci oń entre tablas y a´rboles
Hay una correspondencia uno a uno entre el conjunto de ramas, el conjunto de nodos terminales,
el conjunto de sucesos Ai ∩ Bj , y el conjunto X × Y. Esto indica que se puede elegir Ω como el
conjunto de ramas del árbol o como el conjunto de nodos terminales. Si se obtiene la probabili-
dad de cada rama por multiplicaci ón, y se organizan estos productos en la tabla de probabilidades
conjuntas, se puede obtener los m árgenes. El margen inferior entrega las probabilidades buscadas,
mientras que los n úmeros en el margen derecho deben coincidir con los valores P (A i ), que son un
dato del problema.
A partir de la tabla de probabilidades conjuntas, el margen derecho entrega las probabilidades
de los nodos primarios. Dividiendo la probabilidad de cada celda por el n úmero correspondiente en
esta marginal se encuentran las probabilidades de los arcos que conectan un nodo primario con uno
secundario.
Ejemplo 2.6.6 En el Ejemplo 2.6.5, sean X e Y el color de las fichas extraidas la

primera y segunda vez, respectivamente. Se tiene entonces que X = Y = {b, n}, y las
probabilidades conjuntas se obtienen de efectuar la multiplicaci ón en cada rama:
Y =n Y =b Total
4
X=n 6 × 35 = 12
30
4
6 × 25 = 30
8 2
3
2
X=b 6 × 45 = 30
8 2
6
1
× 5 = 302 1
3
2 1
Total 3 3 1
La probabilidad de un suceso cualquiera que depende de las variables X e Y se puede calcular

en dos pasos:
1. Identificar las ramas favorables, i.e. aquellas para las cuales el suceso ocurre.
2. Multiplicar los n úmeros de los arcos de estas ramas para obtener la probabilidad de cada rama
favorable.
3. Sumar las probabilidades del punto anterior.
Si lo que se desea es obtener la distribuci ón marginal de Y , entonces:
1. Multiplicar los n úmeros de los arcos de estas ramas para obtener la probabilidad de cada
rama.
2. Sumar las probabilidades de todas las ramas con nodo terminal y.

´
Ejemplo 2.6.7 Retomamos ac á el Ejemplo 2.2.1 de las tres cartas. Mostramos que el
problema se puede tambi én resolver aplicando el Teorema de Bayes. Sea X el n úmero
de la carta, y sea Y = b o Y = n seg ún sea blanco o negro el color mostrado. El árbol
con ramas (x, y) tiene 6 ramas, aunque 2 de ellas tienen probabilidad nula.
Rama pX (x) pY |X (y|x) pX,Y (x, y)

1 1
1b 3 1 3
1
1n 3 0 0
1
2b 3 0 0
1 1
2n 3 1 3
1 1 1
3b 3 2 6
1 1 1
3n 3 2 6
Organizando los valores de la última columna se obtiene la funci ón de probabilidad

conjunta de X e Y :
x=1 x=2 x=3
1 1
y=b 3 0 6
1 1
y=n 0 3 6
y de aquı́ la tabla de funciones de probabilidad condicional de X dado Y = y:
y pX|Y (1|y) pX|Y (2|y) pX|Y (3|y)

2 1
b 3 0 3
1 2
n 0 3 3
Ejemplo 2.6.8 Suponga que en el Ejemplo 2.6.2 se han obtenido dos caras. Calcu-
le la funci ón de probabilidad del n úmero que sali ó en el dado, condicional en esta
informaci ón.
Rama Prob. marginal Prob. condicional Producto

1
X = 1, Y = 3 6 0 0
1
X = 2, Y = 3 6 0 0
1
X = 3, Y = 4 6 0 0
1 1 4
X = 4, Y = 4 6 16 64
1 5 10
X = 5, Y = 4 6 32 64
1 15 15
X = 6, Y = 4 6 64 64
La funci ón de probabilidad condicional es proporcional a la última columna. Omitien-
do puntos de probabilidad nula se tiene:
x 4 5 6
4 10 15
pX|Y (x|4) 29 29 29

´
2.7 Experimentos multiet ápicos
2.7.1 C a´lculo de probabilidades conjuntas
Sea Xi la variable que representa el resultado potencial de la i– ésima etapa, y sea Xi el conjunto
de mi valores posibles de esta variable. Es conveniente escribir el resultado en la forma x =
(x1 , x2 , . . . , xk ) ∈ X = X1 × X2 × · · · × Xk . El n úmero total de resultados,
k
Y
card (S) = m = mi ,
i=1
puede ser muy grande, tornando inviable una asignaci ón directa de la probabilidad para cada x.
Por ejemplo, si se lanza una moneda 100 veces, el n úmero de resultados posibles asciende a la
astron ómica cifra de 2100 . Consideremos la descripci ón secuencial:
Etapa 1. Se realiza experimento E0 , obteniéndose X1 = x1 .
Etapa 2. Se realiza experimento Ex1 , obteniéndose X2 = x2 .
.. ..
. .
Etapa r. Se realiza experimento Ex1 x2 ···xr−1 , obteniéndose Xr = xr .
.. ..
. .
Etapa k. Se realiza experimento Ex1 x2 ···xk−1 , obteniéndose Xk = xk .
Para r > 0 usamos la notaci ón xr = (x1 , x2 , . . . , xr ) y X r = (X1 , X2 , . . . , Xr ), de modo que
P (Xr = xr |Xj = xj , j < r) = P (Xr = xr |X r−1 = xr−1 ). Considerando a xr−1 como el
resultado de una primera macro-etapa, la funci ón de probabilidad sobre el espacio muestral asociado
con Exr−1 coincide con las funci ón probabilidad condicional de (Xr |X r−1 = xr−1 ).
Teorema 2.7.1 Sean X1 , X2 , . . . variables aleatorias. Sea α1 = β1 = P (X1 = x1 ) y

αr = P (Xr = xr |X r−1 = xr−1 ), βr = P (X r = xr ).
Entonces
βr = βr−1 αr
r
Y (2.7.1)
βr = αi , r = 1, 2, . . .
i=1
Demostraci oń: La segunda igualdad en (2.7.1) se obtiene aplicando la primera recursivamente y

α1 = β1 . La primera es consecuencia directa de la definici ón de probabilidad condicional:
αr = P (Xr = xr |X r−1 = xr−1 )
= P (Xr = xr , X r−1 = xr−1 |X r−1 = xr−1 )/P (X r−1 = xr−1 )
= P (X r = xr )/P (X r−1 = xr−1 )
βr
= .
βr−1
Observaciones:

´
• Si el resultado x se interpreta como la rama de un árbol que pasa por los nodos x1 , x2 , . . ., la
probabilidad αr = P (Xr = xr |X r−1 = xr−1 ) se asigna al arco que une a xr−1 con xr . Ella
corresponde a la probabilidad del resultado xr en el experimento Exr−1 .
• Si el suceso Xi = xi se reemplaza por un suceso cualquiera Ai , (2.7.1) se satisface con
α1 = β1 = P (A1 ) y
r−1
\ r
\
αr = P (Ar | Ai ), βr = P ( Ai ).
i=1 i=1
Ejemplo 2.7.1 Para 4 variables X1 , X2 , X3 y X4 , (2.7.1) genera las tres igualdades:

P (X1 = x1 , X2 = x2 ) = P (X1 = x1 )P (X2 = x2 |X1 = x1 )
P (X1 = x1 , X2 = x2 , X3 = x3 ) = P (X1 = x1 , X2 = x2 )
×P (X3 = x3 |X1 = x1 , X2 = x2 )
P (X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 ) = P (X1 = x1 )
× P (X2 = x2 |X1 = x1 ) × P (X3 = x3 |X1 = x1 , X2 = x2 )
× P (X4 = x4 |X1 = x1 , X2 = x2 , X3 = x3 )
A continuaci ón, mencionamos varias representaciones simb ólicas de estas igualdades.

La estructura b ásica es clara, pero hay que indicar de alguna manera el orden de las
variables o sucesos.
• En términos de las variables, escribimos
(X1 X2 ) = (X1 )(X2 |X1 )
(X1 X2 X3 ) = (X1 )(X2 |X1 )(X3 |X1 X2 )
(X1 X2 X3 X4 ) = (X1 )(X2 |X1 )(X3 |X1 X2 )(X4 |X1 X2 X3 )
• Eliminando sı́mbolos redundantes, esto se simplifica a

(12) = (1)(2|1)
(123) = (1)(2|1)(3|12)
(1234) = (1)(2|1)(3|12)(4|123)
• Para cuatro sucesos A, B, C, D podemos escribir

(CB) = (C)(B|C)
(CBD) = (C)(B|C)(D|CB)
(CBDA) = (C)(B|C)(D|CB)(A|CBD).
La segunda ecuaci ón, por ejemplo, representa la igualdad

P (C ∩ B ∩ D) = P (C)P (B|C)P (D|C ∩ B).

´
Ejemplo 2.7.2 Ilustraremos las relaciones entre diversas funciones de probabilidad

asociadas con tres variables aleatorias. En primer lugar, mostramos la notaci ón a través
de algunos ejemplos:
P (X = x, Y = y, Z = z) = pX,Y,Z (x, y, z)
P (X = x, Y = y) = pX,Y (x, y)
P (X = x) = pX (x)
P (Y = y|X = x) = pY |X (y|x)
P (Z = z|X = x, Y = y) = pZ|X,Y (z|x, y)
P (Y = y, Z = z|X = x) = pY,Z|X (y, z|x)
El axioma de aditividad permite establecer relaciones usando sumas con respecto a los
argumentos adecuados en las funciones de probabilidad. Por ejemplo:
pX,Y (x, y) = pX,Y,Z (x, y, +)

pX (x) = pX,Y (x, +)
= pX,Y,Z (x, +, +)
La aditividad y el axioma de normalizaci ón (probabilidad del espacio muestral es 1)

producen relaciones como
pX,Y,Z (+, +, +) = 1
pX,Y (+, +) = 1
pX (+) = 1
Aplicando el axioma de normalizaci ón a las funciones de probabilidad condicionales

se obtienen igualdades como
pY |X (+|x) = 1
pZ|X,Y (+|x, y) = 1
pY,Z|X (y, +|x) = pY |X (y|x)
pY,Z|X (+, +|x) = 1
Ejemplo 2.7.3 Se extraen 3 fichas sin reemplazo de una urna con 4 fichas blancas y 5
fichas negras. Definamos las variables
X = x (color 1era ficha)
Y = y (color 2da ficha)

Z = z (color 3era ficha)
Interesa calcular p(b, b, n).
Experimento E0 : Extraer ficha de la urna [4b,5n]. P(blanca)= 94 . Experimento Eb :
Extraer ficha de la urna [3b,5n]. P(blanca)= 38 . Experimento Ebb : Extraer ficha de la
urna [2b,5n]. P(negra)= 75 .

´
Las probabilidades indicadas corresponden a la proporci ón de fichas blancas en la urna

que se indica. La rama del árbol
4 3 5
9 8 7
• •b •b •n
60 4 3 5
tiene asociada la probabilidad =
504 9 × × 8 7. En términos de funciones de probabi-
lidad, los n úmeros de los arcos son
4 3 5
pX (b) = , pY |X (b|b) = , pZ|X,Y (n|b, b) = .
9 8 7
2.7.2 Dos casos particulares
La definici ón de las probabilidades usando la representaci ón multietápica no representa, en general,
un ahorro en el n úmero de probabilidades independientes que hay que especificar. Para calcular este
n úmero, hay que recordar las igualdades de suma total igual a 1. Denotemos por M r a m1 × · · · ×
mr−1 × mr . Como el n úmero total de arreglos x es Mk , una asignaci ón directa requiere Mk − 1
probabilidades independientes. Utilizando el lenguaje de árboles, hay (m1 − 1) probabilidades
independientes para los m1 arcos que emanan del origen. De cada nodo de orden r − 1, que
representa a xr−1 , emergen mr arcos, lo que requiere especificar mr − 1 probabilidades, para cada
uno de Mr−1 nodos, es decir, Mr−1 (mr − 1) = Mr − Mr−1 . Sumando de r = 1 hasta r = k se
obtiene una suma telesc ópica, que coincide con Mk − 1.
La representaci ón multietápica es particularmente atractiva cuando en el c álculo de las pro-
babilidades αr , no es necesario especificar toda la historia pasada. En esta secci ón describimos
brevemente los casos m ás importantes. El primero se retoma en la pr óxima secci ón desde otro
punto de vista.
• Irrelevancia de toda la historia. En este caso αr depende s ólo de xr , de modo que podemos
escribir αr (xr ). La probabilidad asociada a un arco depende, entonces, s ólo del nodo de
llegada. Se requiere especificar un total de
(m1 − 1) + · · · + (mk − 1)
probabilidades. Por ejemplo,
P (X1 = 1, X2 = 3, X3 = 4, X4 = 3, X5 = 2) = α1 (1)α2 (3)α3 (4)α4 (3)α5 (2).
En la pr óxima secci ón veremos que el supuesto de historia irrelevante coincide con el de
independencia de variables aleatorias. Si X1 , X2 , . . . tienen la misma distribuci ón, basta
especificar m1 − 1 probabilidades.
• La historia influye s o´lo a trav´ ´

e s del valor de la ultima variable. Esto quiere decir que
αr depende s ólo de xr−1 y xr , para r > 1, de modo que escribimos α1 (x1 ) y αr (xr−1 , xr ),
r > 1. Por ejemplo,
P (X1=1,X2=3,X3=4,X4=3,X5=2) = α1 (1)α2 (1, 3)α3 (3, 4)α4 (4, 3)α5 (3, 2).

´
La propiedad descrita ac á es conocida como propiedad markoviana, t érmino que deriva del
apellido de un eminente matem ático ruso. Si se identifica a r como una versi ón discreta del
tiempo y a xr como el estado de un sistema en el tiempo r, las funciones α r determinan el
mecanismo de evoluci ón probabilı́stica del sistema. Lo m ás habitual es que el conjunto Xr
de valores para xr se pueda elegir como el mismo para todo r. Si denotamos por S a este
conjunto com ún, decimos que S es el espacio de estados.
Si card (S) = m, la funci ón α1 está determinada por m − 1 probabilidades, y lo propio
ocurre con cada funci ón αr (xr−1 , ·). En total se requiere especificar (m−1)+(k−1)(m(m−
1)) = (m − 1)(1 + m(k − 1)) n úmeros. Un caso muy importante es el de un proceso
homogéneo, en el sentido que los αr son todos idénticos de r = 2, en adelante. Basta
entonces especificar α1 y α2 , lo que da m2 − 1 constantes en total.
Si las k variables tienen p valores cada una, el n úmero de probabilidades independientes, para varios
casos de interés, se muestra en la siguiente tabla:
Sin restricciones: pk − 1
Caso markoviano: (p − 1) + p(p − 1)(k − 1)
Caso markoviano homog éneo: p2 − 1
Independencia: k(p − 1)
Independencia y homogeneidad: p−1
Para p = 2 estos n úmeros se reducen a 2k − 1, (2k − 1), 3, k y 1 respectivamente.
Ejemplo 2.7.4 Representaci oń Markoviana del Problema de Urnas: La probabili-

dad que en la r- ésima etapa la ficha extraida sea de un color determinado no depende
s ólo del color de la última ficha extraida. Sin embargo, podemos definir el estado del
sistema para que el modelo sea markoviano. Una elecci ón natural es la composici ón
de la urna inmediatamente antes de extraer una ficha, o sea, el n úmero de fichas de
cada color. Sea, entonces, yi = (yib , yin ), con yib = N◦ de fichas blancas e yin =
N◦ de fichas negras, despu és de la i-ésima extracci ón. Sea xi = 1 si la i-ésima ficha
es blanca y xi = 0 si ella es negra. Los valores de las variables Xi y la composici ón
inicial de la urna determinan la evoluci ón de su contenido.
Supongamos que la composici ón inicial es de 4 fichas blancas y 5 negras, es decir,
y0 = (4, 5). Si se extraen dos fichas blancas seguidas de una negra, X 1 = 1, X2 = 1,
X3 = 0, de donde y1 = (3, 5), y2 = (2, 5) e y3 = (2, 4). En el caso del muestreo sin
reposici ón, el n úmero de fichas decrece en 1 con cada extracci ón. Por esta raz ón, se
puede también elegir como estado del sistema a un elemento del par y i . Esto facilita
la escritura, aunque hace m ás difı́cil la comprensi ón de la notaci ón. La propiedad
markoviana implica
P (y = (3, 2, 2)) = P (Y1b = 3)P (Y2b = 2|Y1b = 3)P (Y3b = 2|Y2b = 2).
Condicional en los sucesos a la derecha de |, podemos expresar los sucesos a la izquier-

´
da de | en funci ón de los Xi :
P (y = (3, 2, 2)) = P (X1 = 1) × P (X2 = 1|Y1b = 3) × P (X3 = 0|Y2b = 2)

= P (X1 = 1|Y0 = (4, 5)) × P (X2 = 1|Y1 = (3, 5))
×P (X3 = 0|Y2 = (2, 5))
4 3 5
= × × .
9 8 7
Hay 8 trayectorias posibles y se puede calcular la probabilidad de cada una usando una
regla multiplicativa, al igual que en el caso particular descrito. Se deja el lector dibujar
el árbol correspondiente, asignando las probabilidades a cada arco, y obteniendo las
probabilidades de las ramas por multiplicaci ón.
2.8 Noci ón general de independencia
2.8.1 Motivaci oń
Si se lanzan 5 dados (equilibrados o no), la intuici ón indica que lo que muestra el tercer dado no
afecta, en absoluto, como se comporta el quinto. Tampoco pareciera que lo que muestran los dos
primeros influirá sobre la suma de los n úmeros de los otros tres. En general, no parece haber
asociaci ón entre los resultados de los cinco dados. Esta propiedad se parece a la de independencia,
pero la definici ón formal (2.3.4) se queda muy corta. Es fundamental generalizarla a m ás de dos
sucesos. El ejemplo de los dados sugiere la idea de independencia de variables. En efecto, el
lanzamiento de 5 dados se puede ver como un experimento con 5 etapas, correspondiendo la i-
ésima al lanzamiento del i- ésimo dado. El resultado natural de esta etapa es el n úmero xi que
muestra el dado, al que consideramos como el valor o realizaci ón de una variable Xi .
Los sucesos que dependen s ólo del resultado del i- ésimo dado son aquellos expresables en
términos de la variable Xi . Aquellos que dependen s ólo de los dados i1 , i2 , . . . , ip son los expresa-
bles en términos de (Xi , i ∈ {i1 , i2 , . . . , ip }). Por ejemplo, el suceso A= obtener el mismo n úmero
en los dados 4 y 5 es X4 = X5 ; el suceso B= La suma de los n úmeros de los dados 3, 4 y 5 es
mayor que 10 se escribe como X3 + X4 + X5 > 10; el suceso C: El n úmero del segundo dado es
mayor que el del primero se escribe como X2 − X1 > 0, etc.
Intuitivamente, los sucesos B y C son independientes, pues dependen de conjuntos disjuntos de
variables, es decir, {X3 , X4 , X5 } ∩ {X1 , X2 } = ∅. El mismo argumento sugiere que X1 + X2 = 6,
X3 par, y X5 > X4 son sucesos independientes, pero a ún no hemos definido la independencia de
tres sucesos.
Los sucesos Xi = j se pueden representar por un subconjunto Aij , los que constituyen una par-
tici ón del espacio muestral Ω (conjunto que a ún no ha sido definido). Aquellos sucesos que depen-
den s ólo de la i-ésima etapa son expresables como uniones de algunos de los (A ij , j = 1, . . . , 6).
Para sucesos cualesquiera que dependan de los n úmeros que aparecen en los lanzamientos, ellos se

´
pueden expresar como uniones finitas de los conjuntos

5
\
B(x) = Aixi ,
i=1
que representan a los sucesos elementales X = x.

Es claro que el lenguaje de variables es mucho m ás atractivo que el de sucesos expresados como
subconjuntos de un gran espacio Ω. Lo que haremos es proponer definiciones v álidas para variables
y luego mostrar como se recuperan las definiciones tradicionales de sucesos independientes.
2.8.2 Definiciones y teoremas
o n 2.8.1 Las variables discretas X1 , . . . , Xk son independientes si

Definici´
k
Y
P (X1 ∈ A1 , . . . , Xk ∈ Ak ) = P (Xi ∈ Ai ), para todo Ai , i = 1, . . . , k. (2.8.2)
i=1
Las variables aleatorias en la sucesi ón X1 , X2 , . . . son independientes si para cualquier k finito,
X1 , . . . , Xk son independientes.
Teorema 2.8.1 (Factorizaci oń) Si X1 , . . . , Xk son variables discretas, la condici ón

k
Y
P (X1 = x1 , . . . , Xk = xk ) = P (Xi = xi ), para todo xi , i = 1, . . . , k, (2.8.3)
i=1
es necesaria y suficiente para la independencia de las variables X 1 , . . . , Xk .
Definició n 2.8.2 Las particiones generadas por ciertas variables son independientes si estas varia-
bles lo son.
o n 2.8.3 Considere la partici ón generada por el suceso Ai , esto es, (Ai , A0i ) Entonces, los
Definici´
sucesos A1 , . . . , Ak son independientes si las particiones generadas por estos procesos lo son.
El supuesto de independencia es muy fuerte y, a la vez, difı́cil de verificar. Sin embargo, resulta
muy atractivo su uso, al menos inicialmente, o para disminuir la complejidad de los modelos. Por
ejemplo, la independencia de los lanzamientos de tres dados permite especificar 15 probabilidades
en vez de 215. En efecto, si
P(1er dado muestra i) = αi

P(2◦ dado muestra j) = βj
P(3er dado muestra k) = γk ,
entonces P (X1 = i, X2 = j, X3 = k) = αi βj γk . Si los dados son parecidos, o si en vez de tres

dados se trata de tres lanzamientos del mismo dada, αi = βi = γi y s ólo se requiere asignar 5
n úmeros.

´
La independencia simplifica enormemente la obtenci ón de la funci ón de probabilidad conjunta.

Por ejemplo, considere n monedas cargadas y codifique los resultados usando x i = 1 para Cara y
xi = 0 para Sello. El resultado x = (x1 , . . . , xn ) está contenido en X = {0, 1}n , cuya cardinalidad
es n. Denotemos por pi la probabilidad que la i– ésima moneda sea Cara y por qi la probabilidad que
ella sea Sello. Por supuesto pi + qi = 1 para i = 1, . . . , n. El supuesto de independencia implica
que pi , i = 1, . . . , n, determinan la funci ón probabilidad. Adem ás, es muy sencillo escribir la
probabilidad de cualquier resultado. Por ejemplo, P ({(1, 1, 0, 0)}) = p 1 p2 q3 q4 . De acá se obtiene,
mediante una suma, la probabilidad de cualquier resultado. Por ejemplo, la probabilidad de obtener
exactamente 1 cara al lanzar las dos primeras monedas es la probabilidad del suceso {(1, 0), (0, 1)},
cuyos elementos tienen probabilidades p1 q2 y q1 p2 . La probabilidad buscada es p1 q2 + q1 p2 .
El ahorro de n úmeros es espectacular si las monedas son homog éneas, o sea, p1 = · · · = pn =
p. Basta el n úmero 0 < p < 1 para determinar las probabilidades de todos los resultados (para
n = 20 ya hay m ás de un mill ón de éstos). La probabilidad de obtener exactamente 1 cara se
reduce ahora a 2p(1 − p).
2.8.3 Resultados adicionales para dos variables
Para dos variables X e Y , la condici ón (2.8.3) se reduce a
P (X = x, Y = y) = P (X = x)P (Y = y) para todo x, y. (2.8.4)
Cuando x e y tienen dos valores cada uno, digamos 1 y 2, se tiene la situaci ón especial en que
A2 = A01 y B2 = B10 . Escribiendo A1 = A y A2 = B se obtiene que las cuatro condiciones (2.8.4)
son
P (A ∩ B) = P (A)P (B)
P (A ∩ B 0 ) = P (A)P (B 0 )
(2.8.5)
P (A0 ∩ B) = P (A0 )P (B)
P (A0 ∩ B 0 ) = P (A0 )P (B 0 ).
Por la Definici ón 2.3.1, estas condiciones equivalen a
A y B son independientes.
A y B 0 son independientes.
(2.8.6)
A0 y B son independientes.
A0 y B 0 son independientes.
En términos de la tabla de probabilidades conjuntas, la independencia equivale a que la probabilidad

de una celda es el producto de los valores marginales, es decir, que sea una tabla de multiplicaci ón.
Para dos particiones (A, A0 ) y (B, B 0 ), una tabla general (sin imponer independencia) es
B B0
A P (A ∩ B) P (A ∩ B 0 ) P (A)
A0 P (A0 ∩ B) P (A0 ∩ B 0 ) P (A0 )
P (B) P (B 0 ) 1
En general hay 3 probabilidades conjuntas que se pueden elegir de manera arbitraria, sujeto s ólo a
la positividad y la suma igual a 1. Para m árgenes fijos, cualquier probabilidad conjunta determina

´
todas las demás. Escribiendo P (A) = a, P (B) = b y P (A ∩ B) = c, la tabla general es
A c a
A0 1−a
b 1−b 1
Si c = ab, un sencillo c álculo algebraico permite completar la tabla, obteniendo la tabla de multi-
plicaci ón
A ab a(1 − b) a
A0 (1 − a)b (1 − a)(1 − b)
b 1−b 1
Esto muestra que la independencia de A y B en (2.8.6) implica la independencia de los otros tres
pares de sucesos. Por simetrı́a, es claro que la independencia de cualquier par implica la de los otros
tres. Este hecho se puede expresar sucintamente como un teorema:
Teorema 2.8.2 Las definiciones 2.3.1 y 2.8.3 son equivalentes.
Generalicemos ahora la equivalencia de (2.3.1), (2.3.2) y (2.3.3) a dos particiones o dos varia-
bles.
Teorema 2.8.3 Las variables discretas X e Y son independientes si
P (Y = y|X = x) no depende de x, (2.8.7)
o si
P (Y = y|X = x) = P (Y = y) para todo x e y. (2.8.8)
Demostraci oń: La condici ón (2.8.8) es inmediatamente equivalente al Teorema de Factorizaci ón.
Además ella implica (2.8.7). Por el Teorema de Probabilidades Totales, P (Y = y) es un promedio
ponderado de los P (Y = y|X = x). Luego (2.8.7) implica (2.8.8), lo que concluye la demostra-
ci ón.
En términos de árbol, (2.8.7) dice que el n úmero asignado al arco xy depende s ólo del nodo de
llegada.
Ejemplo 2.8.1 Consideremos las siguientes tablas correspondientes a variables alea-

torias independientes X e Y :
x 0 1 2 y 0 1
PX (x) 0.5 0.3 0.2 PY (y) 0.4 0.6
Entonces la tabla conjunta es

´
x/y 0 1 PX (x)
0 0.20 0.30 0.5
1 0.12 0.18 0.3
2 0.08 0.12 0.2
PY (y) 0.4 0.6 1
Las probabilidades condicionales de inter és se obtienen como cuocientes entre las pro-
babilidades conjuntas y marginales correspondientes. Por ejemplo
0.12
PY |X (1|2) = 0.2 = 0.6
0.12
PX|Y (2|1) = 0.6 = 0.2
0.08
PX|Y (2|0) = 0.4 = 0.2
Como era de esperar, debido a la independencia, dichas probabilidades condicionales

coinciden con las no condicionales.
El siguiente resultado muestra c ómo transformaciones de grupos disjuntos de variables aleato-

rias independientes resulta en variables aleatorias independientes, sin importar las transformaciones
empleadas. Si X1 , . . . , X5 representan los resultados de 5 lanzamientos independientes de un da-
do, el siguiente teorema justifica algunas aseveraciones intuitivas hechas sobre la independencia de
ciertos sucesos que dependen de conjuntos disjuntos de dados.
Teorema 2.8.4 Sean X1 , . . . , Xm , Xm+1 , . . . , Xm+n independientes, y defina las variables aleato-
rias Y, Z mediante
Y = g(X1 , . . . , Xm ),
Z = h(Xm+1 , . . . , Xm+n ),
donde g y h son funciones de m y n argumentos respectivamente. Entonces Y y Z son tambi én
independientes.
Para concluir la secci ón, enunciamos, sin demostraci ón, una caracterizaci ón alternativa de inde-
pendencia de sucesos. Ella es la m ás popular en los textos de probabilidad, pero tiene la desventaja
de no extenderse naturalmente a las variables aleatorias, que es el m ás usado en las aplicaciones
usuales.
Teorema 2.8.5 Sea M = {1, . . . , k}. Los conjuntos (A1 , . . . , Ak ) son independientes, seg ún la
Definici ón 2.8.3, si y s ólo si se cumplen las siguientes igualdades
!
\ Y
P Ai = P (Ai ) , para todo E ⊆ M , con card E > 1. (2.8.9)
i∈E i∈E

´
2.9 Aplicaciones de independencia
2.9.1 Demostraci oń de equiprobabilidad
Definició n 2.9.1 Una variable aleatoria tiene distribuci ón de probabilidad uniforme sobre el con-
junto finito Ω si su funci ón de probabilidad es constante. Se dice tambi én que X se distribuye
uniformemente sobre Ω.
Teorema 2.9.1 Si un experimento secuencial tiene etapas independientes y los resultados de ca-
da etapa son equiprobables, entonces los resultados son equiprobables. En otras palabras, si
Xi tiene distribuci ón uniforme sobre Ωi y X1 , X2 , . . . , Xk son independientes, entonces X =
(X1 , X2 , . . . , Xk ) se distribuye uniformemente sobre Ω1 × Ω2 × · · · × Ωk .
Demostraci oń: Inmediata por el Teorema 2.8.1 (teorema de factorizaci ón).

El modelo de urna, con extracciones ordenadas sin reposici ón, es un caso particular con ni = m
para todo i. El caso de un dado equilibrado corresponde a m = 6 y el de una moneda equilibrada a
m = 2.
2.9.2 Aplicaci oń a confiabilidad
Ejemplo 2.9.1 En el circuito que se indica en el diagrama siguiente

I1

A I3 B

I2

interesa calcular la probabilidad
π = P (pasa corriente entre A y B).
Este suceso depende del estado de los tres interruptores. Suponiendo independencia
entre los interruptores, basta especificar la probabilidad p i que el interruptor Ii deje
pasar la corriente. El resto es un simple c álculo algebraico. Sea Xi = 1 si el interruptor
Ii deja pasar la corriente y Xi = 0 en caso contrario. El resultado del experimento
puede tomarse como (x1 , x2 , x3 ) y el comportamiento probabilı́stico equivale a lanzar
3 monedas cargadas y anotar 1 o 0 seg ún salga cara o sello. La lista de resultados y sus
√
correspondientes probabilidades se indica a continuaci ón. La presencia del signo en

´
la última columna indica que la fila correspondiente identifica un resultado favorable

con respecto al suceso de inter és, es decir que pasa corriente entre A y B.
X1 X2 X3 Probabilidad
0 0 0 q 1 q2 q3
0 0 1 q 1 q2 p3
0 1 0 q 1 p2 q3
√
0 1 1 q 1 p2 p3
1 0 0 p 1 q2 q3
√
1 0 1 p 1 q2 p3
1 1 0 p 1 p2 q3
√
1 1 1 p 1 p2 p3
√
La probabilidad buscada se obtiene sumando todas las filas marcadas por :
π = q1 p2 p3 + p1 q2 p3 + p1 p2 p3 = αp3 ,
con α = (q1 p2 + p1 p2 + q1 q2 ). Pero α debe coincidir con la probabilidad que el

subsistema formado por los dos primeros interruptores deje pasar la corriente. Por otra
parte, la única forma que no pase corriente es que ni I1 ni I2 dejen que esto ocurra, lo
que por independencia tiene probabilidad q2 q3 . Finalmente α = 1 − q2 q3 , lo que se
puede verificar algebr áicamente a partir de la identidad (p1 + q1 )(p2 + q2 ) = 1.
2.9.3 Aplicaci oń a simulaci oń
´
2.9.3.1 Tablas de n umeros aleatorios
Un espacio muestral Ω de cardinalidad N est á en correspondencia biunı́voca con {1, 2, . . . , N }

y con {0, 1, 2, . . . , N − 1}. Cuando los elementos de Ω son equiprobables, la probabilidad de
cualquier suceso es una fracci ón con denominador N . Por conveniencia pr áctica, N = 10r es el
caso más com ún debido a que el sistema num érico decimal tiene base 10.
Sea U una variable aleatoria con funci ón de probabilidad constante sobre Ω. Fı́sicamente, U
es representable por la ficha extraida de una urna con N fichas. El muestreo con reposici ón desde
tal urna genera una sucesi ón de variables U1 , U2 , . . . independientes e id énticamente distribuidas
(i.i.d.), o sea, Ui y Uj tienen la misma distribuci ón, para todo i 6= j. Cuando Ω es un conjunto
numérico, decimos que los Ui son n úmeros aleatorios. Existen tablas con realizaciones de esta su-
cesi ón para U1 , U2 , . . . , UM , donde M es un n úmero grande. La mayorı́a de estas tablas considera
Ω = {0, 1, 2, . . . , 9}, agrupando los n úmeros de a 5. Esto facilita la lectura y tiene una ventaja
adicional que explicamos a continuaci ón.
Si interpretamos al arreglo de 5 n úmeros como un n úmero de 5 cifras, o sea Y1 = 104 U1 +
103 U 2
2 + 10 U3 + 10U4 + U5 , se verifica que Y1 tiene una distribuci ón uniforme entre 0 y 99999.
En efecto, el Teorema 2.9.1 muestra que los valores u = (u 1 , u2 , u3 , u4 , u5 ) del vector aleatorio
(U1 , U2 , U3 , U4 , U5 ) son equiprobables y u est á en correspondencia biunı́voca con y1 = 104 u1 +
103 u2 +102 u3 +10u4 +u5 . Anotando Yt+1 = 104 U5t+1 +103 U5t+2 +102 U5t+3 +10U5t+4 +U5t+5 ,

´
t = 0, 1, 2, . . . se obtiene una sucesi ón Y1 , Y2 , . . . de variables aleatorias uniformemente distribuidas

entre 0 y 99999.
La independencia de los Ui y el Teorema 2.8.4 implican que Y1 , Y2 , . . . son i.i.d. Por otra parte,
Zi = 10−5 Yi tiene resultados equiprobables 0.00000, 0.00001, . . . , 0.99998, 0.99999. Esto difiere
muy poco de la elecci ón de un punto al azar en un segmento recto de largo 1, el que se modela
por una variable continua V con valores en [0, 1]. Si se dispone de V y se trunca el n úmero a 5
decimales se obtiene U y |U − V | ≤ 0.00001.
Este procedimiento de agrupaci ón de cifras permite usar una urna con 10 fichas en vez de una
urna con 105 fichas, un ahorro substancial. Si la urna tiene fichas numeradas de 1 hasta N , y ellas se
agrupan en arreglos de r fichas cada uno (N = 9, r = 5 en el caso reci én analizado), se obtiene una
sucesi ón i.i.d. de variables aleatorias uniformemente distribuidas sobre {0, 1, 2, . . . , N r − 1}. El
caso N = 2 es especialmente importante a nivel computacional. Adem ás, en este caso, U1 , U2 , . . .
pueden generarse fı́sicamente lanzando una moneda.
2.9.3.2 Simulaci oń de variables i.i.d.
En la Secci ón 1.3.3 vimos c ómo simular cualquier distribuci ón de probabilidad finita. En el lengua-
je de variables aleatorias, se dispone de U con funci ón de probabilidad constante sobre el conjunto
Ω de cardinalidad N . Fı́sicamente, U es representable por la ficha extraida de una urna de N fi-
chas y se genera la variable aleatoria X mediante X = g(U ). La funci ón g se define identificando
{u/g(u) = x} con el conjunto de fichas para las que X = x. El muestreo con reposici ón genera las
sucesiones de variables independientes U1 , U2 , . . . y X1 , X2 , . . .. La variable Xi se obtiene de Ui
por el mismo procedimiento usado para generar X a partir de U , es decir, X i = g(Ui ). La indepen-
dencia de los Ui y el Teorema 2.8.4 implican que X1 , X2 , . . . son independientes. Como Ui y Uj
tienen la misma distribuci ón, lo propio ocurre con Xi y Xj , de modo que las variables X1 , X2 , . . .
son i.i.d.
Hemos demostrado ası́ que se puede simular variables aleatorias finitas i.i.d. a partir de n úmeros
aleatorios o de lanzamientos de una moneda equilibrada.
Ejemplo 2.9.2 Simular una muestra aleatoria de tama ño 200, con reemplazo, de una
poblaci ón subdividida en categorı́as A, B, C, D, E, F , con las proporciones indivi-
duales y acumuladas dadas en la siguiente tabla:
Categorı́a Prob. categ. Prob. acum. 100 × Prob. acum.

A 0.06 0.06 6
B 0.12 0.18 18
C 0.15 0.33 33
D 0.28 0.61 61
E 0.20 0.81 81
F 0.19 1.00 100
Se generan n úmeros al azar entre 00 y 99 usando una tabla de n úmeros aleatorios y se

hace la asignaci ón

´
1-6 A
7-18 B
19-33 C
34-61 D
62-81 E
82-99, 00 F
Por ejemplo, si los 10 n úmeros obtenidos de la tabla fueran 72, 75, 28, 93, 64, 02, 15,
08, 54 y 18, se obtienen las letras que se indica:
72 75 28 93 64 02 15 08 54 18
E E C F E A A A D B
La simulaci ón da una muestra con 3 personas de la categorı́a A, 1 de la B, 1 de la C, 1

de la D, 3 de la E y 1 de la F.
Ejemplo 2.9.3 Hoy en dı́a las tablas de n úmeros aleatorios han sido reemplazadas
por programas computacionales, que pueden generar miles de n úmeros al azar en
fracciones de segundo. En vez de n úmeros enteros se generan decimales con un
cierto n úmero de dı́gitos. Si (Ti , i = 1, 2, . . .) son i.i.d. con distribuci ón uni-
forme en {0, 1, . . . , N − 1}, las variables Ui = TNi son uniformes en el conjunto
{0, N1 , . . . , NN−1 }. Si N = 10r , los elementos de este conjunto son los n úmeros re-
ales 0 ≤ ui < 1, redondeados hacia abajo con s ólo r dı́gitos. La variable Ui sa-
tisface la igualdad P (a ≤ U ≤ b) = b − a, con un excelente grado de aproxima-
ci ón. Los computadores y calculadoras cientı́ficas generan una sucesi ón U1 , U2 , . . .
de variables i.i.d. con distribuci ón uniforme en [0, 1], lo que significa que satisfacen
P (a ≤ Ui ≤ b) = b − a. El arte de la simulaci ón consiste en simular sistemas
probabilı́sticos más complejos usando un generador de variables uniformes.
A modo de ejemplo, para simular la muestra aleatoria del Ejemplo 2.9.2 usando un
generador de uniformes, una posible regla es:
Xi = A si 0 ≤ Ui ≤ 0.06
Xi = B si 0.06 < Ui ≤ 0.18
XI = C si 0.18 < Ui ≤ 0.33
Xi = D si 0.33 < Ui ≤ 0.61
Xi = E si 0.61 < Ui ≤ 0.81
Xi = F si 0.81 < Ui ≤ 1.00

´
2.10 Problemas
1. Un dado se lanza dos veces, independientemente. Dado que los resultados de ambos lanza-
mientos fueron distintos, calcule la probabilidad condicional que
(a) al menos uno de los n úmeros fue 6.

(b) la suma de los n úmeros es 8.
2. En una pregunta con alternativas, la probabilidad que un alumno sepa la respuesta es p. Ha-
biendo m alternativas, si el alumno sabe la respuesta, responde correctamente con probabili-
dad 1; en caso contrario, el alumno escoge una respuesta al azar. Dado que el alumno dio la
respuesta correcta, ¿cu ál es la probabilidad que él haya sabido la respuesta?
3. Suponga que el n úmero de accidentes en un dı́a de semana cualquiera entre Lunes y Jueves
tiene la siguiente funci ón probabilidad: p(0) = 0.7, p(1) = 0.2, p(2) = 0.1. An álogamente,
de Viernes a Domingo estas probabilidades cambian a p(0) = 0.5, p(1) = 0.3, p(2) = 0.2.
Suponga que el n úmero de accidentes en dı́as distintos son independientes.
(a) Describa el espacio muestral adecuado para el problema y utilice la hip ótesis de inde-
pendencia para asignar la probabilidad de cada punto del espacio muestral.
(b) Calcule la probabilidad que el n úmero total de accidentes en una semana sea (i) Igual a
2. (ii) Al menos 2.
4. Un modelo probabilı́stico muy simple para estudiar el tiempo atmosf érico clasifica cada dı́a
como seco o h úmedo. Se supone luego que el tiempo de ma ñana será igual al de hoy con
probabilidad 0.8. Sabiendo que el dı́a 15 de Mayo fue seco:
(a) Asigne las probabilidades a cada uno de los 8 escenarios posibles para el tiempo en los
pr óximos 3 dı́as.
(b) Calcule la probabilidad que el segundo dı́a sea seco.
(c) Calcule la probabilidad que exactamente dos dı́as sean secos.
5. Dos deportistas disparan sucesivamente a un blanco. Las probabilidades de acertar en el

primer disparo son 0.4 y 0.5 respectivamente. Estas probabilidades se incrementan en 0.05
para cada uno, en los disparos sucesivos. ¿Cu ál es la probabilidad que el primer disparo haya
sido efectuado por el primer deportista dado que el blanco fue acertado en el quinto disparo?.
6. Considere una urna que contiene doce fichas de las cuales ocho son blancas. Una muestra de
cuatro fichas es elegida sin reemplazo.
(a) Calcule la probabilidad que la primera y la tercera ficha extraidas sean blancas.
(b) Calcule la probabilidad que exactamente tres de las fichas sean blancas.
(c) ¿Cuál es la probabilidad condicional que la primera y la tercera ficha extraidas sean
blancas, dado que la muestra contenı́a exactamente tres fichas blancas?.
(d) Repita lo anterior suponiendo que despu és de cada extracci ón la ficha se restituye a la
urna.

´
7. Tres cajas A, B y C contienen instrumentos nacionales (N) e importados (I). La composici ón
de A, B y C es 2N y 4I, 8N y 4I, y 1N y 3I respectivamente. Se selecciona al azar un
instrumento de una caja elegida al azar.
(a) ¿Cuál es la probabilidad de obtener un instrumento nacional?.

(b) Si el instrumento seleccionado es nacional, calcule la probabilidad que provenga de la
caja A.
8. Con las mismas cajas del Problema 7, suponga que se selecciona un instrumento al azar de
cada una de las cajas y que exactamente dos de ellos resultan ser nacionales. ¿Cu ál es la
probabilidad que éste provenga de la caja A?.
9. Una compa ñı́a de seguros clasifica a las personas en una de tres categorı́as : bajo riesgo,
riesgo medio y alto riesgo. Sus registros indican que la probabilidad que las personas tengan
un accidente durante el a ño son 0.05, 0.15, 0.30, respectivamente. Si el 20% de la poblaci ón
es de bajo riesgo, el 50% de riesgo medio, y el 30% de alto riesgo, ¿cu ál es la proporci ón de
personas que tienen accidentes en un a ño fijo?. Si la p óliza tomada por A no tuvo accidentes
en 1992, ¿cu ál es la probabilidad que esta persona haya sido de bajo riesgo en ese a ño?.
10. Suponga que un dado se lanza una vez. Si N es el resultado del lanzamiento, entonces
P (N = i) = pi , i = 1, 2, 3, 4, 5, 6. Si N = i una moneda equilibrada se lanza i veces.
Encontrar la probabilidad condicional que N sea impar dado que se obtuvo al menos una
cara.
1
p + 7 p + 31 p
2 1 8 3 32 5
Resp : 1
p + p + 7 p + 15 p + 31 p + 63 p
3 .
2 1 4 2 8 3 16 4 32 5 64 6
11. Suponga que lanzamos una moneda n veces con probabilidad p de obtener una cara y q
de obtener un sello en cada lanzamiento. Suponga adem ás que todos los lanzamientos son
independientes. Sea Sn la variable aleatoria que cuenta el n úmero de caras obtenidas en los
n lanzamientos. Encuentre P (Sn ≥ 3|Sn ≥ 1).
1−q n −npq n−1 − 21 n(n−1)p2 q n−2
Resp : 1−q n .
12. Suponga que un dado equilibrado se lanza una vez. Si sale un n úmero impar, una moneda
honesta se lanza repetidamente; si sale un n úmero par una moneda sesgada con probabilidad
de obtener cara p 6= 21 se lanza repetidamente (los lanzamientos de la moneda son indepen-
dientes en cada caso). Si los n primeros resultados son caras, ¿cu ál es la probabilidad que
una moneda insesgada haya sido usada?.
1
2n+1
Resp : 1
+ 21 pn
.
2n+1
13. Suponga se tiene una urna con bolitas blancas y negras, sumando un total de n bolitas, y
se extraen bolitas con reemplazo de dicha urna. Si se hacen k extracciones y se observan k
bolitas blancas, ¿cu ál es la probabilidad que la urna tenga s ólo bolitas blancas?
14. La probabilidad que un pan de pascua contenga exactamente k pasas est á dada por pk =
λk e−λ
k! , k = 0, 1, 2, . . .. Suponga que por cada pasa que contiene este pan de pascua, una
moneda con probabilidad de cara p se lanza. Si sale cara, Ud. se come la pasa, y si sale

´
sello, Ud. la guarda para alg ún amigo. ¿Cu ál es la probabilidad que Ud. coma exactamente
n pasas?. ¿Cu ál es el rango de valores para n?.
15. Sea Qn la probabilidad que en n lanzamientos de una moneda regular no aparezcan corridas
de tres caras sucesivas. Demuestre que:
1 1 1
Qn = Qn−1 + Qn−2 + Qn−3 ,
2 4 8
sabiendo que Q0 = Q1 = Q2 = 1. Encontrar Q8 .
16. Como un modelo simplificado para predecir el tiempo atmosf érico, se supone que el tiempo
(seco o h úmedo) para ma ñana será igual al de hoy con probabilidad p. Si el tiempo atmosf éri-
co el primero de Enero fue seco, demostrar que Pn , la probabilidad que llueva n dı́as después,
satisface la relaci ón
Pn = (2p − 1)Pn−1 + (1 − p), n ≥ 1,
con P0 = 1. Demuestre adem ás que

1 1
Pn = + (2p − 1)n , n ≥ 0.
2 2
17. Una jaula A contiene cinco aves blancas y siete aves negras. La jaula B contiene tres blancas
y doce negras. Se lanza una moneda al aire. Si el resultado es cara, entonces un ave de
A es seleccionada, mientras que si el resultado es sello, se selecciona un ave de la jaula B.
Suponga que el ave seleccionada es blanca. ¿Cu ál es la probabilidad que la moneda haya
mostrado cara?.
12
Resp : 37
18. Una urna contiene N fichas negras y A fichas azules. Se selecciona una ficha al azar, y se la
devuelve a la urna, junto con C fichas adicionales del mismo color. Se selecciona ahora una
segunda ficha al azar. Demuestre que la probabilidad que la primera ficha era negra, dado que
N
la segunda fue azul es (N +A+C) .
19. Hay tres monedas en una caja. Una de ellas tiene dos caras, la otra es normal, y la tercera
muestra cara con probabilidad 75%. Dado que cuando se elige una de las tres monedas al azar
y se lanza el resultado es cara, calcule la probabilidad que ésta sea la moneda de dos caras.
Resp : 94 .
20. Dos bolas se eligen aleatoriamente desde una urna que contiene ocho blancas, cuatro negras
y dos amarillas. Suponga que ganamos $2 por cada bola negra seleccionada, perdemos $1
por cada bola blanca seleccionada, y que no hay cambios si se selecciona una bola amarilla.
Determine los posibles valores que se pueden obtener, y calcule las probabilidades corres-
pondientes.
k 4 2 1 0 −1 −2
Resp : 6 8 32 1 16 28
P (k) 91 91 91 91 91 91

´
21. Un comprador de transistores adquiere éstos en lotes de 20, y es su polı́tica inspeccionar

cuatro transistores elegidos aleatoriamente desde un lote y aceptar el lote solamente si los
cuatro están buenos. Si cada componente de un lote es, independientemente, defectuosa con
probabilidad 0.1, ¿cu ál es la proporci ón de lotes rechazados?.
Resp : 0.3439
Desaf´
ı os
22. Una maleta contiene a esferas blancas y b negras. Las esferas se eligen de la maleta de
acuerdo a la siguiente regla:
a.- Una esfera se elige al azar y se elimina.

b.- Una segunda esfera se elige a continuaci ón. Si su color es distinto al de la primera, ésta
es sustituida en la maleta y se repite el proceso del comienzo. Si el color es igual al de
la primera, la esfera se elimina y se comienza desde el punto b.
En otras palabras, las esferas son muestreadas y eliminadas hasta que ocurre un cambio de
color, en tal caso la última esfera es devuelta a la maleta, y el proceso comienza de nuevo.
Denote por Pab la probabilidad que la última esfera en la maleta sea blanca. Demostrar que:
1
Pab =
2
Hint: Use inducci ón sobre k ≡ a + b.
23. Un dado A tiene cuatro caras rojas y dos caras blancas, por otra parte un dado B tiene dos
caras rojas y cuatro caras blancas. Una moneda es lanzada una vez. Si el resultado es cara, el
juego continua con el dado A; si es sello, el dado B es usado.
a.- Demuestre que la probabilidad que salga una cara roja es 12 .

b.- Si en los primeros dos lanzamientos aparece la cara de color rojo, ¿cu ál es la probabili-
dad que en el tercer lanzamiento la cara sea roja?.
c.- Si el rojo aparece en los dos primeros lanzamientos, ¿cu ál es la probabilidad que se
haya usado el dado A?.
Resp : b) 35 ; c) 45
24. Sup óngase que los dı́as son clasificados en “Soleados” y “Nublados”, y que las condicio-
nes del clima en ma ñanas sucesivas forman una cadena de Markov con probabilidades de
transici ón estacionarias. Suponiendo que la matriz de transici ón sea:
Soleado Nublado
Soleado 0.7 0.3
Nublado 0.6 0.4

´
a.- Si un dı́a esta nublado, ¿cu ál es la probabilidad que est é nublado al dı́a siguiente?.
b.- Si un dı́a es soleado, ¿cu ál es la probabilidad que los dos dı́as que siguen sean soleados?.
c.- Si un dı́a esta nublado, ¿cu ál es la probabilidad que al menos uno de los tres dı́as
siguientes esté soleado?.

Cap´
ıtulo 3
Variables Aleatorias
En este capı́tulo desarrollamos con mayor profundidad algunos temas que ya fueron presentados
en los capı́tulos previos. Ası́, en la Secci ón 1.4.3 discutimos el concepto de variable en t érminos
de una poblaci ón finita, distinguiendo tipos de variables. Por otra parte, una muestra al azar de
una poblaci ón finita transforma las probabilidades de los sucesos en proporciones dentro de la
poblaci ón finita. De esta forma, la construcci ón y descripci ón de distribuciones de probabilidad
está ı́ntimamente ligada al estudio de poblaciones en esta poblaci ón; un paso al lı́mite arroja luz
sobre las variables continuas. Un subproducto importante del estudio de poblaciones finitas es que
permite visualizar concretamente a una variable como una funci ón definida para una poblaci ón,
lo que hace m ás natural la definici ón abstracta de variable aleatoria. La primera secci ón trata
la descripci ón de proporciones para variables discretas y continuas, lo que proporciona una base
intuitiva para atacar problemas probabilı́sticos.
3.1 Descripci ón de Proporciones en una Poblaci ón
Continuamos ac á el estudio iniciado en la Secci ón 1.4.3 sobre el concepto de variable en el contexto
de una poblaci ón finita. Examinamos ahora la descripci ón de poblaciones para distintos tipos de
variables. Para ilustrar las ideas continuamos el ejemplo de dicha secci ón, donde se muestran
las 10 primeras lı́neas de un archivo computacional. Supondremos ahora una poblaci ón de gran
tama ño, digamos cien mil personas, de la cual se ha extraido una muestra al azar de 500 personas.
Dada la peque ña fracci ón de muestreo, hay poca diferencia entre el muestreo sin y con reposici ón.
Adoptando este último supuesto, para cada columna de la tabla de datos, las 500 componentes
pueden ser consideradas como una realizaci ón de 500 variables i.i.d., cuya distribuci ón com ún
coincide con la distribuci ón de proporciones en la poblaci ón. Por razones de espacio, la Tabla 3.1.1
muestra s ólo las 100 primeras lı́neas del archivo de datos, pero algunos resultados se obtienen sobre
la base de la muestra completa de tama ño 500.
Por la manera de generar la informaci ón hay simetrı́a entre los individuos, es decir, una reor-
denaci ón arbitraria de las filas de la tabla no debiera afectar las conclusiones. Por otra parte, el
n úmero de filas de la tabla coincide con el tama ño de la muestra, el que est á sujeto a limitaciones
de tiempo y presupuesto. En consecuencia, conviene caracterizar el comportamiento de las varia-
70
´
CAP ITULO 3. VARIABLES ALEATORIAS
bles prescindiendo del tama ño de la poblaci ón. Los promedios aritm éticos y las proporciones son
res úmenes sencillos que tienen estas caracterı́sticas deseables.
Por descripciones entendemos tanto a n úmeros, tablas num éricas o a los gr áficos correspon-
dientes, los que varı́an seg ún el tipo de variable. Los ejemplos que se exhiben a continuaci ón se
refieren a los datos de la Tabla 3.1.1. La clasificaci ón de variables se aplica tambi én a las variables
aleatorias y las probabilidades se describen de manera an áloga a las proporciones.
Identificador Comuna Nivel Socio Tama˜

no N Consultas Sexo Peso
Econ o´mico Familia M e´dicas (kg)
1 A 1 3 3 M 74.8
2 A 1 3 2 F 54.2
3 A 1 4 4 M 69.7
4 A 3 4 2 F 58.4
5 C 3 3 8 M 64.6
6 C 4 3 1 F 64.5
7 B 2 3 6 M 72.1
8 A 3 2 2 F 66.0
9 C 3 1 4 M 71.6
12 A 2 2 2 M 72.9
13 A 1 6 5 F 46.3
14 B 2 3 4 F 56.3
15 A 1 6 4 F 52.2
16 B 1 5 4 F 62.0
17 B 5 1 4 F 66.3
18 A 2 3 5 M 77.3
19 B 1 7 9 M 79.4
20 A 1 5 2 M 70.1
21 A 2 4 6 F 63.9
22 A 2 2 3 F 61.5
23 A 1 5 0 F 57.8
24 A 3 1 5 M 69.3
25 A 2 3 5 M 86.3
26 A 2 1 2 M 78.3
27 B 3 1 1 M 73.9
28 A 2 4 5 F 55.0
29 B 2 3 4 F 72.3
30 B 4 1 1 M 76.6
31 A 2 2 4 M 71.0
32 A 1 3 1 F 57.7
33 B 2 2 4 M 71.8
34 A 1 3 2 M 73.7
35 A 2 1 2 M 77.7
36 A 3 2 7 F 58.5
37 C 4 2 3 F 58.9
38 A 1 4 3 F 67.0
39 A 1 6 3 F 57.5
40 C 1 5 7 M 79.9
41 B 3 4 7 M 74.9
42 B 3 1 4 F 54.8
43 C 4 3 1 M 79.7
44 B 2 3 4 F 72.1
contin uá en la siguiente p a´gina

´

45 A 1 3 2 F 50.4
46 C 1 4 4 F 67.0
47 B 1 6 5 M 76.0
48 B 2 5 2 F 64.0
49 C 1 7 1 M 76.6
50 A 1 2 3 F 65.3
51 A 1 2 4 F 64.2
52 A 2 4 2 M 78.6
53 A 1 4 0 F 60.4
54 B 1 4 6 F 57.5
55 C 5 2 1 M 79.6
56 B 1 5 4 F 54.4
57 A 1 5 7 F 58.4
58 A 1 4 7 M 73.7
59 A 1 5 3 M 73.8
60 C 3 2 4 M 75.4
61 A 2 1 4 M 75.0
62 A 2 1 8 F 55.4
63 A 2 2 0 M 71.4
64 B 2 4 3 F 58.2
65 A 1 3 2 M 87.2
66 A 2 1 2 M 72.9
67 A 3 3 7 M 78.3
68 A 1 3 7 M 81.5
69 C 5 1 3 M 83.6
70 B 1 1 1 F 57.9
71 A 1 2 0 F 58.4
72 A 2 5 4 M 70.0
73 A 1 3 6 M 69.6
74 B 5 3 3 F 57.7
75 A 1 5 4 F 56.8
76 C 3 1 2 F 48.1
77 C 5 1 4 F 54.9
78 B 4 1 2 M 79.6
79 B 1 4 2 M 69.5
80 C 3 2 2 F 59.8
81 A 1 4 5 F 67.6
82 B 1 5 6 F 58.2
83 A 1 4 5 F 52.7
84 C 4 2 1 F 68.2
85 A 2 1 2 F 54.3
86 A 1 4 1 F 55.9
87 C 3 2 3 F 62.0
88 A 1 6 6 F 57.9
89 B 4 1 5 F 64.3
90 A 3 2 8 M 71.8
91 B 4 1 7 M 79.6
92 A 2 2 3 F 61.5
93 C 5 1 5 F 52.9
contin uá en la siguiente p a´gina

´

94 B 1 3 3 F 54.4
95 A 1 4 5 F 59.6
96 A 1 5 9 F 59.7
97 A 1 5 2 F 56.4
98 B 1 6 7 M 70.6
99 A 4 2 4 F 54.7
100 A 1 6 4 F 61.6
Tabla 3.1.1: Variables para subpoblaci ón de 100 individuos
Para una variable categ órica, la descripci ón es obvia. Simplemente se indica la proporci ón
o porcentaje para cada categorı́a. Para una variable binaria basta la proporci ón correspondiente
a una de las dos categorı́as. Cuando las categorı́as están ordenadas se pueden calcular, adem ás,
proporciones acumuladas. La representaci ón gráfica depende mucho del ingenio, siendo tradicional
los diagramas de barra o de torta, que frecuentemente aparecen en peri ódicos y revistas.
Una variable discreta se puede tratar como ordinal, siendo tradicional utilizar lı́neas o barras
delgadas, para enfatizar que los valores intermedios carecen de sentido, e.g. 2.5 miembros en una
familia. Los gráficos en la Figura 3.1.1 representan al tama ño de grupo familiar y n úmero de visitas
médicas.
No es conveniente hacer lo mismo con una variable continua X, por la proliferaci ón de barras
y el hecho que si x se expresa con muchos decimales, todas las proporciones ser án muy peque ñas.
De hecho, si el valor x no aparece en la tabla, la proporci ón correspondiente ser á igual a cero.
Esto muestra que los valores individuales no tienen inter és directo, y que lo relevante son las pro-
porciones correspondientes a ciertos intervalos. Para resumir la informaci ón, conviene tomar una
partici ón o una sucesi ón creciente de intervalos. En ambos casos se elige una sucesi ón ordenada
de n úmeros reales: −∞ = t0 < t1 < · · · < tj−1 < tj < · · · < tr−1 < tr = ∞. La partici ón
generada es (A1 , . . . , Ar ), con Aj = (tj−1 , tj ]. La sucesi ón creciente est á formada por los conjun-
tos Bj = (−∞, tj ], j = 1, . . . , r. Denotando por qj y Qj a las proporciones correspondientes a los
intervalos Aj y Bj respectivamente, se tienen las relaciones
j
X
Qj = Qj−1 + qj , qj = Qj − Qj−1 , Qj = qm .
m=1
Podemos construir ahora dos gr áficos asociados.
• Proporciones acumuladas. Se grafican los puntos (tj , Qj ) para j = 1, . . . , r−1 (uni éndolos
opcionalmente por segmentos lineales).
• Histograma. Se construye una funci ón constante dentro de cada Aj , de modo que su gr áfico
tiene forma de escalera. Se elige el valor dj que toma la funci ón dentro de Aj , como
qj
dj = c × ,
tj − tj−1
donde c se calcula de tal forma que la proporci ón qj coincida con el área bajo el pelda ño
correspondiente. El gr áfico de esta funci ón se denomina histograma. Se sugiere al lector

´
Numero de consultas medicas

6
4
2
0
0.20 0.15 0.10 0.05 0.0
Proporciones
7
6
Tamano grupo familiar

5
4
3
2
1
0.20 0.15 0.10 0.05
Proporciones
Figura 3.1.1: Tama ño de grupo familiar y n úmero de visitas m édicas en Tabla 3.1.1.
verificar que el área total bajo la escalera es 1 y que la funci ón cuyo gráfico es el histo-
grama coincide con la derivada de la funci ón, cuyo gr áfico es la poligonal descrita para las
proporciones acumuladas.
La Figura 3.1.2 muestra el histograma de la variable peso, construido a partir de la poblaci ón de
500 individuos, de los cuales la Tabla 3.1.1 muestra a 100 de ellos. Superpuesta al histograma hay
una curva suave, que posteriormente vincularemos a la funci ón densidad de probabilidad. Las áreas
bajo esta curva tambi én aproximan a las proporciones en un intervalo dado. La Figura 3.1.3 repite
lo anterior, separadamente para hombres y mujeres. Invitamos al lector a proponer una explicaci ón
para la forma de estos gr áficos.
Elijamos a los tj como los valores distintos que una variable X alcanza en la tabla de datos,
ordenados de menor a mayor, y supongamos que la tabla tiene muchas filas. Entonces, los valores
consecutivos de la variable estar án muy pr óximos uno de otro y el gr áfico de proporciones acumu-
ladas se aproximar á bien por una curva suave, que crece desde 0 hasta 1, a medida que aumenta el
valor de x de la variable. Tal curva es el gr áfico de cierta funci ón F , y la proporci ón π(a, b) de

´
0.06
0.05
0.04
0.03
0.02
0.01
0.0
40 50 60 70 80 90
Peso
Figura 3.1.2: Histograma de la variable peso en la Tabla 3.1.1.
individuos que satisfacen a < x ≤ b se puede aproximar por
π(a, b) = F (b) − F (a). (3.1.1)
Procediendo del mismo modo, el histograma se aproximar á bien por el gr áfico de cierta funci ón
no negativa f , tal que áreas bajo la curva aproximen a las proporciones. Las curvas superpuestas
a los histogramas en las Figuras 3.1.2 y 3.1.3 son gr áficos de una funci ón f . Analı́ticamente las
áreas bajo una curva son integrales, de modo que
Z b
π(a, b) = f (x)dx. (3.1.2)
a
3.2 Variable Aleatoria y su Distribuci ón de Probabilidad
3.2.1 Variable Aleatoria como Funci oń
Hasta ahora, las variables han aparecido primariamente para ayudar a definir el resultado de un
experimento y, por tanto, en la elecci ón del espacio muestral Ω. Tanto los elementos ω ∈ Ω como
los subconjuntos (sucesos) de inter és suelen describirse en t érminos de los valores x1 , x2 , . . . , xn
de ciertas variables originales, a las que denotamos por las letras may úsculas correspondientes.

´
90
80
Peso de hombres
70
60
50
40
0.10 0.08 0.06 0.04 0.02 0.0
90
80
Peso de mujeres
70
60
50
40
0.10 0.08 0.06 0.04 0.02 0.0
Figura 3.1.3: Histograma de la variable peso, separado por sexo, en la Tabla 3.1.1.
Cuando el resultado ω coincide con el valor x de X, se asignan directamente probabilidades a los

elementos del conjunto X de valores posibles de esta variable. Cuando no es claro c ómo calcular
las probabilidades pX (x) = P (X = x), una posible vı́a de soluci ón es escribir x = h(ω), donde
ω es el resultado de cierto experimento, asignar probabilidades a los subconjuntos de Ω y deducir
P (X = x). Si Ω es finito o numerable, basta asignar las probabilidades p(ω) = P ({ω}) y obtener
pX (x) como suma de las probabilidades de los casos favorables. En otras palabras,
X
pX (x) = p(ω)
ω∈Ω / h(ω)=x
En el importante caso de la elecci ón de un individuo, al azar, de una poblaci ón finita de tama ño N ,
lo natural es tomar Ω = {1, 2, . . . , N }, donde ω identifica al individuo seleccionado. Por hip ótesis,
cada ω tiene probabilidad N1 y de aquı́ se deduce que P (X = x) coincide con una proporci ón
poblacional. Si imaginamos una tabla de datos para toda la poblaci ón, cada variable se representa
por una columna de esa tabla o por una funci ón que le asigna a ω el valor de la variable para el
individuo con identificador ω.
Cuando las variables de inter és son X1 , X2 , . . . , Xk , es natural elegir ω = (x1 , x2 , . . . , xk ).
Con esta elecci ón, la variable Xi corresponde a la funci ón que asigna a cada arreglo de largo k
su i-ésima componente. Por otra parte, el valor y de cualquier variable de inter és Y debe estar
determinada por ω, es decir, debe existir una funci ón g para la cual y = g(x1 , x2 , . . . , xn ). En este
esquema, denominamos a las Xi variables originales o primarias, mientras que a Y la denominamos

´
variable derivada o secundaria y la denotamos por Y = g(X 1 , X2 , . . . , Xn ). Cuando las variables

Xi son discretas, i.e. el n úmero de valores posibles es finito o numerable, se tiene
• El espacio muestral Ω es numerable.
• Toda variable derivada es discreta.
• Denotando por p(x) = p(x1 , x2 , . . . , xk ) a P (X1 = x1 , X2 = x2 , . . . , Xk = xk ), la funci ón

de probabilidad pY (y) se obtiene mediante
X
pY (y) = p(x).
x / g(x)=y
Si se toma a Ω como el conjunto de los arreglos x posibles, la funci ón g tiene dominio Ω.
Motivados por la discusi ón anterior, entregamos una definici ón abstracta de variable aleatoria.
Definici oń 3.2.1 Una variable aleatoria es una funci ón definida sobre el espacio muestral Ω, con
valores en el conjunto X .
Notaci oń: Si el valor de la variable aleatoria se denota por una letra min úscula, la variable se denota
por la letra may úscula correspondiente. Normalmente se utilizan las últimas letras del alfabeto. Con
esta convenci ón escribimos x = X(ω). El suceso: “el valor x de X pertenece al conjunto B se
denota por X ∈ B. Cuando B = {x} se simplifica la notaci ón a {X = x} o X = x. Hacemos
notar que utilizamos la misma letra para denotar un valor x incierto (antes de conocer el resultado
del experimento). Una vez conocido el resultado ω, el valor de la variable es x = X(ω), donde
usamos la letra X para representar una funci ón. El suceso correspondiente a que el valor x de la
variable X satisfaga un conjunto de condiciones se escribe reemplazando x por X. Por ejemplo,
P (X 2 − 5X + 6 ≤ 0) es la probabilidad que el valor x de la variable X satisfaga x 2 − 5x + 6 ≤ 0,
o sea, 2 ≤ x ≤ 3. Ası́ P (X 2 − 5X + 6 ≤ 0) = P (2 ≤ X ≤ 3).
Definici oń 3.2.2 Dada una variable aleatoria X definida sobre Ω, con valores en X , la distribuci ón
de probabilidad inducida por X sobre X se define, para un evento B ⊂ X como:
PX (B) = P (X −1 (B)), (3.2.1)
donde X −1 (B) = {ω ∈ Ω/ X(ω) ∈ B} es un evento en Ω, y P es la distribuci ón de probabilidad

definida sobre Ω.
Se denomina tambi én a PX distribuci ón de probabilidad o distribuci ón de la variable aleatoria X.
Con la convenci ón notacional adoptada PX (B) = P (X ∈ B), es decir, es la probabilidad que
el valor de X esté contenido en B. Conocer la distribuci ón de probabilidad de una variable aleatoria
equivale a conocer la probabilidad que el valor de X est é contenido en B, para todo suceso B. La
relaci ón básica es que el suceso B en el espacio muestral X ocurre si y s ólo si ocurre el suceso
X −1 (B)) en el espacio muestral Ω. Este último corresponde a la ocurrencia de un resultado ω ∈ Ω,
tal que X(ω) ∈ B.

´
En general, especificar PX directamente es una tarea difı́cil. En el Capı́tulo 1 vimos que en el

caso particular que X es un conjunto finito o numerable, las probabilidades quedan determinadas
por la funci ón de probabilidad pX , definida por
pX (x) = PX ({x}) = P ({ω ∈ Ω/ X(ω) = x).
La funci ón pX debe ser no negativa y la suma de sus valores ser igual a 1.
Ejemplo 3.2.1 Considere 10 lanzamientos sucesivos de una moneda (en forma inde-
pendiente). Si esto es todo lo que sabemos, lo m ás natural es escribir el resultado como
la 10-tupla (C, C, S, C, S, S, S, C, C, S) o similar, lo que equivale a elegir como es-
pacio muestral a Ω = {C, S}10 , que contiene 210 = 1024 elementos. El n úmero de
sucesos, es decir, el n úmero de subconjuntos de Ω, asciende a la escalofriante cifra de
21024 . Afortunadamente, la probabilidad de cualquiera de ellos es calculable si conoce-
mos las probabilidades de los 1024 sucesos elementales {ω} y no todos los sucesos son
de interés. Tı́picamente, aquellos de inter és se pueden expresar en t érminos del valor x
de alguna variable. Las preguntas m ás habituales se relacionan con el n úmero de caras
o sellos obtenidos. Por ejemplo: El n úmero de caras es superior al numero de sellos o
El n úmero de sellos es superior a 7 se expresan en t érminos de la variable X : n úmero
total de caras, por X > 5 o X ≤ 2 respectivamente. En estas circunstancias, parece
atractivo utilizar X = {1, 2, . . . , 10} como un espacio muestral alternativo a Ω, dada
su menor complejidad. Sin embargo, resulta poco claro como asignar probabilidades a
los valores x ∈ X , mientras que la probabilidad de cada ω es m ás fácil de obtener.
Como el valor de x est á determinado por el de ω, debe existir una funci ón h, tal
que x = h(ω). Ası́, por ejemplo, tenemos que h(C, C, S, C, S, S, S, C, C, S) = 5,
h(S, S, S, S, S, S, S, S, S, S) = 0, h(S, C, C, C, S, C, S, C, S, S) = 5, etc. La defi-
nici ón abstracta identifica a la variable X con esta funci ón. Un peque ño cambio de
notaci ón simplifica la escritura. Denotemos por xi a la i -ésima componente del arre-
glo ω ∈ Ω y consideremos xi como valor de una variable Xi , que toma el valor C si
aparece cara en el i- ésimo lanzamiento, y S si sale sello. X1 , X2 , . . . , X10 son las va-
riables originales y sus valores determinan ω. De esta forma X = g(X 1 , X2 , . . . , X10 ).
Podemos definir otras variables derivadas:
• La variable Yi , que asigna el valor yi = 1, cuando la i- ésima moneda sale cara y

sello en caso contrario. En este caso, y1 , y2 , . . . , y10 determinan, a su vez, ω.
• Z = n úmero total de sellos. Para cada ω, los valores de x y z satisfacen x+z = 10,
de modo que Z = g(X) = 10 − X.
• La variable X se puede escribir m ás fácilmente en funci ón de los Yi que de los
10
P
Xi . En efecto X = Yi .
i=1
Supongamos que la moneda tiene probabilidad p de salir cara, y q = 1−p de salir sello.
El supuesto de independencia entre los lanzamientos de la moneda implica p(ω) =

´
P ({ω}) = px q 10−x , donde x = h(ω) = X(ω) es el n úmero de caras. De aquı́,
pX (x) = P (X = x)
X
= p(ω)
ω∈Ω/ h(ω)=x

10 x 10−x
= p q ,
x
donde x ∈ {0, 1, . . . , 10}, el conjunto imagen de X.
Ejemplo 3.2.2 Considere el juego de LOTO, y X definido como el n úmero de aciertos

en una cartilla seleccionada al azar. El espacio muestral Ω consiste de 36 6 = 1.947.792
posibles cartillas, mientras que X est á simplemente dado por {0, 1, . . . , 6}. Es razona-
ble suponer que los elementos de Ω son todos equiprobables, de modo que el c álculo
de la funci ón de probabilidad inducida pX (x) para x ∈ X se reduce a contar casos
favorables. Por ejemplo,
6 30

× 20 × 4060
pX (3) = 3 36 3 = = 0.0417
6
1.947.792
Más generalmente, y usando id énticos argumentos, se puede concluir que

6 30

x × 6−x
pX (x) = 36
, para x = 0, 1, . . . , 6.
6
3.2.2 Conjunto de valores de una variable aleatoria como espacio muestral
En los capı́tulos previos, el rol b ásico de las variables es definir el espacio muestral. A menudo,
la descripci ón del problema no aporta informaci ón alguna sobre, ya sea las probabilidades sobre
el espacio muestral Ω, o las probabilidades inducidas sobre X . Una forma de abordar el problema
es, simplemente, desentenderse de Ω, y tomar X como el espacio muestral. En otras palabras, dada
una única variable de inter és X, la elecci ón can ónica del espacio muestral es Ω = X . Se identifica
entonces la distribuci ón P sobre Ω con la distribuci ón inducida PX sobre X . Formalmente, esto es
un caso particular de la definici ón general en que X es la funci ón identidad, pero tal punto de vista
es bastante in útil. Toda variable aleatoria Y se puede representar por g(X), para cierta funci ón g.
Si un estudio previo nos entrega proporciones empı́ricas, podemos adoptar a estas frecuencias
como aproximaciones de las probabilidades sobre X . Una manera de obtener una distribuci ón de
probabilidad consiste en postular una familia param étrica de probabilidades sobre X , y usar los
datos previos para estimar los par ámetros y, por tanto, seleccionar a un miembro de esta familia
como la distribuci ón buscada. Los procedimientos de estimaci ón forman parte de la Inferencia
Estadı́stica (no contenidos en este texto), la que constituye una f értil área de aplicaci ón de la teorı́a
de probabilidad.

´
Si hay n variables de inter és, la elecci ón can ónica es que Ω sea un conjunto de arreglos
(x1 , . . . , xn ). En este caso, la variable Xi corresponde a la funci ón que asigna a cada arreglo
su i-ésima componente y toda variable aleatoria Y se puede escribir como g(X 1 , . . . , Xn ), para una
funci ón g adecuada. Cuando las variables Xi son discretas, y ω = (x1 , . . . , xn ), lo mismo se aplica
a cualquier variable aleatoria Y , de modo que PY queda determinada por su funci ón de probabilidad
pY . Si Y = g(X1 , . . . , Xn ), pY (y) es la suma de las probabilidades de los (x1 , . . . , xn ) tales que
g(x1 , . . . , xn ) = y.
Ejemplo 3.2.3 Considere un pan de pascua seleccionado al azar, y sea X definido

como el n úmero de pasas contenidos en el pan de pascua. El espacio muestral Ω para
este caso es el conjunto de todos los posibles panes de pascua que pudimos haber
seleccionado inicialmente (esto depende de la poblaci ón objetivo de panes de pascua).
El conjunto X queda representado por {0, 1, 2, . . .}. Una familia param étrica bastante
popular es
λx e−λ
pX (x) = P (X = x) =
x!
para x = 0, 1, 2, . . ., y para alg ún valor de λ > 0 (es f ácil verificar que estos valores
son positivos y suman 1). Para usar esta f órmula en la pr áctica, uno requiere estimar el
valor de λ. Veremos m ás adelante que el contenido promedio de pasas obtenido para
un conjunto de panes es una estimaci ón razonable.
Los siguientes ejemplos corresponden a X no numerable. El primero est á relacionado con el

Ejemplo 1.5.3.
Ejemplo 3.2.4 Considere un dardo lanzado al azar sobre un tablero circular de radio
unitario. Sea X la posici ón del dardo al hacer impacto con el tablero, como se indica
en la Figura 3.2.4.
El espacio muestral natural es ac á el disco unitario, cuya representaci ón cartesiana

sugiere la elecci ón de X = {(x1 , x2 ) ∈ R2 / x21 + x22 ≤ 1} como espacio muestral. El
vector ω = (x1 , x2 ) es el valor de una variable aleatoria, a la cual se la suele denominar
vector aleatorio. La no numerabilidad de X hace imposible asignar probabilidades
positivas a todos los puntos. Para evitar asimetrı́as muy marcadas hay que concluir
que la probabilidad de cada punto es cero. Afortunadamente, los sucesos de inter és
no incluyen conjuntos de un s ólo elemento, sino regiones de área positiva. Asignar
probabilidades para subconjuntos no numerables de R k es tema de otro capı́tulo. Sin
embargo, una traducci ón adecuada de la idea de lanzamiento al azar, es que todos los
subconjuntos de X de igual área sean equiprobables. De los axiomas de probabilidad
se deduce que la probabilidad de un suceso A ⊂ X es proporcional al área de A, esto
es:
1
Z
área(A) área(A)
PX (A) = = = dx1 dx2 .
área(X ) π A π
Esta última expresi ón, tendrá una importante interpretaci ón más adelante.

´
x2
(x1,x2)
-1 1
0 x1
-1
Figura 3.2.4: Representaci ón esquemática del lanzamiento de un dardo.
Ejemplo 3.2.5 Una ampolleta tiene una probabilidad p de quemarse al instante de ser
encendida. Si la ampolleta no se quema, entonces se sabe que la probabilidad que
sobreviva t > 0 horas est á dada por e−t . ¿Cuál es la probabilidad que la ampolleta
sobreviva 1 hora de funcionamiento?
Si denotamos por X el tiempo de vida de la ampolleta (esto es, el tiempo que tarda
en quemarse), necesitamos calcular P (X > 1). El espacio muestral se puede tomar
como X = [0, ∞). Por las condiciones del problema, sabemos que P (X = 0) = p
(si la ampolleta se quema), y que P (X > t|X > 0) = e−t (cuando la ampolleta no se
quema). Puesto que se quiere saber el valor de P (X > 1), el teorema de probabilidades
totales nos permite obtener que:
P (X > 1) = P (X > 1|X = 0)P (X = 0)

= +P (X > 1|X > 0)P (X > 0)
= 0 × p + e−1 × (1 − p) = (1 − p) × e−1 ,
que es lo que querı́amos saber.

Note que, a diferencia del ejemplo anterior, hay un punto del espacio muestral que tiene
una probabilidad positiva ( x = 0).

´
3.3 Valores Esperados I
3.3.1 Motivaci oń
La Ley de los Promedios o Ley de los Grandes N úmeros es un resultado clave de la Teorı́a de
Probabilidad. No existe la persona promedio, el alumno promedio o el árbol promedio, sino la altura
promedio, el peso promedio, la renta promedio, el n úmero promedio de accidentes, etc., que son
valores de ciertas variables. Lo que se promedia son n úmeros reales, o bien elementos de un espacio
vectorial (para el cual se puede hablar de combinaciones lineales). Como todo espacio vectorial de
dimensi ón finita es representable por Rn y la suma y multiplicaci ón en Rn se definen componente a
componente, el caso fundamental es el de una variable con valores reales. La Ley de los Promedios,
discutida informalmente en la Secci ón 1.2.1, refleja el hecho empı́rico que, bajo ciertas condiciones,
los promedios exhiben una gran estabilidad. Si el valor de la variable cuantitativa en la i- ésima
repetici ón se denota por yi , lo que hacemos es considerar al n úmero real yi como el valor de una
variable aleatoria. Las condiciones tı́picas bajo las cuales rige la Ley de los Promedios es que las
repeticiones sean independientes y que el experimento se realice bajo condiciones semejantes. Esto
se traduce formalmente en la condici ón
Las variables Yi son i.i.d.

n
1 P
El promedio de n repeticiones es tn = n yi , que no es predecible exactamente, de modo que la
i=1
incerteza se traduce en la distribuci ón de la variable aleatoria
n
1X
Tn = Yi .
n
i=1
Con esta formulaci ón, la Ley de los Promedios se puede formular como un teorema, que se deno-
mina Ley de los Grandes N úmeros. Esencialmente, este teorema afirma que la distribuci ón de Tn
tiende a concentrase m ás y más en torno a cierto n úmero µ, a medida que n aumenta:
P (µ − < Tn < µ + ) → 1, cuando n tiende a ∞.
Cuando este valor µ existe, él está determinado por la distribuci ón com ún a todas las variables
Yi . Denotando por Y a una variable aleatoria, cuya distribuci ón PY coincide con la de cada Yi ,
el valor µ se denomina media de la distribuci ón PY o valor esperado o esperanza de la variable
aleatoria Y . Se plantea, entonces, el problema de dar una definici ón alternativa de µ o de E(Y )
que no requiera la repetici ón indefinida de un experimento. Aparte del ahorro de tiempo y energı́a,
esto tiene la ventaja de que el concepto de media o valor esperado no depende de la interpretaci ón
frecuentista.
Para fijar las ideas consideremos el ejemplo pedestre, pero sencillo de llevar a cabo, – instamos
al lector a hacerlo – que consiste en lanzar repetidamente un dado equilibrado. Si y i es el n úmero
que muestra el dado en el i- ésimo lanzamiento, el gr áfico de tn versus n presenta inicialmente una
gran inestabilidad, pero para valores grandes de n todos los puntos est án muy cercanos a una recta
horizontal, a una altura aproximada de 3.50. Si anotamos z i = 1 si sale un seis y zi = 0 en caso
contrario, el promedio de los zi coincide con la proporci ón pn de veces que sale un seis en los

´
primeros n lanzamientos del dado. Por la interpretaci ón frecuentista, pn tiene como valor lı́mite a
la probabilidad que salga seis al lanzar un dado, de modo que el gr áfico tiende nuevamente a una
recta horizontal, esta vez con una altura igual a la probabilidad que salga seis en un lanzamiento del
dado. Si Z representa una variable aleatoria con distribuci ón igual a la de Zi , tenemos el importante
resultado:
E(Z) = P (Z = 1)
Notemos que Zi = h(Yi ), donde h es la funci ón indicatriz del conjunto {6}. De esta forma, Z tiene
la misma distribuci ón que h(Y ) y, por tanto, el mismo valor esperado. Ası́,
E(Z) = E(h(Y )).
Esta profusi ón de paréntesis motiva la notaci ón simplificada E(Z) = Eh(Y ). Es interesante
resaltar que los promedios tienen perfecto sentido para cualquier funci ón h con valores reales,
sin importar la naturaleza de su dominio. Si el experimento consistiese en el lanzamiento de una
moneda, con resultados ω = C y ω = S, las repeticiones del experimento generarı́an una sucesi ón
de letras que no se pueden promediar. Sin embargo, si para cada repetici ón uno gana $1000 si sale
cara y pierde 500 si sale sello, la ganancia esperada, definida como lı́mite de la ganancia promedio
cuando el n úmero de repeticiones tiende a infinito, es el valor esperado de la variable aleatoria
definida sobre Ω = {C, S} por
W = 1000 si ω = C, y W = −500 si ω = S.
La ganancia promedio en los primeros n juegos es

1
Gn = [1000 × n úmero de caras + (−500) × (n- n úmero de caras)]
n
= [1000 × proporci ón de caras + (−500) × proporci ón de sellos]
→ 1000 × P (C) + (−500) × P (S)
X
= p(ω)h(ω).
donde
h(ω) = 1000, si ω = C, y h(ω) = −500 si ω = S.
La funci ón h coincide con la variable aleatoria W en la formulaci ón abstracta.
En la interpretaci ón subjetiva de la probabilidad Ω = {ω1 , i = 1, . . . , k} representa el conjunto
de alternativas y h(ω) es la utilidad asociada con la alternativa ω. Esta utilidad no coincide, en
general, con una ganancia monetaria, sino que es un concepto t écnico. Por definici ón, ella es tal
que uno debiera ser indiferente frente a la situaci ón incierta que se presenta (por ejemplo, en un
juego de azar o en una inversi ón financiera), y una utilidad cierta (segura) cuyo valor coincida con
el valor esperado X
p(ω)h(ω).
ω∈Ω
La pr óxima secci ón discute f órmulas de cálculo.

´
3.3.2 F o´rmulas para el valor esperado
Cuando el espacio muestral Ω es finito, la f órmula para el valor esperado es muy sencilla:
Definici oń 3.3.1 Sea Ω un espacio muestral numerable y sea X la variable aleatoria con valores
x = h(ω), donde g es real valorada. El valor esperado o esperanza de X se denota por E(X), y
está dado por: X
E(X) = p(ω)h(ω), (3.3.1)
ω∈Ω
donde la suma se interpreta como el valor de una serie cuando Ω es numerable. Si la serie no
converge se dice que E(X) no existe.
En particular, si ω = (x1 , . . . , xk ) e y = h(x1 , . . . , xk ),

X
E(Y ) = Eh(X1 , . . . , Xk ) = p(x1 , . . . , xk )h(x1 , . . . , xk ). (3.3.2)
(x1 ,...,xk )∈Ω
Si la variable aleatoria X es discreta, siendo Ω arbitrario tenemos una definici ón alternativa:
Definici oń 3.3.2 El valor esperado o esperanza de una variable aleatoria X est á dado por:
X
E(X) = xpX (x), (3.3.3)
x∈X
donde la suma se interpreta como el valor de una serie cuando X asume una cantidad numerable
pero no finita de valores. Si la serie no converge se dice que E(X) no existe.
Teorema 3.3.1 Si Ω es numerable, las definiciones (3.3.1) y (3.3.2) son equivalentes.
Demostraci oń: La haremos s ólo en el caso finito. Basta demostrar que las sumas (3.3.1) tienen el
mismo valor. Como X
pX (x) = p(ω),
h(ω)=x
(3.3.2) implica
X X
E(X) = x p(ω)
x∈X h(ω)=x
X X
= xp(ω)
x∈X h(ω)=x
X X
= h(ω)p(ω)
x∈X h(ω)=x
La última expresi ón es simplemente la suma en (3.3.1), efectuada en un orden distinto.

´
Las f órmulas (3.3.1) y (3.3.2) son ambas promedios ponderados de ciertos n úmeros. Estos
n úmeros corresponden a los valores de una misma variable, pero, en general, (3.3.2) tiene menos
términos (lo que no significa que sea m ás fácil de calcular). Si en vez de promediar valores de X
interesara promediar valores de Y = g(X), se tiene y = v(ω), donde v(ω) = g(h(ω)). Por lo
tanto,
X
E(Y ) = p(ω)v(ω)
ω∈Ω
X
= ypY (y)
y∈Y
Si X hubiera sido elegido como espacio muestral, la variable Y hubiese quedado expresada por la
funci ón g. Por (3.3.1) (con X en vez de Ω) se obtendrı́a
X
E(Y ) = pX (x)g(x),
x∈X
que es nuevamente un promedio ponderado. Como Y = g(X) se obtiene

X
E(g(X)) = pX (x)g(x).
x∈X
En otras palabras el valor esperado de una funci ón de la variable aleatoria X es un promedio ponde-
rado, donde los n úmeros promediados son los valores de la funci ón y los pesos son las probabilida-
des de los valores de la variable aleatoria. Por cierto, esto es, esencialmente, lo mismo que hicimos
anteriormente, cambiando el par (Ω, X ) por el par (X , Y).
Computacionalmente hablando, es m ás sencillo calcular el valor esperado de Y a partir de la
funci ón de probabilidad pX , que a partir de pY . De hecho, pY (y0 ) = Eg(X), con g la funci ón
indicatriz de y0 .
Cuando no deseamos referirnos al espacio muestral Ω, es m ás conveniente definir directamente
el valor esperado de una funci ón real valorada de una variable aleatoria:
Definici oń 3.3.3 Sea X una variable aleatoria con valores en un conjunto numerable X . Sea g
una funci ón con dominio X y valores en R. El valor esperado de g(X) est á dado por
X
E(g(X)) = pX (x)g(x). (3.3.4)
x∈X
Teorema 3.3.2 Si Y = g(X), las definiciones 3.3.2 y 3.3.3 son equivalentes.
Demostraci oń: Idéntica a la del Teorema 3.3.1, salvo por cambios notacionales.
Los teoremas de equivalencia se pueden intuir directamente de la interpretaci ón frecuentista.

Basta pensar en n repeticiones del experimento y considerar la proporci ón de veces que aparece
cada ω ∈ Ω, cada x ∈ X y cada y ∈ Y. La extensi ón a espacios muestrales o variables aleatorias
más generales, descansa en la idea que cualquier variable se puede aproximar adecuadamente por
variables finitas.

´
Ejemplo 3.3.1 Suponga que X verifica X = {−2, −1, 0, 1, 2}, con p X (x) = 0.1,
0.2, 0.3, 0.2, 0.2 respectivamente. Considere Y = g(X) = X 2 . Entonces Y =
{0, 1, 4}, y pY (y) = 0.3, 0.4, 0.3 respectivamente. Por otra parte, el valor esperado de
Y , calculado directamente de la definici ón es:
E(Y ) = 0 × 0.3 + 1 × 0.4 + 4 × 0.3 = 1.6,
mientras que, usando (3.3.4) se llega a que
E(X) = 4 × 0.1 + 1 × 0.2 + 0 × 0.3 + 1 × 0.2 + 4 × 0.2 = 1.6,
verificándose ası́ el Teorema 3.3.2.
Cuando la funci ón g es biyectiva, los c álculos se simplifican, pues en este caso tenemos que
{x ∈ X : g(x) = y} es simplemente el singleton (o conjunto con s ólo un punto) {g −1 (y)}, y por
lo tanto,
pY (y) = pX (g −1 (y)).
De esta forma (3.3.4) es inmediata.
Ejemplo 3.3.2 Sea X una variable aleatoria con funci ón de probabilidad

n k
p (1 − p)n−k , k = 0, 1, . . . , n.
k
Entonces, la media µ = E(X) de la distribuci ón de probabilidad PX se calcula por

n
X n
E(X) = pk (1 − p)n−k
k
k=0
n
X n!
= k· pk (1 − p)n−k
k!(n − k)!
k=1
n
X (n − 1)!
= np pk−1 (1 − p)n−k
(k − 1)!(n − k)!
k=1
n−1
X n − 1
= np pj (1 − p)(n−1)−j
j
j=0
= np
Del mismo modo,
E(X(X − 1)) = EX(X − 1)

n
X n k
= k(k − 1) · p (1 − p)n−k
k
k=0
= n(n − 1)p2 .

´
Si escribimos g(x) = x2 = x + x(x − 1), se tiene

n
2
X n k 2
E(X ) = k · p (1 − p)n−k
k
k=0
n
X n k
= [k(k − 1) + k] · p (1 − p)n−k
k
k=0
n n
X n k n−k
X n k
= k(k − 1) · p (1 − p) + k· p (1 − p)n−k
k k
k=0 k=0
= n(n − 1)p2 + np
= (np)2 + np(1 − p).
Se observa que E(X 2 ) > (E(X))2 , a menos que p = 0 o p = 1. Finalmente, conside-

remos la funci ón g(x) = z x , donde z es un n úmero real o complejo. Tenemos
n
X n k
E(z X ) = zk ·
p (1 − p)n−k
k
k=0
n
X n
= (pz)k (1 − p)n−k
k
k=0
= (1 − p + pz)n .
Ejemplo 3.3.3 Si Y tiene funci ón de probabilidad
λy exp(−λ)
pY (y) = , y = 0, 1, 2 . . . ,
y!
y t es un n úmero real cualquiera,
∞
X λy exp(−λ)
E(exp(tX)) = exp(ty)
y!
y=0
∞
X (λ exp(t))y
= exp(−λ)
y!
y=0
= exp(−λ) exp(λ exp(t)) = exp(λ(exp(t) − 1)),
la que está definida para cualquier real t.
3.3.3 Propiedades
A continuaci ón listamos algunas propiedades del valor esperado, que no s ólo son váli-
das para variables discretas. Se invita al lector a demostrarlas en el caso discreto.

´
Teorema 3.3.3
Si X = c, una constante, entonces E(X) = c. (3.3.5)

n
X n
X
E( ci gi (X)) = ci E(gi (X)) (linealidad) (3.3.6)
i=1 i=1
Ejemplo 3.3.4 Cuando se quiere adivinar el valor de X mediante un n úme-

ro real α, el error cometido es X − α. Para deshacerse del potencial signo
negativo podemos usar el valor absoluto o el cuadrado del error. Este últi-
mo es más manejable analı́ticamente. En promedio, el cuadrado de error de
predicci ón es E(X − α)2 . Encontrar el valor de α que minimice este error
cuadrático medio y el valor mı́nimo.
Soluci oń:
E(X − α)2 = E(X 2 − 2αX + α2 )

= E(X 2 ) − 2αE(X) + α2
= α2 − 2µα + E(X 2 )
= (α − µ)2 + E(X 2 ) − µ2 .
El polinomio en α se minimiza para α = µ y el valor mı́nimo alcanzado

tiene las expresiones alternativas
E(X − µ)2 = E(X 2 ) − µ2 .
De esta forma, la media µ es la mejor predicci ón de X, siempre que acep-

temos al error cuadr ático medio como criterio de comparaci ón.
Ejemplo 3.3.5 La distribuci ón de X es simétrica con respecto al valor θ, si

X − θ y θ − X tienen id éntica distribuci ón. Probar que si E(X) = µ existe
y la distribuci ón de X es simétrica con respecto al valor θ, entonces µ = θ.
Demostraci oń: La igualdad de distribuciones implica la igualdad de las
medias. Por lo tanto, E(X − θ) = E(θ − X). Por linealidad, µ − θ = θ − µ
y de aquı́ µ = θ.
Definiendo Yi = gi (X), la propiedad de linealidad se escribe

X X
E( ci Y i ) = ci E(Yi ), (3.3.7)
que, de hecho, vale para variables Yi arbitrarias (que no requieren ser funciones de una
misma variable X). Para variables discretas, basta tomar x = (y 1 , . . . , yk ) y definir
gi (x) como el valor de la i- ésima componente de x. Tomando ci = 1 se obtiene el
caso más importante:
X X
E( Yi ) = E(Yi ), esto es, esperanza de la suma = suma de las esperanzas.
(3.3.8)

´
3.3.4 Varianza y momentos
Definici oń 3.3.4 La varianza de la variable aleatoria X se define como
V ar(X) = E (X − E(X))2 (3.3.9)
siempre que la esperanza exista. En este caso, se define la desviaci ón est ándar de X
como p
σ(X) = V ar(X) (3.3.10)
El Ejemplo 3.3.4 muestra que la varianza es el error cuadr ático medio de la mejor pre-
dicci ón de X. Esto sugiere que a mayor varianza corresponde una mayor variabilidad
de X o una mayor dispersi ón de su distribuci ón. La unidad de medida de x, µ = E(X)
y de σ(X) son id énticas, mientras que las unidades de la varianza son los cuadrados
de las unidades de los valores. El Ejemplo 3.3.4 entrega como subproducto la f órmula
computacional
Var (X) = E(X 2 ) − (E(X))2 = E(X 2 ) − µ2 . (3.3.11)
Finalmente, introducimos la noci ón de momentos de una variable aleatoria.
Definici oń 3.3.5 El momento de orden α de una variable aleatoria X, se define como
µα (X) = E(X α ), (3.3.12)
provisto que la esperanza correspondiente exista, y el momento centrado de orden α de

X se define como
mα (X) = E((X − E(X))α ). (3.3.13)
El momento de orden 1 es simplemente, el valor esperado de X, mientras que el mo-

mento centrado de orden 1 es siempre 0, y el momento centrado de orden 2 es la
varianza de X. Usualmente el inter és se centra en momentos de orden k, donde k es
un entero positivo.
Los valores esperados de funciones de una variable aleatoria se utilizan tambi én en la
definici ón de varias funciones generadoras, las que estudiamos en las Secci ón 3.8.2 y
3.8.3. El cálculo de Ez X y EetX en los Ejemplos 3.3.2 y 3.3.3 muestra que la funci ón
generadora de probabilidades de la distribuci ón Binomial es ((1 − p + pz)n y que el
logaritmo de la funci ón generadora de momentos es λ(exp(t) − 1).
Ejemplo 3.3.6 El Ejemplo 3.3.2 muestra c ómo calcular directamente las

cantidades EX = np y E(X(X − 1)) = n(n − 1)p2 . Por linealidad,
x2 = x(x − 1) + x implica EX 2 = n(n − 1)p2 + np, que coincide con
lo obtenido directamente. Por (3.3.11), Var X = np(1 − p). Finalmente
p(1−p)
Var Xn = n , que converge a 0 cuando n tiende a ∞. Este resultado es
relevante para la Ley de los Grandes N úmeros.

´
3.4 Funci ón de Distribuci ón Acumulada
Cuando los sucesos de inter és dependen de una variable real, las preguntas relevantes
se pueden formular, a menudo, en t érminos de intervalos, como por ejemplo: ¿Tendre-
mos ma ñana una temperatura superior a 5 grados? o ¿Ser á la inflaci ón del pr óximo
mes inferior a 1%? o ¿Se mantendr á la variaci ón del ı́ndice Dow-Jones estable entre
-5 y +10 puntos?, etc. En estos casos X ⊆ R y, de hecho, se puede tomar igual a
R, asignando probabilidad nula al complemento de X . Si se asignan probabilidades a
todos los intervalos, el axioma de σ-aditividad permite determinar autom áticamente la
probabilidad de todos los subconjuntos de R que aparecen en la realidad. En otras pala-
bras, la distribuci ón de probabilidad PX queda completamente determinada en cuanto
se conoce el valor de PX para cada intervalo.
A primera vista, lo anterior requerirı́a especificar el tipo de intervalo, e.g. si el intervalo
contiene o no su lı́mite izquierdo a o su lı́mite derecho b, ası́ como si a o b son o no
finitos. Para un tipo dado de intervalo, la probabilidad correspondiente depende natu-
ralmente de a y de b, de modo que ella podrı́a expresarse como GX (a, b) para cierta
funci ón GX con dominio R2 . Afortunadamente, podemos apelar a un procedimiento
que es válido para cualquier medida positiva, que consiste en considerar previamente
ciertas probabilidades acumuladas y deducir a partir de ellas la probabilidad de cual-
quier intervalo. Discutimos este enfoque en la pr óxima secci ón.
3.4.1 Definici´
o n y propiedades generales
Para un valor x cualquiera, est án definidas las 4 probabilidades acumuladas P (X ≤

x), P (X < x), P (X ≥ x) y P (X > x). Como ((X ≤ x), (X > x)) y ((X <
x), (X ≥ x)) son pares de sucesos complementarios, se cumplen autom áticamente las
identidades
P (X > x) = 1 − P (X ≤ x)
P (X ≥ x) = 1 − P (X < x).
El problema se reduce ası́ a asignar los valores de P (X ≤ x) y de P (X < x) para cada

x. Pero, para todo x0 ∈ R, el suceso X < x0 es el lı́mite, cuando n tiende a ∞, de la
sucesi ón creciente de sucesos X ≤ x0 − n1 . La σ-aditividad implica que P (X < x0 )
satisface
1
P (X < x0 ) = lim P (X ≤ x0 − ).
n→∞ n
En consecuencia, basta conocer el valor de P (X ≤ x) para todo x ∈ R. El resultado
general, es que basta conocer una cualquiera de las probabilidades acumuladas para
todo x ∈ R. Esta discusi ón motiva la siguiente definici ón:
Definici oń 3.4.1 La funci ón de distribuci ón acumulada (f.d.a.), o simplemente, fun-
ci ón de distribuci ón de la variable aleatoria real valorada X, se define como:
FX (x) = PX (] − ∞, x]) = P (X ≤ x), para −∞ < x < ∞. (3.4.1)

´
Para una funci ón h definida sobre R y con valores en R utilizaremos la siguiente nota-
ci ón para los lı́mites que se indican:
def
h(x+
0) = lim h(x),
x→x+
0
def
h(x−
0) = lim h(x)
x→x−
0
def
h(∞) = lim h(x)
x→∞
def
h(−∞) = lim h(x)
x→−∞
La funci ón FX , para una variable aleatoria real, est á definida en toda la recta real, y
tiene las siguientes propiedades:
(a) 0 ≤ FX (x) ≤ 1 para todo x ∈ R.

(b) FX es no decreciente.
(c) Para todo x ∈ R, los lı́mites laterales FX (x+ ) y FX (x− ) existen (pero no nece-
sariamente coinciden).
(d) Para todo x ∈ R, FX (x− ) = P (X < x).
(e) Para todo x ∈ R, FX (x) = FX (x+ ), esto es, FX es continua por la derecha.
(f) FX (∞) = 1 y FX (−∞) = 0.
(g) P (X = x) = FX (x) − FX (x− ).
(h) P (X ∈]a, b]) = FX (b) − FX (a), y P (X ∈ [a, b]) = FX (b) − FX (a− ).
La propiedad (a) se cumple por ser F (x) una probabilidad. (b) es consecuencia de la
monotonicidad de la probabilidad, pero se puede deducir directamente de la aditividad
y la positividad como sigue: para x1 < x2 se tiene
FX (x2 ) = P (X ∈] − ∞, x2 ]) = P (X ∈] − ∞, x1 ]∪]x1 , x2 ])
= P (X ∈] − ∞, x1 ) + P (X ∈]x1 , x2 ])
≥ P (X ∈] − ∞, x1 ]) = FX (x1 )
La propiedad (c) se satisface para toda funci ón no decreciente. Las propiedades (d),
(e) y (f) son consecuencia de la σ-aditividad, pero omitimos sus demostraciones. Fi-
nalmente, (g) y (h) son consecuencia de las propiedades anteriores y la aditividad. La
continuidad por la derecha cambiarı́a a continuidad por la izquierda si P (X ≤ x) se
reemplaza por P (X < x).
Cuando X es el instante de falla de un equipo o de una componente, es com ún trabajar
con la funci ón de confiabilidad, definida por S(x) = P (X > x), y que no es otra cosa
que 1 − FX (x).
Un resultado matem ático importante, cuya demostraci ón excede largamente los requi-
sitos matemáticos de estas notas, es que dada cualquier funci ón F que satisface (b), (e)

´
y (f), ella corresponde a la funci ón de distribuci ón acumulada de alguna variable alea-
toria. Las propiedades (d),(g) y (h) permiten calcular las probabilidad de un intervalo y
de un punto cualquiera.
Cuando existe un intervalo S = [c, d], tal que P (X ∈ S) = P (c < X < d) = 1, los
puntos c y d juegan el rol de −∞ y +∞ respectivamente. En particular, la condici ón
(f) equivale a FX (c) = 0 y FX (d) = 1. Adem ás, FX (x) = 0 para todo x < c
y FX (x) = 1 para todo x ≥ d. Por (g), la funci ón FX es continua si y s ólo si la
probabilidad de cualquier conjunto de un elemento es nula. En este caso, P X ([a, b]) =
PX (]a, b]) = PX ([a, b[) = PX (]a, b[), para todo a, b.
3.4.2 Ejemplos
Ejemplo 3.4.1 Considere la siguiente tabla parcial de valores para F X :
x 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
FX (x) 0.30 0.38 0.45 0.52 0.58 0.62 0.65 0.68 0.70 0.71 0.72
Entonces:
• P (X ≤ 1.4) = 0.58.
• P (X > 1.7) = 0.32.
• P (1.4 < X ≤ 1.7) = 0.68 − 0.58 = 0.10.
Si se sabe que la funci ón F es continua, se puede afirmar que
• P (X < 1.4) = 0.58.
• P (X ≥ 1.7) = 0.32.
• P (1.4 ≤ X ≤ 1.7) = P (1.4 ≤ X < 1.7) = P (1.4 < X ≤ 1.7) =
0.10.
Ejemplo 3.4.2 La variable aleatoria X es el n úmero de mujeres en un con-

junto de 5 personas. Considere la siguiente tabla parcial de valores para
FX :
x 0 1 2 3 4 5
FX (x) .078 .337 .683 .913 .990 1.000
Entonces:
• P (X ≤ 2) = 0.683.
• P (X > 2) = 1 − .683 = .317.
• P (X ≤ 2.5) = P (X ≤ 2) = .683.
• P (X ≥ 3) = P (X > 2) = .317.
• P (X = 3) = P (2 < X ≤ 3) = .913 − .683 = .230.
Ejemplo 3.4.3 Verificar que para todo k entero positivo, la funci ón F defi-
nida por
k−1
X xj e−x
F (x) = 1 − , x>0
(k − 1)!
j=0

´
y F (x) = 0 si x ≤ 0, es la funci ón de distribuci ón acumulada de una

variable aleatoria. En este caso c = 0 y F (c) = F (0) = 0. Un c álculo
directo demuestra que la derivada de la funci ón F es positiva para todo
x > 0, de modo que F es creciente. Como ex aumenta mucho m ás rápido
que xj , para todo j ≤ 0, se tiene que xj e−x converge a 0 cuando x tiende a
∞ y, por tanto, F (∞) = 1.
3.4.3 Funci oń de distribuci oń acumulada para una variable aleatoria dis-
creta
Recordemos que una variable aleatoria X se dice discreta si tiene un n úmero finito o
numerable de valores. Este es el caso de las variables en los Ejemplos 3.2.2 y 3.2.3.
El adjetivo discreta se aplica tambi én a su distribuci ón de probabilidad PX . Para una
variable aleatoria discreta, PX queda completamente determinada por su funci ón de
probabilidad pX . Si el conjunto X de valores de X es un subconjunto de R tenemos
la opci ón de elegir a R o a X como espacio muestral inducido por X. Sin p érdida
de generalidad, supondremos que pX (x) > 0 para todo x ∈ X (si no, simplemente
eliminamos tal punto de X ). En este caso X se denomina soporte de X y es el menor
subconjunto de R que cumple la propiedad PX (S) = 1. Se lo puede escribir como
X = {x/ pX (x) > 0}
La funci ón de probabilidad pX determina PX s ólo cuando X es una variable discreta.

En particular, FX se puede expresar como
X
FX (x) = pX (y) (3.4.2)
{y∈X /y≤x}
Las caracterı́sticas de PX se reflejan necesariamente en FX . Cuando PX es discreta,

la funci ón FX s ólo crece a saltos, coincidiendo el conjunto de puntos de salto con el
soporte S. En otras palabras, su gr áfico tiene forma de escalera, con un pelda ño en cada
punto del soporte, coincidiendo la altura de este pelda ño con la probabilidad del punto
de salto. Más formalmente, FX es una funci ón escalera, y con una discontinuidad de
salto en cada punto x ∈ X . La magnitud del salto es precisamente p X (x). Se ilustra
esto en la Figura 3.4.5. Recı́procamente, si FX es una funci ón en escalera, la variable
X es necesariamente discreta.
3.5 Variables Aleatorias Continuas y Funci ón Densidad de

Probabilidad
3.5.1 o n y relaci oń con la distribuci oń acumulada

Definici´
La analogı́a de la probabilidad con otras medidas positivas, como la masa de un cuerpo,

sugiere utilizar la idea de densidad. Considerando a la masa como una medida positiva

´
Ejemplo de FDA caso discreto
1.0
0.8
0.6
FDA
0.4
0.2
0.0
0 2 4 6 8
x
Probabilidad concentrada en 4 puntos
Figura 3.4.5: Ejemplo de Funci ón de Distribuci ón Acumulada para una variable aleatoria discreta.
que se define sobre una clase de subconjuntos de R3 , que representan un cuerpo o sus
partes, la densidad de masa es una funci ón que asigna un valor real a cada punto de
una regi ón en R3 . Si el cuerpo ocupa una regi ón B en el espacio y la densidad se
denota por ρ(x), la masa del cuerpo es la integral de la funci ón ρ sobre el conjunto
B. Por analogı́a entre la masa de este cuerpo y la probabilidad PX (B), es razonable
estudiar la posibilidad de expresar PX (B) como la integral de una cierta funci ón, que
naturalmente recibe el nombre de densidad de probabilidad. Este segundo enfoque
tiene la ventaja de ser inmediatamente generalizable a R k .
La definici ón formal de la funci ón densidad es la siguiente:
Definici oń 3.5.1 La variable aleatoria a valores reales X, o su distribuci ón de proba-
bilidad PX , se dirá absolutamente continua, si existe una funci ón fX definida sobre R,
y con valores no negativos tal que para cualquier suceso A ⊂ X
Z
PX (A) = P (X ∈ A) = fX (x)dx. (3.5.1)
A
La funci ón fX se denomina funci ón densidad de probabilidad, o, simplemente densi-

dad de X.
Las variables aleatorias en el Ejemplo 3.2.4 son absolutamente continuas. Cuando A es

un intervalo con lı́mite inferior a y lı́mite superior b, que es el caso m ás com ún, (3.5.1)

´
se escribe en la forma m ás familiar

Z b
PX ([a, b]) = P (a ≤ X ≤ b) = fX (x)dx. (3.5.2)
a
Cuando a = −∞ o b = ∞ la expresi ón se entiende en el sentido de una integral

impropia, es decir, haciendo tender a o b al lı́mite correspondiente. Desde un pun-
to de vista matem ático, las propiedades (3.5.1) y (3.5.2) son, de hecho, equivalentes.
Geométricamente, (3.5.2) es el área bajo el gr áfico de fX entre a y b.
Tomando A =] − ∞, x] en (3.5.1) se obtiene la importante relaci ón
Z x
FX (x) = fX (t)dt, (3.5.3)
−∞
que liga a la densidad con la distribuci ón acumulada. Por otra parte, a partir de (3.5.3),
es inmediato ver que
FX0 (x) = fX (x), (3.5.4)
bajo ciertas condiciones de regularidad que mencionamos en la secci ón 3.5.2. De
(3.5.4) se tiene que FX es una antiderivada o primitiva G de f . Entonces FX (x) =
G(x) + C y la constante C se determina conociendo el valor de F X (x) en cualquier
punto, incluyendo ∞ y −∞. Por ejemplo, si fX (x) = e−x , x > 0 y fX (x) = 0 en
otro caso, se tiene que G(x) = −e−x es una primitiva y FX (x) = −e−x + C. De
P (X ≤ 0) = 0 se deduce que FX (x) = 0 y, por tanto, C = 1. Lo mismo se obtiene
de 1 = F (∞) = 0 + C.
La definici ón intuitiva de densidad de masa ρ en un punto x0 dado, es que ella aproxima
al cuociente entre la masa de una peque ña parte del cuerpo que contiene a x0 y su
volumen. El producto de ρ(x0 ) y el volumen de la regi ón aproxima entonces la masa
de la regi ón. El mismo argumento sugiere que el producto de fX (x0 ) y la longitud de
un peque ño intervalo que contiene a x0 aproxima la probabilidad que X tome un valor
en dicho intervalo. Si la unidad de medida de x es centı́metros, fX tiene dimensi ón
cm−1 ; si ella es segundos, la unidad de fX es seg−1 . Esto muestra que no tiene sentido
interpretar a fX (x) como una probabilidad, a diferencia de lo que acontece con p X (x)
en el caso discreto. Por ejemplo, si X mide el peso de una persona en kilogramos,
fX (68) × 0.2 aproxima P (67.9 ≤ X ≤ 68.1) = FX (68.1) − FX (67.9).
Es instructivo buscar una interpretaci ón directa de (3.5.4), que no descanse en el teo-
rema fundamental del c álculo. Para ello hacemos la analogı́a con la densidad de masa.
Consideremos un intervalo peque ño (x0 − 2 , x0 + 2 ], centrado en un punto x0 de la
recta real y aproximemos la densidad en x0 por el cuociente entre su probabilidad y el
largo del intervalo. Entonces,
P (x0 − 2 < X ≤ x0 + 2 ]
fX (x0 ) ≈ (3.5.5)
largo((x0 − , x0 + ])
FX (x0 + 2 ) − FX (x0 − 2 )
= (3.5.6)

≈ FX0 (x0 ) (3.5.7)

´
3.5.2 Caracterizaci oń de una funci oń densidad de probabilidad
Ası́ como una funci ón F no decreciente, continua por la derecha y que satisface
F (−∞) = 0 y F (∞) = 1 se puede considerar como la funci ón de distribuci ón acu-
mulada de cierta variable aleatoria, una funci ón f se puede considerar como la funci ón
densidad de probabilidad de cierta variable aleatoria X si ella satisface las condiciones
f (x) ≥ 0, para todo x ∈ R. (3.5.8)

Z ∞
f (x)dx = 1. (3.5.9)
−∞
En efecto, basta definir la funci ón de distribuci ón acumulada FX mediante (3.5.3).
Es más habitual determinar modelos probabilı́sticos especificando la funci ón densidad
de probabilidad que usando la funci ón de distribuci ón acumulada. Por otra parte, suele
ser conveniente definir la densidad salvo por una constante de proporcionalidad. Si
f (x) = cg(x), donde g es una funci ón definida en R, a valores reales no negativos,
y con integral finita, digamos I, (3.5.9) implica cI = 1, o sea f (x) = g(x)I −1 es
efectivamente una densidad. Por ejemplo, sea f definida en [0, 1], como f (x) = cx 3 , y
0 en todo otro punto. ¿Cu ál es el valor de c para que f sea una densidad? Todo lo que
se necesita es que Z ∞ Z 1
c
f (x)dx = c x3 dx = = 1,
−∞ 0 4
por lo que se requiere c = 4.
3.5.3 Propiedades anal´

ı ticas y otros tipos de distribuciones
3.5.3.1 Interpretaciones de la densidad
Cuando fX es continua en la vecindad de x0 se satisface

P (x0 − 2 ≤ X ≤ x0 + 2 )
→ fX (x0 ), cuando → 0+ ,

de modo que fX (x0 ) es la probabilidad aproximada de un peque ño intervalo rodeando
a x0 . Haciendo variar x0 , esto describe la forma en que se concentra la distribuci ón
de probabilidades de X en torno a x. Reemplazando x 0 por x, por dx, y el intervalo
centrado por uno con lı́mite izquierdo x, la igualdad aproximada toma una forma muy
sugerente:
P (x ≤ X ≤ x + dx) ≈ fX (x)dx (3.5.10)
El valor exacto del lado izquierdo es FX (x + dx) − FX (x). La aproximaci ón (3.5.10)
corresponde a una expansi ón de Taylor de primer orden de FX en torno a x. Si FX es
diferenciable en x, el error de aproximaci ón en (3.5.10) tiende a 0 m ás rápido que dx
(o sea al dividirlo por el n úmero positivo dx el cuociente converge a 0). Escribimos
simb ólicamente esto como
P (x ≤ X ≤ x + dx) = fX (x)dx + o(dx) (3.5.11)

´
Por otra parte, aplicando (3.5.2) al lado izquierdo de (3.5.10) se tiene la aproximaci ón:
Z x+dx
fX (t)dt ≈ fX (x)dx; (3.5.12)
x
Cuando fX es continua, el teorema del valor medio para integrales garantiza

Z x+dx
fX (t)dt ≈ fX (x∗ )dx, para alg ún x ≤ x∗ ≤ x + dx.
x
El error de aproximaci ón es |fX (x∗ )−fX (x)|dx, que se puede acotar por M dx, donde
M es la máxima variaci ón de la densidad en el intervalo. Si fX es continua en este
intervalo, el n úmero M tiende a 0 cuando dx tiende a 0.
3.5.3.2 Distribuciones absolutamente continuas y no at o´micas
Las propiedades de la distribuci ón de probabilidad PX están vinculadas con propieda-

des de FX . Un ejemplo importante es el siguiente
Definici oń 3.5.2 Si P (X = x) = 0 para todo x ∈ R se dice que PX es continua o no

at ómica.
El siguiente teorema es inmediato
Teorema 3.5.1 PX es no at ómica si y s ólo si FX es continua.
Claramente toda distribuci ón absolutamente continua es no at ómica. Por otra parte,
todas las distribuciones de probabilidad continuas que se utilizan en la pr áctica son, de
hecho, absolutamente continuas. Los contraejemplos son algo complicados de cons-
truir y revisten un inter és puramente matem ático. Muchos libros utilizan el t érmino
variable aleatoria continua para referirse a una variable que admite una funci ón densi-
dad. Con nuestra definici ón, ambos conceptos no son equivalentes.
La continuidad absoluta de la distribuci ón, es decir la existencia de una funci ón densi-
dad, equivale esencialmente a cualquier de las dos propiedades equivalentes (la demos-
traci ón de la equivalencia requiere de herramientas matem áticas sofisticadas):
(a) Si el largo de A ⊆ R es 0, entonces P (A) = 0.

(b) Si el largo de An ⊆ R tiende a 0, lo mismo sucede con P (An ).
Aplicando (a) a A = {x} = [x, x] se deduce que P (X = x) = 0; aplicando (b) a

An =]x − n1 , x + n1 ], se deduce que FX (x) − FX (x− ) = lim n → ∞(F (x + n1 ) −
F (x − n1 )) = 0. Esto proporciona dos demostraciones alternativas al hecho que una
distribuci ón absolutamente continua es no at ómica.

´
3.5.3.3 Falta de unicidad de la funci oń densidad
Si las funciones f y g satisfacen (3.5.9) y (3.5.3) y difieren s ólo en un conjunto finito

de puntos, ellas son dos funciones de densidad de una misma distribuci ón. Llamamos a
f y g dos versiones de la funci ón densidad. Con una definici ón adecuada de integral, el
conjunto finito se puede reemplazar por un conjunto de largo cero. En R los conjuntos
de largo cero que no son numerables resultan ser bastante extra ños (o patol ógicos,
como se dice en lenguaje matem ático). En cambio, una curva suave en R2 , e.g. una
circunferencia o una lı́nea recta, tiene área cero y no es numerable.
3.5.3.4 Distribuciones mixtas
Existen distribuciones de probabilidad que no son ni discretas ni continuas, a las que

se denomina distribuciones mixtas. Su funci ón distribuci ón acumulada no es una fun-
ci ón puramente de saltos ni una funci ón continua, sino una combinaci ón convexa de
ambas. Esto quiere decir que toda distribuci ón mixta FX se puede escribir como una
combinaci ón lineal αFD + (1 − α)FC , donde 0 < α < 1, y FD y FC son las funcio-
nes de distribuci ón acumulada de dos variables aleatorias D y C, discreta y continua
respectivamente. La variable aleatoria en el Ejemplo 3.2.5 tiene una distribuci ón mixta.
3.6 Familias Paramétricas de Distribuciones de Probabili-

dad
3.6.1 Propiedades generales
Cuando se cuenta con una distribuci ón de proporciones empı́ricas, es com ún tratar de
mirarlas como una aproximaci ón a una distribuci ón de probabilidad te órica. Se dispo-
ne para ellos de muchos tipos de distribuciones de probabilidad conocidas. Dado un
tipo particular de distribuciones, una distribuci ón especı́fica queda determinada por un
vector de par ámetros, que denotamos por θ. Estos par ámetros ajustables se eligen para
que las proporciones empı́ricas se parezcan lo m ás posible a las probabilidades te óricas
correspondientes. Formalmente, tenemos una familia de distribuciones {P θ , θ ∈ Θ}.
Elegir un miembro de esta familia equivale a elegir un elemento θ ∈ Θ. El único caso
que consideraremos ac á es Θ ⊂ Rk , donde k n úmeros reales determinan la distribu-
ci ón de manera única. Por simplicidad de lenguaje se suele hablar de la distribuci ón
Pθ , aunque θ no est é especificado. Si X sigue la distribuci ón Pθ , lo que escribimos
X ∼ Pθ , la probabilidad que el valor de X pertenezca a A se denota por P θ (A).
Lo más c ómodo es representar a Pθ por su funci ón de probabilidad p(·; θ), o su funci ón
de densidad f (·; θ), seg ún sea la distribuci ón discreta o absolutamente continua. Estas

´
funciones son no negativas y satisfacen

X
p(x; θ) = 1
x∈S
Z
f (x; θ)dx = 1,
S
donde S es el soporte de Pθ , o sea, P (X ∈ S) = 1. En la pr áctica, S es un intervalo

de n úmeros reales o enteros.
Una funci ón no negativa g(x, θ) con suma o integral denotada por I(θ) < ∞, genera
una funci ón probabilidad o densidad al dividirla por I(θ). Esto proporciona una fuente
ilimitada de familias de distribuciones, siendo el único problema el c álculo de I(θ). En
la práctica I(θ) es una suma, el valor de una serie, una integral definida o una integral
impropia.
Ejemplo 3.6.1 En la secci ón 1.6 discutimos especialmente las distribucio-

nes de probabilidad cuyo soporte sea subconjunto de los enteros no negati-
vos. Dada una serie de potencias conocida
∞
X
G(z) = ck z k , |z| < r,
k=0
se obtiene que
ck θ k
p(k, θ) = , 0 < θ < r.
G(θ)
es una legı́tima familia uniparam étrica de funciones de probabilidad, es
decir indexadas por el n úmero real θ.
3.6.2 Taxonom´
ıa
Los libros de probabilidad suelen entregar una peque ña lista de distribuciones de pro-
babilidad, donde se indican algunas de sus principales caracterı́sticas. Este libro no es
una excepci ón; la Secci ón 3.10 entrega tal lista. Cabe se ñalar que libros de referencia,
como la colecci ón escrita por Johnson y Kotz, contiene muchas m ás distribuciones e
informaci ón sobre ellas.
Esencialmente, podemos pensar que disponemos de un diccionario enciclop édico de
distribuciones y precisamos estrategias de b úsqueda. Los principales elementos para
acotar la b úsqueda son
• Distribuciones discretas versus continuas.

• El soporte de la distribuci ón.
Al igual que en las tablas de integrales, se reduce mucho el espacio necesario si las dis-
tintas expresiones se reducen a un n úmero más peque ño de formas est ándar o can óni-
cas.

´
3.6.3 Familias param e´tricas discretas
• Caso degenerado: Si card S = 1, la variable aleatoria se degenera en una

constante.
• Caso binario: Si card S = 2, X es una variable aleatoria llamada binaria.
Si a < b son los dos valores posibles, la variable X se puede expresar como
una transformaci ón lineal afı́n de una variable Z ∼ Bern (p), mediante Y =
a + (b − a)Z.
• Caso finito: Los recuentos constituyen el caso m ás tı́pico. Otro caso importan-
te es una versi ón discreta del tiempo. Si el valor mı́nimo es m > 0, la nueva
variable Y = X − m toma valores en {0, 1, . . . , m}. Las distribuciones Bino-
mial, Hipergeom étrica, y Uniforme discreta son los casos m ás conocidos (ver
Secci ón 3.10).
• Caso entero no negativo: Si no hay un n úmero máximo claro, se toma formal-
mente n = ∞, o sea el soporte est á constituido por todos los enteros no negativos.
Las distribuciones m ás conocidas son la Geom étrica, Poisson y Binomial negati-
va (ver Secci ón 3.10). El valor mı́nimo puede ser m > 0, o bien ser eliminado
por resta. Por ejemplo el n úmero X de lanzamientos que se requiere para obtener
2 caras tiene distribuci ón BN(2, p) y el n úmero de de sellos Y tiene distribuci ón
BN0(2, p). Estas variables satisfacen la relaci ón Y = X − 2.
• Reales con n úmero finito de dı́gitos. Un intervalo [a, b] ⊆ R se aproxima por un
conjunto finito S de puntos equiespaciados, e.g. truncando los n úmeros reales a
s ólo k dı́gitos. Por ejemplo, [2, 3] se aproxima por {2.00, 2.02, . . . , 2.99, 3.00}
para k = 2. Un cambio de variables X = a + hY reduce una distribuci ón de
probabilidad con soporte S a otra con soporte can ónico {0, 1, 2, . . . , n}.
3.6.4 Familias param e´tricas continuas
Para una distribuci ón continua, es irrelevante si el intervalo contiene o no sus extremos,
pues ellos tienen probabilidad nula. Escribimos el soporte como un conjunto cerrado.
3.6.4.1 Reducci oń a la forma can ońica.
• La transformaci ón x = a + (b − a)y reduce el caso de una variable X con soporte

[a, b] al de una variable Y con soporte [0, 1].
• La translaci ón X = a + Y reduce el soporte [a, ∞[ a [0, ∞[.
• X = b − Y , que es una combinaci ón de translaci ón con reflecci ón con respecto
al origen reduce el soporte ] − ∞, b] a [0, ∞[.
• Si el soporte es R, él es preservado por toda transformaci ón lineal afı́n no cons-
tante.
De esta forma, es suficiente estudiar familias de distribuciones cuyo soporte es [0, 1],
[0, ∞[, o R =] − ∞, ∞[.

´
3.6.4.2 Principales distribuciones.
• Soporte [0, 1] : Distribuci ón Beta [α, β], cuyo caso m ás importante es la distribu-
ci ón uniforme.
• Soporte [0, ∞, [: Exponencial, Gama, Weibull, Log-normal, valor extremo, Ji-
cuadrado, F de Snedecor.
• Soporte R. Normal, Student, Logı́stica, Cauchy
3.7 Variables Discretas Asociadas con el Proceso de Bernou-

lli
3.7.1 Definiciones y notaciones b´

a sicas
La definici ón frecuentista de probabilidad descansa en las repeticiones hipot éticas de

un experimento. Con la noci ón de independencia de variables aleatorias, tal situaci ón
se representa por una sucesi ón de variables aleatorias Y1 , Y2 , . . ., i.i.d., es decir, inde-
pendientes e id énticamente distribuidas. Consideremos un suceso cualquiera A, que
puede o no ocurrir en la i- ésima repetici ón, y definamos su variable indicatriz Xi por
Xi = 1 si Yi ∈ A y Xi = 0 en caso contrario. Entonces, X1 , X2 , . . . son también i.i.d.
y cada variable Xi es binaria, con valores 0 y 1. La distribuci ón de probabilidad de Yi
se denomina Bern (p), donde p = P (Xi = 1) (p = P (Yi ∈ A) en nuestro caso). A
continuaci ón damos una definici ón formal, junto con la nomenclatura usual.
Definici oń 3.7.1 La distribuci ón de probabilidad que asigna probabilidad p al valor 1
y probabilidad q = 1 = p al valor 0, se denomina Bernoulli con par ámetro p. Un
proceso de Bernoulli de par ámetro p es una sucesi ón de variables aleatorias i.i.d. con
iid
distribuci ón Bern (p), lo que se escribe X1 , X2 , . . . ∼ Bern (p).
La variable Xi representa el resultado del i- ésimo ensayo, interpret ándose Xi = 1
como un éxito y Xi = 0 como un fracaso. El par ámetro p com ún representa la proba-
bilidad de éxito, P (Xi = 1), denotándose la probabilidad de fracaso por q = 1 − p.
Un modelo concreto es la repetici ón indefinida del lanzamiento de una moneda, con
probabilidad p de salir cara y q = 1 − p de salir sello, donde el resultado del i- ésimo
lanzamiento es xi = 1 si sale cara y xi = 0 si sale sello. La proporci ón de éxitos en
los primeros n ensayos es
n
1X
pn = Xi ,
n
i=1
i.e., el promedio de las primeras n variables. Si Xi = 1 cuando Yi ∈ A, esta proporci ón

es la frecuencia relativa con que ocurre el suceso A en n repeticiones del experimento.
La Ley de los Grandes N úmeros implica que pn tiende a p = P (Xi = 1).
Definamos ahora las siguientes variables aleatorias:

´
Nn : n úmero de éxitos obtenidos en los n primeros ensayos,

es decir, hasta el instante n, inclusive.
Tk : instante donde ocurre el k- ésimo éxito, con T0 = 0.
Zk : n úmero de ensayos que requiere obtener el k- ésimo éxito,
contado a partir del ensayo en que se obtiene el k − 1- ésimo éxito.
Observe que Z1 = T1
Wk : n úmero de fracasos consecutivos que precede al k- ésimo éxito.
Pn
Es inmediato que Nn = Xi , Zk = Tk − Tk−1 , Wk = Zk − 1 y Tk = inf . De
i=1 n/Nn =k
aquı́ se deduce
Tk ≤ n ⇔ Nn ≥ k.
k
X k
X
Tk = Zi , Tk − k = Wi .
i=1 i=1
La tabla siguiente ilustra las definiciones para una realizaci ón particular de las variables
X1 , X2 , . . . , X20 .
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
xn 0 1 0 0 1 1 0 1 0 0 0 0 1 0 1 0 0 0 1 1
Nn 0 1 1 1 2 3 3 4 4 4 4 4 5 5 6 6 6 6 7 8
k 1 2 3 4 5 6 7
Tk 2 5 6 8 13 15 19
Zk 2 3 1 2 5 2 4
Wk 1 2 0 1 4 1 3
Hacemos notar que las variables aleatorias Nn , Tk , Zk y Wk han sido definidas sin
especificar su distribuci ón de probabilidad. De cualquiera de las 6 filas anteriores se
pueden deducir las otras 5 mediante un simple c álculo aritmético. Como el modelo
probabilı́stico subyacente a los resultados de la primera fila est á determinado por p,
lo mismo sucede con las distribuciones de probabilidad asociadas a las otras filas. La
siguiente tabla muestra los nombres asignados a las diversas distribuciones. Posterior-
mente deduciremos las funciones de probabilidad correspondientes.
Distribuci ón de nombre Notaci ón

Xn Bernoulli de par ámetro p. Bern (p)
Nn Binomial de par ámetros n y p. Bin (n, p)
Zk Geométrica de parámetro p. Geom(p)
Wk Geométrica de parámetro p
trasladada al origen Geom0(p)
Tk Binomial negativa de par ámetros k y p. BN(k, p).
Tk − k Binomial negativa de par ámetros k y p
trasladada al origen BN0(k, p).

´
La tabla indica que las distribuciones de Zk y de Wk no dependen de k, lo que ser á de-

mostrado más adelante. Si no se quiere hacer uso de este hecho, usamos Z 1 = T1
y W1 = T1 para definir las distribuciones Geom(p) y Geom0(p) respectivamente,
las que corresponden a BN(1, p) y BN0(1, p) respectivamente. F órmulas para sus
funciones de probabilidad se encuentran en la Secci ón 3.10.
3.7.2 Recuentos, camino aleatorio y la distribuci oń Binomial.
La funci ón de probabilidad de Nn se indica en (3.10.7), y ya ha sido deducida, en

ejemplos de capı́tulos anteriores. Un caso especial con n = 10, se discute en el Ejem-
plo 3.2.1. Para mayor facilidad la repetimos ac á en el caso general. Observe que
Nn = k si y s ólo si hay exactamente k unos entre X1 , . . . , Xn (y, por ende, exac-
tamente n − k ceros). Cada n-tupla de unos y ceros con exactamente k unos tiene
probabilidad pk (1 − p)n−k . Por otra parte, el n úmero de n-tuplas con exactamente k
ceros coincide con el n úmero de formas diferentes de asignar k objetos indistinguibles
a n posiciones diferentes, o, equivalentemente, al n úmero de posibles subconjuntos
de tama ño k de un total de n objetos. Este n úmero es exactamente nk , y ası́ hemos
obtenido que

n k
pNn (k) = p (1 − p)n−k , para k ∈ {0, 1, . . . , n}.
k
Si imaginamos que alguien juega repetidamente, ganando a si X i = 1 y perdiendo b
si Xi = 0, la ganancia acumulada despu és de n juegos (que puede ser negativo) es
Yn = aNn − b(n − Nn ) = −bn + (a + b)Nn . Si el capital inicial es C0 , el jugador
se arruina si −Yn excede C0 . El caso más importante es a = b = 1. El gr áfico de Yn
versus n, o la sucesi ón Yn se denomina camino aleatorio.
No hay nada especial en los primeros n ensayos. Si representamos al j- ésimo ensayo
por el n úmero j ∈ N = {1, 2, . . .}, el n úmero NA de éxitos en un conjunto A de
ensayos satisface X
NA = Xj ∼ Bin ( card A, p) (3.7.1)
j∈A
Para A = {1, 2, . . . , n} NA se reduce a Nn .
Ejemplo 3.7.1 Demostrar que Yj ∼ Bin (nj , p), j = 1, . . . , k e Y1 , . . . , Yk

independientes, implica
k
X k
X
Yj ∼ Bin ( nj , p).
j=1 j=1
Demostraci oń: Aplicando (3.7.1) a cada elemento de una partici ón orde-
k
P
nada de S = {1, 2, . . . , n}, con n = nj , se tiene
j=1
k
X
NS = N Aj .
j=1

´
Claramente NAj e Yj tienen la misma distribuci ón y los NAj son indepen-
k
P
dientes. Adem ás NS ∼ Bin ( nj , p), por definici ón.
j=1
Ejemplo 3.7.2 Demostrar que si X ∼ Bin (n, p), entonces se tiene que
Y = n − X ∼ Bin (n, 1 − p).
Demostraci oń: Una demostraci ón directa se obtiene a partir de pY (y) =
P (Y = y) = P (n−Y = n−y) = P (X = n−y) = pX (n−y) y aplicando
(3.10.7). Una alternativa m ás interesante consiste en definir Yi = 1 − Xi ,
verificar que Y1 , Y2 , . . . es un proceso
Pn de Bernoulli con par ámetro 1 − p, y
utilizar la representaci ón Y = 1 Yi .
3.7.3 Distribuci oń geom´

e trica
3.7.3.1 Tiempo entre e´xitos consecutivos
La funci ón de probabilidad de la distribuci ón geométrica está dada por (3.10.8). El
resultado fundamental est á contenido en la siguiente proposici ón.
Proposici oń 3.7.1 Para un proceso de Bernoulli con probabilidad de éxito p se tiene
que los n úmeros de ensayos entre éxitos sucesivos, W1 , W2 , . . . son variables alea-
torias i.i.d. con distribuci ón com ún geométrica de parámetro p trasladada al origen.
Las distancias entre éxitos consecutivos Z1 , Z2 , . . . son i.i.d. con distribuci ón com ún
geométrica de parámetro p.
La demostraci ón general se deja como ejercicio e ilustramos la idea b ásica mediante
un caso particular. De la Tabla
P (W1 = 1, W2 = 2, W3 = 0, W4 = 1) = P (X1 = 0, X2 = 1, X3 = 0, X4 = 0,
X5 = 1, X6 = 1, X7 = 0, X8 = 1)
= qpqqppqp
= q 1 pq 2 pq 0 pq 1 p
= q w1 pq w2 pq w3 pq w4 p
Por el Teorema de Factorizaci ón se obtiene la independencia de los sucesos W1 = 1,

W2 = 2, W3 = 0, y W4 = 1. Usando este mismo argumento para otros valores de las
covariables y comparando con (3.10.9) se completa la demostraci ón.
La variable Wj = Zj − 1 es el n úmero de fracasos que media entre el (j − 1)- ésimo y
el j-ésimo éxito. Su funci ón de probabilidad est á dada por (3.10.9).
3.7.3.2 Falta de memoria.
Una propiedad interesante de la distribuci ón geométrica es la llamada falta de memo-

ria. En efecto, suponga que, para un proceso de Bernoulli con probabilidad de éxito p,

´
el instante del primer éxito T1 (que, como sabemos, tiene distribuci ón geométrica de
parámetro p) es posterior al instante actual, digamos, t, esto es, T 1 > t. La pregunta
que surge entonces, es: ¿Cu ál es la probabilidad que tengamos que esperar m ás de s
ensayos para observar el primer éxito? En otras palabras, dado que ya llevamos t en-
sayos esperando el primer éxito, ¿Cuál es la probabilidad que tengamos que esperar al
menos s ensayos m ás? Lo que se requiere calcular es P (T1 > s + t|T1 > t). Ahora,
P (T1 > s + t, T1 > t) P (T1 > s + t)
P (T1 > s + t|T1 > t) = = . (3.7.2)
P (T1 > t) P (T1 > t)
Por otra parte,
∞
X ∞
X
P (T1 > t) = pT1 (k) = p(1 − p)k−1
k=t+1 k=t+1
∞
X
= p(1 − p)t (1 − p)k−t−1
k=t+1
∞
X
= p(1 − p)t (1 − p)j (con j = k − t − 1)
j=0
1
= p(1 − p)t × = (1 − p)t ,
1 − (1 − p)
por lo que usando (3.7.2) se obtiene
(1 − p)s+t
P (T1 > s + t|T1 > t) = = (1 − p)s = P (T1 > s),
(1 − p)t
y llegamos a la m ás bien sorprendente conclusi ón que la probabilidad en cuesti ón no
depende de t. Esta propiedad de la distribuci ón geométrica se llama, precisamente,
falta de memoria.
3.7.4 Instantes en que ocurre un e´xito y la distribuci oń Binomial negati-

va.
Vamos ahora a demostrar que la distribuci ón de Tk es BN(k, p), cuya funci ón de
probabilidad est á dada por (3.10.10). Como el k- ésimo éxito no puede obtenerse antes
del instante k, y por otra parte, no es posible acotar el n úmero de ensayos requerido
para obtenerlo, Tk toma valores en {k, k +1, k +2, . . .}. El suceso {Tk = n} equivale a
observar k − 1 éxitos en los n − 1 primeros ensayos (sin especificar en qu é posiciones),
y un éxito en el n-ésimo ensayo. Por lo tanto, la funci ón de probabilidad de Tk ,
evaluada en n ≥ k coincide con P (Nn−1 = k − 1, Xn = 1). La independencia de los
Xi implica que Nn−1 (que depende de las variables X1 , . . . , Xn−1 ) es independiente
de Xn . Entonces:
P (Tk = n) = P ({Nn−1 = k − 1} ∩ {Xn = 1})
= P (Nn−1 = k − 1) × P (Xn = 1)

n − 1 k−1
= p (1 − p)n−k × p.
k−1

´
Una comparaci ón con (3.10.10) concluye la demostraci ón.
Ejercicio: Determine si la distribuci ón binomial negativa posee falta de memoria o no.
3.7.5 Distribuci oń de Poisson
La distribuci ón de Poisson es muy importante por si sola, como modelo probabilı́stico
para recuentos. Por otra parte, ella se puede obtener como lı́mite de la distribuci ón
Bin (n, p), para n grande, p peque ño, y producto np moderado. Consideremos una
serie de n ensayos de Bernoulli, donde la probabilidad de éxito varı́a con el n úmero de
ensayos n, y denotando a esta probabilidad por pn , imponemos las condiciones
lim pn = 0, lim npn = λ > 0.

n→∞ n→∞
Un ejemplo de esto es la extracci ón al azar, con reemplazo, de una muestra de tama ño
n, a partir de una poblaci ón de tama ño N . El n úmero de veces X que aparece en la
muestra una ficha predeterminada de la poblaci ón, sigue una distribuci ón Bin (n, N1 ).
n
Interesa la aproximaci ón a P (X = x) cuando N → ∞, con N → λ > 0.
Sea X ∼ Bin(n, pn ), con las caracterı́sticas antes se ñaladas. Entonces:

n k
pX (k) = p (1 − pn )n−k
k n
= (k!)−1 n(n − 1) · · · (n − k + 1)pkn (1 − pn )n−k
k
Y
= (k!)−1 (n − i + 1)pn × (1 − pn )n−k
i=1
Es fácil ver que para cada i = 1, . . . , k, se tiene que lim (n − i + 1)pn = λ, y que
n→∞
lim (1 − pn )n−k = e−λ , de modo que limn→∞ pX (k) = f (k), donde f (y) es la
n→∞
funci ón probabilidad de la distribuci ón de parámetro λ, dada por (3.10.12).
La utilidad de esta aproximaci ón a la distribuci ón Binomial queda de manifiesto si con-
sideramos que para valores grandes de n, el c álculo de probabilidades usando (3.10.7)
es computacionalmente complicado, debido a la inestabilidad num érica de la f órmula.
Ejemplo 3.7.3 Suponga que s ólo 2 de cada 1000 personas expuestas a un

cierto virus desarrollan los sı́ntomas que éste provoca. Si un grupo de 2500
personas son expuestas a este virus, ¿Cu ál es la probabilidad que 5 o m ás
de ellas desarrollen los sı́ntomas correspondientes?
Si denotamos por X el n úmero total de personas que desarrollan los sı́nto-
P4
mas, entonces necesitamos P (X ≥ 5), o equivalentemente, 1 − P (X =
k=0
k). Si suponemos que estas personas se comportan independientemente, en-
tonces X ∼ Bin(2500, 0.002). Usando la aproximaci ón de la distribuci ón

´
de Poisson para este caso, concluimos que X ∼ Poisson(5), aproximada-

mente. Ası́,
5k e−5
pX (k) = P (X = k) ≈ ,
k!
de modo que pX (0) = 0.0067, pX (1) = 0.0337, pX (2) = 0.0842, pX (3) =
0.1404, pX (4) = 0.1755, y la probabilidad requerida es P (X ≥ 5) =
0.5595. Considerando que el valor exacto es 0.5597, la aproximaci ón es
muy buena.
3.8 Valores Esperados II
3.8.1 Valores Esperados en el Caso Continuo
La extensi ón a espacios muestrales no numerables o a variables aleatorias m ás gene-

rales, descansa en la idea que cualquier variable se puede aproximar adecuadamente
por variables finitas. En el caso continuo, la idea consiste en considerar un intervalo
peque ño, digamos [x, x + ∆x], cuya probabilidad aproximada es f X (x)∆x. Represen-
tando al intervalo por el punto x, el valor esperado de X corresponde a sumar elementos
del tipo x × fX (x)∆x. Intuitivamente, la suma se convierte en integral. Esto motiva la
siguiente definici ón:
Definici oń 3.8.1 Si X es una variable continua con valores en R y densidad f X , el

valor esperado de X est á dado por:
Z ∞
E(X) = xfX (x)dx, (3.8.1)
−∞
siempre que la integral impropia converja absolutamente, es decir, si

Z ∞
|x|fX (x)dx < ∞.
−∞
Ejemplo 3.8.1 Si X ∼ Γ(α, λ), entonces

Z ∞ Z ∞ α
tα−1 exp(−t/λ) t exp(−t/λ)
E(X) = t· α
dt = dt
0 Γ(α)λ 0 Γ(α)λα
λΓ(α + 1) ∞ t(α+1)−1 exp(−t/λ) λΓ(α + 1)
Z
= α+1
dt = ·1
Γ(α) 0 Γ(α + 1)λ Γ(α)
= λα,
donde usamos que la integral de la densidad de la distribuci ón Γ(α + 1, λ) es 1. Si

α = 1, llegamos al caso de la distribuci ón exponencial, en el que el valor esperado se
reduce a λ.

´
Ejemplo 3.8.2 Si X ∼ U (a, b), entonces

b
1 b2 − a2 (a + b)
Z
E(X) = x· dx = = .
a (b − a) 2(b − a) 2
Ejemplo 3.8.3 Si X ∼ Beta(a, b), entonces,

1 1
xa−1 (1 − x)b−1 xa+1−1 (1 − x)b−1
Z Z
E(X) = x dx = dx
0 B(a, b) 0 B(a, b)
Γ(a+1)Γ(b)
B(a + 1, b) Γ(a+b+1) aΓ(a)Γ(a + b)
= = Γ(a)Γ(b)
=
B(a, b) (a + b)Γ(a)Γ(a + b)
Γ(a+b)
a
= .
a+b
Ejemplo 3.8.4 Sea X una variable aleatoria con distribuci ón de Cauchy, cuya densi-
dad es
1
fX (x) = , x∈R (3.8.2)
π(1 + x2 )
Entonces
∞
x
Z
E(X) = 2
dx
−∞ π(1 + x )
1 1
= lim log(1 + x2 ) − lim log(1 + y 2 ),
x→∞ 2π y→−∞ 2π
expresi ón que no existe, pues cada lı́mite diverge a +∞. Por lo tanto, X no tiene
esperanza.
Ejemplo
R∞ 3.8.5 SeaRg es una funci ón par, no negativa ( o sea, g(−z) = g(z)) con
∞
0 g(t)dt = 0.5 y 0 tg(t)dt < ∞. Entonces fX (x) = g(x − θ) define una densidad
de probabilidad, la distribuci ón de X es simétrica en torno de θ, y µ = E(X) = θ.
Para verificar la verdad de estas aseveraciones, basta plantear las integrales correspon-
dientes, lo que se deja como ejercicio para el lector.
Un ejemplo importante es el de la distribuci ón normal, para la cual
2 2
e−x /2σ
g(x) = √ .
2πσ 2
Ası́, si X ∼ N (µ, σ 2 ), se sigue que E(X) = µ.
Al igual que en el caso discreto, la esperanza de Y = g(X) se puede calcular a partir de la

distribuci ón de X o de la distribuci ón de Y . Si ambas variables son absolutamente continuas, se
tiene el siguiente teorema:

´
Teorema 3.8.1 Sean X e Y variables aleatorias absolutamente continuas, tales que Y = g(X).
Entonces Z ∞ Z ∞
E(Y ) = yfY (y)dy = g(x)fX (x)dx, (3.8.3)
−∞ −∞
siempre que una de las integrales converja absolutamente.
Ejemplo 3.8.6 Si X ∼ Exp(λ), entonces

Z ∞ k
k x
E(X ) = exp(−x/λ)dx
0 λ
Z ∞ (k+1)−1
x exp(x/λ)
= Γ(k + 1)λk dx
0 Γ(k + 1)λk+1
= Γ(k + 1)λk = k!λk
Ejemplo 3.8.7 Si X ∼ N (0, σ 2 ), sabemos del Ejemplo 3.8.5 que E(X) = 0. Calcu-
lemos ahora E(X 2 ). Se tiene que
∞ 2 2
x2 e−x /2σ
Z
E(X 2 ) = √ dx.
−∞ 2πσ 2
2 /2σ 2
Si u = x, y dv/dx = xe−x , entonces usando integraci ón por partes se obtiene:
∞ 2 2
e−x /2σ
Z
2 2
E(X ) = σ √ = σ2.
−∞ 2πσ 2
De aquı́ se deduce que V ar(X) = σ 2 . Note también que si X ∼ N (µ, σ 2 ), entonces

∞ 2 /2σ 2
(x − µ)2 e−(x−µ)
Z
V ar(X) = E(X − µ)2 = √ dx,
−∞ 2πσ 2
e introduciendo primero el cambio de variables y = x−µ, se llega a que V ar(X) = σ 2 .
3.8.2 Funci oń generadora de momentos
En el cálculo de los momentos de una distribuci ón, la siguiente funci ón, llamada funci ón genera-
dora de momentos, juega un importante rol.
Definici oń 3.8.2 La funci ón generadora de momentos de la variable aleatoria X, se define como
MX (t) = E(exp(tX)), (3.8.4)
para t ∈ R tal que el valor esperado correspondiente exista.
La importancia de la funci ón generadora de momentos queda establecida en el siguiente resul-

tado.

´
Teorema 3.8.2
(a) Si µk (X) existe para k ∈ {1, 2, 3, . . .}, y si ∞ k

P
k=0 µk t /k! converge absolutamente para
−h < t < h con h > 0, entonces MX (t) existe en −h < t < h, y
(k)
µk (X) = MX (0). (3.8.5)
(b) Si MX (t) es expandible en serie de potencias infinita en una vecindad de t = 0, entonces

µk (X) existe para todo k ∈ {1, 2, 3, . . .}, y estos momentos se pueden calcular mediante
(3.8.5).
Es este resultado el que origina el nombre de MX (t). Basta con que MX (t) sea expandible en
serie de potencias infinita en una vecindad de t = 0, para que los momentos de X existan, caso
en el que ellos se obtienen derivando la funci ón y evaluándola en t = 0. La demostraci ón de
este resultado, se basa en desarrollos de Taylor de MX (t). De hecho, (3.8.5) dice que µk (X) es
simplemente el coeficiente del t érmino tk en la expansi ón en serie de Taylor de MX (t) en torno a
t = 0.
Veamos a continuaci ón algunos ejemplos.
Ejemplo 3.8.8 Del Ejemplo 3.3.3 se deduce que la funci ón generadora de momentos
de una variable aleatoria X ∼ Poisson(λ) es
exp(λ(exp(t) − 1)),
la que está definida para cualquier real t, por lo que ella caracteriza la distribuci ón
Poisson(λ). Con un poco de paciencia, se obtiene que
d
MX (t) = λ exp(t) exp (λ(exp(t) − 1))
dt
d2
MX (t) = λ exp(t) exp (λ(exp(t) − 1)) (1 + λ exp(t)) ,
dt2
y aplicando (3.8.5), uno puede obtener que E(X) = λ y E(X 2 ) = λ(1 + λ), por lo
que V ar(X) = λ. Una alternativa es obtener las derivadas en el origen componiendo
2
expansiones de Taylor truncadas. Ası́ exp(z) ≈ 1 + z + z2 implica
2
t2 (t + t2 )2
exp(λ(exp(t) − 1)) ≈ 1 + λ(t + )+λ
2 2
2 t2 2
t 2 (t + 2 )
≈ 1 + λ(t + ) + λ
2 2
t 2
≈ 1 + λt + (λ + λ2 ) .
2
t2
Identificando los coeficientes de t y de 2 se obtiene EX, EX 2 y, de acá, Var X = λ.

´
Ejemplo 3.8.9 Sea X ∼N(0,1). Se tiene entonces que

Z ∞
1
MX (t) = E(exp(tX)) = √ exp(tx) exp(−x2 /2)dx
2π −∞
Z ∞
1 1
= √ exp(− (x2 − 2tx))dx
2π −∞ 2
exp(t2 /2) ∞ 1
Z
= √ exp(− (x − t)2 )dx
2π −∞ 2
= exp(t2 /2),
la cual está definida para cualquier t ∈ R. Puesto que

∞
2
X t2k
MX (t) = exp(t /2) =
2k k!
k=0
t2 t4 t6 t2k
= 1+ + + + ··· + + ···
2 8 48 2k k!
no es difı́cil ver que
(
(k) 0 si k ≥ 1 es impar
E(X k ) = MX (0) = k!
2k/2 (k/2)!
si k ≥ 2 es par
Ejemplo 3.8.10 Sea X ∼ Γ(α, λ). Tenemos entonces que

Z ∞
MX (t) = exp(tx)fX (x)dx
0
Z ∞
1
= xα−1 exp(−x/(1/λ − t)−1 )dx
Γ(α)λα 0
(1/λ − t)−α ∞ xα−1 exp(−x/(1/λ − t)−1 )
Z
= dx
λα 0 Γ(α)(1/λ − t)−α
1
= ,
(1 − tλ)α
provisto que t < λ−1 . Puesto que
d λα
MX (t) = ,
dt (1 − tλ)α+1
d2 λ2 α(1 + α)
M X (t) = ,
dt2 (1 − tλ)α+2
se tiene que E(X) = αλ, y E(X 2 ) = λ2 α(1 + α), de modo que V ar(X) = αλ2 . El
caso en que X ∼ Exp(λ) se obtiene de imponer α = 1, con lo que V ar(X) = λ 2 .

´
Ejemplo 3.8.11 Sea X ∼ Geom(p). Entonces,

∞
X
MX (t) = exp(tk)(1 − p)k−1 p
k=1
∞
((1 − p) exp(t))k−1
X
= p exp(t)
k=1
p exp(t)
= ,
1 − (1 − p) exp(t)
siempre que p exp(t) < 1, esto es, t < − log(p). Por otra parte,
d p exp(t)
MX (t) = ,
dt (1 − (1 − p) exp(t))2
d2 p(exp(t) + (1 − p) exp(2t))
2
= ,
dt (1 − (1 − p) exp(t))3
con lo que E(X) = p−1 , E(X 2 ) = p−2 (2 − p), y, finalmente, V ar(X) = p−2 (1 − p).
3.8.3 Otras funciones generadoras
Aparte de la funci ón generadora de momentos, existen otras funciones generadoras de inter és.
Definici oń 3.8.3 Sea X una variable aleatoria. Se define, para el rango de valores en que el valor
esperado correspondiente exista:
(a) la funci ón generadora de probabilidades de X, denotada por G X (z) mediante
GX (z) = E z X

(3.8.6)
(b) la funci ón generadora de cumulantes de X, denotada por K X (t) mediante
KX (t) = log(MX (t)) (3.8.7)
(c) la funci ón caracterı́stica de X, denotada por ϕX (t) mediante
ϕX (t) = E (exp(itX)) = E(cos(tX)) + iE(sin(tX)), (3.8.8)

√
donde i es el n úmero complejo −1.
La funci ón generadora de probabilidades se utiliza, casi exclusivamente, cuando la variable

aleatoria toma valores enteros no negativos. En este caso, si z es tal que G X (z) existe, entonces
∞
X
GX (t) = tk pX (k) = pX (0) + pX (1)t + pX (2)t2 + · · · + pX (k)tk + · · · , (3.8.9)
k=0

´
lo cual coincide con la funci ón G(z) de la Definici ón 3.8.3. En otras palabras, ambas definiciones
son equivalentes.
La ventaja de la funci ón caracterı́stica de X es que ella est á siempre bien definida, cualquiera
que sea el real t. La raz ón de ello es que |E(exp(itX))| ≤ E| exp(itX)| = 1, para todo t ∈ R, o
bien usando el hecho que las funciones seno y coseno son acotadas. Es f ácil ver que en la medida
que las expresiones involucradas existan, se cumple que
ϕX (t) = MX (it) = GX (exp(it)). (3.8.10)
Por último, la funci ón generadora de cumulantes est á definida en el rango de valores para los
que la funci ón generadora de momentos existe. Como veremos a continuaci ón, KX (t) genera los
cumulantes de la distribuci ón de X, definidos justamente como los coeficientes de la expansi ón en
serie de Taylor de KX (t) en torno a t = 0.
Proposici oń 3.8.1 (Propiedades de las funciones generadoras)
(a) Sea X una variable aleatoria discreta con X ⊂ {0, 1, 2, . . .}, y para la cual G X (z) existe en
una vecindad de z = 0. Entonces
1 dk
pX (k) = GX (0) (3.8.11)
k! dtk
(b) Si KX (t) se puede expandir mediante una serie de potencias infinita en una vecindad de
t = 0, entonces todos los cumulantes κk (X) existen y se calculan mediante:
dk
κk (X) = KX (0). (3.8.12)
dtk
En particular,
κ1 (X) = E(X) y κ2 (X) = V ar(X). (3.8.13)
(c) Sean a, b reales cualesquiera. En la medida que las siguientes expresiones existan, se cumple:
1. Ma+bX (t) = exp(at)MX (bt).

2. Ga+bX (z) = z a GX (z b ).
3. Ka+bX (t) = at + KX (bt).
4. ϕa+bX (t) = exp(iat)ϕX (bt).
(d) (Teorema de Caracterizaci ón): Sean X e Y dos variables aleatorias.
1. Si MX (t) = MY (t) para todo a < t < b, entonces FX = FY , esto es, X e Y tienen la
misma distribuci ón.
2. Si GX (z) = GY (t) para todo a < z < b, entonces FX = FY .
3. Si ϕX (t) = ϕY (t) para todo t ∈ R, entonces FX = FY .

´
Demostraci oń: La verificaci ón de (a) es inmediata. Para obtener (b), note simplemente que
d M 0 (t)
KX (t) = X ,
dt MX (t)
y que
00 (t)M (t) − (M 0 (t))2
d2 MX X X
K X (t) = ,
dt2 (MX (t))2
de donde el resultado sale de evaluar lo anterior en t = 0. Por otra parte,
Ma+bX (t) = E(exp(t(a + bX))) = E(exp(at) exp(btX)) =

= exp(at)E(exp(btX)) = exp(at)MX (bt),
y las otras tres propiedades se prueban en forma similar. Finalmente, la prueba de (d) ser á omitida.
Ejemplo 3.8.12 Sea X ∼N(0,1), y defina Y = µ + σX, donde µ ∈ R, y σ 6= 0.

Entonces:
MY (t) = Mµ+σX (t) = exp(tµ + σ 2 t2 /2). (3.8.14)
Por otra parte, si σ > 0:
FY (y) = P (Y ≤ y) = P (µ + σX ≤ y) = P (X ≤ (x − µ)/σ)

x−µ
= FX ,
σ
de donde, mediante diferenciaci ón se obtiene que
(x − µ)2

1
fY (y) = √ exp − ,
2πσ 2 2σ 2
para y ∈ R, y se concluye que Y ∼N(µ, σ 2 ), y su funci ón generadora de momentos

está dada por (3.8.14). Note que
σ 2 t2
KY (t) = log(MY (t)) = µt + ,
2
de donde se deduce que E(Y ) = KY0 (0) = µ, y V ar(Y ) = KY00 (0) = σ 2 . Finalmente,
ϕY (t) = exp(iµt − t2 /2)
es la funci ón caracterı́stica de la distribuci ón N(µ, σ 2 ).
Ejemplo 3.8.13 Sea X con densidad triangular

1 − |x| si |x| ≤ 1
fX (x) =
0 si no

´
Es fácil ver que µk (X) debe existir para todo k ≥ 1, pues X tiene un rango de valores
acotado. Ası́, MX (t) también existe para cualquier t, y
Z 1
MX (t) = E(exp(tX)) = exp(tx)(1 − |x|)dx
−1
Z 0 Z 1
= exp(tx)(1 + x)dx + exp(tx)(1 − x)dx
−1 0
exp(t) + exp(−t) − 2
= .
t2
Note que, de acuerdo a la expresi ón obtenida, MX (t) no está definida en t = 0. Sin
embargo, observe que del desarrollo en serie de Taylor de exp(t) y exp(−t) se concluye
que
∞ k ∞
!
X t X (−1) k tk
MX (t) = t−2 + −2
k! k!
k=0 k=0
2
t4 t6 t2k

−2 t
= t 2 + 2 + 2 + ··· + 2 + ···
2! 4! 6! (2k)!
2t2 2t4 2t2k−2
= 1+ + + ··· + + ···
4! 6! (2k)!
por lo que µ2k−1 (X) = 0, y µ2k (X) = 2(2k + 1)−1 (2k + 2)−1 , es decir,
(
0 si k es impar
µk (X) = 2
(k+1)(k+2) si k >= 2 es par
Por otra parte, note que exp(it) = cos(t)+i sin(t), y que exp(−it) = cos(t)−i sin(t),
por lo que
2(cos(t) − 1)
ϕX (t) = ,
t2
y la funci ón caracterı́stica de X es una funci ón a valores reales. No es difı́cil darse
cuenta que este ser á siempre el caso cuando la distribuci ón de la variable aleatoria en
cuesti ón sea simétrica con respecto al origen. En este caso, fX (x) = fX (−x) lo que
implica la simetrı́a. La demostraci ón de este resultado se propone como ejercicio.
3.9 Transformaciones de Variables Aleatorias Continuas
3.9.1 El caso biyectivo
El caso discreto es, en general, simple y directo de resolver. Para derivar el resultado en el caso
continuo, observe que si g es mon ótona creciente y diferenciable, entonces, podemos obtener la
densidad de Y = g(X) como sigue. La funci ón de distribuci ón acumulada de Y es, por definici ón,
FY (y) = P (Y ≤ y), y tenemos que:
FY (y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)),

´
y entonces
fY (y) = FY0 (y) = FX0 (g −1 (y)) = fX (g −1 (y))(g −1 )0 (y)
1
= fX (g −1 (y)) · 0 −1 ,
g (g (y))
donde Y = g(X ).
Cuando g es mon ótona decreciente, el mismo argumento se puede aplicar, despu és de ligeras
modificaciones. En efecto, el evento {g(X) ≤ y} equivale ahora al evento {X ≥ g −1 (y)}, pues g
es decreciente, y entonces FY (y) = 1 − FX (g −1 (y)). Finalmente, se obtiene que
1
fY (y) = −fX (g −1 (y)) · .
g 0 (g −1 (y))
Observe que g 0 es una funci ón negativa, de modo que el resultado es una funci ón positiva, despu és
de incorporar el signo negativo.
Finalmente, podemos resumir las f órmulas observadas en el siguiente resultado.
Teorema 3.9.1 Sea X una variable aleatoria con densidad f X , y sea Y = g(X), donde g es
mon ótona y diferenciable. Entonces
1
fY (y) = fX (g −1 (y)) · (3.9.1)
|g 0 (g −1 (y))|
Ejemplo 3.9.1 Suponga que X ∼ N (0, 1), y sea Y = µ + σX, con µ ∈ R y σ > 0.
En el Ejemplo 3.8.12 se obtuvo que Y ∼ N (µ, σ 2 ) mediante propiedades de funciones
generadoras. El mismo resultado se obtiene usando el Teorema 3.9.1 con g(x) = µ +
σx, que claramente cumple las hip ótesis de dicho resultado. Ası́, g −1 (y) = (y − µ)/σ,
g 0 (x) = σ, y la densidad de Y se obtiene de (3.9.1):
(x − µ)2

1
fY (y) = √ exp − , y ∈ R. (3.9.2)
2πσ 2 2σ 2
Es interesante notar que de la misma forma se obtiene que si Y ∼ N (µ, σ 2 ), entonces

Z = (Y − µ)/σ ∼ N (0, 1), proceso que recibe el nombre de estandarizaci ón. Note
además que puesto que P (Y ≤ y) = P ( Y σ−µ ≤ y−µσ ) se concluye que

y−µ
P (Y ≤ y) = Φ , (3.9.3)
σ
por lo que probabilidades relativas a una variable aleatoria con distribuci ón normal
cualquiera se pueden obtener a partir de la distribuci ón normal estándar. Por ejemplo,
si Y ∼ N (3, 4), entonces

Y −3 5−3
P (Y > 5) = 1 − P (Y ≤ 5) = 1 − P ≤
2 2
= 1 − P (Z ≤ 1) = 1 − Φ(1) = 1 − 0.841
= 0.159

´
Ejemplo 3.9.2 Suponga que X tiene densidad dada por
3x2 si 0 < x < 1

fX (x) =
0 si no,
y considere g(x) = 2x. Se tiene que Y = (0, 2), que g es claramente mon ótona
creciente, con g −1 (y) = y/2, y g 0 (x) = 2. Usando (3.9.1) es inmediato obtener que si
0 < y < 2 entonces
fY (y) = 3 · (y/2)2 · 1/2 = (3/8)y 2 .
Finalmente, se obtiene que
(3/8)y 2

si 0 < y < 2
fY (y) =
0 si no
Ejemplo 3.9.3 Suponga que X ∼ U (0, 1), y considere g(x) = − log(x), definida
sobre los reales positivos. Obtengamos fY para Y = − log(X). Se tiene que Y =
(0, ∞), g −1 (y) = exp(−y), g 0 (x) = −x−1 , y g es mon ótona decreciente. Entonces,
usando (3.9.1) se obtiene que, puesto que fX (x) = I(0,1) (x),
fY (y) = exp(−y),
y entonces Y ∼ Exp(1).
Ejemplo 3.9.4 Suponga que X tiene densidad triangular en el intervalo [0, 1], esto es,
fX (x) = c(1 − |1 − 2x|), para alg ún valor adecuado de c. Obtengamos la densidad de
Y = X 2 , con lo que Y = [0, 1]. Primeramente, se debe calcular el valor de c. Note que
Z 1 Z 1/2 Z 1
(1 − |1 − 2x|)dx = 2xdx + 2(1 − x)dx = 1/4 + 1/4 = 1/2,
0 0 1/2
de modo que c = 2. Ahora, en [0,1], la funci ón g(x) = x2 es creciente y diferenciable,

√
con g −1 (y) = y, g 0 (x) = 2x, y entonces, por (3.9.1):
√ √
2(1 − |1 − 2 y|) 1 − |1 − 2 y|
fY (y) = √ = √ ,
2 y y
para y ∈ [0, 1]. Ver Figura 3.9.6.
Ejemplo 3.9.5 Sea X ∼N(µ, σ 2 ), y considere Y = exp(X). La distribuci ón de Y se

conoce como distribuci ón log-normal, con par ámetros µ y σ 2 . La densidad de Y se
obtiene de aplicar (3.9.1) con g(x) = exp(x). Puesto que g −1 (y) = log(y) tenemos
que para y > 0:
1
fY (y) = fX (g −1 (y)) 0 −1 ,
|g (g (y))|

´
Densidad de X
Densidad de Y
2.0
1.5
1.0
0.5
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Figura 3.9.6: Densidad triangular fX y densidad fY de la transformaci ón Y = X 2 .
de donde
( √ 2

(y 2πσ 2 )−1 exp − (log(y)−µ)
2σ 2 si y > 0
fY (y) =
0 si no
El cálculo de momentos de Y es complicado si se hace por definici ón. Sin embargo,
note que
µk (Y ) = E(Y k ) = E(exp(kX)) = MX (k)
k2 σ2

= exp kµ + .
2
En particular, E(Y ) = exp(µ + σ 2 /2), y E(Y 2 ) = exp(2µ + 2σ 2 ), por lo que
V ar(Y ) = exp(2µ + σ 2 )(exp(σ 2 ) − 1).
El resultado de (3.9.1) se puede generalizar de la siguiente manera.
Teorema 3.9.2 Sea X es una variable aleatoria definida sobre X , con densidad f X , y sea g : X →
Y biyectiva, diferenciable y tal que (g −1 )0 es no nulo sobre Y. Entonces la densidad de Y = g(X)
está dada por
1
fY (y) = fX (g −1 (y))|(g −1 )0 (y)|Iy∈Y = fX (g −1 (y)) · IY (y) (3.9.4)
|g 0 (g −1 (y))|

´
3.9.2 El caso continuo no biyectivo
Cuando g no es biyectiva, los resultados reci én vistos no tienen validez. Sin embargo, hay veces
en que X se puede particionar de modo que g es biyectiva en cada una de esas porciones. Ası́,
el teorema es v álido en cada elemento de dicha partici ón, y se puede demostrar que la expresi ón
final de la densidad se obtiene de sumar cada una de las densidades restringidas. Este resultado se
enuncia a continuaci ón.
Teorema 3.9.3 Sea X una variable aleatoria con densidad f X definida sobre X , y sea g una funci ón
definida sobre X , verificando la propiedad que existe una partici ón A1 , A2 , . . . de X tal que gi ,
definida como la restricci ón de g a Ai es biyectiva y diferenciable. Entonces, Y = g(X) tiene
densidad fY dada por
∞ ∞
X X fX (gi−1 (y))
fY (y) = fX (gi−1 (y))|(gi−1 )0 (y)|Igi (Ai ) (y) = · Igi (Ai ) (y) (3.9.5)
i=1 i=1
|gi0 (gi−1 (y))|
Ejemplo 3.9.6 Suponga X ∼ N (0, 1), y calculemos la densidad de Y = g(X) = X 2 .

Aquı́ X = R, y es claro que g no es biyectiva en ese dominio. Sin embargo, uno
puede descomponer R en dos partes, los reales no negativos, y los reales negativos. El
lugar especı́fico del punto x = 0 carece de importancia, y, m ás a ún, se puede eliminar
si ası́ uno lo desea. De hecho, este es el procedimiento si la diferenciabilidad de g
no se tiene en alg ún punto particular. Sea, entonces, A1 =] − ∞, 0[ y A2 = [0, ∞[.
Es claro que g restringida a cualquiera de A1 o A2 es biyectiva y diferenciable, esto
es, A1 y A2 cumplen las hip ótesis del teorema. Por último, nada impide usar s ólo
dos conjuntos, en vez de una partici ón numerable pero infinita. Luego, tenemos que
√ √
g1 (x) = g2 (x) = x2 , pero g1−1 (y) = − y, g2−1 (y) = y, y gi0 (x) = 2x, para i = 1, 2.
Por otra parte,
exp(−x2 /2)
fX (x) = √ .
2π
Entonces, el primer t érmino de la suma, correspondiente al aporte de la restricci ón a
n úmeros negativos, es
exp(−y/2)
√ √ ,
2π · 2 y
y es fácil ver que el otro t érmino es idéntico, por lo que al sumar se obtiene:
exp(−y/2) y 1/2−1 exp(−y/2)

fY (y) = √ √ = √ 1/2 ,
2π y π2
y el lector podr á deducir que Y ∼ Gama(1/2, 2), quedando s ólo por comprobar el
√
hecho que Γ(1/2) = π, lo cual queda propuesto como un ejercicio.
Ejemplo 3.9.7 Sea X ∼ Exp(λ) con λ > 0, y considere Y = cos(X). Es claro que
Y = [−1, 1]. Por otra parte, la funci ón g(x) = cos(x) es claramente no biyectiva en
(0, ∞). Considere entonces los conjuntos Ak = (kπ, (k + 1)π), para k = 0, 1, 2, . . ..

´
Entonces gk , definida como la restricci ón de g al conjunto Ak es biyectiva y con in-

∞
S
versa continuamente diferenciable. Adem ás, P (X ∈ Ak ) = 1. No es difı́cil ver
k=0
que g0−1 (y) = arccos(y), g1−1 (y) = 2π − arccos(y), g2−1 (y) = 2π + arccos(y), y
ası́ sucesivamente. En general, para −1 < y < 1 se tiene que

−1 kπ + arccos(y) si k = 0, 2, 4, 6, . . .
gk (y) =
(k + 1)π − arccos(y) si k = 1, 3, 5, 7, . . .
Ası́, para cualquier k = 0, 1, 2, . . . se tiene
1 1
= (gk−1 (y))0 = − p ,
gk0 (gk−1 (y)) 1 − y2
de modo que aplicando (3.9.4) tenemos que si −1 < y < 1:
∞
X 1
fY (y) = fX (gk−1 (y)) ·
k=0
gk0 (gk−1 (y))

1 X
= p  exp(−λ−1 {(k + 1)π − arccos(y)})
λ 1−y 2
k=1,3,5,...

X
+ exp(−λ−1 {kπ + arccos(y)})
k=0,2,4,...
∞
exp(− arccos(y)λ−1 ) X
= p exp(−2πλ−1 )k
λ 1 − y2 k=0
∞
exp((arccos(y) − π)λ−1 ) X
+ p exp(−2πλ−1 )k
λ 1−y 2
k=0
exp(−λ−1 arccos(y)) + exp(λ−1 (arccos(y) − π))
= p .
λ 1 − y 2 (1 − exp(−2πλ−1 ))
Finalmente, es claro que fY (y) = 0 si y 6∈ (−1, 1).
3.10 Resumen de Principales Distribuciones Univariadas
Para terminar este capı́tulo, entregamos a continuaci ón un listado de algunas de las principales
familias paramétricas de distribuciones. La mayorı́a de ellas se usa en diversas partes de este texto.
3.10.1 Algunas funciones de probabilidad discretas
f (1) = p, f (0) = q = 1 − p
(3.10.6)
Distribuci ón de Bernoulli Bern (p)

´
n
py q n−y ,

f (y) = y y = 0, . . . , n
(3.10.7)
Distribuci ón Binomial Bin (n, p)
f (y) = p(1 − p)y−1 para y = 1, 2, . . .

(3.10.8)
Distribuci ón Geométrica Geom(p)
f (y) = p(1 − p)y para y = 0, 1, 2, . . .

(3.10.9)
Distribuci ón Geométrica
trasladada al origen Geom(p)
y−1
k
f (y) = k−1 p (1 − p)y−k para y = k, k + 1, k + 2, . . .
(3.10.10)
Distribuci ón Binomial negativa BN(k, p).
k(k+1)···(k+y−1) k y
f (y) = y! p q , y = 0, 1, 2, . . .
Γ(y+k) k y
= Γ(k)Γ(y+1) p q , y = 0, 1, 2, . . . (3.10.11)
Distribuci ón Binomial negativa

trasladada al origen BN0(k, p).
λk e−λ
f (y) = k! , para k = 0, 1, . . ..
(3.10.12)
Distribuci ón de Poisson Poisson(λ)
3.10.2 Algunas funciones densidad continuas
1
f (y) = b−a ,a < y < b
(3.10.13)
Distribuci ón Uniforme en[a, b]] U [a, b]
Γ(α+β)
f (y) = Γ(α)Γ(β) y α−1 (1 − y)β−1 , 0 < y < 1.
(3.10.14)
Distribuci ón Beta Beta(α, β)
Caso especial: α = β = 1 : Distribuci ón U [0, 1]

´
1
f (y) = λ(λy)α−1 e−λy Γ(α) , y>0
Distribuci ón Gama (α, λ)

Casos especiales: (3.10.15)
α = ν2 , λ = 21 Distribuci ón Ji cuadrado con ν
grados de libertad χ2 (ν)
α=1 Distribuci ón Exponencial Expo (λ).
f (y) = λe−λy , y > 0
β
f (y) = λβy β−1 e−λy , y > 0
(3.10.16)
Distribuci ón de Weibull Weib(λ, β)
Caso especial β = 1 : Distribuci ón Expo (λ).
1 1 2
f (y) = √ e− 2σ2 (y−µ) , −∞ < y < ∞
σ 2π
(3.10.17)
Distribuci ón Normal N (µ, σ 2 )
Γ( ν+1 ) x2 −
(ν+1)
f (x) = 2 √
Γ( ν2 )Γ( 21 ) ν
(1 + ν )
2 −∞<x<∞
(3.10.18)
Distribuci ón de Student con ν grados de libertad t(ν).
ν1 ν2
ν1 +ν2 ν1 ν1 +ν2
Γ( )ν12 ν22 y 2 −1 (ν1 y+ν2 ) 2
f (y) = 2
ν ν
Γ( 21 )Γ( 22 ) , −∞<y <∞ (3.10.19)
Distribuci ón F con ν1 y ν2 grados de libertad F (ν1 , ν2 ).

´
3.11 Problemas
1. En un experimento se observa la temperatura X = x en grados Celsius. Esta temperatura

sigue una distribuci ón de probabilidad con funci ón de distribuci ón acumulada F y densidad
f . Suponga ahora que se cambia la escala del instrumento, de modo que el resultado y queda
expresado en grados Fahrenheit. Denotemos la distribuci ón acumulada de esta temperatura
por G, y su densidad de probabilidad por g.
(a) Demuestre que G(y) = F ( y−32

1.8 ).
1 y−32
(b) Demuestre que g(y) = 1.8 f ( 1.8 ).
(c) Aplique los resultados anteriores al caso F (x) = 1 − e−λx , con x > 0.
2. Un dado equilibrado se lanza cuatro veces. Sea X el mı́nimo n úmero que se obtiene.
(a) Encuentre la distribuci ón de X.

(b) Calcule E(X) y Var(X).
3. Calcule el n úmero esperado de tr éboles que se obtienen en una mano de poker, consistente
en 5 cartas escogidas al azar de un total de 52.
4. Sea X el n úmero de aciertos en una cartilla de LOTO. Calcule E(X) y V ar(X).
5. En una secuencia de ensayos de Bernoulli, sea X el n úmero necesario de intentos requeridos

para obtener al menos un éxito y un fracaso.
(a) Calcule E(X) y V ar(X).

(b) Calcule la funci ón generadora de momentos de X, y repita (a) usando dicha funci ón.
6. Un dado no equilibrado asigna a la cara con el n úmero x probabilidades dadas por p(x) =
c × 0.7x × 0.36−x , x = 1, 2, 3, 4, 5, 6.
(a) Calcule el valor de c.

(b) Haga una tabla con los valores de la funci ón de distribuci ón F .
(c) Utilice la tabla para calcular la probabilidad que
(i) El n úmero esté entre 2 y 4.
(ii) El n úmero sea mayor que 2.
7. El tiempo entre dos terremotos consecutivos tiene densidad
fk (x) = cxk e−x , x > 0.
(a) Demuestre que c = k!.

(b) Obtenga la funci ón de distribuci ón acumulada Fk . (Integre por partes y use inducci ón).
(c) Haga una tabla con los valores de F3 , evaluándola para m últiplos de 0.5 entre 0 y 8.
(d) Utilice la tabla obtenida en (c) para calcular la probabilidad que el tiempo x : (i) sea
inferior a 4 a ños. (ii) esté comprendido entre 2.5 y 3.5 a ños. (iii) Exceda los 5 a ños.

´
(e) De todos los intervalos de la forma [0.5j, 0.5j + 0.5], j = 0, 1, . . . 15, encuentre aqu él
que tiene la máxima probabilidad.
8. La probabilidad que el n úmero de personas en una fila sea k est á dada por el coeficiente de
z k en el desarrollo en serie de Taylor de (q + pz)−2 .
(a) Demuestre que para que este modelo probabilı́stico tenga sentido es necesario que q +
p = 1.
(b) Obtenga la funci ón de distribuci ón acumulada F .
(c) Construya una tabla para p = 12 .
9. La proporci ón de calcio enRun mineral es altamente variable. La probabilidad que esta pro-
b
porci ón esté entre a y b es a f (x)dx, con
f (x) = ck xk (1 − x)k , 0 < x < 1,
y con k = 0, 1, 2.
(a) Encuentre ck .
(b) Calcule la funci ón de distribuci ón acumulada Fk (x).
(c) Eval úe la probabilidad πk que la proporci ón esté entre 0.25 y 0.75.
(d) Conjeture el comportamiento de πk a medida que k crece.
10. Sea X una variable aleatoria continua con funci ón de densidad f > 0. Si F es la funci ón de
distribuci ón de X pruebe que la variable Y = F (X) tiene distribuci ón uniforme en [0,1].
11. Si X ∼ U (0, 1) encontrar la funci ón densidad de Y = eX .

1
Resp. : fY (t) = t si 1 < t < e
12. Si Y ∼ U (0, 5), ¿cu ál es la probabilidad que las raı́ces de la ecuaci ón 4x2 +4xY +Y +2 = 0
sean ambas reales?.
3
Resp. : 5
13. Si un proyectil se lanza en un ángulo θ ∼ U (0, π4 ) de la tierra con una velocidad v, éste
2
caerá al suelo a una distancia R que puede ser expresada por R = ( vg )(sin 2θ), donde g es
la aceleraci ón de gravedad. Encontrar la funci ón de distribuci ón de R.
v2
Resp. : F (x) = 2
π arcsin gx
v2
para 0 ≤ x ≤ g
14. Un entero positivo I es seleccionado con P (I = n) = 21n para n = 1, 2, .... Si el entero es

n, se lanza una moneda al aire en que la probabilidad de obtener una cara es e −n . ¿Cuál es la
probabilidad que al lanzar la moneda obtengamos una cara?.
1
Resp : 2e−1
15. Se lanza una moneda en que la probabilidad de obtener una cara es p = 12 , y suponga que la
moneda se lanza repetidamente. Sea Xn el n úmero total de caras que han sido obtenidas en
los primeros n lanzamientos y sea Yn = n − Xn . Supongamos que paramos los lanzamientos

´
cuando se obtiene el primer n tal que Xn = Yn +3 o Yn = Xn +3. Determine la probabilidad

que Xn = Yn + 3 cuando se detienen los lanzamientos.
1
Resp : 2
16. Considere un elevador que comienza en el subterr áneo de un edificio y viaja hacia arriba.
Sea Ni el n úmero de personas que suben al elevador en el piso i. Suponga que los N i son
independientes y que Ni ∼ Poisson(λi ). Cada persona que sube en i, independiente del resto
sale en j con probabilidad pij . Sea Nij el n úmero de personas que suben al elevador en el
piso i y bajan en el j. Calcule P (Nij = k).
Resp : Nij ∼ Poisson(λi pij ).
17. Suponga que N1 ∼ Poisson(λ1 ), N2 ∼ Poisson(λ2 ) donde N1 y N2 son independientes.

Pruebe que N1 + N2 ∼ Poisson(λ1 + λ2 ), y además calcule P (N1 = 1|N1 + N2 = 1).
λ1
Resp : λ1 +λ2
18. (a) Sean X1 , . . . , Xn variables aleatorias independientes, y defina las nuevas variables ale-
atorias Y y Z mediante Y = min(X1 , . . . , Xn ), Z = max(X1 , . . . , Xn ). Argumente
que las siguientes relaciones son verdaderas:
P (Y > y) = P (X1 > y) · · · P (Xn > y)

P (Z ≤ z) = P (X1 ≤ z) · · · P (Xn ≤ z).
(b) Asuma que los tiempos de falla de un sistema de n componentes son T 1 , . . . , Tn , los que
se suponen independientes. Lo que nos interesa calcular es la distribuci ón del tiempo de
falla T del sistema completo en t érminos de las distribuciones de T1 , . . . , Tn . Aplique
la parte (a) a lo siguiente:
(i) Si de 10 componentes cada una tiene probabilidad 0.99 de durar al menos 100
horas, y éstas se encuentran en serie, ¿cu ál es la probabilidad que el sistema no
fallará en 100 horas?.
(ii) ¿Cuál es la probabilidad, si ahora las componentes est án en paralelo?. Resp :
1 − 10−20 .
19. Se lanzan dos dados perfectos. Sea X igual al producto de los valores obtenidos en los dados.
Determine X , y calcule P (X = x) para x ∈ X .
20. Suponga que un dado se lanza dos veces. ¿Cu áles son los posibles valores que pueden tomar
las siguientes variables aleatorias?
(a) El máximo valor en los dos lanzamientos.

(b) El mı́nimo valor en los dos lanzamientos.
(c) La suma de los dos lanzamientos.
(d) El valor del primer lanzamiento menos el valor del segundo lanzamiento.
21. Calcule el valor esperado y varianza en cada una de las partes del Problema 20.

´
22. Compare la aproximaci ón de Poisson con la probabilidad Binomial correcta para los siguien-
tes casos:
(a) P (X = 2) cuando n = 8, p = 0.1.
(b) P (X = 9) cuando n = 10, p = 0.95.
(c) P (X = 0) cuando n = 10, p = 0.1.
(d) P (X = 4) cuando n = 9, p = 0.2.
23. El n úmero de suicidios en cierto estado es de 1 por cada 100.000 habitantes en un mes.
(a) Encontrar la probabilidad que en una ciudad de 400.000 habitantes del mismo estado,
se produzcan por lo menos ocho suicidios.
(b) ¿Cuál es la probabilidad que durante dos meses del a ño ocurran ocho o m ás suicidios?.
(c) Contando el presente mes como el mes n úmero uno, ¿cu ál es la probabilidad que en el
mes i ocurran ocho o m ás suicidios?.
¿Que supuestos se deben hacer?.
24. Cada caja de una cierta marca de cereal contiene un animalito de pl ástico en su interior.
Hay un total de N posibles animalitos disponibles, y suponga que es igualmente probable
encontrar uno cualquiera de ellos en una caja dada. Determine el n úmero esperado de cajas
que se debe comprar para obtener la colecci ón completa de animalitos.
25. Una urna contiene n bolas numeradas 1, 2, . . . , n. Una persona extrae al azar una bola de
la urna y la devuelve, saca otra y la devuelve, continuando hasta sacar una misma bola por
segunda vez. Sea X el n úmero de intentos necesarios para obtener dicha repetici ón.
(a) Obtenga la distribuci ón de X. (Indicaci ón: calcule P (X > k))
(b) Demuestre que
n−1
Y
1 1 2 i
E(X) = 2 + 1 − + 1− 1− + ··· 1− .
n n n n
i=1
26. Pruebe que si X es una variable aleatoria cualquiera tal que P (X ∈ [a, b]), entonces a ≤
E(X) ≤ b y V ar(X) ≤ (b − a)2 /4. (Indicaci ón: haga primero el caso a = 0, b = 1).
Encuentre una variable aleatoria que alcance la m áxima varianza.
27. Sea X una variable aleatoria con distribuci ón U (0, 1), y defina Y = min{X, c}, donde
0 < c < 1. Calcule E(Y ) y V ar(Y ).
Nota:
X(ω) si X(ω) ≤ c
Y (ω) =
c si no
28. El tiempo de vida en horas de un tubo fluorescente, es una variable aleatoria que tiene una
densidad de probabilidad dada por:
f (x) = α2 xe−αx x ≥ 0.
Calcule el tiempo de vida esperado del tubo.

´
29. Sea X una variable aleatoria con densidad

exp(−x)
fX (x) = , x ∈ R.
(1 + exp(−x))2
(a) Pruebe que la distribuci ón de X es simétrica en torno de 0.
(b) Determine si E(X) existe, y calcule su valor en caso afirmativo.
(c) Obtenga la densidad de Y = exp(X), y determine E(Y ).
(d) Calcule E(Y ) esta vez sin utilizar su densidad.
30. Se dice que X tiene distribuci ón de Weibull si
λαxα−1 exp(−λxα )

si x > 0
fX (x) =
0 si no.
Se asume que α > 0 y λ > 0. Determine E(X). ¿Cu ál es la distribuci ón de Y = X α ?
31. Encuentre la funci ón generadora de momentos de una variable aleatoria X ∼ U (a, b). Use
este resultado para calcular E(X) y V ar(X).
32. Sea X una variable aleatoria absolutamente continua con valores en los reales positivos, y
defina SX (x) = 1 − FX (x) = P (X > x) para un real positivo x cualquiera.
(a) Pruebe que si E(X 2 ) existe, entonces

Z ∞ Z ∞
2
E(X) = SX (x)dx y E(X ) = 2 xSX (x)dx.
0 0
(b) Aplique lo anterior al caso de la distribuci ón exponencial, y al caso de la distribuci ón
de Weibull.
33. Una urna contiene a bolas blancas y b bolas negras. Si sacamos una bola a la vez hasta obtener
la primera bola blanca, encontrar el n úmero esperado de bolas negras sacadas de la urna.
b
Resp : a+1 .
34. Una caja contiene inicialmente 3 bolitas rojas, 4 azules y 6 verdes, las que se retiran una a
una y sin reemplazo, hasta que todas las bolitas rojas han sido retiradas. Sea X el n úmero de
bolitas que se han retirado hasta ese momento.
(a) Calcule P (X ≤ 9)
(b) Calcule P (X = 9).
(b) Calcule E(X).
35. Sea X una variable aleatoria que sigue una de las siguientes distribuciones.
(a) Bin(n, p).

(b) Poisson(λ).
(c) Geométrica con par ámetro p.

´
(d) Uniforme en los enteros entre m y n, con m < n.
Para cada distribuci ón calcule
(a) E(X).
(b) E(X(X − 1)).
(c) E(X 2 ).
(d) V ar(X)
(e) E(z X ), donde z es un n úmero real.
36. Sea X una variable aleatoria con valores en {0, 1, . . . , n}, funci ón de probabilidad f y fun-
ci ón de distribuci ón F . Demuestre que
n
X
EX = (1 − F (x)).
x=0
Muestre que esta relaci ón es también válida para n = ∞. Aplı́quela para calcular la media
de la distribuci ón geométrica.
37. Un equipo tiene 5 componentes, de las cuales 2 son defectuosas. Se inspeccionan las compo-
nentes en un orden aleatorio.
(a) Si X es el n úmero de componentes que deben examinarse antes de encontrar una de-
fectuosa, calcule E(X).
(b) Si Y es el n úmero de componentes que deben examinarse para encontrar las dos defec-
tuosas, calcule E(Y ).
38. Si X es una variable aleatoria con esperanza finita µ y varianza σ 2 , y si g(·) es una funci ón
dos veces diferenciable, demuestre que:
g 00 (µ) 2
E[g(X)] ≈ g(µ) + σ .
2
Hint: usar la expansi ón de Taylor en torno a µ para g(·). Use s ólo los primeros tres t érminos.
39. Se realizan ensayos independientes, donde en el i- ésimo ensayo se obtiene un éxito con pro-
babilidad pi . Encuentre el n úmero esperado y la varianza del n úmero de éxitos que ocurren
en los primeros n ensayos.
40. Un hombre dispara a un blanco. Diez de estos tiros caen a una pulgada del blanco, cinco
entre una y tres pulgadas del blanco, y tres entre tres y cinco pulgadas del blanco. Encontrar
el n úmero esperado de tiros acertados si:
(a) Los tiros del hombre se distribuyen uniformemente en el cı́rculo de radio ocho pulgadas
con el blanco como centro.
(b) Las distancias verticales y horizontales de los tiros del hombre al blanco son (medidas
en pulgadas) variables aleatorias independientes e id énticamente distribuidas N (0, 4).

´
41. La duraci ón T de cierto tipo de llamada telef ónica satisface la relaci ón:
P (T ≥ t) = ae−λt + (1 − a)e−µt , t ≥ 0,
donde 0 ≤ a ≤ 1, λ ≥ 0 y µ ≥ 0 son constantes determinadas estadı́sticamente. Encontrar

la media y la varianza de T .
42. Una variable aleatoria X puede tomar cada uno de los siete valores −3, −2, −1, 0, 1, 2, 3 con
la misma probabilidad. Determinar fY (y), en donde Y = X 2 − X.
43. Suponga que X es una variable aleatoria cuya densidad es f y que Y = aX + b (a 6= 0).
Demuestre que la densidad de Y es la siguiente:

1 y−b
g(y) = f , −∞ ≤ y ≤ ∞.
|a| a
44. Suponga que X tiene funci ón densidad:

−cx
ce si x ≥ 0
g(x) =
0 si no.
X
(a) Demostrar que 1+X tiene funci ón densidad:
( − x
e 1−x
(1−x)2
si 0 ≤ x ≤ 1
g(x) =
0 en otro caso
(b) Demostrar que X + c tiene funci ón densidad:

−(x−c)
e si c ≤ x
g(x) =
0 si x ≤ c.
45. Sea X una variable aleatoria continua con funci ón densidad f y funci ón distribuci ón F .
Pruebe que la distribuci ón de Y = F (x) es U (0.1).
46. Supongamos que una calculadora posee cuatro circuitos. Si ésta se envı́a a reparaci ón, las
probabilidades que necesite 1,2,3 o 4 circuitos nuevos son 12 , 14 , 18 , y 81 . La empresa que
realiza las reparaciones mantiene un stock de 18875 circuitos anuales. Si en un a ño recibe
10000 calculadoras para reparar, ¿cu ál es la probabilidad que no se cubra la demanda?.
Resp : 0.117
47. Observando que, en promedio, el 12% de los pasajes reservados no se ocupan, una compa ñı́a
aérea decide aceptar reservas por un 10% m ás de su capacidad en aviones de 450 pasajeros.
Calcular la proporci ón de vuelos en que alg ún pasajero con reserva no tiene cabida.
Resp : 0.02
48. Suponga que X ∼ U (0, 1). Determine los valores de t ∈ R tales que E(X t ) existe.
49. (a) Un dado se lanza hasta obtener un dos. Si X es el n úmero de lanzamientos requeridos,
t
demostrar que la funci ón generadora de momentos de X es 6−5t .

´
(b) Un dado se lanza hasta obtener un dos o un tres. Demostrar que la funci ón generadora
t
de momentos del n úmero de lanzamientos requeridos es 3−2t .
50. Suponiendo que X tenga la siguiente funci ón densidad :
f (x) = λe−λ(x−a) X≤a
(a) Encontrar MX (t).

(b) Calcular E(X) y V ar(X).
51. Si X es una variable aleatoria continua no negativa, pruebe que

Z ∞
E(X n ) = nxn−1 (1 − F (x))dx,
0
donde F es la funci ón de distribuci ón de X.
52. Demostrar que si Xi , i = 1, . . . , k representa el n úmero de éxitos en k repeticiones de un

experimento para el que P ( éxito) = p ∀i, entonces X1 + · · · + Xk tiene una distribuci ón
Binomial.

Cap´
ıtulo 4
Vectores Aleatorios
4.1 Motivaci ón
En el capı́tulo anterior hemos estudiado el importante concepto de variable aleatoria, con énfasis en
el caso en que ésta es univariada. Es usual, sin embargo, el caso en que el objeto aleatorio natural
para modelar una situaci ón dada es un vector aleatorio de n componentes, es decir, se observa
X = (X1 , X2 , . . . , Xn ), en que cada Xi es una variable aleatoria unidimensional, ya sea discreta,
absolutamente continua o mixta.
Este es el caso del Ejemplo 3.2.4 del Capı́tulo 3, en que el resultado de escoger un punto al
azar en el cı́rculo unitario se describe por un vector aleatorio bidimensional X = (X 1 , X2 ), y
en donde X = {(x1 , x2 ) | x21 + x22 ≤ 1}. Note que en este mismo ejemplo el resultado puede
también ser descrito en t érminos de coordenadas polares Y = (R, Θ), donde Y = {(r, θ) : 0 ≤
r ≤ 1, −π ≤ θ ≤ π}. Observe, sin embargo, que si este experimento se cambia por escoger un
punto en la circunsferencia unitaria {(x1 , x2 ) | x21 + x22 = 1}, el vector correspondiente es en
realidad un objeto unidimensional, lo que se puede modelar empleando las t écnicas del Capı́tulo 3.
Concretamente, en coordenadas polares, escogemos R = 1 y Θ ∼ U (0, 2π). Se propone como
ejercicio al lector obtener la correspondiente distribuci ón de las coordenadas cartesianas X1 y X2 .
Otra situaci ón es cuando una cierta medici ón se lleva a cabo en varios individuos. Por ejemplo,
suponga que interesa medir la estatura de cada uno de los 6 integrantes de una cierta familia. El
resultado de este experimento se puede representar mediante un vector aleatorio de dimensi ón 6, en
que cada componente representa la estatura de uno de los miembros de esta familia. Esta clase de
ejemplo es muy frecuente en problemas estadı́sticos de la vida real. Sin entrar en mayores detalles
por ahora, es conveniente distinguir el vector aleatorio obtenido de esta forma con aquel que uno
obtendrı́a si se midiera la estatura de uno de los miembros de esta familia 6 veces, y a ún con el caso
en que a este mismo individuo se le miden 6 caracterı́sticas diferentes (por ejemplo, estatura, peso,
etc.). Como veremos m ás adelante estas tres situaciones requieren de modelos probabilı́sticos radi-
calmente distintos, a ún cuando se trata de vectores aleatorios de la misma dimensi ón, y obtenidos
en situaciones “similares”.
131
´
CAP ITULO 4. VECTORES ALEATORIOS
4.2 Definiciones y Conceptos B ásicos
4.2.1 Definiciones
Veremos que muchas de las ideas del caso unidimensional tienen una extensi ón natural al caso
multidimensional. Por esta raz ón, no nos detendremos mayormente en revisar algunos aspectos
cubiertos en el Capı́tulo 3. Más bien, enfatizaremos los cambios especı́ficos que involucra el salto
desde dimensi ón 1 a n.
Definici´ o n 4.2.1 Un vector X = (X1 , . . . , Xn ) se dice vector aleatorio si cada uno de los Xi ,
i = 1, . . . , n es una variable aleatoria, siendo todas ellas definidas sobre un espacio muestral com ún
Ω. La notaci ón X ∈ Rn indicará que X tiene n coordenadas.
En otras palabras, si cada Xi es una variable aleatoria, i = 1, . . . , n, entonces se tiene que

X = (X1 , . . . , Xn ) es un vector aleatorio de dimensi ón n. La restricci ón que las n variables
aleatorias estén definidas sobre un mismo Ω obedece a razones t écnicas, y en la pr áctica, uno puede
asumir dicha condici ón sin pérdida de generalidad. Al igual que en el caso unidimensional, Ω suele
ser un conjunto difı́cil de especificar (¡en algunos caso es incluso difı́cil de imaginar!), por lo que
los modelos probabilı́sticos – expresados en t érminos de distribuciones – se postulan usualmente
sobre X , el conjunto de posibles valores de X.
o n 4.2.2 La funci ón de distribuci ón conjunta de un vector aleatorio X se define para un
Definici´
vector dado x = (x1 , . . . , xn ) ∈ Rn mediante:
FX (x) = FX1 ,··· ,Xn (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ). (4.2.1)
N ótese que en este caso se habla de funci ón de distribuci ón conjunta de X, denotando el hecho
que X posee m ás de una coordenada, estableci éndose ası́ una distinci ón explı́cita con el caso
unidimensional.
4.2.2 Propiedades de la funci oń de distribuci oń conjunta
La funci ón de distribuci ón conjunta tiene las siguientes propiedades:
1. FX es no decreciente en cada coordenada, esto es, si x i1 < xi2 , entonces
FX (x1 , . . . , xi1 , . . . , xn ) ≤ FX (x1 , . . . , xi2 , . . . , xn ).
2. FX es continua por la derecha en cada coordenada, esto es,
lim FX (x1 , . . . , xi , . . . , xn ) = FX (x1 , . . . , xi0 , . . . , xn ).

xi →x+
i0
Análogamente, los lı́mites por la izquierda en cada coordenada existen (aunque no necesa-
riamente coinciden con los valores de FX en los puntos en cuesti ón).

´
3. Para cualquier i se tiene

lim FX (x1 , . . . , xn ) = 0,
xi →−∞
y
lim FX (x1 , . . . , xn ) = 1,
x1 ,...,xn →∞
donde este último lı́mite significa que todas las coordenadas tienden simult áneamente a ∞.
4. Para g : Rn → R sea
∆k(ak ,bk ] g(x1 , . . . , xn ) = g(x1 , . . . , bk , . . . , xn ) − g(x1 , . . . , ak , . . . , xn ).
Entonces,
∆1(a1 ,b1 ] · · · ∆n(an ,bn ] FX (x1 , . . . , xn ) ≥ 0,
cualesquiera que sean ai < bi , i = 1, . . . , n.
Se puede probar que estas cuatro propiedades caracterizan completamente la funci ón de distri-
buci ón conjunta, en el sentido que una funci ón F satisfaciéndolas coincide con FX para alg ún vec-
tor aleatorio X. Resulta entonces natural asignar el nombre funci ón de distribuci ón n-dimensional
o conjunta a cualquier funci ón F satisfaciendo 1-4 arriba.
La propiedad 4 es quiz ás la más novedosa entre ellas. Para visualizar lo que sucede, considere-
mos el caso n = 2, y el siguiente ejemplo.
Ejemplo 4.2.1 Sea F : R2 → R definida por

1 si x ≥ 0, y ≥ 0, x + y ≥ 1
F (x, y) =
0 si no.
Si F fuera la funci ón de distribuci ón de alg ún vector aleatorio (X, Y ), entonces, ano-
tando FX,Y (x, y) = F (x, y) se tiene
P (0 < X ≤ 1, 0 < Y ≤ 1) = FX,Y (1, 1) − FX,Y (1, 0)

−FX,Y (0, 1) + FX,Y (0, 0)
= F (1, 1) − F (1, 0) − F (0, 1)
+F (0, 0)
= 1 − 1 − 1 + 0 = −1,
que es claramente una contradicci ón.
Es claro, entonces, que la cuarta propiedad (que simplemente establece que probabilidades cal-
culadas a partir de F deben ser no negativas) resulta relevante, y no puede ser omitida. Dicha propie-
dad se puede visualizar como la extensi ón multivariada de aquella establecida en la Secci ón 3.4.1,
y que se traduce en el hecho que las funciones de distribuci ón univariadas son no decrecientes.
Como en el caso unidimensional, es posible clasificar vectores aleatorios como discretos y con-
tinuos.

´
o n 4.2.3 El vector aleatorio X = (X1 , . . . , Xn ) se dice

Definici´
• discreto si X toma valores sobre un conjunto finito o infinito numerable. En este caso, si
x ∈ X , la funci ón
pX (x) = P (X1 = x1 , . . . , Xn = xn )
recibe el nombre de funci ón de probabilidad conjunta discreta.
• absolutamente continuo si existe una funci ón fX : Rn → R+ ∪ {0} tal que para cualquier
x ∈ Rn se cumple
Z xn Z x1
FX (x) = ··· fX (t1 , . . . , tn )dt1 · · · dtn .
−∞ −∞
En este caso, fX se llama funci ón densidad del vector aleatorio X, o funci ón densidad
conjunta de las variables aleatorias X1 , . . . , Xn .
Como en el caso unidimensional, FX suele tener poca importancia pr áctica cuando X es dis-
creto, y uno trabaja usualmente con pX . En el caso continuo, la probabilidad que el vector aleatorio
X tome valores en el rect ángulo n-dimensional
Rn = [a1 , b1 ] × · · · × [an , bn ],
se obtiene mediante integraci ón:

Z bn Z b1
P (X ∈ Rn ) = ··· fX (t1 , . . . , tn )dt1 · · · dtn . (4.2.2)
an a1
Si el vector aleatorio X est á definido en Ω, sobre el cual se ha definido una medida de proba-
bilidad P , el vector X induce una nueva medida de probabilidad, P X , esta vez sobre X , y dada
mediante la f órmula:
PX (B) = P (X ∈ B) = P (X −1 (B)) para B ∈ X . (4.2.3)
Al igual que en el caso univariado, PX recibe el nombre de medida de probabilidad inducida por
X, o distribuci ón de X.
Otras propiedades de las funciones de probabilidad se ver án a continuaci ón:
1. Si la funci ón de probabilidad discreta de X = (X1 , . . . , Xn ) es pX , entonces la funci ón de

probabilidad conjunta de un subconjunto cualquiera de (X 1 , . . . , Xn ) se obtiene simplemente
de sumar pX sobre las coordenadas correspondientes a las variables no incluidas en dicho
subconjunto, y atendiendo a las restricciones que los puntos en X poseen. En particular:
X
pX1 ,...,Xk (x1 , . . . , xk ) = pX (x1 , . . . , xk , xk+1 , . . . , xn ), (4.2.4)
S(k+1,...,n)
en donde
S(k + 1, . . . , n) = {(xk+1 , . . . , xn ) : (x1 , . . . , xn ) ∈ X }.

´
En efecto, el conjunto de posibles valores para (X1 , . . . , Xk ) se obtiene de “proyectar” X so-

bre las primeras k coordenadas. Pero en este proceso, la probabilidad de un punto cualquiera
se obtiene como la suma de todos los puntos de X cuyas primeras k coordenadas coinciden
(esto es, aplicamos probabilidades totales), que es exactamente lo que se establece en (4.2.4).
Una notaci ón alternativa para (4.2.4) es
pX1 ,...,Xk (x1 , . . . , xk ) = pX (x1 , . . . , xk , +, . . . , +). (4.2.5)
2. Si X = (X1 , . . . , Xn ) tiene densidad conjunta fX , entonces, y en analogı́a con el caso dis-

creto, la densidad conjunta de un subconjunto de ellas se obtiene de integrar las coordenadas
que no pertenecen a dicho subconjunto:
Z ∞ Z ∞
fX1 ,...,Xk (x1 , . . . , xk ) = ··· fX1 ,...,Xn (x1 , . . . , xn )dxk+1 · · · dxn . (4.2.6)
−∞ −∞
3. Si FX es la funci ón de distribuci ón conjunta de X = (X1 , . . . , Xn ), entonces la funci ón

de distribuci ón conjunta de alg ún subconjunto de ellas se obtiene de tomar el lı́mite de ca-
da coordenada no involucrada en el subconjunto, cuando esta coordenada tiende a ∞. En
particular:
FX1 ,...,Xk (x1 , . . . , xk ) = lim FX1 ,...,Xn (x1 , . . . , xk , xk+1 , . . . , xn ). (4.2.7)

xk+1 ,...,xn →∞
Intuitivamente, al tomar lı́mite a infinito en alguna coordenada, digamos, para fijar ideas, la
última, se reemplaza el evento {Xn ≤ xn } por {Xn ≤ ∞}, el cual tiene probabilidad 1, y
por lo tanto, este evento no altera la probabilidad de los otros eventos que definen F X :
lim FX (x1 , ..., xn ) = lim P (X1 ≤ x1 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn )

xn →∞ xn →∞
= P (X1 ≤ x1 , . . . , Xn−1 ≤ xn−1 , Xn ≤ ∞)
= P (X1 ≤ x1 , . . . , Xn−1 ≤ xn−1 )
= FX1 ,...,Xn−1 (x1 , . . . , xn−1 ).
El argumento en el caso del lı́mite de dos o m ás coordenadas en forma simult ánea es esen-
cialmente idéntico.
4.2.3 Ejemplos
Ejemplo 4.2.2 Sea X1 , X2 , . . . un proceso de Bernoulli con probabilidad de éxito

p. En este caso se tiene que X = (X1 , . . . , Xn ) es un vector aleatorio discreto n-
dimensional, cualquiera que sea n. Por las propiedades ya estudiadas para este caso,
X = {0, 1}n , y para cualquier x = (x1 , . . . , xn ) ∈ X se cumple:
n
P n
P
xi n− xi
pX (x) = p i=1 (1 − p) i=1 .

´
Veamos ahora c ómo deducir esta f órmula. Para fijar ideas, supongamos que x consta
de k unos seguidos de n − k ceros. Por la independencia de X 1 , . . . , Xn , es claro que la
probabilidad de tal configuraci ón es pk (1 − p)n−k . Más aun, cualquier configuraci ón
con k unos y n − k ceros tiene exactamente la misma probabilidad. Pero el n úmero de
Pn
unos coincide con Xi , de donde se obtiene el resultado.
i=1
Ejemplo 4.2.3 Sean X e Y variables aleatorias discretas con funci ón de probabilidad
conjunta dada por la siguiente tabla:
y
x 0 1 2
0 0.15 0.15 0.25
1 0.10 0.15 0.20
Para obtener la funci ón de probabilidad discreta de X e Y , y usando (4.2.4), s ólo

debemos sumar por filas o columnas, respectivamente. Ası́, se obtiene que pX (0) =
0.55, pX (1) = 0.45, y pY (0) = 0.25, pY (1) = 0.3, pY (2) = 0.45.
Ejemplo 4.2.4 Considere (X, Y ) con densidad conjunta

c(|x| + |y|) si |x| + |y| ≤ 1
fX,Y (x, y) =
0 si no.
En este ejemplo, el primer paso consiste en calcular el valor de c > 0 para que efecti-
vamente se tenga una densidad. Se debe cumplir
ZZ
1= c(|x| + |y|)dxdy.
|x|+|y|≤1
Por la simetrı́a de ambos, el dominio de integraci ón y la funci ón en cuesti ón, la integral
sobre cada cuadrante es la misma, y
ZZ Z 1 Z 1−y
1 = 4c (x + y)dxdy = 4c (x + y)dxdy
0 0
{x+y≤1, x≥0, y≥0}
Z 1 Z 1
2
= 4c [(1 − y) /2 + y(1 − y)]dy = 4c [1/2 − y 2 /2]dy
0 0
= 4c(1/2 − 1/6) = 4c/3,
de donde se concluye que c = 3/4.

Calculemos ahora las correspondientes densidades marginales. A partir de (4.2.6) se
tiene que Z ∞
fX (x) = fX,Y (x, y)dy.
−∞

´
Es necesario ser muy cuidadoso con los lı́mites de integraci ón. En primer lugar, X se
obtiene de proyectar el dominio sobre el eje x, obteni éndose X = [0, 1], de modo que
fX (x) = 0 si x 6∈ [0, 1]. Para x0 ∈ [0, 1] fijo, el rango de posibles valores de y se
obtiene de la desigualdad |x0 | + |y| ≤ 1, de donde se sigue que −(1 − |x0 |) ≤ y ≤
1 − |x0 |, como se muestra en el siguiente diagrama.
y
1
@
@ y ≤ 1 − |x0 |
@
@
@ 1
-1 @
@ 0 x0 x
@
@
@
@
@
-1
Se tiene entonces que

1−|x|
3
Z
fX (x) = (|x| + |y|)dy
4 −(1−|x|)
1−|x|
3 3
Z
= |x|(1 − |x|) + |y|dy
2 4 −(1−|x|)
3 3 1−|x|
Z
= |x|(1 − |x|) + ydy
2 2 0
3 3 3
= |x|(1 − |x|) + (1 − |x|)2 = (1 − x2 ).
2 4 4
Análogamente, y por la simetrı́a del problema,
3 2
fY (y) = 4 (1 − y ) si y ∈ [−1, 1]
0 si no.
4.2.4 El caso mixto
Hay a ún un caso que discutir, y que corresponde a cuando parte de las variables en el vector aleato-
rio X son discretas, y el resto absolutamente continuas, caso en el que hablamos de vector aleatorio
mixto. Para simplificar la exposici ón, supongamos un vector bidimensional (X, Y ), donde X es
discreta, e Y es absolutamente continua, y denotemos por D al conjunto de posibles valores para
este vector. Notemos que la distribuci ón de (X, Y ) asigna probabilidades positivas a algunos sub-
conjuntos de R2 de la forma {x} × [a, b]. Sin p érdida de generalidad, podemos descartar aquellos
subconjuntos tales que P (X = x) = 0 marginalmente. Surge entonces el problema de c ómo defi-
nir una “funci ón densidad” que permita realizar los c álculos como lo hemos estado haciendo hasta
ahora. Es claro que al operar con esta funci ón densidad, se requerir á una combinaci ón de sumas e

´
integrales, correspondientes a la parte discreta y continua respectivamente. Para ello, introduzcamos

primero la siguiente notaci ón. Sea A ⊂ D un evento de inter és, y defina:
Ax = {y ∈ R : (x, y) ∈ A}
= {x ∈ R : (x, y) ∈ A}
Ay
[
A(X) = Ay
y∈Y
[
A(Y ) = Ax .
x∈X
Los conjuntos Ax y Ay reciben el nombre de secciones de A. Ası́, Ax contiene todos los puntos
y ∈ Y para los que el segmento paralelo al eje y y que pasa por x est á contenido en A. Por su
parte, A(X) contiene todos los posibles valores x tal que (x, y) ∈ A para alg ún y ∈ A(Y ). Luego,
A(X) puede verse como la proyecci ón de A sobre el eje x correspondiente a la primera coordenada.
Una interpretaci ón análoga vale para Ay y A(Y ). Observe que, en general, A ⊂ A(X) × A(Y ),
pudiendo la inclusi ón ser estricta. Por otra parte, el soporte de X es simplemente D(X), y el de Y
es D(Y ).
Con esta notaci ón, es posible probar que para un vector aleatorio mixto, existe una funci ón
densidad mixta pX,Y (x, y) tal que
   
X 
 Z 
 Z X 
P ((X, Y ) ∈ A) = pX,Y (x, y)dy = pX,Y (x, y) dy. (4.2.8)
   
x∈A(X)  y∈Ax

y∈A(Y ) x∈Ay
Además, la funci ón de probabilidad discreta marginal de X se obtiene mediante

Z
pX (x) = pX,Y (x, y)dy, x ∈ D(X), (4.2.9)
y∈D x
mientras que la densidad marginal de Y se obtiene mediante

X
fY (y) = pX,Y (x, y), x ∈ D(Y ). (4.2.10)
x∈D y
Finalmente, el procedimiento se extiende en forma an áloga al caso n > 2, en que algunas de

las coordenadas son variables discretas, y las otras poseen una funci ón densidad conjunta.
Ejemplo 4.2.5 Considere un vector aleatorio de tipo mixto (X, Y ) para el que X =
{0, 1, . . . , n}, e Y = (0, 1), y con
( n
(x) x+a−1
B(a,b) y (1 − y)n−x+b−1 si (x, y) ∈ X × Y
pX,Y (x, y) =
0 si no,
donde a y b son reales positivos, n ≥ 1 es un entero cualquiera, y B(a, b) es la funci ón
Beta, definida por
Γ(a)Γ(b)
B(a, b) = .
Γ(a + b)

´
Para calcular pX se procede como a continuaci ón, usando (4.2.9):

Z 1
pX (x) = pX,Y (x, y)dy
0
Z 1
n −1
= Beta(a, b) y x+a−1 (1 − y)n−x+b−1 dy
x 0
n

x Beta(x + a, n − x + b)
= ,
Beta(a, b)
para x = 0, 1, . . . , n. Por otra parte, de (4.2.10)
n
X
fY (y) = pX,Y (x, y)
x=0
n
−1 a−1 b−1
X n
= Beta(a, b) y (1 − y) y x (1 − y)n−x
x
x=0
y a−1 (1
− y)b−1
= ,
Beta(a, b)
y hemos visto ası́ que Y ∼ Beta(a, b). Se recomienda al lector establecer el parale-
lo entre la distribuci ón aquı́ considerada y un experimento consistente en escoger un
n úmero 0 < Y < 1 de acuerdo a la distribuci ón Beta(a, b), para luego lanzar una
moneda con probabilidad Y de dar cara n veces en forma independiente, anotando el
n úmero de caras X que se obtienen.
Ejemplo 4.2.6 Considere un vector aleatorio mixto (X, Y ) para el que

yx
x! exp(−2y) si (x, y) ∈ {0, 1, 2, . . .} × (0, ∞)
pX,Y (x, y) =
0 si no,
Usando (4.2.9) se obtiene, despu és de algunos c álculos directos,
Z ∞
exp(−2y)y x 1
pX (x) = dy = x+1 , x = 0, 1, 2, . . . ,
0 x! 2
y de (4.2.10)
∞
X exp(−2y)y x
fY (y) = = exp(−y), y > 0,
x!
x=0
y entonces Y tiene distribuci ón exponencial con par ámetro 1.
4.3 Independencia de Variables Aleatorias
Retomamos aquı́ el concepto de independencia de variables aleatorias introducido anteriormente,

dándole un tratamiento m ás general, y estudiando sus consecuencias en t érminos de las componen-
tes de un vector aleatorio.
Para comenzar, recordemos la definici ón, que se aplica a variables aleatorias de cualquier tipo.

´
o n 4.3.1 Las variables aleatorias X1 , . . . , Xn , definidas en el mismo espacio muestral, se

Definici´
dicen independientes si para cualquier colecci ón de n eventos A1 , . . . , An se tiene
n
Y
P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (Xi ∈ Ai ) (4.3.1)
i=1
Como en el caso discreto, independencia de X1 , . . . , Xn significa que eventos relacionados a

subconjuntos disjuntos de estas variables son independientes, es decir, la ocurrencia de uno de ellos
no da informaci ón respecto de la probabilidad de ocurrencia de los otros.
Es posible obtener diversas caracterizaciones de independencia. La m ás general de ellas dice
relaci ón con la factorizaci ón de la funci ón de distribuci ón conjunta.
Proposici oń 4.3.1
(a) Si X1 , . . . , Xn son independientes, entonces

n
Y
FX1 ,...,Xn (x1 , . . . , xn ) = FXi (xi ),
i=1
para cualquier x1 , . . . , xn .
(b) A la inversa, si existen funciones F1 , . . . , Fn tales que

n
Y
FX1 ,...,Xn (x1 , . . . , xn ) = Fi (xi ),
i=1
y si lim Fi (xi ) = 1, para i = 1, . . . , n, entonces X1 , . . . , Xn son independientes, y

xi →∞
FXi (xi ) = Fi (xi ) para i = 1, . . . , n.
En otras palabras, si las variables en cuesti ón son independientes, entonces la funci ón de dis-
tribuci ón conjunta de ellas factoriza como el producto de las funciones de distribuci ón univariadas
involucradas. La parte (b) establece un resultado recı́proco, pero esta vez, es necesario verificar que
para i = 1, . . . , n se tiene lim Fi (xi ) = 1. Note que no es necesario verificar que cada Fi es una
xi →∞
funci ón de distribuci ón. Por otro lado, si cada Xi es absolutamente continua (el caso discreto ya
fue anteriormente tratado en la Secci ón 2.8.1), podemos dar una versi ón de este resultado basado
s ólo en densidades.
Proposici oń 4.3.2
(a) Si X1 , . . . , Xn son independientes, entonces para cualquier x1 , . . . , xn se cumple:

n
Y
fX1 ,...,Xn (x1 , . . . , xn ) = fXi (xi ).
i=1

´
(b) Recı́procamente, si existen funciones densidad f1 , . . . , fn tales que

n
Y
fX1 ,...,Xn (x1 , . . . , xn ) = fi (xi ),
i=1
entonces X1 , . . . , Xn son independientes, y Xi tiene densidad fi , i = 1, . . . , n.
Ejemplo 4.3.1 Sea (X, Y ) un vector aleatorio con distribuci ón uniforme en el cı́rculo
unitario, esto es, −1
π si x2 + y 2 ≤ 1
fX,Y (x, y) =
0 si no
Tenemos que X = [−1, 1], y para −1 ≤ x ≤ 1 se cumple:
√
∞ 1−x2
1
Z Z
fX (x) = fX,Y (x, y)dy = √ dy
−∞ − 1−x2 π
√
2 1 − x2
= ,
π
y fX (x) = 0 si no. En completa analogı́a, fY (y) = fX (y), pero es claro que
fX,Y (x, y) 6= fX (x)fY (y), por lo que X e Y no son independientes.
Se propone como ejercicio verificar que si (X, Y ) est á distribuido uniformemente en el cuadra-
do unitario [0, 1] × [0, 1], entonces X e Y son independientes, cada una con distribuci ón U(0,1).
Ejemplo 4.3.2 Considere el vector aleatorio (X, Y ) con densidad conjunta

1 1 2 2
fX,Y (x, y) = p exp − (x − 2ρxy + y ) ,
2π 1 − ρ2 2(1 − ρ2 )
donde (x, y) ∈ R2 , y en donde −1 < ρ < 1. Se tiene que:

Z ∞
x2

1 1 2
fX (x) = exp − (y − ρx) − dy
2(1 − ρ2 )
p
2π 1 − ρ2 −∞ 2
2
exp − x2 Z ∞
1

2
= exp − (y − ρx) dy
2(1 − ρ2 )
p
2π 1 − ρ2 −∞
2
exp − x2
= √ ,
2π
y X ∼ N (0, 1). An álogamente, Y ∼ N (0, 1), pero es claro que X e Y no son
independientes, a menos que ρ = 0, caso en que la densidad conjunta sı́ factoriza. Este
ejemplo será nuevamente discutido m ás adelante.

´
4.4 Transformaciones de Vectores Aleatorios
4.4.1 Enfoque intuitivo
En muchos casos la informaci ón obtenida viene en la forma de un vector aleatorio n-dimensional
con distribuci ón conjunta conocida (ya sea mediante consideraciones propias al experimento, o
como parte de un cierto modelo probabilı́stico), pero lo que realmente interesa es determinar pro-
babilidades que digan relaci ón con una variable aleatoria definida como una funci ón del vector
aleatorio en cuesti ón, digamos, Y = g(X1 , . . . , Xn ). Ejemplos tı́picos de esta situaci ón son sumas,
promedios, productos, cambios de unidades de medida, etc étera. Concretamente, ya hemos visto el
caso en que la variable de inter és sea el n úmero de éxitos obtenidos hasta el n- ésimo ensayo en un
proceso de Bernoulli, que simplemente corresponde a sumar X 1 , . . . , Xn .
Note que
FY (y) = P (g(X1 , . . . , Xn ) ≤ y),
de modo que, en teorı́a el problema ya est á resuelto. En la pr áctica, sin embargo, son pocos los
casos en que este c álculo se puede hacer directamente. Veamos un par de ejemplos simples.
Ejemplo 4.4.1 Sea X ∼ N (0, 1), y sea Y = X 2 . Se tiene Y = R+ , de modo que para
y > 0:
√ √
FY (y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y)
Z √y
1 x2 √ √
= √
√ exp(− )dx = FX ( y) − FX (− y).
− y 2π 2
Luego, la densidad de Y se obtiene como FY0 (y):
d √ 1 √ 1
fY (y) = FY (y) = fX ( y) √ + fX (− y) √
dy 2 y 2 y
1
exp(− y2 ) y 2 −1 exp(− y2 )
= √ = 1√ ,
2 yπ 22 π
que corresponde a la distribuci ón Gamma( 12 , 2). Esta distribuci ón recibe tambi én el
nombre de Chi-cuadrado con 1 grado de libertad, como se ver á más adelante.
Ejemplo 4.4.2 Sean X1 y X2 i.i.d. con distribuci ón exponencial de par ámetro λ > 0.
Calculemos la densidad de Y = X1 + X2 . Es inmediato ver que Y = R+ , y que
fX1 ,X2 (x1 , x2 ) = λ−2 exp(−(x1 + x2 )/λ).

´
Entonces, para y > 0:

FY (y) = P (X1 + X2 ≤ y)
Z
= λ−2 exp(−(x1 + x2 )/λ)dx1 dx2
{x1 +x2 ≤y, x1 ≥0,x2 ≥0}
Z y Z y−x2
= λ−(x1 +x2 ) exp(−(x1 + x2 )/λ)dx1 dx2
0 0
Z y Z y−x2
−1 −1
= λ exp(−x2 /λ) λ exp(−x1 /λ)dx1 dx2
Z0 y 0
= λ−1 (exp(−x2 /λ) − exp(−y/λ))dx2

0
= 1 − exp(−y/λ) − λ−1 y exp(−y/λ),
y de aquı́ se concluye, mediante diferenciaci ón, que
fY (y) = λ−2 y exp(−y/λ),
y por lo tanto Y ∼ Γ(2, λ).
4.4.2 El Teorema del cambio de variables: caso biyectivo
Cuando la transformaci ón involucra funciones m ás complicadas, este m étodo “directo” se torna
difı́cil de emplear. Afortunadamente, es posible recurrir al Teorema del cambio de variables para
obtener el siguiente e importante resultado.
Teorema 4.4.1 Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional con valores en X ⊂ R n ,

y con densidad conjunta fX . Sea Y = g(X) una funci ón para la que g : X → Y = g(X ) ⊂ Rn
es biyectiva y tal que g −1 es continuamente diferenciable, y en donde X e Y son regiones abiertas
de Rn . Entonces Y es tambi én absolutamente continua, con densidad conjunta dada por
fX (g −1 (y))|det(Jg −1 (y))| si y ∈ Y

fY (y) = (4.4.1)
0 si no,
y en donde Jg −1 (y) es la matriz Jacobiana de la transformaci ón inversa g −1 = (g1−1 , . . . , gn−1 ) :

Y → X , dada por
 ∂g−1 (y) ∂g1−1 (y)

1
∂y1 ··· ∂yn
Jg −1 (y) = 
 .. .. 
.
 . . 
−1 −1
∂gn (y) ∂gn (y)
∂y1 ··· ∂yn
El teorema del cambio de variables es una herramienta bastante útil en el cálculo de distribu-
ciones de transformaciones de vectores aleatorios en el caso absolutamente continuo. Note que si
n = 1, el resultado se reduce a lo ya visto en el Teorema 3.9.1.
Veamos a continuaci ón algunas aplicaciones.

´
p Sean X e Y variables aleatorias i.i.d. con distribuci ón com ún U(0,1).
Ejemplo 4.4.3
Sean R = 2 log(1/(1 − X)) y Θ = π(2Y − 1). Vamos a probar que Z = R cos(Θ)
y W = R sin(Θ) son independientes e id énticamente distribuidos, con distribuci ón
com ún N(0,1).
Primero, observe que Θ tiene distribuci ón uniforme en [−π, π]. En efecto, si g(y) =
π(2y − 1) entonces g([0, 1]) = [−π, π], y es claro que g es biyectiva y continuamente
diferenciable. Por otra parte,

1 si y ∈ [0, 1]
fY (y) =
0 si no.
Además g −1 (θ) = 2−1 (1 + θπ −1 ), por lo que |det(Jg −1 (θ))| = (2π)−1 , y de (4.4.1)

se obtiene
(2π)−1 si θ ∈ [−π, π]

fΘ (θ) =
0 si no,
de modo que Θ ∼ U (−π, π). En segundo lugar, calculemos la densidadp de R. Es f ácil
ver que R toma valores en ]0, ∞[. Ahora, si definimos g(x) = 2 log(1/(1 − X)),
entonces g es tambi én biyectiva y continuamente diferenciable. Adem ás, se tiene que
g −1 (r) = 1 − exp(−r 2 /2), y |det(Jg −1 (r))| = r exp(−r 2 /2). De aquı́ se sigue que
r exp(−r 2 /2) si r > 0

fR (r) =
0 si no.
Veamos ahora c ómo obtener el resultado. Puesto que X e Y son independientes, R y

Θ también lo son, de modo que
(2π)−1 r exp(−r 2 /2) si r > 0, −π < θ < π

fR,Θ (r, θ) =
0 si no.
Defina ahora las nuevas variables
(z, w) = g(r, θ) = (r cos(θ), r sin(θ))
sobre {(r, θ) : r > 0, −π < θ < π}. Es claro que (Z, W ) toma valores en todo R 2 ,
−1 −1
√ g es biyectiva y continuamente diferenciable, y que g está dada por g (z, w) =
que
2 2
( z + w , arctan(w/z)). La matriz Jacobiana de la transformaci ón inversa está dada
por !
√ z √ w
Jg −1 (z, w) = z 2 +w2
−w
z 2 +w2
z ,
z 2 +w2 z 2 +w2
√
y de aquı́ |det(Jg −1 (z, w))| = 1/ z 2 + w2 . Por (4.4.1), la densidad conjunta de
(Z, W ) está dada por

1 1 2 2
fZ,W (z, w) = exp − (z + w )
2π 2
2
w2

1 z 1
= √ exp − × √ exp − ,
2π 2 2π 2

´
que factoriza como el producto de dos funciones densidad N(0,1), y esto es exactamente
lo que querı́amos probar. Por último, note que se puede tomar un único cambio de
variables, que no requiera calcular previamente las densidades de R y Θ. Los detalles
de este procedimiento se proponen como ejercicio.
Ejemplo 4.4.4 Suponga que X e Y son independientes con X ∼ Γ(a, λ), e Y ∼

Γ(b, λ). Calculemos la densidad de Z = X/(X + Y ).
A ún cuando este problema se puede hacer sin usar el Teorema del cambio de variables
(es un buen ejercicio), preferimos utilizar aquı́ dicho resultado. La idea es construir un
cambio de variables en R2 que tenga a X/(X + Y ) en alguna coordenada, y alguna
transformaci ón simple en la otra. Una vez obtenida la densidad conjunta, se procede
a calcular la densidad marginal de la variable de inter és. Este método suele aplicarse
muy a menudo en problemas de esta ı́ndole.
Consideremos (Z, W ) = g(X, Y ) = (X/(X + Y ), Y ), donde es claro que este nuevo
vector toma valores en ]0, 1[×]0, ∞[. Se tiene que g −1 (z, w) = (zw/(1 − z), w). Note
que la matriz Jacobiana es triangular, pues el elemento (2,1) de esta matriz es ∂w/∂z =
0, de modo que el determinante correspondiente es el producto de los elementos en la
diagonal de la matriz, y ası́ no se necesita calcular el elemento (1,2). Luego:
w w
|det(Jg −1 (z, w))| = ×1 = .
(1 − z)2 (1 − z)2
Por otra parte, debido a la independencia,

exp(− x+y
( a−1 b−1
x y )
Γ(a)Γ(b)λa+b
λ
si x, y > 0
fX,Y (x, y) =
0 si no.
Por (4.4.1), la densidad conjunta de (Z, W ) est á dada por

( a−1 (a+b)−1
z w w
Γ(a)Γ(b)λ a+b exp − λ(1−z) si 0 < z < 1, w > 0
fZ,W (z, w) =
0 si no.
Para obtener fZ , usamos (4.2.6):

Z ∞
fZ (z) = fZ,W (z, w)dw
0
Z ∞ (a+b)−1
z a−1

w w
= exp − dw
(1 − z)a+1 Γ(a)Γ(b) 0 λa+b λ(1 − z)

a−1 b−1 Z ∞ w(a+b)−1 exp − w
z (1 − z) λ(1−z)
= dw
B(a, b) 0 Γ(a + b)(λ(1 − z))a+b
z a−1 (1 − z)b−1
= ,
B(a, b)
y ası́ hemos probado que Z ∼ Beta(a, b).

´
Ejemplo 4.4.5 Sea (X, Y ) un vector aleatorio con valores en X ⊂ R 2 y densidad con-
junta fX,Y . Sea Z = X + Y . Podemos calcular la densidad de Z mediante aplicaci ón
del cambio de variables (Z, W ) = g(X, Y ) = (X + Y, Y ). Es claro que g cumple las
hip ótesis del Teorema 4.4.1, y que (x, y) = g −1 (z, w) = (z − w, w), por lo que es
fácil obtener que |det(Jg −1 (z, w))| = 1. Se tiene, entonces, que

fX,Y (z − w, w) si (z − w, w) ∈ X
fZ,W (z, w) =
0 si no,
por lo que Z ∞
fZ (z) = fX,Y (z − w, w)dw. (4.4.2)
−∞
En el caso particular que X e Y son independientes, la ecuaci ón (4.4.2) toma la forma
especial de convoluci ón de fX y fY :
Z ∞
fZ (z) = fX ? fY (z) = fX (z − w)fY (w)dw, (4.4.3)
−∞
es decir, si X e Y son independientes con densidades respectivas f X y fY , su suma

tiene densidad dada por (4.4.3).
A modo de aplicaci ón, consideremos el caso en que X ∼ Γ(a, λ), e Y ∼ Γ(b, λ). La
densidad de Z = X + Y se obtiene de (4.4.3) mediante
Z z( )
(z − w)a−1 e−(z−w)/λ wb−1 e−w/λ
fZ (z) = × dw
0 Γ(a)λa Γ(b)λb
(note que se debe cumplir z − w > 0)
Z z
exp(−z/λ)
= (z − w)a−1 wb−1 dw
Γ(a)Γ(b)λa+b 0
Z 1
exp(−z/λ) (a+b)−1
= ×z (1 − x)a−1 xb−1 dx
Γ(a)Γ(b)λa+b 0
(cambio de variable x = w/z)
z (a+b)−1 exp(−z/λ)B(a, b) z (a+b)−1 exp(−z/λ)
= = ,
Γ(a)Γ(b)λa+b Γ(a + b)λa+b
de donde se tiene Z = X + Y ∼ Γ(a + b, λ).
4.4.3 El teorema del cambio de variables: caso no biyectivo
Consideremos ahora el caso en que la funci ón g no es biyectiva o diferenciable en todo el conjunto
X . En este caso, y al igual que en el caso unidimensional, hay una versi ón del Teorema del cambio
de variables basado en la existencia de subconjuntos X 1 , X 2 , . . . tales que la restricci ón de g a X i
verifique las hip ótesis del Teorema 4.4.1. Este resultado se enuncia a continuaci ón.
Teorema 4.4.2 Sea X un vector aleatorio n-dimensional con valores en X . Suponga que existen
∞
S
subconjuntos de X 1 , X 2 , . . . de X tales que P (X ∈ X i ) = 1. Sea g : X → Y = g(X ) una
i=1

´
funci ón tal que hi , definida como la restricci ón de g a X i , verifica las hip ótesis del Teorema 4.4.1.
Entonces Y = g(X) tiene densidad conjunta dada por
 ∞
 P f (h−1 (y))|det(Jh−1 (y))| si y ∈ Y
X i i
fY (y) = (4.4.4)
 i=1
0 si no.
Veamos una aplicaci ón de este resultado.
Ejemplo 4.4.6 Sean X1 y X2 variables aleatorias i.i.d. con distribuci ón com ún N(0,1).
Mostremos que Y1 = X12 + X22 e Y2 = X1 /X2 son independientes. El candidato
natural para funci ón g es en este caso g(x1 , x2 ) = (x21 + x22 , x1 /x2 ). Es claro, sin em-
bargo, que esta funci ón no es biyectiva. Por ejemplo, g(1, 1) = g(−1, −1). Adem ás,
no está definida para (x1 , 0), cualquiera que sea x1 ∈ R. Claramente X = R2 , y
g(X ) = Y = R2 . Consideremos ahora X 1 = {(x1 , x2 ) : x1 < 0}, y X 2 =
{(x1 , x2 ) : x1 > 0}. Puesto que P (X ∈ {(x1 , x2 ) : x1 = 0}) = 0 (X es ab-
solutamente continua) se tiene que P (X ∈ X 1 ∪ X 2 ) = 1. Además, h1 y h2 , las
restricciones de g a X 1 y X 2 respectivamente, son claramente biyectivas y satisfacen
las hip ótesis del Teorema 4.4.2.
Hay otra faceta interesante de este problema, y que consiste en que h −1
i no necesita ser
determinado explı́citamente. Note que
−1
Jh−1 −1
1 (y1 , y2 ) = Jh1 (h1 (y1 , y2 )) ,
de modo que
|det(Jh−1 −1 −1
1 (y1 , y2 ))| = |det(Jh1 (h1 (y1 , y2 )))| .
Además,
2x1 2x2
Jh1 (x1 , x2 ) = ,
1/x2 −x1 /x22
y |det(Jh1 (x1 , x2 ))| = −2(x21 /x22 + 1) y por lo tanto
1
|det(Jh1 (h−1
1 (y1 , y2 )))| = .
2(y22+ 1)
Análogamente,
1
|det(Jh2 (h−1
2 (y1 , y2 )))| = ,
2(y22+ 1)
y la densidad conjunta de (Y1 , Y2 ) se obtiene de aplicar (4.4.4):
exp(−(x21 + x22 )/2)

fX1 ,X2 (x1 , x2 ) = ,
2π

´
y se tiene finalmente que
fY (y) = fY (h−1 −1 −1 −1
1 (y))|det(Jh1 (y))| + fY (h2 (y))|det(Jh2 (y))|
exp(−y1 /2) exp(−y1 /2) exp(−y1 /2)
= 2 + 2 =
4π(1 + y2 ) 4π(1 + y2 ) 2π(1 + y22 )
exp(−y1 /2) 1
= × ,
2 π(1 + y22 )
y puesto que esta densidad conjunta factoriza como el producto de la densidad exponen-
cial de parámetro 2, y de la densidad de Cauchy – definida en (3.8.2) –, concluimos que
Y1 ∼ Exp(2), e Y2 tiene distribuci ón de Cauchy, siendo ellas adem ás, independientes.
4.4.4 Aplicaci oń: Estad´

ı sticos de orden
Para finalizar esta secci ón, estudiaremos los estadı́sticos de orden asociados a una secuencia de
variables aleatorias i.i.d. X1 , . . . , Xn , definidas como sigue:
o n 4.4.1 Considere X1 , . . . , Xn variables aleatorias i.i.d. con Xi ∼ FX . Los estadı́sti-

Definici´
cos de orden de esta muestra se definen como las variables aleatorias X (1) , X(2) , . . . , X(n) , donde
X(1) (ω), . . . , X(n) (ω) se obtienen de ordenar X1 (ω), . . . , Xn (ω) de menor a mayor. En consecuen-
cia, X(1) ≤ X(2) ≤ · · · ≤ X(n) , con X(1) = min{X1 , . . . , Xn }, y X(n) = max{X1 , . . . , Xn }.
Proposici oń 4.4.1 Supongamos que X1 , . . . , Xn son variables aleatorias i.i.d. con densidad com ún
fX y funci ón de distribuci ón com ún FX , y con valores en X . Entonces, la densidad conjunta de
los estadı́sticos de orden est á dada por
n

 n! Q f (x ) si x < x < · · · < x
X i 1 2 n
fX(1) ,...,X(n) (x1 , . . . , xn ) = i=1 (4.4.5)
0 si no.

Demostraci oń: Considere la funci ón g : X n → X n dada por
g(x1 , x2 , . . . , xn ) = xπ = (xπ1 , xπ2 , . . . , xπn ),
donde π = (π1 , . . . , πn ) es una permutaci ón que deja los elementos x1 , . . . , xn ordenados ascen-
dentemente, esto es, xπ1 ≤ xπ2 ≤ · · · ≤ xπn . Note que hay n! permutaciones de x1 , . . . , xn . Por
otra parte, los casos en que xi = xj para alg ún i 6= j pueden descartarse, pues tiene probabilidad
0. Ası́, si P es el conjunto de estas n! permutaciones de {1, 2, . . . , n}, tenemos que a π ∈ P se le
asocia un subconjunto X π tal que si x ∈ X π se cumple xπ1 ≤ · · · ≤ xπn . Se tiene entonces que la
funci ón hπ definida como la restricci ón de g a X π es biyectiva y diferenciable. M ás a ún, la matriz
Jacobiana de hπ es una permutaci ón de las filas de la matriz identidad, y por lo tanto su determi-
nante es ya sea 1 ó -1,Sy se tiene que |det(Jhπ (h−1π (xπ )))| = 1 para todo π ∈ P. Finalmente, se
cumple que P (X ∈ ) = 1, y el resultado se tiene entonces como consecuencia inmediata de
π∈P
(4.4.4).
Veamos ahora algunas consecuencias de este resultado.

´
1. La densidad de X(k) está dada por

n−1
FX (xk )k−1 (1 − FX (xk ))n−k fX (xk )

n k−1 si x ∈ X
fX(k) (xk ) = (4.4.6)
0 si no.
En efecto, la densidad conjunta (4.4.5) se puede integrar con respecto a x 1 , . . . , xk−1 y a

xk+1 , . . . , xn . Ası́, integrando xn , con x1 < · · · < xn−1 , y con xi ∈ X se tiene
(n−1 )
Y
fX(1) ,...,X(n−1) (x1 , . . . , xn−1 ) = n! fX (xi ) (1 − FX (xn−1 )).
i=1
Integrando respecto de xn−1 se tiene para x1 < · · · < xn−2 :

(n−2 )
n! Y
fX(1) ,...,X(n−2) (x1 , . . . , xn−2 ) = fX (xi ) (1 − FX (xn−2 ))2 .
2!
i=1
Por inducci ón, para x1 < · · · < xk se tiene:

k
( )
n! Y
fX(1) ,...,X(k) (x1 , . . . , xk ) = fX (xi ) (1 − FX (xk ))n−k .
(n − k)!
i=1
Ahora, integrando con respecto a x1 se obtiene que para x2 < · · · < xk :

( k )
n! Y
fX(2) ,...,X(k) (x2 , . . . , xk ) = fX (xi ) FX (x2 )(1 − FX (xk ))n−k .
(n − k)!
i=2
Integrando respecto de x2 se encuentra que para x3 < · · · < xk :

( k )
n! Y
fX(3) ,...,X(k) (x3 , ..., xk ) = fX (xi ) FX (x3 )2 (1 − FX (xk ))n−k
2!(n − k)!
i=3
y finalmente, por inducci ón se obtiene el resultado.
2. El caso particular k = 1 corresponde al mı́nimo entre {X1 , . . . , Xn }. En este caso, la densi-

dad se obtiene de (4.4.6) con k = 1:
n(1 − FX (x1 ))n−1 fX (x1 ) si x1 ∈ X

fX(1) (x1 ) = (4.4.7)
0 si no.
Análogamente, el caso k = n corresponde al m áximo entre X1 , . . . , Xn . Por (4.4.6)
nFX (xn )n−1 fX (xn ) si x1 ∈ X

fX(n) (xn ) = (4.4.8)
0 si no.

´
3. Una forma alternativa de derivar los resultados del punto anterior es la siguiente.
P (X(n) ≤ x) = P (max{X1 , . . . , Xn } ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x)
n
Y
= P (Xi ≤ x) (por independencia de X1 , . . . , Xn )
i=1
= FX (x)n .
Ası́,
d d
fX(n) (x) = FX(n) (x) = FX (x)n
dx dx
= nFX (x)n−1 fX (x) para x ∈ X .
Por otra parte,
P (X(1) > x) = P (min{X1 , . . . , Xn } > x) = P (X1 > x, . . . , Xn > x)
n
Y
= P (Xi > x) (por independencia de X1 , . . . , Xn )
i=1
= (1 − FX (x))n .
Ası́, FX(1) (x) = 1 − (1 − FX (x))n , y
d d
fX(1) (x) = FX(1) (x) = (1 − (1 − FX (x)))n
dx dx
= n(1 − FX (x))n−1 fX (x) para x ∈ X .
4. La densidad conjunta de X(1) y X(n) se puede obtener de (4.4.5), mediante integrar las
variables x2 , . . . , xn−1 . Alternativamente, considere el siguiente razonamiento. El evento
(X(1) > x1 , X(n) < xn ) equivale a
min{X1 , . . . , Xn } > x1 , max{X1 , . . . , Xn } ≤ xn ,
y por lo tanto
P (X(1) > x1 , X(n) ≤ xn ) = P (x1 < X1 ≤ x1 , . . . , xn < Xn ≤ xn )
n
Y
= P (x1 < Xi ≤ xn )
i=1
= (FX (xn ) − FX (x1 ))n .
Note que
P (X(n) ≤ xn ) = P (X(1) ≤ x1 , X(n) ≤ xn ) + P (X(1) > x1 , X(n) ≤ xn ),
de donde se obtiene que
FX(1) ,X(n) (x1 , xn ) = P (X(1) ≤ x1 , X(n) ≤ xn )
= P (X(n) ≤ xn ) − P (X(1) > x1 , X(n) ≤ xn )
= FX (xn )n − (FX (xn ) − FX (x1 ))n .

´
Finalmente, la densidad conjunta en cuesti ón se obtiene de derivar parcialmente con respecto
a cada argumento esta última expresi ón:
fX(1) ,X(n) (x1 , xn ) = n(n − 1)(FX (xn ) − FX (x1 ))n−2 fX (x1 )fX (xn ), (4.4.9)
para x1 < xn , y con x1 , xn ∈ X , y es claro que fX(1) ,X(n) (x1 , xn ) vale cero en caso contrario.
Veamos algunos ejemplos.
Ejemplo 4.4.7 Si X1 , . . . , Xn son i.i.d con distribuci ón exponencial de par ámetro λ >
0, entonces por (4.4.7), y recordando que FX (x) = 1 − exp(−x/λ), la densidad de
X(1) está dada por
n
fX(1) (x) = λ exp(−nx/λ) si x > 0
0 si no,
y se tiene que X(1) ∼ Exp(λ/n).
Ejemplo 4.4.8 Sean X1 , . . . , Xn variables aleatorias i.i.d. U(0,1), y sean U = X(1) , y

V = X(n) . Por lo hecho anteriormente, se tiene que
n(n − 1)(v − u)n−2 si 0 ≤ u < v ≤ 1

fU,V (u, v) = (4.4.10)
0 si no.
Ejemplo 4.4.9 Calculemos ahora la densidad de X = V − U en el Ejemplo 4.4.8. Sea

(x, y) = g(u, v) = (v − u, v). El Jacobiano de esta transformaci ón tiene determinante
1, y además (u, v) = g −1 (x, y) = (x + y, y). Luego,
n(n − 1)xn−2 si 0 ≤ x ≤ y ≤ 1

fX,Y (x, y) =
0 si no,
por lo que
Z 1
fX (x) = n(n − 1)xn−2 dy = n(n − 1)xn−2 (1 − x),
x
si 0 ≤ x ≤ 1, y 0 si no. Se tiene entonces que X ∼ Beta(n − 1, 2). La varia-

ble X aquı́ considerada suele llamarse en Estadı́stica el rango de las observaciones
X1 , . . . , X n .
4.5 Valor Esperado de Vectores Aleatorios
4.5.1 Definici´
on
Corresponde ahora definir el valor esperado de un vector aleatorio, y la correspondiente generaliza-

ci ón del concepto de varianza.

´
o n 4.5.1 Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional. El vector de valores

Definici´
esperados o esperanza de X se define mediante
   
X1 E(X1 )
 X2   E(X2 ) 
E(X) = E  .  =  , (4.5.1)
   
. ..
 .   . 
Xn E(Xn )
provisto que todos los valores esperados en cuesti ón existan.
Se tiene entonces que la esperanza del vector aleatorio X es simplemente el vector de los valores
esperados de cada componente.
4.5.2 Valor esperado de funciones de un vector aleatorio
El caso del valor esperado de una funci ón del vector aleatorio X se trata a continuaci ón.
Teorema 4.5.1 Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional, y sea g : Rn → Rm

una funci ón dada por  
g1 (x1 , . . . , xn )
 g2 (x1 , . . . , xn ) 
g(x1 , . . . , xn ) =  ,
 
..
 . 
gm (x1 , . . . , xn )
donde g1 , . . . , gm son m funciones definidas en Rn y a valores reales. Entonces:
(a) Si m = 1, el valor esperado de g(X) est á dado por

 X
 g(x)pX (x) si X es discreto
E(g(X)) = x∈X (4.5.2)
 R R
· · · g(x)fX (x) si X es continuo,
provisto que la suma o integral m últiple converja absolutamente.
(b) Si m ≥ 2 entonces
 
E(g1 (x1 , . . . , xn ))
 E(g2 (x1 , . . . , xn )) 
E(g(X)) = E(g(X1 , . . . , Xn )) =  , (4.5.3)
 
..
 . 
E(gm (x1 , . . . , xn ))
provisto que todas los valores esperados en cuesti ón existan.

´
El resultado del Teorema 4.5.1 es simplemente la correspondiente generalizaci ón multivariada

del Teorema 3.8.1 del capı́tulo anterior.
En el caso particular m = 1 y g definida por la suma de las coordenadas de x, esto es,
n
P
g(x1 , . . . , xn ) = xi se puede probar que el Teorema 4.5.1 establece que si E(X i ) existe pa-
i=1
n
P
ra todo i = 1, . . . , n, entonces Xi también posee valor esperado y
i=1
n
X n
X
E( Xi ) = E(Xi ). (4.5.4)
i=1 i=1
Esto simplemente establece que la esperanza es lineal.
4.5.3 Valor esperado de productos de variables aleatorias independientes
Consideremos nuevamente el caso especial m = 1, y donde g est á dada ahora por g(x1 , . . . , xn ) =
n
Q
x1 x2 · · · xn = xi , esto es, el producto de las n coordenadas. Si X1 , . . . , Xn son además inde-
i=1
pendientes, entonces, en el caso absolutamente continuo se tiene:
E(g(X1 , . . . , Xn )) = E(X1 · · · Xn )
Z Z
= · · · x1 · · · xn fX1 (x1 ) · · · fXn (xn )dx1 · · · dxn
Z (Y n
Z )
= ··· xi fXi (xi ) dx1 · · · dxn
i=1
n Z
Y n
Y
= xi fXi (xi )dxi = E(Xi ).
i=1 X i=1
Se puede probar que este resultado vale no s ólo en el caso continuo, y ası́ tenemos:
Proposici oń 4.5.1 Sean X1 , . . . , Xn variables aleatorias independientes cada una con valor espe-
Qn
rado finito E(Xi ). Entonces E( Xi ) también existe y
i=1
n
Y n
Y
E( Xi ) = E(Xi ). (4.5.5)
i=1 i=1
Nota: Es posible probar que una condici ón suficiente para asegurar la existencia de E(XY ), es que
ambos X e Y posean segundos momentos, esto es, E(X 2 ) < ∞ y E(Y 2 ) < ∞.
Juntando los resultados de (4.5.4) y (4.5.5) podemos establecer lo siguiente:
Proposici oń 4.5.2 Sean X1 , . . . , Xn variables aleatorias independientes con segundos momentos
finitos. Entonces
n
X Xn
V ar( Xi ) = V ar(Xi ). (4.5.6)
i=1 i=1

´
Demostraci oń: Basta probar el caso n = 2, del que el resultado se obtiene por inducci ón sobre n.
Por definici ón se cumple:
V ar(X + Y ) = E(X + Y )2 − (E(X + Y ))2
= E(X 2 + Y 2 + 2XY ) − (E(X) + E(Y ))2
= V ar(X) + V ar(Y ) + 2E(X)E(Y ) − 2E(X)E(Y )
= V ar(X) + V ar(Y ).
Ejemplo 4.5.1 Sean X1 y X2 variables aleatorias i.i.d. U(0,1). Calculemos E(X(1) )

de dos formas diferentes. Primero, por (4.4.7) se tiene que
Z 1 Z 1
E(X(1) ) = x · 2(1 − x)dx = 2 x(1 − x)dx
0 0
2Γ(2)Γ(2) 2 · 1! 1
= = = .
Γ(2 + 2) 3! 3
N ótese que este c álculo es inmediato debido a que (4.4.7) se habı́a obtenido previa-
mente. Por otra parte,
Z 1Z 1
E(X(1) ) = min{x1 , x2 } · 1dx1 dx2
0 0
Z 1 Z x2 Z 1Z 1
= x1 dx1 dx2 + x2 dx1 dx2
0 0 0 x2
1 1
x22
Z Z
= dx2 + x2 (1 − x2 )dx2
2 0 0
1 1 1 1
= + − =
6 2 3 3
Ejemplo 4.5.2 Sean X, Y, Z i.i.d. U(0,1), y defina W = (X + Y )Z. Calculemos

E(W ) y V ar(W ). Tenemos que E(X) = 1/2, y E(X 2 ) = 1/3.
E(W ) = E(XZ + Y Z) = E(XZ) + E(Y Z)
= E(X)E(Z) + E(Y )E(Z)
1 1 1 1 1
= · + · = .
2 2 2 2 2
Por otra parte,
E(W 2 ) = E((X + Y )2 Z 2 ) = E(Z 2 )E(X 2 + Y 2 + 2XY )
1
E(X 2 ) + E(Y 2 ) + 2E(X)E(Y )

=
3
1 1 1 1
= + +
3 3 3 2
7
= ,
18

´
de donde se sigue que

7 1 5
V ar(W ) = E(W 2 ) − E(W )2 = − = ≈ 0.1389
18 4 36
Ejemplo 4.5.3 Considere un punto (X, Y ) distribuido uniformemente en el cı́rculo

unitario centrado en el origen. ¿Cu ál es la distancia media de este punto al origen?.
¿Cuál es la varianza?.
Tenemos que −1
π si x2 + y 2 ≤ 1
fX,Y (x, y) =
0 si no.
√
La distancia desde (X, Y ) al origen est á dada por R = X 2 + Y 2 , de modo que
necesitamos E(R). Por (4.5.2):
ZZ p
E(R) = π −1 x2 + y 2 dxdy.
{(x,y):x2 +y 2 ≤1}
A ún cuando esta integral se puede calcular directamente, es conveniente cambiar las
variables de integraci ón a coordenadas polares. Ası́,
Z1 Zπ Z1
−1 −1 2
E(R) = π r · rdrdθ = π · 2π r2 dr = .
3
0 −π 0
Similarmente,
Z1 Zπ Z1
2 −1 2 −1 1
E(R ) = π r · rdrdθ = π · 2π r3 dr = ,
2
0 −π 0
de donde se obtiene que V ar(R) = 1/18.
Ejemplo 4.5.4 Consideremos X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón

Bernoulli(p), y sea N independiente de éstas, con distribuci ón Poisson(λ), donde λ >
0. Considere la variable aleatoria
N
X
SN = Xi ,
i=1
la cual se puede interpretar como determinar un n úmero aleatorio de variables aleato-

rias con distribuci ón Bernoulli(p) de acuerdo a la distribuci ón de N , y luego sumarlas.
Para efectuar el c álculo de E(SN ), es conveniente considerar la distribuci ón conjunta
de (SN , N ). Ası́, note que para k ≤ n:
P (SN = k, N = n) = P (SN = k | N = n)P (N = n)

= P (Sn = k | N = n)P (N = n) = P (Sn = k)P (N = n)
λn exp(−λ) pk (1 − p)n−k λn exp(−λ)

n k
= p (1 − p)n−k · = .
k n! k!(n − k)!

´
Note que P (Sn = k | N = n) = P (Sn = k), pues, una vez que el n úmero de
variables a sumar se fija, la dependencia en N se elimina. La raz ón es que X1 , X2 , . . .
es independiente de N . Luego,
n
∞ X
X pk (1 − p)n−k λn exp(−λ)
E(SN ) = k·
k!(n − k)!
n=0 k=0
∞ X n
=
(k − 1)!(n − k)!
n=1 k=1
∞ n−1
X pj (1 − p)n−1−j
X
= p λn exp(−λ) (j = k − 1)
j!(n − 1 − j)!
n=1 j=0
 
∞ n−1 n−1
X λ exp(−λ)  X n−1 j
= pλ p (1 − p)n−1−j 
(n − 1)! j
n=1 j=0
∞
X λn−1 exp(−λ)
= pλ
(n − 1)!
n=1
= pλ.
Note que el resultado obtenido coincide con E(X1 )E(N ), lo cual, lejos de ser una
coincidencia, tiene una justificaci ón que se ver á más adelante. Para calcular V ar(SN ),
obtengamos primero E(SN (SN − 1)). Se tiene:
∞ X
n
E(SN (SN − 1)) = k(k − 1) ·
k!(n − k)!
n=0 k=0
∞ X n
=
(k − 2)!(n − k)!
n=2 k=2
∞ n−2
2
X
n
X pj (1 − p)n−2−j
= p λ exp(−λ)
j!(n − 2 − j)!
n=2 j=0
(Note el cambio j = k − 2)
∞ n−2
λn exp(−λ) X n − 2
X
= p2 pj (1 − p)n−2−j
(n − 2)! j
n=2 j=0
∞
2 2
X λn−2 exp(−λ)
= p λ
(n − 2)!
n=2
= p 2 λ2 .
Luego,
2
E(SN ) = E(SN (SN − 1)) + E(SN ) = p2 λ2 + pλ,
de donde, finalmente:
2
V ar(SN ) = E(SN ) − E(SN )2 = pλ.

´
Una forma alternativa de derivar este resultado consiste en calcular directamente la

distribuci ón de SN . Se propone como ejercicio demostrar que en este caso S N ∼
Poisson(pλ), de donde el resultado se sigue inmediatamente.
4.5.4 Covarianza y coeficiente de correlaci´

on
En el caso univariado, vimos que la varianza proporciona una idea de la dispersi ón de la distribuci ón
de la variable aleatoria considerada. Cuando se trabaja con un vector aleatorio X = (X 1 , . . . , Xn ),
la varianza de cada uno de los Xi no proporciona una visi ón completa de la dispersi ón de la dis-
tribuci ón conjunta, ni da una idea del grado de dependencia que pueda haber entre las variables.
Recurrimos entonces a la versi ón multivariada de varianza, llamada matriz de varianza-covarianza
de X.
o n 4.5.2 La matriz de varianza-covarianza, o simplemente matriz de covarianza de X se

Definici´
define mediante
V (X) = E (X − E(X))(X − E(X))0 ,

(4.5.7)
provisto que todos los valores esperados en cuesti ón existan.
La matriz de covarianza de X tiene una estructura novedosa. El elemento V (X) i,j con i, j =
1, . . . , n corresponde a
V (X)i,j = E ((Xi − E(Xi ))(Xj − E(Xj )))

= E(Xi Xj ) − E (E(Xi )Xj ) − E (Xi E(Xj )) + E (E(Xi )E(Xj ))
= E(Xi Xj ) − E(Xi )E(Xj ) − E(Xi )E(Xj ) + E(Xi )E(Xj )
= E(Xi Xj ) − E(Xi )E(Xj ),
asumiendo que todos estos valores esperados existen. En el caso que i = j, esto se reduce simple-
mente a la varianza de Xi . En el caso i 6= j, nos referiremos a esta cantidad como la covarianza
entre Xi y Xj , de acuerdo a la siguiente definici ón formal.
Definici´
o n 4.5.3
1. La covarianza entre las variables aleatorias X e Y se define como
Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(X), (4.5.8)
provisto que los valores esperados en cuesti ón existan. Es inmediato ver que en este caso
se tiene Cov(X, Y ) = Cov(Y, X), esto es, la covarianza, vista como una funci ón de dos
variables aleatorias, es sim étrica.
2. El coeficiente de correlaci ón entre X e Y se define como

Cov(X, Y ) Cov(X, Y )
ρ(X, Y ) = p p = , (4.5.9)
V ar(X) V ar(Y ) σ(X)σ(Y )
provisto que todas las cantidades en cuesti ón existan.

´
El concepto de covarianza se puede tambi én extender a vectores aleatorios.
Definició n 4.5.4 Si X e Y son vectores aleatorios de dimensi ón n y m respectivamente, se define

la matriz de covarianza entre X e Y mediante
Cov(X, Y ) = E((Y − E(Y ))(X − E(X))0 ). (4.5.10)
Ası́, Cov(X, Y ) es una matriz de n × m cuyo elemento (i, j) es Cov(Xi , Yj ). Note que
Cov(X, Y ) = Cov(Y , X)0 , y que Cov(X, X) es simplemente la matriz de varianza-covarianza
de X.
Veamos ahora algunas propiedades relacionadas a estos conceptos.
1. Si X e Y son independientes, entonces
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E(X)E(Y ) − E(X)E(Y ) = 0,
y en consecuencia ρ(X, Y ) = 0. En general, si Cov(X, Y ) = 0, diremos que X e Y son no

correlacionadas.
2. Se tiene que para todo a, b, c, d, n úmeros reales, y puesto que E(a + bX) = a + bE(X),
E(c + dY ) = c + dE(Y ), entonces:
Cov(a + bX, c + dY ) = E {b(X − E(X))d(Y − E(Y ))}

= bdE((X − E(X))(Y − E(Y )))
= bdCov(X, Y ),
y puesto que V ar(a + bX) = b2 V ar(X), y V ar(c + dY ) = d2 V ar(Y ), entonces si adem ás
b 6= 0 y d 6= 0 se cumple:
ρ(a + bX, c + dY ) = sign(b)sign(d)ρ(X, Y ).
En particular, si b, d > 0, ρ(a + bX, c + dY ) = ρ(X, Y ).

En otras palabras, el coeficiente de correlaci ón es invariante bajo cambios de escala y locali-
zaci ón.
3. Si X e Y son no correlacionadas, ello no implica que sean independientes, como lo muestra

el siguiente ejemplo. Sea X ∼ U (−1, 1), e Y = X 2 . Es claro que E(X) = 0, y que
1
x3
Z
E(XY ) = E(X 3 ) = dx = 0,
−1 2
de modo que Cov(X, Y ) = 0, pero es claro que X e Y no pueden ser independientes.
4. Si E(X 2 ) < ∞ entonces Cov(X, X) = E(X 2 ) − (E(X))2 = V ar(X).

´
5. Si las expresiones involucradas existen, entonces

n
X m
X n
X m
X n
X m
X
Cov( Xi , Yj ) = E( Xi Yj ) − E( Xi )E( Yj )
i=1 j=1 i=1 j=1 i=1 j=1
Xn Xm n
X m
X
= E( Xi Y j ) − E(Xi ) E(Yj )
i=1 j=1 i=1 j=1
X m
n X n X
X m
= E(Xi Yj ) − E(Xi )E(Yj )
i=1 j=1 i=1 j=1
Xn X m
= (E(Xi Yj ) − E(Xi )E(Yj ))
i=1 j=1
n X
X m
= Cov(Xi , Yj ),
i=1 j=1
lo que muestra que la covarianza, visto como una funci ón de dos variables aleatorias es bili-
nieal.
6. Desigualdad de Cauchy-Schwartz:
p p
|Cov(X, Y )| ≤ V ar(X) V ar(Y ).
En particular, se tiene que

−1 ≤ ρ(X, Y ) ≤ 1,
cualesquiera que sean X e Y , y asumiendo que las cantidades involucradas existen.
7. Si Y = a + bX, con b 6= 0 entonces:
Cov(X, Y ) = Cov(a + bX, X) = E((a + bX)X) − E(a + bX)E(X)

= aE(X) + bE(X 2 ) − aE(X) − bE(X)2
= b(E(X 2 ) − E(X)2 ) = bV ar(X),
de donde se sigue que

|ρ(X, Y )| = 1.
Es decir, si Y se obtiene de una transformaci ón lineal afı́n de X, entonces el coeficiente de
correlaci ón entre X e Y es 1 o -1, dependiendo del signo de b. Esto muestra que ρ(X, Y )
mide el grado de dependencia lineal que existe entre X e Y , correspondiendo el caso extremo
(esto es, |ρ(X, Y )| = 1) a la dependencia lineal perfecta.
8. Sea X = (X1 , . . . , Xn ) y A = (ai,j ) una matriz de n × n. Defina Y = AX, donde los

vectores son interpretados como columnas. Suponga que E(X) = µ y que V (X) = Σ.
Pn n
P
Puesto que Yk = ak,j Xj , se tiene que E(Yk ) = ak,j E(Xj ), y de aquı́ se obtiene que
j=1 j=1

´
E(Y ) = Aµ. Por otra parte,

n
X n
X
Cov(Yk , Yl ) = Cov( ak,j Xj , al,m Xm )
j=1 m=1
n
X n
X
= ak,j Cov(Xj , Xm )am,l ,
j=1 m=1
y hemos ası́ probado las f órmulas
E(Y ) = AE(X) y V (Y ) = AΣA0 . (4.5.11)
Es directo ver que estas propiedades tambi én valen en el caso en que A es una matriz cual-
quiera, no necesariamente cuadrada.
9. Sean X ∈ Rn , Y ∈ Rm vectores aleatorios con matriz de covarianza C = Cov(X, Y ).

n
P
Considere matrices A de k × n y B de l × m. La i- ésima coordenada de AX es Ais Xs ,
s=1
m
P
la j-ésima coordenada de BY es Bjt Yt , y la covarianza entre estas coordenadas es
t=1
n
X m
X n X
X m
Cov( Ais Xs , Bjt Yt ) = Ais Cov(Xs , Yt )Bjt ,
s=1 t=1 s=1 t=1
de donde se puede obtener directamente que
Cov(AX, BY ) = ACB 0 . (4.5.12)
Note que la segunda ecuaci ón en (4.5.11) se puede obtener como caso particular de (4.5.12).
10. Para vectores aleatorios X e Y , y para vectores y matrices a, b, A, B con dimensiones

apropiadas, se tiene que
Cov(a + AX, b + BY ) = ACov(X, Y )B 0 ,
que es una ligera generalizaci ón de (4.5.12).
11. Se propone como ejercicio mostrar que
E(XY 0 ) = Cov(X, Y ) + E(X)(E(Y ))0 ,
y que si adem ás X e Y tienen las mismas dimensiones, entonces
V (X + Y ) = V (X) + V (Y ) + Cov(X, Y ) + Cov(X, Y )0 .

´
Ejemplo 4.5.5 Sean X1 , . . . , Xn i.i.d. U(0,1). Calculemos el coeficiente de correla-

ci ón entre X(1) y X(n) . Por (4.4.10), se tiene que
Z 1Z v
E(X(1) X(n) ) = n(n − 1) uv(v − u)n−2 dudv (w = u/v)
0 0
Z 1 Z 1
2 n−2
= n(n − 1) v wv (v − wv) dw dv
0 0
Z 1 Z 1
n+1
= n(n − 1) v dv · w(1 − w)n−2 dw
0 0
1
= n(n − 1) · · B(2, n − 1)
n+2
n(n − 1) 1!(n − 2)!
= ·
n+2 n!
1
= .
n+2
Por otra parte,
Z 1Z v
E(X(1) ) = n(n − 1) u(v − u)n−2 dudv ( tome w = u/v)
0 0
Z 1 Z 1
2 n−2
= n(n − 1) 1 wv (v − wv) dw dv
0 0
Z 1 Z 1
n
= n(n − 1) v dv · w(1 − w)n−2 dw
0 0
1 n(n − 1) 1!(n − 2)!
= n(n − 1) · · B(2, n − 1) = ·
n+1 n+1 n!
1
= .
n+1
Además:
Z 1Z v
E(X(n) ) = n(n − 1) v(v − u)n−2 dudv ( tome w = u/v)
0 0
Z 1 Z 1
n−2
= n(n − 1) v v(v − wv) dw dv
0 0
Z 1 Z 1
n
= n(n − 1) v dv · (1 − w)n−2 dw
0 0
1 1
= n(n − 1) · ·
n+1 n−1
n
= ,
n+1
por lo que
1 1 n 1
Cov(X(1) , X(n) ) = − · = .
n+2 n+1 n+1 (n + 1)2 (n + 2)

´
En forma análoga se prueba que

2 2 2 n
E(X(1) )= y E(X(n) )= ,
(n + 1)(n + 2) n+2
de donde
n
V ar(X(1) ) = V ar(X(n) ) = ,
(n + 1)2 (n + 2)
y, finalmente,
1
ρ(X(1) , X(n) ) = .
n
Ejemplo 4.5.6 Sea (X, Y ) con densidad conjunta dada por

1 1 2 2
fX,Y (x, y) = p exp − (x − 2ρxy + y ) ,
2π 1 − ρ2 2(1 − ρ2 )
donde (x, y) ∈ R2 , y en donde −1 < ρ < 1. Esta densidad corresponde a una forma
de la distribuci ón normal bivariada, como ya ha sido mencionado en el Ejemplo 4.3.1.
Calculemos ahora Cov(X, Y ). Puesto que sabemos que marginalmente ambos X e Y
tienen distribuci ón N (0, 1), s ólo necesitamos calcular E(XY ). Se tiene:
Z ∞Z ∞
(x2 − 2ρxy + y 2 )

xy
E(XY ) = exp − dxdy
2(1 − ρ2 )
p
−∞ −∞ 2π 1 − ρ2

Z ∞ y exp − y2 Z ∞
(x − ρy)2

2
= x exp − dx dy
2(1 − ρ2 )
p
−∞ 2π 1 − ρ2 −∞

Z ∞ y exp − y2 √ p
2
= p ρy 2π 1 − ρ2 dy
−∞ 2π 1 − ρ2
Z ∞ 2
ρ 2 y
= √ y exp − dy = ρE(Y 2 )
2π −∞ 2
= ρ.
Es fácil ver que de aquı́ uno puede concluir que Cov(X, Y ) = ρ, y finalmente,
ρ(X, Y ) = ρ.
Por otra parte, en el Ejemplo 4.3.1 habı́amos ya probado que X e Y son independientes
sı́ y s ólo si ρ = 0, lo cual se traduce en que X e Y con distribuci ón normal bivariada
son independientes sı́ y s ólo si ellas son no correlacionadas.
4.6 Funciones Generadoras Revisitadas
4.6.1 Funciones Generadoras e Independencia
Es muy frecuente – en la pr áctica – encontrar aplicaciones en que el resultado de un experimento

corresponde a la suma de ciertas variables aleatorias independientes. El caso m ás tı́pico es el

´
promedio de un n úmero de variables aleatorias i.i.d. A continuaci ón veremos una propiedad muy
simple de las funciones generadoras que dice relaci ón con esta situaci ón.
n
P
Proposici oń 4.6.1 Sean X1 , X2 , . . . , Xn variables aleatorias independientes, y sea Sn = Xi .
i=1
En la medida que las expresiones siguientes existan, se tiene:
n
Q
1. MSn (t) = MXi (t).
i=1
n
Q
2. ΦSn (t) = ΦXi (t).
i=1
n
Q
3. GSn (t) = GXi (t).
i=1
n
P
4. KSn (t) = KXi (t).
i=1
La demostraci ón de este resultado es muy simple, y est á basada en el hecho que si X e Y son
independientes, entonces E(XY ) = E(X)E(Y ). Queda ésta propuesta como ejercicio.
Un caso particularmente importante es cuando X1 , X2 , . . . , Xn son i.i.d. En este caso, tenemos
que MXi (t) = MX1 (t) para i = 2, 3, . . . , n, y entonces los resultados de la Proposici ón 4.6.1 se
reducen a:
1. MSn (t) = (MX1 (t))n .
2. ΦSn (t) = (ΦX1 (t))n .
3. GSn (t) = (GX1 (t))n .
4. KSn (t) = nKX1 (t).
Veamos algunas aplicaciones de estos resultados.
Ejemplo 4.6.1 De acuerdo a lo visto en el Ejemplo 3.3.3, se concluye que si X ∼

Poisson(λ), entonces MX (t) = exp(λ(exp(t) − 1)), con t ∈ R. Si X1 , . . . , Xn son
independientes, con Xi ∼ Poisson(λi ), se tiene que
n n
!
Y X
MSn (t) = exp(λi (exp(t) − 1)) = exp ( λi )(exp(t) − 1) ,
i=1 i=1
n
P
de donde se sigue que Sn ∼ Poisson( λi ).
i=1

´
Ejemplo 4.6.2 Sean X1 , . . . , Xn independientes, y tales que Xi ∼ N (µi , σi2 ). Enton-

ces por lo hecho en el Ejemplo 3.8.12 se tiene que MXi (t) = exp(tµi + σi2 t2 /2), y
entonces
n n n
!
Y X X
MSn (t) = exp(tµi + σi2 t2 /2) = exp t µi + (t2 /2) σi2 ,
i=1 i=1 i=1
n n
σi2 ). Si definimos X n como el promedio de X1 , . . . , Xn ,
P P
por lo que Sn ∼ N ( µi ,
i=1 i=1
entonces X n = n−1 Sn , y por el resultado de la Proposici ón 3.8.1(c) se tiene que
n n
!
X X
MX n (t) = exp tn−1 µi + (t2 /2)n−2 σi2 ,
i=1 i=1
n n
de donde se sigue que X n ∼ N ( n1 µi , n12 σi2 ). En el caso particular que las
P P
i=1 i=1
variables son i.i.d., entonces µ1 = · · · = µn = µ, y σ12 = · · · = σn2 = σ 2 , y es fácil
2
ver que X n ∼ N (µ, σn ).
i.i.d.
Ejemplo 4.6.3 Sean X1 , . . . , Xn ∼ N (0, 1), y defina la variable aleatoria Y =
n
Xj2 . Entonces, si t < 1/2:
P
j=1
n
Y n
MY (t) = E(etY ) = MX 2 (t) = MX12 (t)
j
j=1
2
!n
∞
e−x (1/2−t)
Z
= √ dx
−∞ 2π
n
1 1
= 1/2
= ,
(1/2 − t) (1/2 − t)n/2
de donde se sigue que Y ∼ Γ(n/2, 2). A pesar de ser un caso particular de distribuci ón
Gama, la distribuci ón de Y recibe tambi én el nombre de distribuci ón chi-cuadrado con
n grados de libertad, lo que se denota Y ∼ χ2 (n), y como se mostr ó en este ejemplo,
corresponde a la suma de los cuadrados de n variables aleatorias i.i.d. con distribuci ón
N (0, 1) (ver Ejemplo 4.4.1). Como consecuencia de las propiedades de la distribuci ón
Gama, se tiene que E(Y ) = n y V ar(Y ) = 2n.
Ejemplo 4.6.4 Sea X ∼ BN(k, p). Por lo visto en la Secci ón 3.7, la distribuci ón
binomial negativa es la distribuci ón de Tk , el instante del k- ésimo éxito en una se-
cuencia de ensayos de Bernoulli. Por otra parte, tambi én se vio que las variables
T1 , T2 − T1 , T3 − T2 , . . . , Tk − Tk−1 , . . . son i.i.d. con distribuci ón geométrica de
parámetro p. Pero
Tk = T1 + (T2 − T1 ) + (T3 − T2 ) + · · · + (Tk − Tk−1 ), (4.6.1)

´
de modo que Tk es simplemente la suma de k variables aleatorias i.i.d. con distribuci ón
Geom(p). Por lo hecho en el Ejemplo 3.8.11, se tiene que
p exp(t)
MT1 (t) = ,
1 − (1 − p) exp(t)
provisto que t < − log(p). Es entonces inmediato concluir que

k
k p exp(t)
MX (t) = MTk (t) = (MT1 (t)) = ,
1 − (1 − p) exp(t)
la cual corresponde a la funci ón generadora de momentos para esta distribuci ón. Para
obtener esperanza y varianza de X (o, lo que es lo mismo, de T k ), hay varias alternati-
vas. Primero, se puede aplicar directamente el resultado de (3.8.5), lo cual se propone
como ejercicio. Por otra parte, recordemos que
1 1−p
E(T1 ) = y V ar(T1 ) = ,
p p2
de modo que de (4.6.1) se sigue inmediatamente que
k
E(Tk ) = E(T1 ) + E(T2 − T1 ) + · · · E(Tk − Tk−1 ) = ,
p
y que
k(1 − p)
V ar(Tk ) = V ar(T1 ) + V ar(T2 − T1 ) + · · · V ar(Tk − Tk−1 ) = ,
p2
donde usamos el hecho que T1 , T2 − T1 , . . . , Tk − Tk−1 son i.i.d., y (4.5.6).
4.6.2 Funciones Generadoras Multivariadas
Definimos a continuaci ón la contraparte multivariada de las funciones generadora de momentos y

caracterı́stica, vistas en las subsecciones 3.8.2 y 3.8.3.
Definició n 4.6.1 Sea X ∈ Rn un vector aleatorio. En la medida que las expresiones involucradas
existan, se define:
(a) La funci ón generadora de momentos multivariada de X mediante

0
MX (t) = E(et X ), t ∈ Rn , (4.6.2)
donde t0 X = t1 X1 + · · · + tn Xn .
(b) La funci ón caracterı́stica multivariada de X mediante

0
ϕX (t) = E(eit X ), t ∈ Rn , (4.6.3)
√
donde, como antes, i es el n úmero complejo −1.

´
Resumimos a continuaci ón las propiedades m ás importantes de estas funciones.
1. Al igual que en el caso n = 1, la funci ón caracterı́stica multivariada est á siempre bien
definida, cualquiera que sea t ∈ Rn . No ocurre lo mismo con la funci ón generadora de
momentos multivariada, pues su existencia depende, en general, de t.
2. Si la funci ón generadora de momentos existe en una vecindad de t = 0, entonces para enteros
k1 , . . . , kn no todos nulos se tiene
∂ k1 +···+kn
MX (t) |t=0 = E(X1k1 · · · Xnkn ). (4.6.4)
∂tk11 · · · ∂tknn
Análogamente, se tiene que si el valor esperado en cuesti ón existe, entonces
∂ k1 +···+kn
ϕX (t) |t=0 = ik1 +···+kn E(X1k1 · · · Xnkn ). (4.6.5)
∂tk11 · · · ∂tknn
3. Teorema de Caracterizaci oń: Si X e Y son vectores aleatorios tales que ϕX (t) = ϕY (t)
para todo t ∈ Rn , entonces FX y FY coinciden, es decir, tienen la misma distribuci ón.
Puesto que la recı́proca es obviamente cierta, se tiene entonces una relaci ón uno a uno entre
la distribuci ón y la funci ón caracterı́stica de vectores aleatorios.
4. Para obtener la funci ón caracterı́stica o generadora de momentos (univariada o multivaria-

da) marginal de una parte del vector aleatorio, basta con tomar como cero las coordenadas
correspondientes a la parte no deseada. Por ejemplo, ϕ X1 (t1 ) = ϕ(X1 ,X2 ,...,Xn ) (t1 , 0, . . . , 0).
5. Sean X = (X1 , . . . , Xn ) e Y = (Y1 , . . . , Ym ) vectores aleatorios, y defina el vector alea-

torio (n + m)-dimensional Z = (X, Y ). Entonces X e Y son independientes si y s ólo si
cualquiera que sean los n úmeros reales t1 , . . . , tn , tn+1 , . . . , tn+m se cumple
ϕZ (t1 , . . . , tn , tn+1 , . . . , tn+m ) = ϕX (t1 , . . . , tn )ϕY (tn+1 , . . . , tn+m ).
Esta propiedad establece que independencia de dos vectores aleatorios es equivalente a poder
factorizar la funci ón caracterı́stica conjunta de ambos vectores. El resultado se puede gene-
ralizar a tres o más vectores sin mayor dificultad. En particular, se tiene que las variables
aleatorias X1 , . . . , Xn son independientes si y s ólo si para cualquier t1 , . . . , tn ∈ R se tiene
ϕ(X1 ,...,Xn ) (t1 , . . . , tn ) = ϕX1 (t1 ) · · · ϕXn (tn ).
Ejemplo 4.6.5 Sea X = (X1 , . . . , Xm ) con distribuci ón multinomial, cuya funci ón
de probabilidad est á dada por
n!
pX (X) = px1 px2 · · · pxmm ,
x1 !x2 ! · · · xm ! 1 2

´
m
P
en donde p1 , . . . , pm son n úmeros reales no negativos con pj = 1, n es un entero
j=1
m
xj = n. Dado t ∈ Rm se
P
positivo, y x1 , . . . , xm son enteros no negativos tales que
j=1
tiene que
0
E(et X ) = E(et1 X1 +···+tm Xm )
X n!
= (p1 et1 )x1 · · · (pm etm )xm
x ,...,x
x 1 ! · · · x m !
1 m
= (p1 e + · · · + pm etm )n ,
t1
lo que nos da una expresi ón para MX (t). Observe que mediante el expediente de tomar
tj = 0 para j 6= k, se obtiene
MXk (tk ) = (1 − pk + pk etk )n , tk ∈ R,
de modo que Xk ∼ Bin(n, pk ) para cualquier k = 1, . . . , m. Calculemos ahora

ρ(X1 , X2 ). Se tiene que, por las propiedades de la distribuci ón binomial, E(Xk ) =
npk y V ar(Xk ) = npk (1 − pk ), Por otra parte.
M(X1 ,X2 ) (t1 , t2 ) = (p1 et1 + p2 et2 + 1 − p1 − p2 )n ,
de modo que
∂2
E(X1 X2 ) = M
∂t1 ∂t2 (X1 ,X2 ) (0,0)
= n(n − 1)p1 p2 ,
de modo que Cov(X1 , X2 ) = E(X1 X2 ) − E(X1 )E(X2 ) = −np1 p2 , y finalmente,
p1 p2
r
ρ(X1 , X2 ) = .
(1 − p1 )(1 − p2 )
En forma análoga se obtienen la correlaci ón para otro par dado de componentes de X.
Ejemplo 4.6.6 Sea X ∈ Rn un vector aleatorio, A una matriz de n × n, y defina

Y = AX, en donde X e Y se interpretan aquı́ como vectores columna, o matrices de
n × 1. Entonces
0 0
ϕY (t) = E(eit Y ) = E(eit AX )
= ϕX (A0 t). (4.6.6)
A modo de aplicaci ón, considere el caso n = 2, donde las componentes de X son

i.i.d.
variables aleatorias X1 , X2 ∼ N (0, 1), y sea

1 1 1
A= √ .
2 1 −1

´
Se tiene entonces que

0 1 t1 + t 2
At= √ .
2 t1 − t 2
Puesto que X1 y X2 son independientes, se tiene
2 2
ϕ(X1 ,X2 ) (t1 , t2 ) = ϕX1 (t1 )ϕX2 (t2 ) = e−t1 /2 e−t2 /2 ,
de modo que la funci ón caracterı́stica conjunta del vector Y es
ϕ(Y1 ,Y2 ) (t1 , t2 ) = ϕ(X1 ,X2 ) (A0 t)

( )
1 t1 + t 2 2 1 t1 − t 2 2

= exp − √ − √
2 2 2 2
2 2
= e−t1 /2 e−t2 /2 ,
de donde se concluye que (Y1 , Y2 ) tiene componentes i.i.d., cada una con distribuci ón
N (0, 1). En otras palabras, hemos mostrado que
X1 + X 2 X1 − X 2
√ y √
2 2
son i.i.d. con distribuci ón N (0, 1).
4.7 La Distribuci ón Normal Multivariada
Estudiaremos a continuaci ón una distribuci ón que corresponde a la extensi ón a varias dimensiones
de la densidad definida en (3.9.2). Primero daremos una definici ón general, que es conveniente para
ciertos aspectos de manejo te órico, y posteriormente daremos una versi ón un tanto más restringida,
pero de mayor utilidad pr áctica. Es adem ás conveniente utilizar la convenci ón que cualquier vector
en Rn se entiende como un vector columna, o equivalentemente, como una matriz con n filas y
1 columna. Por razones tambi én te óricas, es conveniente introducir el concepto de distribuci ón
normal degenerada. En la f órmula (3.9.2) se requiere que la varianza σ 2 sea positiva, pues en caso
contrario dicha densidad no est á definida. Permitiremos que σ 2 tome el valor 0, caso en el cual se
dice que la distribuci ón normal es degenerada, lo que corresponde a decir que X ∼ N (µ, 0) si X
es constante e igual a µ. Ciertamente, esto corresponde a una variable aleatoria discreta, y no existe
densidad.
Definició n 4.7.1 Diremos que el vector X = (X1 , . . . , Xn ) tiene distribuci ón normal multivaria-
n
da, si para cualquier A = (a1 , . . . , an ) ∈ Rn no nulo se tiene A0 X =
P
ai Xi tiene distribuci ón
i=1
normal univariada.
Notemos que esta definici ón no hace referencia a densidad alguna. Sin embargo, si e i es el
i-ésimo vector de la base can ónica de Rn , se tiene e0i X = Xi , y se concluye que si X tiene
distribuci ón normal multivariada, entonces cada una de sus coordenadas tiene distribuci ón normal

´
univariada. Por lo tanto, y puesto que E(Xi2 ) es finito para cada i = 1, . . . , n, tambi én existe la
matriz de varianza-covarianza (ver Definici ón 4.5.2).
Sea ahora t ∈ Rn . Puesto que t0 X tiene distribuci ón normal univariada, se concluye que
2 (t)/2
ϕX (t) = ϕt0 X (1) = eiµ(t)−σ ,
donde µ(t) = E(t0 X) y σ 2 (t) = V ar(t0 X). Denotando µ = E(X) y Σ = V (X), tenemos que
por (4.5.11), µ(t) = t0 µ y que σ 2 (t) = t0 Σt, de modo que la funci ón caracterı́stica multivariada
de X es
0 0
ϕX (t) = eit µ−t Σt/2 , t ∈ Rn . (4.7.7)
Puesto que la funci ón caracterı́stica de X determina su distribuci ón, vemos que basta con conocer
el vector de medias, y la matriz de varianza-covarianza de X para conocer su distribuci ón. La
notaci ón usual para una vector aleatorio n-dimensional X con distribuci ón normal multivariada y
tal que E(X) = µ y V (X) = Σ es X ∼ Nn (µ, Σ). En el caso univariado n = 1, el subı́ndice n
suele omitirse.
Ejemplo 4.7.1 Consideremos variables aleatorias independientes Y i ∼ N (µi , σi2 ), con

i = 1, 2, y defina X = (Y1 , Y2 ), visto como un vector columna. Sea A = (a1 , a2 ) 6=
(0, 0) un vector en R2 . Usando funciones generadoras, tal como en el Ejemplo 4.6.2,
es fácil ver que A0 X = a1 X1 + a2 X2 ∼ N (a1 µ1 + a2 µ2 , a21 σ12 + a22 σ22 ), y por la
Definici ón 4.7.1 se concluye que X tiene distribuci ón normal multivariada. El vector
de medias, y la matriz de varianza-covarianza correspondientes est án respectivamente
dados por 2
µ1 σ1 0
E(X) = y Σ= .
µ2 0 σ22
Observe que Σ es una matriz invertible, provisto que σi2 > 0 para i = 1, 2. Defina
ahora Y = (Y1 , −2Y1 ). Observe que A0 Y = (a1 − 2a2 )Y1 , el cual tiene distribuci ón
normal univariada cualquiera que sean a1 y a2 , incluso en el caso en que a1 = 2a2
en el que A0 Y = 0, lo que corresponde a la distribuci ón degenerada N (0, 0). Note
además que la matriz de covarianza es ahora
σ12 −2σ12

.
−2σ12 4σ12
Es fácil ver que cualquiera que sea σ12 , esta matriz es no invertible.
El Ejemplo 4.7.1 motiva establecer una distinci ón entre vectores aleatorios con distribuci ón
normal multivariada. En el caso que la matriz de covarianza Σ de X sea no invertible, diremos que
X tiene distribuci ón normal multivariada degenerada, y esto corresponde a la extensi ón a varias
dimensiones del concepto anteriormente introducido para variables con distribuci ón normal univa-
riada. Intuitivamente, esto corresponde al caso en que alguna de las componentes de X se puede
escribir como una combinaci ón lineal de las otras. En otras palabras, cuando el vector aleatorio X
toma valores en un conjunto cuya dimensi ón es inferior a la dimensi ón de X, tal como aconteci ó en
el Ejemplo 4.7.1.

´
En el caso en que Σ es invertible, definimos la siguiente forma cuadr ática:
Q(x) = (x − µ)0 Σ−1 (x − µ), x ∈ Rn (4.7.8)
en donde µ ∈ Rn es un vector cualquiera. Observe que los valores de Q son siempre n úmeros
reales, y el hecho que Σ sea invertible garantiza que ésta es además definida positiva, por lo que se
concluye que Q(x) ≥ 0 para cualquier x, y con igualdad s ólo si x = µ.
El siguiente resultado nos da una expresi ón para la densidad de X cuando Σ es invertible.
Proposici oń 4.7.1 Sea X ∼ Nn (µ, Σ), donde Σ es una matriz invertible. Entonces, X tiene
densidad conjunta dada por
1
e− 2 Q(x)
fX (x) = np (4.7.9)
(2π) 2 det(Σ)
y en donde Q(x) fue definido en (4.7.8).
El lector podrá fácilmente convencerse que para el caso n = 1, (4.7.9) se reduce a (3.9.2).
Consideremos ahora el caso particular en que Σ = σ 2 I n , es decir, cuando la matriz de varianza-
covarianza adopta la forma especial de una matriz diagonal, donde cada elemento no nulo es igual a
σ 2 . Es claro que las componentes de X = (X1 , . . . , Xn ) son no correlacionadas, pues para i 6= j,
Cov(Xi , Xj ) = Σi,j = 0, y además, V ar(Xi ) = σ 2 para i = 1, 2, . . . , n. Por otra parte, observe
que la forma cuadr ática (4.7.8) adopta la forma especial de
n
1 X
Q(x) = 2 (xi − µi )2 ,
σ
i=1
de modo que la densidad conjunta de X est á dada por

i (x −µ )2
i
n
Y e− 2σ2
fX (x) = √ ,
i=1 2πσ 2
y se concluye que X1 , . . . , Xn son independientes. Este resultado se puede generalizar en forma

directa, para obtener:
Proposici oń 4.7.2 Si X = (X1 , . . . , Xn ) ∼ Nn (µ, Σ), en donde Σ es una matriz diagonal, en-
tonces X1 , . . . , Xn son independientes.
Esto muestra una caracterı́stica muy particular de la distribuci ón normal multivariada, cual es
que la no correlaci ón equivale a la independencia. Vale la pena recordar que esto es, en general,
falso, como se mostr ó anteriormente.
Otras propiedades de la distribuci ón normal multivariada se resumen a continuaci ón. Note que
algunas de estas propiedades son v álidas s ólo para el caso en que Σ es invertible, pero algunas otras
valen en general.
Proposici oń 4.7.3 Sea X ∼ Nn (µ, Σ), donde µ ∈ Rn y Σ es una matriz sim étrica de n × n.

´
(i) Sea A una matriz de k × n. Si Y = AX entonces Y ∼ Nk (Aµ, AΣA0 ).

(ii) Suponga Σ invertible, y considere su descomposici ón de Cholesky Σ = RR0 , en donde R
def
es una matriz triangular inferior. Entonces Y = R−1 X ∼ Nn (R−1 µ, I n ).
(iii) Si Σ es invertible, entonces (X − µ)0 Σ−1 (X − µ) ∼ χ2 (n), la distribuci ón chi-cuadrado
con n grados de libertad.
Demostraci oń: Haremos las demostraciones de estas propiedades, pues el procedimiento utilizado
es de interés por sı́ mismo. Para mostrar (i), consideremos la funci ón caracterı́stica de Y . Por
(4.6.6) tenemos que ϕY (t) = ϕX (A0 t), de modo que
0 0 0 0 0
ϕY (t) = ei(A t) µ−(A t) Σ(A t)/2
0 0 0 0
= eit Aµ−t AΣA t /2 ,
y el resultado es inmediato. La propiedad (ii) es directa de (i), tomando A = R −1 . Para ver (iii),
considere Y = R−1 (X − µ), donde R es la matriz triangular inferior mencionada en (ii). Por (ii),
se tiene que Y ∼ Nn (0, I n ), y además
n
X
0 −1 0
(X − µ) Σ (X − µ) = Y Y = Yj ,
j=1
i.i.d.
donde Y1 , . . . , Yn ∼ N (0, 1). El resultado es entonces una consecuencia de lo hecho en el Ejem-
plo 4.6.3.
Veamos a continuaci ón algunas aplicaciones de estos resultados.
Ejemplo 4.7.2 Considere (X, Y ) con densidad conjunta proporcional a e −Q(x,y)/2 ,

donde
Q(x, y) = x2 + 2y 2 − 8x + 10y − 2xy + 17.
Por la forma que tiene la densidad, se deduce que (X, Y ) tiene distribuci ón normal
bivariada, pero es necesario identificar sus par ámetros. Consideremos la forma cua-
drática (4.7.8) correspondiente con n = 2,

−1 x − µ1
Q(x, y) = (x − µ1 , y − µ2 )Σ ,
y − µ2
la cual se quiere igualar con la expresi ón dada inicialmente. Para ello, igualaremos sus
derivadas, lo que da, escrito en forma vectorial:

2x − 8 − 2y −1 x − µ1
= 2Σ .
4y + 10 − 2x y − µ2
Note que igualando el lado derecho a (0, 0)0 , se obtiene, despu és de multiplicar a la
izquierda por Σ que x − µ1 = 0 e y − µ2 = 0, por lo que se concluye que µ1 y µ2 se
obtienen de resolver el sistema ∇Q(x, y) = (0, 0)0 . En nuestro caso:
2x − 2y = 8
4y − 2x = −10,

´
cuya soluci ón es (µ1 , µ2 ) = (3, −1). Para obtener Σ, observe que al igualar las matri-
ces Hessianas se tiene
2 −2
= 2Σ−1 ,
−2 4
de modo que Σ = 2(HQ(x, y))−1 . En nuestro caso:

2 1
Σ= ,
2 1
lo que termina de identificar los par ámetros de la distribuci ón normal bivariada busca-
da.
El método aquı́ empleado se puede extender f ácilmente a más dimensiones.
i.i.d.
Ejemplo 4.7.3 Sean X1 , . . . , Xn ∼ N (µ, σ 2 ) las coordenadas del vector X, y defina
n n
U = n1 (Xj −U )2 . Veamos que U y V son independientes. Considere
P P
Xj y V =
j=1 j=1
el vector  
U
 X1 − U 
Y = ,
 
..
 . 
Xn − U
el cual puede interpretarse como una transformaci ón lineal del vector X de la forma
Y = AX, donde A es una matriz de (n + 1) × n. Puesto que X tiene distribuci ón
normal multivariada, Y tambi én. Además
Cov(U, Xj − U ) = Cov(U, Xj ) − Cov(U, U )

n
1X
= Cov(Xk , Xj ) − V ar(U )
n
k=1
1 σ2
= V ar(Xj ) −
n n
σ 2 σ 2
= − = 0,
n n
de modo que U es independiente de X1 − U, . . . , Xn − U , de donde se sigue que U y
V son independientes. Note que este resultado no depende de los valores particulares
que µ y σ 2 puedan tomar.
Ejemplo 4.7.4 En el Ejemplo 4.7.3, veamos ahora que V /σ 2 ∼ χ2 (n − 1). Para ello,
considere primero el caso en que µ = 0, σ 2 = 1, y defina las variables aleatorias
X1 + X 2 + · · · + X n
Y1 = √
n
X1 + X2 + · · · + Xj−1 − (j − 1)Xj
Yj = p , j = 2, . . . , n.
j(j − 1)

´
Sea
√1 ··· ··· ··· ··· √1 √1
 
n n n
 √1 − √12 0 0 ··· 0 0 
 2 
√1 √1 − √26 0 ··· 0 0
 
Q= ,
 
6 6
 .. .. .. .. .. .. .. 

 . . . . . . . 

√ 1
··· ··· ··· ··· √ 1 √−(n−1)
n(n−1) n(n−1) n(n−1)
de modo que si Y es el vector cuyas coordenadas son Y 1 , . . . , Yn , las transformaciones

descritas (conocidas como transformaciones de Helmert) se escriben Y = QX, donde
Q es una matriz de n × n. Observe que Q es una matriz unitaria, es decir, QQ 0 =
Q0 Q = I n , de modo que Y ∼ Nn (0, I n ). Entonces:
n
X
Yj2 = Y 0 Y = X 0 Q0 QX
j=1
n
X
0
= XX= Xj2
j=1
n
2 X
= nX n + (Xj − X n )2
j=1
= Y12 + V,
de donde V = Y22 + Y32 + · · · + Yn2 , y vemos ası́ que V se escribe como la suma
de n − 1 variables aleatorias i.i.d. con distribuci ón N (0, 1), de donde se sigue que
V ∼ χ2 (n − 1). Se sigue adem ás que U y V son independientes. En el caso general,
def
considere las mismas variables Y1 , . . . , Yn , definidas ahora en t érminos de Zj = (Xj −
µ)/σ ∼ N (0, 1), para j = 1, . . . , n. Por último, observe que E(V /σ 2 ) = n − 1, por
lo que E(V /(n − 1)) = σ 2 , resultado independiente del valor de µ.
4.8 El Mejor Predictor Lineal
Para finalizar este capı́tulo resolveremos el siguiente problema. Suponga X ∈ Rk+l es un vector
aleatorio con E(X) = µ y V (X) = Σ, lo cual anotaremos X ∼ (µ, Σ). Suponga adem ás que X
se puede particionar de la siguiente forma:
   
W1 Y1
W
X= con W =  ...  , e Y =  ...  .
   
Y
Wk Yl
Si el valor de W es conocido, digamos w, ¿c ómo predecir el valor de Y ? Esta situaci ón se suscita
en casos donde las variables de inter és se observan s ólo en parte, de modo que se requiere “adivinar”
el valor de las variables no observadas, pero asumiendo µ y Σ conocidos.

´
El problema ası́ planteado es un tanto vago. Para hacerlo m ás preciso, nos centraremos aquı́ en
predictores lineales, esto es, predictores de la forma a + BW , donde a ∈ R l , y B es una matriz de
l × k. Resta a ún por definir un procedimiento para obtener a y B. Para ello, recurrimos al criterio
de minimizar el error cuadr ático medio, es decir, resolveremos el problema de calcular a y B tales
que
E{(Y − a − BW )0 (Y − a − BW )} (4.8.1)
sea mı́nimo.
Introducimos ahora la siguiente notaci ón. Sean µw = E(W ) y µy = E(Y ) los vectores de va-
lores esperados de W e Y respectivamente. Las matrices de varianza-covarianza correspondientes
se denotarán por Σww y Σyy , y finalmente, la matriz de covarianzas entre W e Y se denotar á por
Σwy , de modo que

µw Σww Σwy
µ= y Σ= ,
µy Σyw Σyy
donde Σ es una matriz particionada. Observe que puesto que Σ debe ser sim étrica, se debe cumplir
que Σ0yw = Σwy . Con esta notaci ón, se tiene el siguiente resultado.
Proposici oń 4.8.1 La soluci ón al problema de minimizaci ón (4.8.1) est á dada por
a = µy − Bµw , (4.8.2)
y
B = Σyw Σ−1
ww . (4.8.3)
Demostraci oń: Observe que la expresi ón en (4.8.1) se puede reescribir como
E(Y 0 Y ) − 2a0 E(Y ) + a0 a − 2E(Y 0 BW ) + 2a0 BE(W ) + E(W 0 B 0 BW ),
la que a su vez es igual a

l l l k
l P
E(Yi2 ) − 2 a2i − 2
P P P P
ai E(Yi ) + Bij E(Yi Wj )
i=1 i=1 i=1 i=1 j=1
k
l P l k
Bij Wj )2 }.
P P P
+2 ai Bij E(Wj ) + E{(
i=1 j=1 i=1 j=1
Para minimizar, primero diferenciamos esta expresi ón con respecto a ai e igualamos a 0, con lo que
se obtiene
X l
−2E(Yi ) + 2ai + 2 Bij E(Wj ) = 0,
j=1
o equivalentemente,
l
X
ai = E(Yi ) − Bij E(Wj ),
j=1

´
lo que escrito en forma vectorial resulta a = µy − Bµw , lo que prueba (4.8.2). Para obtener B,
usamos un procedimiento an álogo. Se deriva con respecto a Bij , se iguala a 0, para obtener, despu és
P k
de acomodar t érminos y reemplazar el valor de ai por E(Yi )− Bim E(Wm ) el conjunto de k ×l
m=1
ecuaciones
k
X
Bim Cov(Wm , Wj ) = Cov(Yi , Wj ) ∀ i, j,
m=1
de donde se obtiene el resultado B = Σyw Σ−1

ww .
Ası́, el mejor predictor lineal (MPL), en el sentido explicado anteriormente, de Y dado un valor
para W es
a + BW = µy + Σyw Σ−1 ww (W − E(W )). (4.8.4)
Se propone como ejercicio mostrar que la matriz de varianza-covarianza del MPL est á dada por
Σyw Σ−1
ww Σwy . (4.8.5)
Ejemplo 4.8.1 Sea X ∈ R3 con

   
1 5 1 2
µ=  1  y Σ =  1 3 3 ,
0 2 3 6
y obtengamos el MPL de X3 dados X1 y X2 . Tenemos que, por (4.8.3):
5 1 −1

1
B= 3 5 = 3 13 .
1 3 14
Por otra parte, por (4.8.2):

1 1 16
a=0− 3 13 =− .
14 1 14
Ası́, el MPL buscado es, de acuerdo a (4.8.4):
−16 + 3X1 + 13X2
.
14
La varianza del MPL se obtiene de (4.8.5), y est á dada por
45
V ar(M P L) = .
14
Observe que en este caso el MPL es simplemente escalar.
Ejemplo 4.8.2 Sea X ∈ R5 con

2 12 −1 3 6 0
   
 0 
 

 −1 36 5 5 0 

µ=  −1  y Σ= 3 5 9 −1 0
 .
 
 1   6 5 −1 13 0 
−3 0 0 0 0 8

´
Calculemos el MPL de Y dado W , donde

 
X3
X1
W = e Y =  X4  .
X2
X5
En este caso tenemos, aplicando (4.8.2) y (4.8.3) que

   
3 5 −1 113 63
12 −1 1 
B= 6 5  = 221 66  ,
−1 36 431
0 0 0 0
y     
−1 113 63 −657
1 2 1  −11  .
a= 1 −  221 66  =
431 0 431
3 0 0 1293
Finalmente, el MPL buscado es
 
−657 + 113X1 + 63X2
1 
−11 + 221X1 + 66X2  .
431
1293
La matriz de varianza-covarianza del MPL es, de acuerdo a (4.8.5)

 
654 993 0
1 
993 1656 0  .
431
0 0 0
Observe la forma especial del MPL, particularmente su tercera coordenada, y la última

fila y columna de V (M P L). Esto no es coincidencia, y la raz ón es que X5 es no
correlacionada con las otras variables predictoras. Ası́, al no existir correlaci ón, el
MPL se transforma simplemente en E(X5 ) = 1293/431 = 3, tal como se obtuvo.

´
4.9 Problemas
1. Sean X1 , X2 , . . . , Xn i.i.d. con funci ón de probabilidad p(x) = (1 − p)px , x = 0, 1, . . ., es

decir, con una distribuci ón de tipo geom étrico. Sea Yn = X1 + X2 + · · · + Xn .
(a) Encuentre la funci ón probabilidad de Y2 .

(b) Demuestre que la funci ón probabilidad pn de Yn está dada por
(y + n − 1)! n
pn (y) = θ (1 − θ)y , y = 0, 1, 2, . . .
y!(n − 1)!
Indicaci ón: Demuestre que si Z tiene funci ón probabilidad pm , U tiene funci ón pro-
babilidad p1 y Z y U son independientes, entonces Z + U tiene funci ón probabilidad
pm+1 . Proceda luego por inducci ón.
(c) Calcule la media de Yn en base a la expresi ón obtenida para pn .
(d) Calcule el valor esperado de Yn como la suma de los valores esperados de los Xi .
2. Un lote de tama ño N tiene D elementos defectuosos. Se extrae una muestra aleatoria de
tama ño n y se cuenta el n úmero X de elementos defectuosos en la muestra.
(a) Calcule E(X) a partir de la funci ón probabilidad.

(b) Exprese X como X1 + · · · + Xn y use E(X) = E(X1 ) + · · · + E(Xn ). Use ésto para
calcular E(X).
3. Demostrar la desigualdad de Cauchy-Schwartz :
(E(XY ))2 ≤ E(X 2 )E(Y 2 ).
Hint: Considere E((tX + Y )2 ).
4. Sean X e Y variables aleatorias independientes con distribuci ón uniforme en [θ − 12 , θ + 12 ],

θ ∈ R. Pruebe que la distribuci ón de X − Y no depende de θ, hallando su densidad.
5. Dado fX1 ,X2 (x1 , x2 ), encontrar fU,V (u, v) y fU (u), con:
(a) U = X1 + X2 , V = X2
(b) U = X1 X2 , V = X2
X1
(c) U = X2 , V = X2
Explicitar el caso particular en el que X1 y X2 son independientes.
6. En el Problema 5, encuentre fU (u) e identifique, de ser posible, la distribuci ón para X1 , X2

iid∼ N (0, 1).
7. Sean X1 , X2 , . . . , Xn iid con distribuci ón de Rayleigh con par ámetro θ > 0:
−x2
x
f (x) = θ exp( 2θ 2 ) si x > 0
0 si x ≤ 0.

´
a.- Determine la densidad conjunta de Y1 , Y2 , . . . , Yn donde Yi = Xi2 .

b.- ¿Cuál es la distribuci ón de U = min{X1 , . . . , Xn }?
X1
c.- Calcule la distribuci ón de Z = X2 .
X
8. Sean X e Y iid Exp(α). Muestre que Z = X+Y ∼ U (0, 1).
9. Sean X1 , X2 con densidad conjunta

(
1 −(x2 −x21 )
x21
e si x1 ≥ 1, x2 ≥ x21
fX1 ,X2 (x1 , x2 ) =
0 si no.
X2
Encontrar fY1 (y1 ), con Y1 = log(X1 ) y fY2 (y2 ), con Y2 = X1 .
10. Sean X, Y y Z son variables aleatorias independientes que tienen igual funci ón densidad
f (x) = e−x , 0 < x < ∞. Encuentre la distribuci ón conjunta de U = X + Y , V = X + Z,
W = Y + Z.
11. Suponga que X1 , X2 son variables aleatorias independientes con distribuci ón uniforme sobre
X1
el intervalo [0, 1]. Encuentre la distribuci ón conjunta de Y1 = X1 + X2 e Y2 = X 2
.
12. Cuando una corriente I (medida en amp éres) fluye a trav és de una resistencia R (medida
en ohms), la potencia generada est á dada por W = I 2 R (medida en Watts). Si I y R son
variables aleatorias independientes con densidades
fI = 6x(1 − x) 0 ≤ x ≤ 1
fR (x) = 2x 0 ≤ x ≤ 1,
Determine fW .
13. Sean X1 , . . . , Xn variables aleatorias i.i.d. con densidad
fX (x) = x−2 si 1 < x < ∞.
Sea Y = min{X1 , . . . , Xn }. ¿Existe E(X1 )? Si es ası́ encuéntrela. ¿Existe E(Y )? Si es

ası́ encuéntrela.
14. Sean X1 , X2 variables aleatorias independientes cada una con distribuci ón N (0, 1). Si Y1 =
X12 + X2 , Y2 = X2 , encuentre fY1 ,Y 2 y fY1 .
15. Suponga que los tiempos entre ocurrencias de un cierto fen ómeno pueden ser representados
por T1 , . . . , Tn , variables aleatorias independientes cada una con distribuci ón exponencial de
parámetro λ. Si T = T1 + · · · + Tn , encuentre la distribuci ón de T.
16. Si X e Y son las coordenadas de un punto seleccionado al azar del cı́rculo unitario {(x, y) :
x2 + y 2 ≤ 1}, ¿cuál es la distribuci ón de la variable aleatoria Z = X 2 + Y 2 ?.
17. Si T1 ∼ Exp(λ1 ) y T2 ∼ Exp(λ2 ), encuentre la densidad de T = T1 + T2 .

´
18. Dados a < b y c < d, X ∼ U [a, b] e Y ∼ U [a, b], con X e Y independientes, calcule
fX ? f Y .
19. Suponga X1 , . . . , Xn son variables aleatorias i.i.d. con distribuci ón U [0, 1]. Pruebe que
1
−2n log(Y ) ∼ Gama(n, ),
2
donde Y es la media geom étrica de las Xi , esto es,
n
Y
Y =( Xi )1/n .
i=1
20. La densidad conjunta entre X e Y est á dada por:

−x
y e−y
e
fX,Y (x, y) = 0≤x≤∞ 0 ≤ y ≤ ∞.
y
Encuentre E(X).
21. Sean X1 , X2 , . . . , Xn iid U(0,1).
a.- Sean Yj = − log(Xj ) j = 1, . . . , n. Encontrar la funci ón generadora de momentos de
Yj , y a partir de ella calcule E(Y ) y V ar(Y ). ¿Qu é distribuci ón tiene Y ?.
Pn
b.- Sea Y = λ Yj con λ > 0. Encuentre la funci ón generadora de momentos de Y .
j=1
Calcule E(Y ), V ar(Y ). ¿Qu é distribuci ón tiene Y ?.
3
22. Si la variable aleatoria X tiene funci ón generadora de momentos dada por MX (t) = 3−t ,
obtener la desviaci ón estándar de X.
1
Resp : 3
23. En un circuito se ponen n resistencias en serie. Sup óngase que cada una de las resistencias
está distribuida uniformemente en (0,1), y suponga adem ás que todas las resistencias son
independientes. Sea R la resistencia total.
(a) Encontrar la funci ón generadora de momentos de R.
(b) Usando (a), encontrar E(R) y V ar(R).
24. Suponga que la distribuci ón conjunta de X1 y X2 es normal bivariada. Se definen las varia-
bles aleatorias Y1 = 3X1 + 2X2 + 1 e Y2 = X1 + 5X2 − 4. Demuestre que (Y1 , Y2 ) tiene
también distribuci ón normal bivariada, e identifique sus par ámetros.
25. Si (X1 , X2 )t ∼ N2 (µ, Σ) donde µt = (1,-2) y σ12 = 4, σ12 = −10, σ22 = 25, encuentre
directamente las densidades marginales de X1 y X2 .
26. Sean Y1 , Y2 , . . . , Yn definidos por
Yi = U + Yi−1 + Zi−1 i = 1, . . . , n Z0 = 0, Y0 = 0,
en donde U, Z1 , . . . , Zn son independientes de media cero, con Var(U ) = a, Var(Z i ) = b.

´
a.- Encuentre la matriz de covarianzas de (Y1 , . . . , Yn )t .

b.- Determine el MPL de Y3 dado Y2
c.- Determine el MPL de Y4 dado Y2 + Y3
27. Sean Y1 , Y2 , Y3 independientes de media cero y varianza uno, defina las variables aleatorias
X1 , X2 , X3 por:
Y1
X1 = √ , X2 = αX1 + Y2 , X3 = αX2 + Y3
1 − α2
Encuentre Var(X1 , X2 , X3 )t y E(X1 , X2 , X3 )t
28. Dados E(X1 , X2 , X3 )t = (1, 2, 3)t y

 
a a a
Var(X) =  a a + b a 
a a a+c
a.- Encuentre el MPL de X1 dado X2 = x2 .

b.- Encuentre el MPL de X3 − X2 dado X1 = 4.
29. Sean X1 y Y2 variables aleatorias independientes con distribuci ón N (0, 1). Sean Y1 = α +
aX1 + bX2 , Y2 = β + cX1 + dX2 .
a.- Encuentre la distribuci ón conjunta de Y1 e Y2 .

b.- Calcule la varianza del error de predicci ón del MPL de Y2 dado Y1 .

Cap´
ıtulo 5
Distribucioń y Esperanza Condicional
5.1 Motivaci ón
En el Capı́tulo 2 se discuti ó extensamente en qu é sentido la informaci ón o conocimiento afecta

las probabilidades de eventos. Surge entonces la noci ón de probabilidad condicional, que refleja
c ómo estas probabilidades cambian. Ası́, si A y F son eventos tales que P (F ) > 0, en donde A
representa el evento de inter és, y F es la informaci ón disponible (esto es, se sabe que F ocurri ó),
entonces la probabilidad condicional de A dado F se define mediante
P (A ∩ F )
P (A|F ) = ,
P (F )
tal como lo expresa (2.2.1).
La inquietud natural que surge ahora se refiere a la posibilidad de implementar c álculos seme-
jantes pero ahora referidos a variables o vectores aleatorios. En otras palabras, si X es una variable
aleatoria de inter és, y si se conoce el valor y que toma otra variable aleatoria Y , ¿de qu é manera
se afecta la distribuci ón, y por ende, las probabilidades asociadas a X una vez conocida esta in-
formaci ón adicional? Esto es, ¿c ómo determinamos la distribuci ón condicional de X dado que
Y = y?
Hay algunos casos especiales en que esta pregunta se puede responder utilizando solamente los
conceptos ya introducidos anteriormente. Comenzamos nuestra discusi ón abordando estos casos.
5.2 Distribuci ón Condicional: Visi ón Preliminar
En el Capı́tulo 2 se tuvo ya un primer acercamiento al problema de determinar los cambios en la

distribuci ón de una variable aleatoria dada informaci ón relativa a una segunda variable aleatoria,
en el caso que éstas son discretas. En efecto, si X e Y son discretas con funci ón de probabilidad
discreta conjunta pX,Y (x, y) para (x, y) ∈ D, entonces la funci ón de probabilidad condicional de
X dado que Y = y se define mediante
pX,Y (x, y)
pX|Y =y (x|y) = (x, y) ∈ D. (5.2.1)
pY (y)
181
´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON
En estricto rigor, esta definici ón se reduce simplemente a probabilidades condicionales para
eventos. En efecto, si A es el evento {X = x} y F es el evento {Y = y}, con P (F ) = P (Y =
y) > 0, entonces (5.2.1) no es otra cosa que (2.2.1). Es importante destacar que para que esta
definici ón tenga sentido, debe cumplirse que P (F ) = P (Y = y) > 0. En caso contrario, el
cuociente (5.2.1) se indefine.
Otra caracterı́stica interesante de la definici ón de funci ón de probabilidad condicional, es que
si X e Y son variables aleatorias independientes, entonces
pX,Y (x, y) pX (x)pY (y)
pX|Y =y (x|y) = = = pX (x),
pY (y) pY (y)
y en forma an áloga, pY |X=x (y|x) = pY (y). En otras palabras, cuando hay independencia entre
las variables aleatorias en cuesti ón, informaci ón respecto de una de ellas no altera las probabilida-
des (distribuci ón) de la otra. Esta caracterı́stica es no s ólo deseable, si no que, a nivel intuitivo,
completamente natural.
La definici ón de funci ón de probabilidad condicional se puede extender en forma natural a
vectores aleatorios. Ası́, si X e Y son vectores aleatorios discretos, se define la funci ón de proba-
bilidad discreta conjunta condicional de X dado que Y = y mediante
pX,Y (x, y)
pX|Y =y (x|y) = .
pY (y)
Ejemplo 5.2.1 Sean X ∼ Poisson(λ) e Y ∼ Poisson(µ) independientes. Sea Z =

X + Y , y calculemos la distribuci ón condicional de X dado que Z = z. Primero,
notemos que Z = {0, 1, 2, . . .}, y que para z ∈ Z
z
X
pZ (z) = P (Z = z) = P (X + Y = z) = P (X = x, Y = z − x)
x=0
z z
X X λx e−λ µz−x e−µ
= P (X = x)P (Y = z − x) =
x! (z − x)!
x=0 x=0
z
e−(λ+µ) X z (λ + µ)z e−(λ+µ)
= λx µ(z−x) = ,
z! x z!
x=0
por lo que Z ∼ Poisson(λ + µ). Luego,

pX,Z (x, z) P (X = x, Z = z) P (X = x, Y = z − x)
pX|Z=z (x|z) = = =
pZ (z) P (Z = z) P (Z = z)
λx e−λ µz−x e−µ
P (Y = y)P (Y = z − x) x! (z−x)!
= = z e−(λ+µ)
P (Z = z) (λ+µ)
z!
x z−x
z λ λ
= 1− , x = 0, 1, . . . , z,
x λ+µ λ+µ
λ
y hemos ası́ probado que X|Z = z ∼ Bin(z, λ+µ ).
Note que probar el hecho que Z ∼ Poisson(λ + µ) se puede hacer en forma alternativa,
recurriendo a funciones generadoras. Se propone ésto como ejercicio.

´
5. DISTRIBUCI ON
Ejemplo 5.2.2 Se dispone de n monedas, cada una con probabilidad 0 < p < 1 de
dar cara. Considere el siguiente experimento. Se lanza cada moneda, independien-
temente de las dem ás. Posteriormente, aquellas monedas que dieron sello se lanzan
una vez más, independientemente entre sı́ y de los lanzamientos en la etapa anterior.
Obtengamos la distribuci ón del n úmero total de caras al final de este experimento.
Método I: Sean X e Y el n úmero de caras registrados en la primera y segunda ronda de
lanzamientos, respectivamente. Entonces, X ∼ Bin(n, p) e Y |X = x ∼ Bin(n−x, p),
y la variable que nos interesa es Z = X + Y . Luego, para z ∈ Z = {0, 1, . . . , n},
z
X
pZ (z) = P (Z = z) = P (X + Y = z) = P (X = k, Y = z − k)
k=0
z
X
= P (X = k)P (Y = z − k|X = k)
k=0
z
n k n−k n − k
X
= p (1 − p) pz−k (1 − p)n−z
k z−k
k=0
z
n z 2n−z
X z
= p (1 − p) (1 − p)−k
z k
k=0
z
n z 2n−z 1
= p (1 − p) 1+
z 1−p
z
n z 2n−z 2 − p
= p (1 − p)
z 1−p

n n−z
= (p(2 − p))z (1 − p)2 ,
z
y notando que p(2 − p) + (1 − p)2 = 1 para cualquier p ∈ [0, 1], se concluye que
Z ∼ Bin(n, p(2 − p)).
Método II: Consideremos ahora variables aleatorias X1 , . . . , Xn tales que Xi = 1 si la
i-ésima moneda dio cara al final del experimento, 0 en caso contrario. Es decir, X i = 1
cuando la i-ésima moneda da cara despu és de ya sea el primer o segundo lanzamientos.
Se tiene que la cantidad de inter és se obtiene mediante la suma X1 + · · · + Xn , en
donde las variables en esta suma son i.i.d. con distribuci ón Bernoulli. Para calcular
P (Xi = 1), observe que Xi = 0 es equivalente a obtener dos sellos en igual n úmero
de lanzamientos independientes de una moneda con probabilidad 1 − p de dar cara.
Luego, para i = 1, 2, . . . , n se tiene
P (Xi = 1) = 1 − P (Xi = 0) = 1 − (1 − p)2 = p(2 − p),
y se concluye que el n úmero total de caras tiene distribuci ón Binomial, correspondiente
a n ensayos, cada uno con probabilidad de éxito dada por p(2 − p).
Ejemplo 5.2.3 Considere un par (X, Y ) con distribuci ón uniforme en el cı́rculo uni-
tario descrito por {(x, y) : x2 + y 2 ≤ 1}, y calcule P (X > 0.5|Y < 0.25).

´
5. DISTRIBUCI ON
Note que la probabilidad buscada es igual a

P (X > 0.5, Y < 0.25)
,
P (Y < 0.25)
las cuales se calculan como cuocientes de áreas (ver Figura 5.2.1). Ası́,
y
x=0.5
y=0.25
Figura 5.2.1: Diagrama para el Ejemplo 5.2.3.
√
0.25 Z 1−y 2 0.25
p
1 2 1 − y2
Z Z
P (Y < 0.25) = √ dxdy = dy
−1 − 1−y 2 π −1 π
p 0.25 0.25 √
y 1 − y2 sin−1 (y) 15 sin−1 (0.25) 1
= + = + +
π π −1 16π π 2
−1
≈ 0.6574811787.
Por otra parte,

√
0.25 Z 1−y 2
Z 0.25 p
1 1 − y 2 − 0.5
Z
P (X < 0.5, Y > 0.25) = dxdy = dy
−1 0.5 π −1 π
" p # 0.25
y 1 − y 2 sin−1 (y) 0.25 + 1
= + −
2π 2π 2π
−1
√
15 sin−1 (0.25) 1 5
= + + − ,
32π 2π 4 8π
≈ 0.1297969105,
y la probabilidad pedida es el cuociente entre dichas cantidades, lo que da aproximada-

mente 0.1974154009.

´
5. DISTRIBUCI ON
Note que aunque el Ejemplo 5.2.3 est á originalmente planteado en t érminos de variables aleato-
rias continuas, la probabilidad condicional calculada corresponde b ásicamente a una discretizaci ón
de dichas variables en t érminos de intervalos. Si la probabilidad pedida fuese P (X > 0.5|Y =
0.25), nuestra actual definici ón de probabilidad condicional no se puede aplicar, pues por ser Y una
variable aleatoria continua, se tiene que P (Y = 0.25) = 0.
Esto requiere entonces una definici ón más general de distribuci ón condicional, lo que se discute
a continuaci ón.
5.3 Definici ón General de Distribuci ón Condicional
Para motivar la definici ón, consideremos dos variables aleatorias X e Y con densidad conjunta
fX,Y (x, y), definidas en un subconjunto apropiado de R2 . Supongamos se quiere calcular la pro-
babilidad del evento X ∈ A, sabiendo que Y tom ó el valor y. Es necesario hacer la precisi ón que
el hecho que P (Y = y) = 0 no significa que Y no pueda jam ás tomar el valor y. Esta aparente
contradicci ón es s ólo producto del modelo matem ático que hemos adoptado para tratar variables
aleatorias. No obstante lo anterior, cuando se opera con variables aleatorias continuas, los eventos
de interés son usualmente intervalos o uniones de ellos.
Para resolver el problema planteado, consideremos un peque ño intervalo (y − , y + ] para
> 0. Para dar sentido a la expresi ón P (X ∈ A|Y = y), usaremos un argumento basado en
lı́mites.
o n 5.3.1 Sean X e Y variables aleatorias. Se define la probabilidad condicional que X ∈ A

Definici´
dado que Y = y mediante
P (X ∈ A|Y = y) = lim P (X ∈ A|y − < Y ≤ y + ). (5.3.1)

→0+
Más generalmente, si B es un evento definido en t érminos de una o m ás variables aleatorias

X1 , . . . , Xn , (por ejemplo, {X1 + X2 > X3 }), se define la probabilidad condicional de B dado que
Y = y mediante
P (B|Y = y) = lim P (B|y − < Y ≤ y + ). (5.3.2)
→0+
En particular, la funci ón de distribuci ón acumulada condicional de X dado que Y = y se define
mediante
FX|Y =y (x|y) = P (X ≤ x|Y = y) = lim P (X ≤ x|y − < Y ≤ y + ). (5.3.3)

→0+
Veamos algunas consecuencias de la Definici ón 5.3.1. En primer lugar, si X e Y son indepen-
dientes, entonces, para cualquier > 0
P (X ∈ A|y − < Y ≤ y + ) = P (X ∈ A),
de modo que el lı́mite en (5.3.1) se reduce a P (X ∈ A), tal como se espera desde un punto de vista
intuitivo. Note adem ás que este resultado no depende del tipo de variable involucrada.

´
5. DISTRIBUCI ON
En segundo lugar, observe que si ambas variables son discretas, la definici ón (5.3.1) tendr á sen-
tido s ólo si y es un valor tal que P (Y = y) > 0. Observe adem ás que puesto que hemos asumido
que el soporte de Y contiene s ólo puntos con probabilidad estrictamente positiva, se concluye que
observar y tal que P (Y = y) = 0 es imposible. Ası́,
P (X ∈ A, y − < Y ≤ y + )
lim P (X ∈ A|y − < Y ≤ y + ) = lim
→0+ →0+ P (y − < Y ≤ y + )
lim P (X ∈ A, y − < Y ≤ y + )
→0+
=
lim P (y − < Y ≤ y + )
→0+
P (X ∈ A, Y = y)
= = P (X ∈ A|Y = y)
P (Y = y)
X
= pX|Y =y (x|y),
x∈A∩X
tal como se tenı́a hasta el momento.

En tercer lugar, y volviendo a la situaci ón del comienzo de esta secci ón, suponga que X e Y
tienen densidad conjunta fX,Y (x, y). Entonces
P (X ≤ x|Y = y) = lim P (X ≤ x|y − < Y ≤ y + )
→0+
P (X ≤ x, y − < Y ≤ y + )
= lim
→0+ P (y − < Y ≤ y + )
1
R x R y+
2 −∞ y− fX,Y (s, t)dtds
= lim 1
R y+
2 y− fY (t)dt
→0 +

Rx 1
R y+
−∞ lim 2 y− fX,Y (s, t)dt ds
→0+
= 1
R y+ ,
lim 2 y− f Y (t)dt
→0+
y usando el Teorema del Valor Medio para integrales se obtiene la siguiente expresi ón para la
funci ón de distribuci ón acumulada condicional de X dado que Y = y:
Z x
fX,Y (s, y)
FX|Y =y (x|y) = ds. (5.3.4)
−∞ fY (y)
o n 5.3.2 Si X e Y poseen densidad conjunta fX,Y (x, y), se define la densidad condicional
Definici´
de X dado que Y = y mediante
fX,Y (x, y)
fX|Y =y (x|y) = . (5.3.5)
fY (y)
Observe que (5.3.5) se obtiene de (5.3.4) mediante diferenciaci ón. Note que (5.3.5) es una
funci ón densidad. En efecto, ella es siempre no negativa, por ser un cuociente entre funciones no
negativas, y adem ás,
Z ∞ Z ∞
1 fY (y)
fX|Y =y (x|y)dx = fX,Y (x, y)dx = = 1.
−∞ f Y (y) −∞ fY (y)

´
5. DISTRIBUCI ON
Adicionalmente, si se asume que X e Y son independientes, entonces se tiene f X,Y (x, y) =

fX (x)fY (y), de modo que
fX (x)fY (y)
fX|Y =y (x|y) = = fX (x).
fY (y)
Ası́, en el caso de independencia, la densidad condicional de X dado que Y = y se transforma
simplemente en la densidad marginal de X, tal como debı́a esperarse intuitivamente.
Un resultado b ásico relativo a probabilidades condicionales para eventos es el Teorema de Pro-
babilidades Totales. Enunciamos a continuaci ón una generalizaci ón al caso continuo.
Teorema 5.3.1 Sea B un evento, y X una variable aleatoria con densidad f X (x). Entonces
Z ∞
P (B) = P (B|X = x)fX (x)dx. (5.3.6)
−∞
Queda a ún por discutir el caso mixto. Aquı́ lo usual es que la distribuci ón conjunta de las va-
riables involucradas se defina en t érminos de distribuciones condicionales de una variable aleatoria
dada la otra, la que se combina con la distribuci ón marginal de la variable que condiciona. Este
enfoque es ligeramente distinto de lo expuesto hasta el momento, en el que las distribuciones condi-
cionales se definieron a partir de la distribuci ón conjunta. Ası́, por ejemplo, si X|Y = y es discreta,
con distribuci ón dependiente de y, e Y es continua con densidad f Y (y), entonces la funci ón de
probabilidad discreta conjunta est á dada por pX,Y (x, y) = pX|Y =y (x|y)fY (y).
Otra situaci ón que aparece con frecuencia, es una generalizaci ón del Teorema de Bayes visto en
el Capı́tulo 2. Supongamos que se conoce la distribuci ón condicional de X dado que Y = y, y la
distribuci ón marginal de Y . ¿C ómo se calcula la distribuci ón de Y dado que X = x? La interpreta-
ci ón que se suele dar a este proceso es como sigue. Los estados de la naturaleza se describen, antes
de hacer un experimento, mediante los valores de Y . La opini ón que se tiene de esta naturaleza, se
describe desde un punto de vista probabilı́stico mediante la distribuci ón de Y , usualmente llamada
distribuci ón a priori. Suponiendo que el estado de la naturaleza es y, la variable aleatoria X, que
representa el resultado de un cierto experimento a realizar, tiene distribuci ón X|Y = y. Se realiza
dicho experimento, y se observa el valor x de una variable aleatoria X. Como resultado de este
experimento, actualizamos nuestra opini ón de la naturaleza, mediante el c álculo de la distribuci ón
de Y dado que X = x, tambi én llamada distribuci ón a posteriori.
Veremos a continuaci ón la forma de realizar estos c álculos.
1. X e Y son discretas: en este caso el c álculo es

Prelativamente sencillo. Usando el hecho que
pX,Y (x, y) = pX|Y =y (x|y)pY (y), y pX (x) = pX,Y (x, y), se obtiene la f órmula
y
pX|Y =y (x|y)pY (y)

pY |X=x (y|x) = P . (5.3.7)
pX|Y =s (x|s)pY (s)
s∈Y
2. X e Y son continuas: en este caso es posible probar que (X, Y ) tiene densidad conjunta dada
por fX,Y (x, y) = fX|Y =y (x|y)fY (y). La densidad marginal de X se obtiene de fX (x) =

´
5. DISTRIBUCI ON
R∞
−∞ fX,Y (x, y)dy, de modo que se tiene la expresi ón
fX|Y =y (x|y)fY (y)

fY |X=x (y|x) = R ∞ . (5.3.8)
−∞ fX|Y =s (x|s)fY (s)ds
3. X es discreta
R ∞ e Y es continua: la distribuci ón marginal de X se obtiene mediante la f órmula
pX (x) = −∞ pX|Y =y (x|y)fY (y)dy, expresi ón que se obtiene del Teorema 5.3.1, por lo que
pX|Y =y (x|y)fY (y)

fY |X=x (y|x) = R ∞ . (5.3.9)
−∞ pX|Y =s (x|s)fY (s)ds
4. X es continua e Y es discreta: mediante c álculos análogos a los mostrados, se obtiene que
fX|Y =y (x|y)pY (y)

pY |X=x (y|x) = P . (5.3.10)
fX|Y =s (x|s)pY (s)
s∈S
Por último, la generalizaci ón de los conceptos vistos al caso de m ás variables es directa. Veamos
a continuaci ón algunos ejemplos.
Ejemplo 5.3.1 Sean X e Y variables aleatorias independientes con X ∼ Exp(λ) e

Y ∼ Exp(µ), donde λ, µ > 0. Calcule P (X > Y ).
R ∞ la densidad de W = X − Y ,
Una forma de resolver este problema consiste en calcular
con lo que la probabilidad pedida es simplemente 0 fW (w)dw. Sin embargo, por el
Teorema 5.3.1 se tiene
Z ∞
P (X > Y ) = P (X > Y |Y = y)fY (y)dy.
0
El paso crucial del argumento consiste en calcular P (X > Y |Y = y). Una vez que
se condiciona en Y = y, se puede substituir dicho valor en el evento al lado izquier-
do de la probabilidad condicional, lo que se conoce como Principio de Substituci ón.
Ası́, P (X > Y |Y = y) = P (X > y|Y = y). Pero una vez que se ha hecho esta
substituci ón, el evento de inter és {X > y} en la probabilidad condicional, ya no de-
pende de la variable aleatoria Y , esto es, depende s ólo de X, y puesto que X e Y son
independientes, se concluye que P (X > y|Y = y) = P (X > y) = e −y/λ . Luego,
∞
e−y/µ 1
Z
P (X > Y ) = e−y/λ =
0 µ µ λ + µ1
1
λ
= .
λ+µ
Se propone como ejercicio obtener este resultado mediante el c álculo de la densidad de
W =X −Y.

´
5. DISTRIBUCI ON
Ejemplo 5.3.2 Considere el par (X, Y ) del Ejemplo 4.2.4, y calcule la densidad con-
dicional de X dado que Y = y. Puesto que ambos fX,Y y fY se tienen de lo hecho en
el Ejemplo 4.2.4, lo pedido se obtiene directamente de (5.3.5):
3
4 (|x| + |y|) |x| + |y|
fX|Y =y (x|y) = 3 = ,
2
4 (1 − y )
1 − y2
para −(1 − |y|) ≤ x ≤ 1 − |y|.
Ejemplo 5.3.3 Suponga que X|Y = y ∼ Poisson(y), e Y ∼ Γ(α, λ), con α > 0 y
λ > 0. Calcule la densidad de Y dado que X = x.
Se tiene que para x ∈ {0, 1, 2, . . . , }
Z ∞ x −y α−1 −y/λ Z ∞
y e y e 1
pX (x) = dy = y α+x−1 e−y(1+1/λ) dy
0 x! Γ(α)λα x!Γ(α)λα 0
Γ(α + x)
= α+x
x!Γ(α)λα 1 + λ1
Luego, por (5.3.9), y despu és de simplificar las expresiones se obtiene que
y β−1 e−y/µ
fY |X=x (y|x) = , , y > 0,
Γ(β)µβ
en donde β = α + x y µ = λ/(1 + λ), y se concluye que Y |X = x ∼ Γ(β, µ).
Ejemplo 5.3.4 Considere un vector aleatorio X ∼ Nn (µ, Σ), con

X1 µ1 Σ11 Σ12
X= , µ= , y Σ= ,
X2 µ2 Σ21 Σ22
en donde X 1 y X 2 tienen dimensiones respectivas k y l, con k + l = n. Calculemos
la distribuci ón condicional de X 1 dado que X 2 = x2 .
Para ello, considere el vector W = X 1 − Σ12 Σ−1 22 X 2 . Se tiene que, por las propie-
dades de las matrices de covarianza, y recordando que puesto que Σ 22 es simétrica, su
inversa también lo es:
Cov(X 2 , W ) = Cov(X 2 , X 1 ) − Cov(X 2 , X 2 )Σ−1

22 Σ21
= Σ21 − Σ22 Σ−1
22 Σ21
= 0.
Ası́, usando la Proposici ón 4.7.3(i) con
−Σ12 Σ−1

Ik 22
A= ,
0 Il
se tiene que el vector
W
X2

´
5. DISTRIBUCI ON
tiene distribuci ón conjunta normal multivariada, por lo que X 2 y W son vectores ale-
atorios independientes (recuerde que en el caso de la distribuci ón normal multivariada,
independencia es equivalente a la no correlaci ón). Ası́, la distribuci ón condicional de
W dado que X 2 = x2 es simplemente la distribuci ón marginal (no condicional) de
W . Un cálculo directo, muestra que W ∼ Nk (µ1 −Σ12 Σ−1 −1
22 µ2 , Σ11 −Σ12 Σ22 Σ21 ).
−1
Pero puesto que W = X 1 − Σ12 Σ22 X 2 , por el principio de substituci ón introducido
en el Ejemplo 5.3.1, la distribuci ón condicional de W dado que X 2 = x2 coincide con
aquella de X 1 − Σ12 Σ−1 22 x2 dado que X 2 = x2 . Puesto que despu és de condicionar
en X 2 = x2 la cantidad −Σ12 Σ−1 22 x2 es simplemente una constante, el resultado final
se obtiene de restar dicha constante a la distribuci ón condicional de W , para obtener
X 1 |X 2 = x2 ∼ Nk (µ1 − Σ12 Σ−1 −1

22 (µ2 − x2 ), Σ11 − Σ12 Σ22 Σ21 ).
Para el caso particular en que k = l = 1 (esto es, n = 2), y con
σ12

ρσ1 σ2
Σ= ,
ρσ1 σ2 σ22
se obtiene
ρσ1 2 2
X1 |X2 = x2 ∼ N µ1 − (µ2 − x2 ), σ1 (1 − ρ ) .
σ2
i.i.d.
Ejemplo 5.3.5 Sean X1 , . . . , Xn ∼ Exp(λ), donde λ > 0. Considere las variables
aleatorias definidas mediante
Y1 = X(1) ,


 (X2 − X1 , . . . , Xn − X1 ) si X(1) = X1
 (X1 − X2 , X3 − X2 , ..., Xn − X2 ) si X(1) = X2

(Y2 , ..., Yn ) = ..


 .
(X1 − Xn , . . . , Xn−1 − Xn ) si X(1) = Xn

Observe que la definici ón de Y2 , . . . , Yn consiste en las variables X1 − X(1) , . . . , Xn −

X(1) , después de eliminar aquella que es id énticamente 0. Obtengamos la distribuci ón
conjunta de Y1 , . . . , Yn . Para ello, defina los eventos
A = {Y1 > y1 , . . . , Yn > yn }

Bi = {X(1) = Xi }, i = 1, . . . , n,
donde y1 , . . . , yn > 0. Se tiene entonces que

n
X
P (Y1 > y1 , . . . , Yn ≤ yn ) = P (A ∩ Bi ).
i=1
Ahora, por el Teorema 5.3.1 se tiene

Z ∞
P (A ∩ Bi ) = P (A ∩ Bi |Xi = xi )fXi (xi )dxi .
0

´
5. DISTRIBUCI ON
Por otra parte,

{A ∩ Bi } = {Xi > y1 , X1 − Xi > y2 , . . . , Xi−1 − Xi > yi ,
Xi+1 − Xi > yi+1 , . . . , Xn − Xi > yn , X1 > Xi ,
. . . , Xi−1 > Xi , Xi+1 > Xi , . . . Xn > Xi }
= {Xi > y1 , X1 > y2 + Xi , . . . , Xi−1 > yi + Xi ,
. . . , Xi+1 > yi+1 + Xi , . . . , Xn > yn + Xi },
por lo que, usando el principio de substituci ón y el hecho que X1 , . . . , Xn son i.i.d.
Exp(λ), se tiene que
Z ∞
P (A ∩ Bi ) = P (Xi > y1 , X1 > y2 + Xi , ..., Xi−1 > yi + Xi ,
0
e−xi /λ
..., Xi+1 > yi+1 + Xi , ..., Xn > yn + Xi |Xi = xi ) dxi
Z ∞ λ
= P (xi > y1 , X1 > y2 + xi , ..., Xi−1 > yi + xi ,
0
e−xi /λ
..., Xi+1 > yi+1 + xi , ..., Xn > yn + xi |Xi = xi ) dxi
Z ∞ λ
= P (xi > y1 , X1 > y2 + xi , ..., Xi−1 > yi + xi ,
0
e−xi /λ
..., Xi+1 > yi+1 + xi , ..., Xn > yn + xi ) dxi
Z ∞ λ
= P (X1 > y2 + xi , ..., Xi−1 > yi + xi , ...,
y1
e−xi /λ
Xi+1 > yi+1 + xi , ..., Xn > yn + xi ) dxi
λ
i−1
∞Y n
e−xi /λ
Z Y
= P (Xj > yj+1 + xi ) P (Xj > yj + xi ) dxi
y1 j=1 λ
j=i+1
i−1
∞Y n
e−xi /λ
Z Y
= e−(yj+1 +xi )/λ e−(yj +xi )/λ dxi
y1 j=1 λ
j=i+1
n
∞
P
− yj /λ
Z
= e j=2
e−nxi /λ dxi
y1
n
P
1 − j=2 yj /λ −ny1 /λ
= e e
n
Luego,
n n
n P P
X 1 − j=2 yj /λ −ny1 /λ − yj /λ
P (A) = e e = e j=2 e−ny1 /λ ,
n
i=1
y se concluye que Y1 , . . . , Yn son independientes, con Y1 ∼ Exp(λ/n), e Yj ∼ Exp(λ)
para j = 2, . . . , n. En particular, se deduce el siguiente resultado, que es útil en

´
5. DISTRIBUCI ON
n
P n
P
Inferencia Estadı́stica: X(1) ∼ Exp(λ/n) y (Xi − X(1) ) = Yj ∼ Γ(n − 1, λ)
i=1 j=2
son independientes.
5.4 Esperanza Condicional
Pasamos a definir ahora el concepto de esperanza condicional, y a estudiar algunas de sus propie-
dades básicas. En forma intuitiva, la esperanza condicional es simplemente la esperanza de una
distribuci ón condicional.
o n 5.4.1 Sean X e Y variables aleatorias. Se define la esperanza condicional de X dado

Definici´
que Y = y mediante
( P
xpX|Y =y (x|y) si X es discreta
E(X|Y = y) = Rx∞ (5.4.1)
−∞ xfX|Y =y (x|y)dx si X es continua,
si la suma o integral correspondiente converge absolutamente, lo que se tiene si E(|X|) < ∞.
La esperanza condicional ası́ definida, tiene todas las propiedades que posee la esperanza E(·)
definida en el Capı́tulo 3. Por ejemplo, si las expresiones involucradas existen, entonces dadas
constantes a y b se tiene E(aX + bZ|Y = y) = aE(X|Y = y) + bE(Z|Y = y). La raz ón de
esto es que la esperanza condicional de X dado que Y = y se puede ver simplemente como el valor
esperado correspondiente a una cierta variable aleatoria W cuya distribuci ón coincide con la de
X|Y = y. De este modo, todas las propiedades para E(·) se cumplen para E(·|Y = y), incluyendo
la correspondiente versi ón del Teorema 3.8.1:
Z ∞
E(g(X)|Y = y) = g(x)fX|Y =y (x|y)dx,
−∞
si X es continua, o bien reemplazando la integral por una suma si X es discreta. Este resultado
permite definir momentos de la distribuci ón condicional, y en particular la varianza condicional, en
forma análoga a las versiones no condicionales correspondientes.
Definició n 5.4.2 Sean X e Y variables aleatorias. En la medida que las expresiones involucradas
existan, se define:
(a) El momento condicional de orden k de X dado que Y = y mediante
µk (X|Y = y) = E(X k |Y = y). (5.4.2)
(b) La varianza condicional de X dado que Y = y mediante
V ar(X|Y = y) = E(X 2 |Y = y) − (E(X|Y = y))2 . (5.4.3)

´
5. DISTRIBUCI ON
Algunas propiedades de la esperanza condicional son consecuencia del Principio de Substitu-

ci ón. Ası́, para una funci ón de dos variables g, se tiene que
E(g(X, Y )|Y = y) = E(g(X, y)|Y = y),
y en particular,
E(g(X)h(Y )|Y = y) = E(g(X)h(y)|Y = y) = h(y)E(g(X)|Y = y),
siempre y cuando las expresiones involucradas existan.
λ
Ejemplo 5.4.1 En el Ejemplo 5.2.1 se tiene que X|Z = z ∼ Bin(z, λ+µ ), de modo
zλ
que E(X|Z = z) = λ+µ .
Ejemplo 5.4.2 Si X|Y = y ∼ Bin(n, y) e Y ∼ Beta(a, b) con a, b > 0, calcule

E(Y |X = x).
De acuerdo a la Definici ón 5.4.1, necesitamos previamente obtener la distribuci ón de
Y dado que X = x. Por el Teorema 5.3.1, y para x ∈ {0, 1, 2, . . . , n}:
Z 1
n x y a−1 (1 − y)b−1
pX (x) = y (1 − y)n−x dy
0 x B(a, b)
n
Z 1
= x
y a+x−1 (1 − y)b+n−x−1 dy
B(a, b) 0
n

x B(a + x, b + n − x)
=
B(a, b)
Luego, por (5.3.9), y despu és de simplificar términos, se obtiene que
y a+x−1 (1 − y)b+n−x−1
fY |X=x (y|x) = ,
B(a + x, b + n − x)
de modo que Y |X = x ∼ Beta(a + x, b + n − x). Por consiguiente, E(Y |X = x) =
a+x
a+b+n (ver Ejemplo 3.8.3).
Ejemplo 5.4.3 En el Ejemplo 5.3.4 tenemos E(X 1 |X 2 = x2 ) = µ1 −Σ12 Σ−1

22 (µ2 −
x2 ).
En todos estos ejemplos, se tiene que la esperanza condicional de una variable o vector aleatorio
dado el valor de otra variable o vector aleatorio, se expresa como una funci ón del valor de la variable
zλ
que condiciona. Ası́, en el Ejemplo 5.4.1, E(X|Z = z) = λ+µ , que es una funci ón de z. Esto
motiva la siguiente definici ón.
o n 5.4.3 Sean X e Y variables aleatorias con E(|X|) < ∞. La esperanza condicional de

Definici´
X dado Y es una variable aleatoria que se denota por E(X|Y ), y definida como ϕ(Y ), donde
ϕ(y) = E(X|Y = y). (5.4.4)

´
5. DISTRIBUCI ON
λz
Ası́, en el Ejemplo 5.4.1 se tiene que ϕ(z) = E(X|Z = z) = λ+µ , de modo que

λ
E(X|Z) = ϕ(Z) = Z.
λ+µ
A modo de receta, para calcular E(X|Y ), basta reemplazar “y” por “Y ”, una vez calculado el valor
de E(X|Y = y).
En el mismo Ejemplo 5.4.1, note que puesto que Z ∼ Poisson(λ + µ), entonces E(Z) = λ + µ,
y se tiene que

λ λ
E(E(X|Z)) = E Z = E(Z) = λ = E(X).
λ+µ λ+µ
Lejos de ser una coincidencia, esto es resultado de una de las propiedades b ásicas de esperanzas
condicionales.
Teorema 5.4.1 Sean X e Y variables aleatorias con E(|X|) < ∞. Entonces
E(X) = E(E(X|Y )). (5.4.5)
Aunque no daremos una demostraci ón del Teorema 5.4.1 en el caso general, es ilustrativo con-
siderar lo que sucede en el caso que X e Y poseen densidad conjunta f X,Y (x, y). Puesto que
Z ∞ Z ∞
xfX,Y (x, y)
ϕ(y) = E(X|Y = y) = xfX|Y =y (x|y)dx = dx,
−∞ −∞ fY (y)
entonces
Z ∞
E(E(X|Y )) = E(ϕ(Y )) = ϕ(y)fY (y)dy
−∞
Z ∞ Z ∞
xfX,Y (x, y)
= dx fY (y)dy
−∞ −∞ fY (y)
Z ∞Z ∞
= xfX,Y (x, y)dxdy
−∞ −∞
= E(X).
El tratamiento del caso general requiere conceptos de Teorı́a de la Medida, que van m ás allá de los
objetivos de este texto.
Veamos ahora otras dos propiedades útiles de la esperanza condicional, que son consecuencias
del Teorema 5.4.1.
Proposici oń 5.4.1 Sean X, Y y Z variables aleatorias.
(a) Si E(X 2 ) < ∞, entonces
V ar(X) = E(V ar(X|Y )) + V ar(E(X|Y )) (5.4.6)

´
5. DISTRIBUCI ON
(b) Si E(X 2 ) y E(Y 2 ) son ambas finitas, entonces
Cov(X, Y ) = E(Cov((X, Y )|Z)) + Cov(E(X|Z), E(Y |Z)), (5.4.7)
en donde la covarianza condicional entre X e Y dado Z se define como Cov((X, Y )|Z) =

E(XY |Z) − E(X|Z)E(Y |Z).
Demostraci oń:
(a) Se tiene que
E(V ar(X|Y )) = E{E(X 2 |Y ) − (E(X|Y ))2 } = E(E(X 2 |Y )) − E{(E(X|Y ))2 }

= E(X 2 ) − E{(E(X|Y ))2 }.
y por otra parte,
V ar(E(X|Y )) = E{(E(X|Y ))2 } − {E(E(X|Y ))}2

= E{(E(X|Y ))2 } − (E(X))2 ,
y el resultado se obtiene de sumar estas expresiones.
(b) El procedimiento para este caso es similar al de (a). En efecto,
E(Cov((X, Y )|Z)) = E(E(XY |Z) − E(X|Z)E(Y |Z))

= E(XY ) − E(E(X|Z)E(Y |Z)),
y además
Cov(E(X|Z), E(Y |Z)) = E(E(X|Z)E(Y |Z)) − E(E(X|Z))E(E(Y |Z))

= E(E(X|Z)E(Y |Z)) − E(X)E(Y ),
y el resultado se obtiene de sumar las expresiones obtenidas.
Ejemplo 5.4.4 En el Ejemplo 5.2.2, suponga que s ólo nos interesa calcular el valor
esperado y varianza del n úmero total de monedas que dan cara al final de las dos rondas
del experimento. Con la notaci ón usada en su momento, dicho n úmero es Z = X + Y ,
donde X ∼ Bin(n, p), e Y |X = x ∼ Bin(n − x, p). Se tiene que
E(Z|X = x) = E(X + Y |X = x) = E(x + Y |X = x)

= x + E(Y |X = x) = x + (n − x)p
= np + (1 − p)x,
de modo que E(Z|X) = np + (1 − p)X, y ası́
E(Z) = E(E(Z|X)) = E(np + (1 − p)X) = np + (1 − p)E(X)

= np + (1 − p)np = np(2 − p).

´
5. DISTRIBUCI ON
Por otra parte,
V ar(Z|X = x) = V ar(X + Y |X = x) = V ar(x + Y |X = x)

= V ar(Y |X = x) = (n − x)p(1 − p),
de donde, V ar(Z|X) = p(1 − p)(n − X), y
E(V ar(Z|X)) = E(p(1 − p)(n − X)) = p(1 − p)E(n − X)

= p(1 − p)(n − E(X)) = p(1 − p)(n − np)
= np(1 − p)2 .
Además,
V ar(E(Z|X)) = V ar(np + (1 − p)X) = V ar((1 − p)X)

= (1 − p)2 V ar(X) = (1 − p)2 np(1 − p)
= np(1 − p)3 .
Ası́, por (5.4.6),
V ar(Z) = np(1 − p)2 + np(1 − p)3 = np(1 − p)2 (1 + 1 − p)

= np(1 − p)2 (2 − p).
Ejemplo 5.4.5 Sean W , X e Y variables aleatorias con densidad conjunta

c(1 + wxy) si 0 ≤ w, x, y ≤ 1
fW,X,Y (w, x, y) =
0 si no.
Obtengamos primero el valor de c. Se debe tener

ZZZ
1 = c (1 + wxy)dwdxdy
[0,1]3
ZZZ ZZZ
= c 1 dwdxdy + c wxy dwdxdy
[0,1]3 [0,1]3

1 9c
= c 1+ = ,
8 8
de modo que c = 89 . Calculemos ahora la distribuci ón condicional de (W, X) dado que
Y = y. Para ello, se necesita la densidad fY (y), la que se calcula mediante
8 1 1 8 1 xy 8 y
Z Z Z
fY (y) = (1 + wxy) dwdx = 1+ dx = 1+
9 0 0 9 0 2 9 4
8 + 2y
= , 0 ≤ y ≤ 1.
9

´
5. DISTRIBUCI ON
Ası́, se obtiene
fW,X,Y (w, x, y) 4(1 + wxy)
fW,X|Y =y (w, x|y) = = .
fY (y) 4+y
Verifiquemos ahora que (5.4.7) se cumple:
Z 1Z 1
4 9 + 4y
E(W X|Y = y) = wx(1 + wxy)dxdw = ,
4+y 0 0 36 + 9y
y luego,
9 + 4Y
E(W X|Y ) = .
36 + 9Y
Además
1Z 1
4 6 + 2y
Z
E(W |Y = y) = w(1 + wxy)dxdw = ,
4+y 0 0 12 + 3y
y por la simetrı́a del problema se obtienen las esperanzas condicionales
6 + 2Y 6 + 2Y
E(W |Y ) = y E(X|Y ) = .
12 + 3Y 12 + 3Y
Luego,
Y
Cov((W, X)|Y ) = E(W X|Y ) − E(W |Y )E(X|Y ) = ,
9(4 + Y )2
de donde se obtiene
1
y 8 + 2y
Z
E(Cov((W, X)|Y )) = 2
× dy
0 9(4 + y) 9
2 − 8 log(5) + 16 log(2)
= .
81
Por otra parte,

6 + 2Y 6 + 2Y
Cov(E(W |Y ), E(X|Y )) = Cov ,
12 + 3Y 12 + 3Y

6 + 2Y
= V ar .
12 + 3Y
Ahora, 1
6 + 2Y 6 + 2y 8 + 2y 14
Z
E = × dy = ,
12 + 3Y 0 12 + 3y 9 27
y además
( 2 ) 1
(6 + 2y)2 8 + 2y

6 + 2Y
Z
E = dy
12 + 3Y 0 (12 + 3y)2 9
20 + 8 log(5) − 16 log(2)
=
81

´
5. DISTRIBUCI ON
por lo que
20 + 8 log(5) − 16 log(2) 142

6 + 2Y
V ar = − 2
12 + 3Y 81 27
8 log(5) − 16 log(2) 16
= − .
81 729
Finalmente, sumando E(Cov((W, X)|Y )) y Cov(E(X|Y ), E(W |Y )), se obtiene
2 − 8 log(5) + 16 log(2) 8 log(5) − 16 log(2) 16 2

+ − = .
81 81 729 729
Calculemos ahora Cov(W, X) directamente de la distribuci ón conjunta inicial. Se
tiene
8 1 1 22
Z Z
E(W X) = wx(1 + wxy)dxdwdy = ,
9 0 0 81
y
8 1 1 14
Z Z
E(W ) = w(1 + wxy)dxdwdy = ,
9 0 0 27
donde, por simetrı́a, E(W ) = E(X). Se obtiene ası́
22 142
Cov(W, X) = E(W X) − E(W )E(X) = −
81 272
2
= ,
729
lo que coincide con lo que se obtuvo anteriormente. C álculos semejantes permiten
121 4
concluir que V ar(W ) = V ar(X) = 1458 , por lo que ρ(W, X) = 121 ≈ 0.033.
Ejemplo 5.4.6 Consideremos la situaci ón del Ejemplo 4.5.4, la cual generalizamos
suponiendo que X1 , X2 , . . . son i.i.d. con media µ y varianza σ 2 , y consideramos N
una variable aleatoria con soporte incluido en {1, 2, . . .}, con media ν y varianza τ 2 .
N
P
Ası́, definimos SN = Xi , esto es, X1 + · · · + Xn si N = n, con n ≥ 1. Se asume
i=1
además que N es independiente de X1 , X2 , . . .. Calculemos ahora E(SN ) y V ar(SN ).
Se tiene que
n
X n
X
E(SN |N = n) = E( Xi |N = n) = E(Xi |N = n).
i=1 i=1
Pero como N es independiente de cada Xi , se tiene que E(Xi |N = n) = E(Xi ) = µ.

Luego,
X n
E(SN |N = n) = µ = nµ,
i=1
de donde E(SN |N ) = N µ, y
E(SN ) = E(E(SN |N )) = E(N µ) = µE(N ) = µν.

´
5. DISTRIBUCI ON
Por otra parte,
V ar(E(SN |N )) = V ar(N µ) = µ2 V ar(N ) = µ2 τ 2 ,
y usando la independencia de los X’s,

n
X n
X
V ar(SN |N = n) = V ar( Xi |N = n) = V ar(Xi |N = n)
i=1 i=1
n
X
= V ar(Xi ) = nσ 2 .
i=1
Luego, V ar(SN |N ) = N σ 2 , por lo que E(V ar(SN |N )) = νσ 2 , de modo que por

(5.4.6)
V ar(SN ) = µ2 τ 2 + νσ 2 .
Ejemplo 5.4.7 Considere X, Y y Z variables aleatorias independientes con X, Y ∼

N (0, 1), y Z tiene densidad fZ . Calcule la distribuci ón de
X + ZY
W =√ ,
1 + Z2
y obtenga una expresi ón para ρ(X, W ) y ρ(Y, W ) en t érminos de la distribuci ón de Z.
Eval úe estas correlaciones para el caso en Z ∼ U (0, 1).
En este ejemplo queda de manifiesto la utilidad de los argumentos basados en condi-
cionamiento. Puesto que Z tiene la distribuci ón más “complicada”, condicionemos en
un valor de Z. Entonces, dado que Z = z, W se transforma en, por el principio de
substituci ón,
X + zY
√ .
1 + z2
Pero ahora z es simplemente una constante, de modo que la distribuci ón condicional
de W dado que Z = z corresponde a una combinaci ón lineal de las variables X e Y
(condicionadas en z). Pero tanto X como Y son independientes de Z, de modo que
X|Z = z ∼ N (0, 1) e Y |Z = z ∼ N (0, 1). M ás a ún, dado que Z = z, X e Y
siguen siendo independientes (¿por qu é?) por lo que se concluye que la distribuci ón
condicional mencionada es tambi én normal (ver Ejemplo 4.6.2). Se tiene que
1 z
E(W |Z = z) = √ E(X|Z = z) + √ E(Y |Z = z) = 0,
1+z 2 1 + z2
y
V ar(X|Z = z) z 2 V ar(Y |z = z) 1 + z2
V ar(W |Z = z) = + = = 1,
1 + z2 1 + z2 1 + z2
y entonces
W |Z = z ∼ N (0, 1).

´
5. DISTRIBUCI ON
Pero puesto que esta distribuci ón condicional no depende de z, ella es tambi én no
condicional, y ası́, W ∼ N (0, 1). Ahora bien,
Cov((X, X + zY )|Z = z)
Cov((X, W )|Z = z) = √
1 + z2
Cov((X, X)|Z = z) zCov((X, Y )|Z = z)
= √ + √
1 + z2 1 + z2
V ar(X|Z = z) 1
= √ =√ ,
1+z 2 1 + z2
de modo que Cov((X, W )|Z) = √ 1 . Por otra parte, E(X|Z) = E(X) = 0, y de

1+z 2
(5.4.7) se tiene
1
Cov(X, W ) = E √ ,
1 + Z2
lo cual coincide con ρ(X, W ), pues V ar(X) = V ar(W ) = 1. An álogamente se
obtiene
Z
ρ(Y, W ) = E √ .
1 + Z2
√ el caso que Z ∼ U (0, 1), se obtiene ρ(X, W ) = arcsinh(1) ≈ 0.8813 y ρ(Y, W ) =
En
2 − 1. Los detalles de estos últimos cálculos se proponen como ejercicio.
5.5 El Mejor Predictor
En esta secci ón retomamos el tema de predecir el valor de una variable o vector aleatorio, dado el
valor de otra variable o vector aleatoria. En la Secci ón 4.8 abordamos este problema restringi éndo-
nos a predictores lineales. Predicci ón lineal es atractiva por su simplicidad, pero muchas veces es
posible encontrar mejores predictores, si uno no se limita solamente a aquellos que tienen forma
lineal.
Consideremos el caso de dos vectores aleatorios X ∈ Rk e Y ∈ Rl , y encontremos el mejor
predictor (MP) de X dado Y , es decir, hallar alguna funci ón g(Y ) que minimice el error cuadr áti-
co medio de predicci ón
E{(X − g(Y ))0 (X − g(Y ))}. (5.5.1)
Para ello, usaremos el siguiente resultado preliminar.
Proposici oń 5.5.1 Sea X ∈ Rk un vector aleatorio tal que V (X) existe. Entonces, la soluci ón del
problema
min E{(X − c)0 (X − c)} (5.5.2)
c∈Rk
es c = E(X).
Demostraci oń: Sea h(c) = E{(X − c)0 (X − c)}. Entonces
h(c) = E(X 0 X − 2c0 X + c0 c) = E(X 0 X) − 2c0 E(X) + c0 c.

´
5. DISTRIBUCI ON
Suponiendo c = (c1 , . . . , ck )0 , y diferenciando h(c) con respecto a cj e igualando a 0 se obtiene

−2E(Xj ) + 2cj = 0, de donde cj = E(Xj ) para j = 1, . . . , k. Puesto que la matriz Hessiana
de h(c) es 2I k , que es definida positiva, se concluye que c = E(X) es efectivamente el mı́nimo
buscado.
Observe que el resultado de la Proposici ón 5.5.1 resuelve una versi ón restringida del problema
que motiva esta secci ón, cual es la de hallar el mejor vector de constantes, predictor de X, en el
sentido de resolver el problema 5.5.2. El error de predicci ón es, con c = E(X),
E(X 0 X) − 2E(X)0 E(X) + E(X 0 E(X)) = E(X 0 X) − E(X)0 E(X)

k
X k
X
= E( Xi2 ) − E(Xj )2
j=1 j=1
k
X
= V ar(Xj ).
j=1
Volviendo al problema original, consideremos la cantidad a minimizar, dada por (5.5.2), entre
todas las posibles funciones g : Rk → Rl . Observe que por el Teorema 5.4.1
E{(X − g(Y ))0 (X − g(Y ))} = E(E{(X − g(Y ))0 (X − g(Y ))|Y }).
Ahora, para minimizar

def
h(y) = E{(X − g(Y ))0 (X − g(Y ))|Y = y}
= E{(X − g(y))0 (X − g(y))|Y = y},
la Proposici ón 5.5.1 establece que la funci ón g elegida debe estar definida por g ? (y) = E(X|Y =
y), y por lo tanto, el MP es g ? (Y ) = E(X|Y ). En efecto, puesto que para cualquier funci ón g, y
para cualquier y se tiene
E{(X − E(X|Y = y))0 (X − E(X|Y = y))|Y = y} ≤ h(y),
entonces
E{(X − E(X|Y ))0 (X − E(X|Y ))|Y } ≤ h(Y ),
y tomando valor esperado a cada lado de esta última desigualdad se obtiene
E{(X − E(X|Y ))0 (X − E(X|Y ))} ≤ E{(X − g(Y ))0 (X − g(Y ))},
cualquiera que se g.
Ası́, hemos deducido que el mejor predictor de X dado Y , es simplemente
M P = E(X|Y ). (5.5.3)
Por otra parte, por (5.4.6) aplicado a cada elemento de las matrices en cuesti ón, se tiene que
V (M P ) = V (X) − E(V (X|Y )), (5.5.4)

´
5. DISTRIBUCI ON
que es una matriz al menos semi-definida positiva. M ás a ún, para cualquier vector de constantes
d = (d1 , . . . , dk ) se cumple que
V ar(d0 E(X|Y )) ≤ V ar(d0 X).
lo que en particular muestra que cada coordenada E(X j |Y ) del MP tiene siempre varianza inferior
o igual a V ar(Xj ), que corresponde al error de predecir Xj mediante la constante E(Xj ). Además,
el error de predicci ón (5.5.1) est á dado por
k
X
E{(X − E(X|Y ))0 (X − E(X|Y ))} = {V ar(Xi ) − V ar(E(Xi |Y ))}, (5.5.5)
j=1
resultado cuya demostraci ón se propone como ejercicio.

En algunos casos, como en los Ejemplos 5.2.1 y 5.4.3 el MP tiene forma lineal en la variable pre-
dictora. No es difı́cil convencerse que en este caso el MP y el MPL deben necesariamente coincidir.
Sin embargo, esto no es la regla, puesto que el MPL usa s ólo E((X, Y )0 ) y V ((X, Y )0 ), mientras
que el MP hace uso de la distribuci ón condicional de X dado Y , la cual, salvo excepciones, no
queda siempre determinada por dichas cantidades.
Por último, en el caso que X e Y son independientes, se verifica la igualdad E(X|Y ) =
E(X), y el MP se reduce simplemente a E(X).
Ejemplo 5.5.1 Suponga que X|Y = y ∼ N (y, τ 2 ), y que Y ∼ N (µ, σ 2 ), donde µ,

τ 2 y σ 2 son conocidos. Calcule el MP de Y dado X, y obtenga la varianza y error de
predicci ón correspondientes.
Por las condiciones del problema, se tiene que
(x − y)2 (y − µ)2

1
fX,Y (x, y) = √ exp − − .
2π τ 2 σ 2 2τ 2 2σ 2
Note que el argumento de la funci ón exponencial en esta densidad conjunta es una
forma cuadrática, de modo que la distribuci ón conjunta de (X, Y ) es normal bivaria-
da. Los parámetros de esta distribuci ón se pueden obtener en forma similar a la del
Ejemplo 4.7.2. Otra alternativa consiste simplemente en calcularlos directamente, co-
mo haremos a continuaci ón. En primer lugar, se tiene que E(Y ) = µ, y V ar(Y ) = σ 2 .
Por otra parte,
E(X) = E(E(X|Y )) = E(Y ) = µ,
V ar(X) = V ar(E(X|Y )) + E(V ar(X|Y )) = V ar(Y ) + E(τ 2 ) = σ 2 + τ 2 ,
y
E(XY ) = E(E(XY |Y )) = E(Y E(X|Y )) = E(Y 2 )
= V ar(Y ) + E(Y )2 = σ 2 + µ2 ,
q
σ2
de modo que Cov(X, Y ) = σ 2 + µ2 − µ2 = σ 2 , y por lo tanto ρ(X, Y ) = σ 2 +τ 2
.
Ası́, por lo hecho en los Ejemplos 5.3.4 y 5.4.3 el MP es
σ2 σ2X + τ 2µ

E(Y |X) = µ − (µ − X) = .
σ2 + τ 2 σ2 + τ 2

´
5. DISTRIBUCI ON
La varianza del MP es σ 4 /(σ 2 + τ 2 ), y el error de predicci ón es
σ4 σ2τ 2
V ar(Y ) − V ar(E(Y |X)) = σ 2 − = 2 .
σ2 +τ 2 σ + τ2
Los detalles se proponen como ejercicio.
Ejemplo 5.5.2 Suponga que la vida útil T de una ampolleta es una variable aleatoria
con distribuci ón exponencial de media λ > 0. En el instante t = 0 la ampolleta
se enciende. En un instante posterior s > 0 se constata que la ampolleta se habı́a
quemado. Calcule el MP del instante en que la ampolleta se quem ó.
Necesitamos calcular E(T |T < s), para lo cual se requiere la distribuci ón condicional
de T dado que T < s. Se tiene
P (T ≤ t, T < s) P (T ≤ min{t, s})

P (T ≤ t|T < s) = =
P (T < s) P (T < s)
1 − e− min{t,s}/λ
= ,
1 − e−s/λ
de donde, mediante diferenciaci ón se obtiene
( −t/λ e
λ(1−e−s/λ )
si 0 < t < s
fT |T <s (t) =
0 si no.
Ası́, el MP buscado es
s
te−t/λ e−s/λ
Z
E(T |T < s) = dt = λ − .
0 λ(1 − e−s/λ ) 1 − e−s/λ
Ejemplo 5.5.3 Suponga que dos ampolletas, cuyos tiempos de vida son independien-
tes, con distribuci ón exponencial de medias λ > 0 y µ > 0 respectivamente, se ponen
en funcionamiento simult áneamente. Se observa que la primera de ellas se quema en
un instante t > 0. Calcule el MP de la vida útil de la otra ampolleta.
Si X e Y representan los tiempos de vida de estas ampolletas, se sabe que X ∼
Exp(λ) e Y ∼ Exp(µ), y que X e Y son independientes. Lo que se observa es
U = min{X, Y }, y se quiere predecir V = max{X, Y }, de modo que se necesita
E(V |U = t). Usando una modificaci ón del argumento que lleva a concluir (4.4.9), se
tiene para u < v:
P (U > u, V ≤ v) = P (u < X ≤ v, u < Y ≤ v)

= P (u < X ≤ v)P (u < Y ≤ v)
= (e−u/λ − e−v/λ )(e−u/µ − e−v/µ ).
Por otra parte,
FV (v) = P (X ≤ v)P (Y ≤ v) = (1 − e−v/λ )(1 − e−v/µ ),

´
5. DISTRIBUCI ON
de modo que
FU,V (u, v) = FV (v) − P (U > u, V ≤ v)

= (1 − e−v/λ )(1 − e−v/µ ) − (e−u/λ − e−v/λ )(e−u/µ − e−v/µ ).
Derivando parcialmente esta expresi ón con respecto a u y v, se obtiene la densidad

conjunta
e−v/µ e−u/λ + e−u/µ e−v/λ
fU,V (u, v) = ,
λµ
definida en la regi ón 0 < u < v < ∞. Por otra parte,
∞
(e−v/µ e−u/λ + e−u/µ e−v/λ
Z
fU (u) = du
u λµ

1 1
= + e−u(1/λ+1/µ) ,
λ µ
para u > 0. Note que U ∼ Exp((λ−1 + µ−1 )−1 ). Luego, la densidad condicional de
V dado que U = u es, despu és de simplificar,
fU,V (u, v) e−(v−u)/λ + e−(v−u)/λ

fV |U =u (v|u) = = ,
fU (u) λ+µ
para v > u, de donde

∞
λ2 + µ 2
Z
E(V |U = u) = vfV |U =u (v|u)dv = u + ,
u λ+µ
de modo que el MP buscado es s + (λ2 + µ2 )/(λ + µ).

´
5. DISTRIBUCI ON
5.6 Problemas
1. Sea X una variable aleatoria con distribuci ón de Bernoulli con par ámetro p. Si E(Y |X =
0) = 1 y E(Y |X = 1) = 2, encuentre E(Y ).
2. Sea N una variable aleatoria discreta positiva de media µ, y suponga que X 1 , X2 , ... es una
sucesi ón de variables aleatorias independientes e id énticamente distribuidas con E(X1 ) =
m. Si N es independiente de las variables aleatorias Xi , pruebe que:
E(X1 + X2 + .... + XN ) = µ.
3. Suponga que el n úmero de personas que entran a un supermercado el dı́a Lunes es una varia-
ble aleatoria de media 50. Suponga adem ás que los montos de dinero gastado por los clientes
en el supermercado son variables aleatorias independientes de media com ún 8. Si dichos
montos son independientes del n úmero total de clientes que entran al supermercado, ¿cu ál es
el monto esperado de dinero gastado en la tienda ese dı́a?.
4. Un dado insesgado es sucesivamente arrojado. Sean X e Y variables aleatorias que denotan

el n úmero de lanzamientos necesarios para obtener un 6 y un 5 respectivamente. Encontrar
a.- E(X).
b.- E(X|Y = 1).
c.- E(X|Y = 5).
5. Una poblaci ón de individuos da lugar a una nueva poblaci ón. Suponga que la probabilidad
que un individuo de lugar a k individuos (descendientes) es p k , k = 0, 1, . . . , y el n úmero
de individuos que se obtienen a partir de individuos diferentes son variables aleatorias in-
dependientes. La poblaci ón nueva forma la nueva generaci ón, que a su vez, da lugar a la
segunda generaci ón, y ası́ sucesivamente. Para n = 0, 1, . . . sea Xn el tama ño de la n-ésima
generaci ón. N ótese que:
Xn+1 = Z1 (n) + · · · + ZXn (n),
donde Zj (n) es el n úmero de individuos de la generaci ón (n + 1)-ésima que proceden del
individuo j-ésimo de la generaci ón n-ésima. Suponga que el n úmero de descendientes de un
individuo tiene media finita µ. Pruebe que:
Mn = E(Xn |X0 = 1) = µn .
6. Una urna contiene 4 bolas blancas y 6 bolas negras. Se sacan, en forma consecutiva y sin
reemplazo, dos muestras aleatorias, de tama ños 3 y 5 respectivamente. Sean X e Y variables
aleatorias que denotan el n úmero de bolas blancas en las dos muestras. Calcule E(X|Y = i)
para i = 1, 2, 3, 4.
7. Sean X1 , X2 variables aleatorias independientes e id énticamente distribuidas N (0, 1). Sea

U independiente de X1 y X2 , y suponga que U distribuye uniforme en [0, 1]. Definamos
Z = U X1 + (1 − U )X2 .
a.- Encuentre la distribuci ón condicional de Z dado que U = u.

´
5. DISTRIBUCI ON
b.- Encuentre E(Z) y V ar(Z).

c.- Encontrar la distribuci ón de Z.
8. La siguiente tabla nos da la distribuci ón conjunta de X e Y:
x/ y 1 2 3
1 1 1
1 4 8 8
1 1
2 0 4 12
1
3 0 0 6
a.- Encontrar Fx , Fy , Fy|x , Fx|y .

b.- Encontrar E(Y |X), E(X|Y ), Cov(X, Y ).
9. La densidad conjunta entre X e Y esta dada por :

−x
y e−y
e
fX,Y (x, y) = , 0 ≤ x ≤ ∞, 0 ≤ y ≤ ∞
y
Encuentre E(X 2 |Y = y).
10. Sea (X, Y ) con distribuci ón uniforme entre las rectas x + y = 1, y = 0, y la curva y = x2 .
Determine fX (x), fY (y), fX|Y (x|y), fY |X (y|x), y verifique que son densidades.
11. Suponga que X|Y = y ∼ N (y, 1) e Y ∼ N (0, 1).
a.- Calcule E(X) y V ar(X).

b.- Calcule ρ(X, Y )
12. Sean X e Y independientes con X ∼ Geom(p), Y ∼ Poisson(λ), y Z = X + Y . Calcule

E(X|Y ) y E(Y |Z).
13. Sean V |T = t ∼ U (0, t) y T con densidad
fT (t) = (r − 1)t−r 0 < t < 1; r ≤ 1.
a.- Determine fV (v).

b.- Determine fT |V =v (t|v).
c.- Determine E(T |V = v).
14. Sea X ∼ N (0, 1) e Y |X = x ∼ N (αx, 1 − α2 ), para 0 < α < 1. Encontrar E(Y ).

√
15. Sean X e Y i.i.d. con distribuci ón N (0, σ 2 ), y sea Z = X 2 + Y 2 . Obtenga las distribu-
ciones condicionales X|Z = z e Y |Z = z, y pruebe que E(X|Z) = E(Y |Z) = 0.

´
5. DISTRIBUCI ON
16. Si (X, Y ) tiene funci ón densidad dada por:
e−y
fX,Y (x, y) = 0 ≤ x ≤ y, 0 ≤ y ≤ ∞,
y
determine E(X 3 |Y = y).
17. Una cierta l ámpara tiene una vida útil en horas cuya distribuci ón es exponencial de media
1. Una persona enciende dicha l ámpara y comienza a lanzar un dado equilibrado cada 15
segundos, continuando de esta manera mientras la l ámpara esté encendida. Obtenga el valor
esperado y la varianza del n úmero de ases que se obtiene antes que la l ámpara se apague.
18. Se tiene dos l ámparas cuyas vidas útiles son variables aleatorias i.i.d. con distribuci ón ex-
ponencial de media λ > 0. Suponiendo que ambas l ámparas se encienden simult áneamente,
denote por X el tiempo que transcurre hasta que la primera l ámpara se apague, e Y el tiempo
transcurrido hasta que la segunda l ámpara se apague (note que X ≤ Y ).
(a) Obtenga las distribuciones condicionales de Y dado que X = x, y de X dado que

Y = y.
(b) Calcule la esperanza y varianza condicional de cada una de las distribuciones en (a).
19. Suponga que el n úmero esperado de accidentes por semana en una planta industrial es 5.
Suponga tambi én que el n úmero de trabajadores heridos en cada accidente son variables
aleatorias independientes con media com ún de 2.5. Si el n úmero de trabajadores heridos en
cada accidente es independiente del n úmero de accidentes que ocurren, calcule el n úmero
esperado de trabajadores heridos.
Resp : 12, 5
20. Se dispone de dos urnas A y B, la primera contiene tres bolas rojas y dos bolas negras, la
segunda contiene tres bolas negras y dos bolas rojas. Se realiza el siguiente experimento :
(a) Se escoge al azar un n úmero entre 1 y 5, se saca igual cantidad de bolas de A y se

introducen en B.
(b) Si en (a) se transfirieron x bolas, entonces se escoge al azar un n úmero entre x y 5 + x,
y se saca igual cantidad de bolas de B, las que se introducen en A. Sean X e Y los
n úmeros respectivos de bolas transferidas en (a) y (b).
Calcule E(X), E(Y ), ρ(X, Y ). ¿Cu ál es la probabilidad que la configuraci ón de bolas al
terminar el experimento coincida con la inicial?
21. Sean X1 , X2 , . . . , Xn variables aleatorias i.i.d. con funci ón de distribuci ón continua F . Sea
X = max{X1 , . . . , Xn }.
(a) Demuestre que para todo k = 1, 2, . . . , n se tiene que

(
(n−1)F (x)
nF (t) si x < t
P (Xk ≤ x|X = t) =
1 si x ≥ t

´
5. DISTRIBUCI ON
(b) Suponga que F es diferenciable. ¿Existe densidad condicional en (a)? ¿Por qu é?
(c) En el caso que F es la distribuci ón U (0, 1), calcule E(Xk |X) para k = 1, 2, . . . , n.
22. Sean X1 , X2 , X3 tres puntos escogidos en forma independiente y al azar en el intervalo

[0, 1]. Obtenga E(X(1) |X(2) , X(3) ), E(X(2) |X(1) , X(3) ) y E(X(3) |X(1) , X(2) ), en donde
X(1) , X(2) , X(3) son los estadı́sticos de orden correspondientes.
23. Suponga que X1 y X2 tienen distribuci ón conjunta normal bivariada tal que E(X1 |X2 ) =
3.7 − 0.15X2 , E(X2 |X1 ) = 0.4 − 0.6X1 y V ar(X2 |X1 ) = 3.64. Determine la media y la
varianza de X1 , la media y la varianza de X2 , y la correlaci ón entre X1 y X2 .
24. Sean X, Y con distribuci ón conjunta normal bivariada, y con
Q(x, y) = x2 + 2y 2 − xy − 3x − 2y + 4
a.- Escriba la densidad conjunta de X e Y .

b.- Obtenga E(Z) y V (Z) si Z = (X, Y )0 .
c.- Determine las densidades marginales de X e Y .
d.- Obtenga P (X < 3|Y = 2), y determine adem ás E(X|Y = y) y V ar(X|Y = y).
25. Si el mejor predictor de X dado Y coincide con E(X), ¿es necesariamente cierto que X e Y
son independientes?
Hint : Considere (X, Y ) con distribuci ón uniforme en el cı́rculo {(x, y) : x2 + y 2 ≤ 1}.
26. Pruebe que si X e Y son independientes y X posee densidad f X (x) entonces

Z ∞
P (X < Y ) = (1 − FY (x))fX (x)dx.
−∞
Aplique lo anterior al caso en que X tiene distribuci ón exponencial con par ámetro λ e Y ∼
U (0, λ), donde λ > 0.
27. Sean X e Y i.i.d. U (0, 1), y defina U = min{X, Y } y V = max{X, Y }.
(a) Obtenga la densidad condicional de U dado que V = v, y la densidad condicional de V

dado que U = u.
(b) Calcule E(U |V ) y E(V |U ).
28. Si X e Y son no correlacionadas, ¿es necesariamente cierto que el MP coincide con E(X)?
Hint : Considere Y ∼ U (−1, 1) y X = Y 2 .
29. Suponga que X|Z = z ∼ Poisson(z) y que Z ∼ Γ(α, 1), con densidad
(
1 α−1 e−z
Γ(α) z si z > 0
fZ (z) =
0 si no,
y en donde α > 0.

´
5. DISTRIBUCI ON
(a) Demuestre que para k = 0, 1, 2, . . . se tiene

k+α
Γ(k + α) 1
P (X = k) = .
Γ(a)Γ(k + 1) 2
(b) Usando métodos probabilı́sticos muestre que

∞
X k+n−1 1
= 2n para n = 1, 2, . . .
n 2k
k=1
(Indicaci ón: Calcule E(X) de dos maneras distintas.)
30. Se escoge al azar un n úmero en el intervalo [0, 1]. Si el resultado es x, se procede a lanzar
n veces y en forma independiente una moneda cuya probabilidad de dar cara es x. Sea
Y la variable aleatoria que representa el n úmero de caras que se obtuvo al cabo de los n
lanzamientos.
(a) Calcule E(Y ) y V ar(Y ) sin calcular previamente la distribuci ón de Y .

(b) Repita (a) usando ahora la distribuci ón de Y .

Cap´
ıtulo 6
Nociones de Convergencia y sus

Aplicaciones
6.1 Motivaci ón
Supongamos una moneda honesta se lanza repetidamente y en forma independiente. De acuerdo a

la interpretaci ón frecuentista de la probabilidad introducida en el Capı́tulo 1, la frecuencia relativa
del n úmero de caras (esto es, la proporci ón de veces que se obtuvo cara), debe oscilar en torno a
1/2, y de hecho, converge a este valor. Es decir, si
N úmero de caras en los primeros n ensayos

fn = ,
n
entonces lim fn = 1/2. Sin embargo, no hemos precisado en qu é sentido dicha convergencia ha
n→∞
de entenderse. De partida, note que fn se puede reescribir de la siguiente manera:
n
X1 + · · · + X n 1X
fn = = Xi ,
n n
i=1
donde Xi = 1 si se obtuvo cara en el i- ésimo lanzamiento, y 0 si no. Ası́, fn es una variable

aleatoria, de modo que se debe definir alguna noci ón de convergencia para variables aleatorias.
Surgen varias alternativas que iremos revisando en este Capı́tulo. Por ejemplo, y recordando que las
variables aleatorias son funciones a valores reales definidas en un cierto espacio muestral, es posible
considerar nociones de convergencia para una sucesi ón de funciones. Por otra parte, es tambi én
posible apelar al aspecto probabilı́stico de dichas variables, y ası́ definir nociones de convergencia
que utilicen su distribuci ón.
El aspecto formal del tratamiento de las nociones que definiremos involucra usualmente un alto
nivel de sofisticaci ón te órica que no ser á cubierta en este texto, de modo que nos centraremos m ás
en las aplicaciones.
210
´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES
6.2 Definici ón de Nociones de Convergencia
Sea X1 , X2 , . . . una sucesi ón de variables aleatorias, definidas en un espacio muestral Ω com ún.
La sucesi ón se denotar á usualmente por {Xn }. Se definen a continuaci ón 4 tipos distintos de
convergencia.
Definici´
o n 6.2.1
(a) Se dice que {Xn } converge en distribuci ón a una variable aleatoria X, lo que se denota
D
Xn −→ X, si
lim FXn (x) = FX (x), (6.2.1)
n→∞
para todo x ∈ R tal que x es un punto de continuidad de F X .
(b) Se dice que {Xn } converge en probabilidad a una variable aleatoria X, lo que se denota
P
Xn −→ X, si
∀ > 0, lim P (|Xn − X| > ) = 0. (6.2.2)
n→∞
(c) Se dice que {Xn } converge en media cuadr ática a una variable aleatoria X, lo que se denota
m.c.
Xn −→ X, si
lim E{(Xn − X)2 } = 0. (6.2.3)
n→∞
(d) Se dice que {Xn } converge casi seguramente a una variable aleatoria X, lo que se denota
c.s.
Xn −→ X, si
P ({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1. (6.2.4)
n→∞
Estos tipos de convergencia se refieren a comportamiento asint ótico de la sucesi ón {Xn }, pero
en aspectos esencialmente diferentes. Ası́, la convergencia en distribuci ón (6.2.1) usa solamente la
funci ón de distribuci ón de las variables aleatorias. Puesto que no existe una identificaci ón entre una
variable aleatoria y su distribuci ón (por ejemplo, si X ∼ N (0, 1) entonces −X ∼ N (0, 1), pero
X 6= −X), este tipo de convergencia no usa los valores de las variables en cuesti ón, si no que las
probabilidades asociadas. El hecho que la convergencia de F Xn a FX se requiera s ólo para aquellos
puntos en que FX es continua, obedece a razones t écnicas.
En el otro extremo, la convergencia casi segura (6.2.4), tambi én llamada convergencia con
probabilidad 1, trata las variables aleatorias como funciones, y requiere que exista convergencia
puntual en un conjunto de puntos del espacio muestral cuya probabilidad es 1. En otras palabras,
la convergencia puntual no se cumple en un conjunto que, desde el punto de vista probabilı́stico, se
puede despreciar.
La convergencia en probabilidad (6.2.2) y en media cuadr ática (6.2.3) representan situaciones
intermedias, en que ambas, las variables aleatorias y su distribuci ón se combinan. La convergencia
en probabilidad requiere que la probabilidad que un elemento gen érico de la sucesi ón difiera del
lı́mite en una cantidad arbitrariamente peque ña converja a 0. Por otra parte, la convergencia en me-
dia cuadrática requiere que el error cuadr ático medio de predecir la variable lı́mite por un elemento
de la sucesi ón, sea asint óticamente 0.

´
Veremos ahora un resultado fundamental concerniente a las relaciones que existen entre estos
modos de convergencia.
Teorema 6.2.1 (Relaci oń entre los Modos de Convergencia) Sean X, X1 , X2 , . . . variables ale-
atorias.
P D
(a) Si Xn −→ X, entonces Xn −→ X.
m.c. P
(b) Si Xn −→ X, entonces Xn −→ X.
c.s. P
(c) Si Xn −→ X, entonces Xn −→ X.
La demostraci ón de este resultado ser á omitida, por ser de caracter esencialmente t écnico. Sin
embargo, y como veremos en los ejemplos que siguen, las recı́procas de estos resultados son, en
general, falsas. Por otra parte, la convergencia en distribuci ón suele recibir el nombre alternativo de
convergencia d ébil, pues es implicada por todos los otros tipos de convergencia. En forma an áloga,
la convergencia casi segura, suele tambi én recibir el nombre de convergencia fuerte.
Ejemplo 6.2.1 Sea Xn ∼ Exp(λn ), donde {λn } es una sucesi ón de n úmeros positivos
tales que lim λn = 0. Observe que E(Xn ) = λn , de modo que se intuye que el
n→∞
lı́mite, en caso de existir, debe ser 0. Veamos en qu é sentido se produce esta potencial
convergencia a 0.
Note que FXn (x) = 1 − e−x/λn si x > 0, y 0 si no, de modo que para x > 0 se tiene
lim FXn (x) = lim (1 − e−x/λn ) = 1,
n→∞ n→∞
y lim FXn (x) = 0, si x < 0. Si X = 0, se tiene entonces que lim FXn (x) = FX (x),
n→∞ n→∞
para x 6= 0. El caso x = 0 es irrelevante, pues es precisamente el único punto de
D
discontinuidad de FX . Luego, Xn −→ X. Por otra parte, observe que para > 0 se
tiene
P (|Xn − X| > ) = P (Xn > ) = e−/λn → 0,
P
si n → ∞, de modo que se concluye tambi én que Xn −→ X. En estricto rigor, este
último resultado implica la convergencia en distribuci ón, pero es ilustrativo, ocasio-
nalmente, mostrar algunas propiedades en forma directa. Pero eso no es todo. Note
que
E{(Xn − X)2 } = E(Xn2 ) = 2λ2n → 0,
m.c.
si n → ∞, ası́ que además se cumple que Xn −→ 0.
i.i.d.
Ejemplo 6.2.2 Sean X, X1 , X2 , . . . ∼ N (0, 1/2). Entonces, dado que FXn (x) =
D
FX (x) para cualquier x, se cumple en forma trivial que Xn −→ X. Sin embargo, note
que Xn − X ∼ N (0, 1), de modo que
P (|Xn − X| > ) = 2(1 − Φ()), n ≥ 1,
por lo que no hay convergencia en probabilidad, y en virtud del Teorema 6.2.1, tampoco
puede haber convergencia en media cuadr ática o casi segura.

´
Ejemplo 6.2.3 Sea Y ∼ U (0, 1), y defina para m = 0, 1, 2, . . . e i = 0, 1, . . . , 2 m − 1

los intervalos I2m +i = [i/2m , (i + 1)/2m ], y las variables aleatorias X1 , X2 , . . .

1 si Y ∈ In
Xn =
0 si no
Ası́, los intervalos In van en forma cı́clica cubriendo el intervalo [0, 1]. Es claro que
para cualquier ω ∈ Ω, hay una infinidad de valores de n tales que X n (ω) = 1, de
modo que puntualmente, Xn (ω) no converge a valor alguno. Sin embargo, si X = 0,
y 0 < ≤ 1, entonces
P (|Xn − X| > ) = P (Xn > ) = P (Y ∈ In ) = largo de In ,

P
que converge a 0 cuando n → ∞, de modo que Xn −→ X. En forma similar, se
prueba que E(Xn2 ) → 0 cuando n → ∞, de modo que hay convergencia en media
cuadrática (y en probabilidad), pero no casi segura.
Ejemplo 6.2.4 Sea X con densidad
2x−3

si x > 1
fX (x) =
0 si no,
y sea In = [1, n + 1], para n ≥ 1. Defina Xn (ω) = X(ω) si X(ω) ∈ In , y Xn (ω) = 0

si no. Es claro que para cualquier ω ∈ Ω se cumple lim Xn (ω) = X(ω), de modo
n→∞
c.s. P
que Xn −→ X, y en particular, Xn −→ X. Por otra parte, note que

0 si 1 < X ≤ n + 1
Xn − X =
X si no,
de modo que
∞ ∞
2x2 2
Z Z
E{(Xn − X)2 } = dx = dx = ∞,
n+1 x3 n+1 x
y entonces no existe convergencia en media cuadr ática.
A pesar de lo evidenciado en estos ejemplos, hay un caso particular en que convergencia en

distribuci ón implica convergencia en probabilidad, como lo muestra el siguiente resultado.
D
Proposici oń 6.2.1 Si {Xn } es una sucesi ón de variables aleatorias tales que Xn −→ c, una varia-
P
ble aleatoria constante, entonces Xn −→ c.
D
Demostraci oń: Puesto que Xn −→ c, se tiene entonces que para x 6= c se cumple

1 si x > c
lim FXn (x) =
n→∞ 0 si x < c.

´
Por otra parte, dado > 0 se tiene
P (|Xn − c| ≤ ) = P (c − ≤ Xn ≤ c + ) ≥ P (c − < Xn ≤ c + )
= FXn (c + ) − FXn (c − ) → 1 − 0 = 1,
cuando n → ∞, de donde se concluye que
P (|Xn − c| > ) = 1 − P (|Xn − c| ≤ ) → 0,

P
cuando n → ∞, y entonces Xn −→ X.
En el caso particular de variables aleatorias discretas, se tiene la siguiente caracterizaci ón de la
convergencia en distribuci ón.
Proposici oń 6.2.2 Sean X, X1 , X2 , . . . variables aleatorias discretas con valores en 0, 1, 2, . . .. En-
D
tonces Xn −→ X si y s ólo si lim pXn (k) = pX (k) para todo k = 0, 1, 2, . . ..
n→∞
Demostraci oń: Se propone como ejercicio.
Ejemplo 6.2.5 Si Xn ∼ Bin(n, pn ), donde lim npn = λ > 0, y lim pn = 0,

n→∞ n→∞
D
entonces el desarrollo que conduce a (3.10.12) muestra que X n −→ X, donde X ∼
Poisson(λ).
Como ya hemos visto en capı́tulos anteriores, se puede construir nuevas variables aleatorias
mediante transformaciones de aquellas disponibles. Esto es, si X es una variable aleatoria, y si
g : R −→ R es una funci ón continua, entonces g(X) es una variable aleatoria. Surge entonces la
siguiente pregunta. Si {Xn } converge a X en alg ún sentido, ¿es cierto que {g(Xn )} converge a
g(X) en ese (u otro) sentido? La respuesta est á dada por el siguiente resultado.
Proposici oń 6.2.3 Sean X, X1 , X2 , . . . variables aleatorias, y sea g : R −→ R una funci ón conti-
nua.
D D
(a) Si Xn −→ X entonces g(Xn ) −→ g(X).
P P
(b) Si Xn −→ X entonces g(Xn ) −→ g(X).
c.s. c.s.
(c) Si Xn −→ X entonces g(Xn ) −→ g(X).
Observe que de acuerdo al resultado de la Proposici ón 6.2.3, la convergencia de sucesiones

de variables aleatorias no se altera debido a transformaciones continuas, excepto en el caso de la
convergencia en media cuadr ática. La raz ón que esto no funcione en dicho caso es f ácil de ver
mediante el siguiente contraejemplo, que es una ligera variaci ón del Ejemplo 6.2.4.

´
Ejemplo 6.2.6 Considere
3x−4

si x > 1
fX (x) =
0 si no,
y sea In = [1, n + 1], para n ≥ 1. Defina Xn (ω) = X(ω) si X(ω) ∈ In , y Xn (ω) = 0

c.s.
si no. El mismo tipo de razonamiento del Ejemplo 6.2.4 permite concluir que X n −→
X, de modo que si g(x) = x2 , que es una funci ón continua, entonces se obtiene que
c.s.
Xn2 −→ X 2 . Por otra parte, observe que
Z ∞
3x2 3
E{(Xn − X)2 } = 4
dx = →0
n+1 x n+1
m.c.
si n → ∞, de donde Xn −→ X. Sin embargo se puede comprobar que E({(Xn2 −
X 2 )2 }) = ∞ para cualquier n, por lo que no existe convergencia en media cuadr ática
para g(Xn ).
Ejemplo 6.2.7 Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón com ún
U (0, 1), y sea Yn = min{X1 , . . . , Xn }. Por (4.4.7), se tiene que
fYn (y) = n(1 − y)n−1 , 0 < y < 1.
Ası́, Yn ∼ Beta(1, n), por lo que E(Yn ) = 1/(n + 1), de modo que se sospecha que
en caso de existir el lı́mite de Yn , éste debiera ser 0. Dado 0 < < 1, se tiene que
Z 1
P (Yn > ) = n(1 − y)n−1 dy = (1 − )n ,

y tomando lı́mite cuando n → ∞ se concluye que lim P (Yn > ) = 0. Puesto que si
n→∞
P
> 1 se tiene P (Yn > ) = 0, hemos mostrado que Yn −→ 0. Consideremos ahora
Zn = nYn . Ya no es cierto que exista la misma convergencia anterior, pues ahora
E(Zn ) = n/(n + 1) → 1 si n → ∞. Veremos que Zn converge en distribuci ón a una
variable aleatoria Z ∼ Exp(1). Para ello, consideremos F Zn (z). Se tiene, para z > 0:
FZn (z) = P (Zn ≤ z) = P (nYn ≤ z) = P (Yn ≤ z/n)

= 1 − (1 − z/n)n −→ 1 − e−z
D
cuando n → ∞, de modo que Zn −→ Z ∼ Exp(1).
Veamos a continuaci ón c ómo se extienden estas nociones de convergencia al caso de vec-
tores aleatorios. Para ello, recordamos la definici ón de la norma euclidiana de un vector v =
(v1 , . . . , vk ) ∈ Rk : q
||v|| = v12 + v22 + · · · + vk2 .
o n 6.2.2 Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk , donde X n = (Xn1 , . . . , Xnk ) y

Definici´
X = (X1 , . . . , Xk ).

´
P
(a) Se dice que X n converge en probabilidad a X si ||X n −X|| −→ 0, es decir, si para cualquier
> 0 se cumple
lim P (||X n − X|| > ) = 0. (6.2.5)
n→∞
m.c.
(b) Se dice que X n converge en media cuadr ática a X si ||X n − X|| −→ 0, es decir, si
lim E{||X n − X||2 } = 0. (6.2.6)

n→∞
(c) Se dice que X n converge casi seguramente a X si
P ({ω ∈ Ω : lim Xni (ω) = Xi (ω), i = 1, . . . , k}) = 1. (6.2.7)

n→∞
Observaci oń: Hemos diferido la discusi ón de la noci ón de convergencia en distribu-
ci ón de vectores aleatorios para una secci ón posterior, debido a varias complicaciones
técnicas que van m ás allá del ámbito de este libro. La Secci ón 6.4 discute este tema,
dando una caracterizaci ón muy útil y que permite evitar dichos problemas.
El siguiente resultado es útil para chequear convergencia en probabilidad, media cuadr ática y
casi segura de vectores aleatorios.
Proposici oń 6.2.4 Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk , donde X n = (Xn1 , . . . , Xnk )

y con X = (X1 , . . . , Xk ). Entonces
P P
(a) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
m.c. m.c.
(b) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
c.s. c.s.
(c) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
La Proposici ón 6.2.4 establece que para verificar los tipos de convergencia de vectores aleato-
rios, basta con mostrar que cada coordenada (que es una variable aleatoria), converge a la corres-
pondiente coordenada del vector lı́mite, y de acuerdo al tipo de convergencia adecuado.
La pr óxima secci ón retoma la idea planteada al comienzo de este capı́tulo, esta vez d ándole un
sentido formal.
6.3 Leyes de Grandes N úmeros
En términos intuitivos, las leyes de grandes n úmeros (LGN) establecen que si X1 , X2 , . . . constitu-
yen una muestra aleatoria de una cierta distribuci ón F (esto es, X1 , X2 , . . . son i.i.d. con distribu-
ci ón com ún F ), y si dicha distribuci ón posee valor esperado µ, entonces
n
1X
Xn = Xi −→ µ,
n
i=1

´
en un sentido a especificar. Ası́, la LGN establece que la secuencia de medias aritm éticas de las
primeras n variables converge a la esperanza de la distribuci ón, que ciertamente coincide con la
esperanza de cualquiera de las variables en cuesti ón.
Hay dos tipos de LGN que estudiaremos aquı́: la ley débil (LDGN), y la ley fuerte (LFGN), que
establecen resultados de convergencia en probabilidad y casi segura, respectivamente. Comenzamos
esta discusi ón con el primer caso. Para ello, necesitamos un resultado previo.
Proposici oń 6.3.1 (Desigualdad de Tchebyshev) Considere un real α > 0, y una variable aleato-
ria X.
(a) Si X es no negativa (esto es, P (X ≥ 0) = 1), y si E(X) es finita, entonces
E(X)
P (X ≥ α) ≤ . (6.3.1)
α
(b) Si Var(X) es finita, entonces
Var(X)
P (|X − E(X)| ≥ α) ≤ . (6.3.2)
α2
Demostraci oń:
(a) Observe que

αI{X ≥ α} ≤ XI{X ≥ α} ≤ X,
y tomando valor esperado a cada lado de la desigualdad se obtiene
αP (X ≥ α) ≤ E(XI{X ≥ α}) ≤ E(X),
de donde αP (X ≥ α) ≤ E(X), lo que prueba el resultado.
(b) Note que

P (|X − E(X)| ≥ α) = P ((X − E(X))2 ≥ α2 ),
y el resultado se obtiene de aplicar (a) al lado derecho de esta última igualdad.
La aplicaci ón fundamental de la Proposici ón 6.3.1 es el siguiente resultado.
Proposici oń 6.3.2 (Ley d e´bil de Tchebyshev) Sean X1 , X2 , . . . variables aleatorias no correla-
cionadas (lo que significa Cov(Xi , Xj ) = 0 si i 6= j), con varianzas finitas y tales que existe
Pn
un n úmero M > 0 tal que Var(Xn ) ≤ M para todo n ≥ 1. Si Sn = Xi , entonces se cumple
i=1
que
Sn − E(Sn ) P
−→ 0.
n

´
Demostraci oń: Puesto que las variables son no correlacionadas, se tiene que
n
X
Var(Sn ) = Var(Xi ) ≤ nM.
i=1
Luego, por la desigualdad de Tchebyshev (6.3.2) se tiene que para cualquier > 0:
Var(Sn ) M
P (|Sn − E(Sn )| ≥ n) ≤ 2 2
≤ 2 −→ 0,
n n
lo que prueba el resultado.
Ejemplo 6.3.1 (Ley de Grandes N umeros´ de Bernoulli)

Considere un proceso de Bernoulli X1 , X2 , . . ., con probabilidad de éxito p. Se tiene
que Sn ∼ Bin(n, p), de modo que E(Sn ) = np. Además, Var(Xn ) = p(1 − p), de
modo que tomando M = p(1−p), y considerando que las variables son independientes
(en particular, no correlacionadas), las hip ótesis de la LDGN se cumplen, y se concluye
que
Sn − np P
−→ 0,
n
o equivalentemente,
Sn P
−→ p.
n
Aun cuando este resultado es una aplicaci ón directa de la Proposici ón 6.3.2, lo intere-
sante es que fue probado por Bernoulli en 1713, muchos a ños antes que Tchebyshev
publicara su resultado.
Veremos a continuaci ón la LFGN, resultado que se enuncia sin demostraci ón.
Proposici oń 6.3.3 (Ley Fuerte de Kolmogorov)

Sean X1 , X2 , . . . variables aleatorias independientes e id énticamente distribuidas con E(|Xn |) <
∞, y E(Xn ) = µ. Entonces
Sn c.s.
−→ µ.
n
Observe que la LFGN, en contraste con la LDGN, no requiere existencia de la varianza de las
variables aleatorias, aun cuando el supuesto que éstas sean i.i.d. es fundamental
Ejemplo 6.3.2 En el Ejemplo 6.3.1, la convergencia en probabilidad de S n /n, es en

realidad casi segura. Esto es una consecuencia directa de la LFGN de Kolmogorov.
Ejemplo 6.3.3 (Funci oń de distribuci oń emp´ ı rica)

Considere una muestra aleatoria X1 , X2 , . . . de una cierta funci ón de distribuci ón F .
La funci ón de distribuci ón empı́rica de esta muestra se define mediante
N úmero de Xi que son ≤ x
F̂n (x) = .
n

´
Esta funci ón se puede interpretar como una aproximaci ón a la verdadera funci ón de
c.s.
distribuci ón F (x) = P (X ≤ x). Veamos que F̂n (x) −→ F (x). Para ello, defina las
variables Y1 , Y2 , . . .:
1 si Xi ≤ x
Yi =
0 si no.
Se tiene que Y1 , Y2 , . . . es un proceso de Bernoulli, con probabilidad de éxito
p = P (Y1 = 1) = P (X1 ≤ x) = F (x).

n
P
Además, note que si Sn = Yi , entonces
i=1
Sn c.s.
F̂n (x) = −→ p = F (x),
n
de donde se tiene el resultado. En otras palabras, la funci ón de distribuci ón empı́rica
converge a la funci ón de distribuci ón F . Este resultado es útil para identificar la distri-
buci ón F cuando se dispone de una muestra de F , y F no se conoce. Esta situaci ón es
com ún en problemas de Estadı́stica.
Ejemplo 6.3.4 (Aproximaci oń de una integral)

Considere una funci ón f (x) a valores reales, continua, definida en un intervalo [a, b],
Rb
y suponga que interesa calcular I = a f (x)dx. Para ello utilizaremos el siguiente
procedimiento. Supongamos en primer instancia que f (x) ≥ 0 para a ≤ x ≤ b. Sea
M > 0 un n úmero real tal que f (x) ≤ M para todo x ∈ [a, b]. Tal n úmero existe,
pues cualquier funci ón continua es acotada sobre intervalos cerrados. Ası́, el gráfico
de la funci ón queda comprendido en el rect ángulo [a, b] × [0, M ] (ver Figura 6.3.1).
Sean (U11 , U12 ), (U21 , U22 ), . . . vectores aleatorios i.i.d. con distribuci ón uniforme en
el rectángulo [a, b] × [0, M ] (note que ello implica que Ui1 es independiente de Ui2
para todo i ≥ 1), y defina las variables aleatorias X1 , X2 , . . . mediante

1 si f (Ui1 ) > Ui2
Xi =
0 si no.
Ası́, la variable Xi toma el valor 1 si el punto U i = (Ui1 , Ui2 ) está por debajo del gr áfi-
co de la curva y = f (x), y toma el valor 0 si no. Puesto que los vectores U 1 , U 2 , . . .
son i.i.d., X1 , X2 , . . . es un proceso de Bernoulli con probabilidad de éxito p dada por
p = P (X1 = 1). Para calcular dicha probabilidad, notemos que la densidad conjunta
de U 1 es
1
fU11 ,U12 (u11 , u12 ) = , si (u11 , u12 ) ∈ [a, b] × [0, M ].
M (b − a)
Luego,
Z bZ f (u11 ) b
1 1 I
Z
p= du12 du11 = f (u11 )du11 = .
a 0 M (b − a) M (b − a) a M (b − a)

´
f(x)
0
a b x
Figura 6.3.1: Aproximaci ón de una integral, correspondiente al área bajo la curva y = f (x), entre
a y b.
Luego, de la LFGN se deduce que

X1 + X2 + · · · + Xn c.s. I
−→ ,
n M (b − a)
o equivalentemente,
M (b − a)(X1 + X2 + · · · + Xn ) c.s.
−→ I.
n
Este resultado sugiere el siguiente m étodo para aproximar una integral del tipo de I:
• Generar una gran cantidad de puntos al azar en el rect ángulo [a, b] × [0, M ].
• Calcular la fracci ón de puntos que cae bajo el gr áfico de la curva y = f (x).
• Dicha fracci ón coincide con (X1 + · · · + Xn )/n, y multiplicada por M (b − a),
es una aproximaci ón a I
La calidad de dicha aproximaci ón ciertamente depender á de la cantidad de puntos que

se utilice, y adem ás de cuan cerca est é M de la cantidad max f (x). Volveremos a
a≤x≤b
este punto en la Secci ón 6.5.
Puesto que virtualmente todos los paquetes estadı́sticos, y muchos lenguajes de pro-
gramaci ón poseen rutinas para generar n úmeros aleatorios, el m étodo se puede imple-
mentar fácilmente.
Por último, si la funci ón f (x) no es positiva, entonces consideramos la funci ón g(x) =
Rb
f (x) − m, donde m = min{f (x) : a ≤ x ≤ b}. Ası́, I = m(b − a) + a g(x)dx, y
el método se aplica a g(x).

´
Ejemplo 6.3.5 Sean X1 , X2 , . . . i.i.d. con distribuci ón com ún uniforme en el intervalo
[0, 1], y considere la sucesi ón Y1 , Y2 , . . ., con
n
!1
Y n
Yn = Xi .
i=1
Yn recibe el nombre de media geom étrica de X1 , . . . , Xn . Calculemos el lı́mite casi se-

guro de {Yn }. Note que Yn no tiene la forma de un promedio de variables aleatorias, de
modo que la LFGN no se puede aplicar directamente. Sin embargo, si Z n = log(Yn ),
entonces
log(X1 ) + log(X2 ) + · · · + log(Xn )
Zn = ,
n
la que tiene la forma apropiada. Adem ás, por lo hecho en el Ejemplo 3.9.3, se tiene que
− log(X1 ) ∼ Exp(1), de donde se sigue que E(log(X1 )) = −1. Por otra parte, las
variables aleatorias log(X1 ), log(X2 ), . . . son i.i.d., y la LFGN permite concluir que
c.s.
Zn −→ E(log(X1 )) = −1.
c.s.
Pero Yn = exp(Zn ), y por la Proposici ón 6.2.3(c) se obtiene Yn −→ e−1 .
6.4 Funci ón Caracterı́stica y Convergencia en Distribuci ón
Retomamos aquı́ el estudio de la noci ón de convergencia en distribuci ón. En la Secci ón 3.8.3
vimos que existe una correspondencia uno a uno entre la distribuci ón de una variable aleatoria X y
su funci ón caracterı́stica ϕX (t). Tomando este hecho en consideraci ón, es intuitivo pensar que debe
existir alguna relaci ón entre la convergencia en distribuci ón de la sucesi ón {Xn }, y la sucesi ón de
funciones caracterı́sticas {ϕXn (t)}. Similares argumentos se pueden aplicar al caso de vectores
aleatorios.
La respuesta a esta inquietud est á dada por el siguiente resultado.
D
Teorema 6.4.1 Sean X, X1 , X2 variables aleatorias. Entonces, Xn −→ X si y s ólo si se cumple
que lim ϕXn (t) = ϕX (t) para todo t ∈ R.
n→∞
Este resultado es en realidad una caracterizaci ón de la convergencia en distribuci ón. De hecho,
lo utilizaremos como una definici ón de convergencia para el caso de vectores aleatorios.
Definició n 6.4.1 Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk . Diremos que {X n } converge en

distribuci ón a X si para cualquier t ∈ Rk se tiene que lim ϕX n (t) = ϕX (t).
n→∞
Existe una caracterizaci ón alternativa de convergencia en distribuci ón de vectores aleatorios,
que damos a continuaci ón.

´
Teorema 6.4.2 (Cram e´r-Wold)

D
Sean X n = (Xn1 , . . . , Xnk ) y X = (X1 , . . . , Xk ) vectores aleatorios en Rk . Entonces X n −→ X
si y s ólo si para cualquier t = (t1 , . . . , tk ) ∈ Rk se cumple
D
t1 Xn1 + · · · + tk Xnk −→ t1 X1 + · · · + tk Xk ,
cuando n → ∞.
Este resultado hace uso del hecho que la distribuci ón de un vector aleatorio queda determinada
por la distribuci ón de todas las combinaciones lineales posibles de sus coordenadas.
La siguiente variaci ón del Teorema 6.4.1 resulta ser muy útil para establecer convergencia en
distribuci ón de una sucesi ón de vectores aleatorios.
Teorema 6.4.3 (Paul L e´vy)

Sean X 1 , X 2 , . . . vectores aleatorios definidos en Rk , con funciones caracterı́sticas respectivas
ϕX 1 (t), ϕX 2 (t), . . .. Si ϕX n (t) converge puntualmente a un lı́mite ϕ(t), y si ϕ(t) es continua en
t = 0, entonces
D
(a) Existe un vector aleatorio X tal que X n −→ X, y
(b) ϕ(t) es la funci ón caracterı́stica de X.
El Teorema 6.4.3 tambi én vale para el caso particular k = 1, es decir, para variables aleatorias.
Veamos a continuaci ón algunas aplicaciones de estos resultados.
Ejemplo 6.4.1 Si Xn ∼ N (µn , σn2 ), donde {µn } y {σn2 } son sucesiones convergentes
D
a µ y σ 2 > 0 respectivamente, entonces Xn −→ X ∼ N (µ, σ 2 ). En efecto, tenemos
que ϕXn (t) = exp(iµn t − t2 σn2 /2), y tomando lı́mite, se encuentra que ϕXn (t) con-
verge a ϕ(t) = exp(iµt − t2 σ 2 /2). Puesto que este lı́mite es claramente una funci ón
continua en t = 0 (m ás aun, es continua en todo t ∈ R), el Teorema 6.4.3 asegura la
D
existencia de una variable aleatoria X tal que Xn −→ X. Pero puesto que el mismo
Teorema garantiza que ϕX (t) = ϕ(t), y ϕ(t) es la funci ón caracterı́stica de una va-
riable aleatoria con distribuci ón N (µ, σ 2 ), el resultado se tiene por la correspondencia
uno a uno entre la distribuci ón de una variable aleatoria y su funci ón caracterı́stica.
Ejemplo 6.4.2 El resultado del Ejemplo 6.4.1 se puede generalizar a vectores aleato-
rios. Si X n ∼ Nk (µn , Σn ), con lim µn = µ y lim Σn = Σ, donde Σ es semi-
n→∞ n→∞
D
definida positiva, entonces X n −→ X ∼ Nk (µ, Σ). Los detalles son muy parecidos
a los del Ejemplo 6.4.1, y se proponen como ejercicio.
Ejemplo 6.4.3 Sean X1 , X2 , . . . i.i.d. con P (Xk = 1) = P (Xk = −1) = 1/2.

n
Xk /2k es una variable
P
Vamos a probar que el lı́mite en distribuci ón de Yn =
k=1

´
aleatoria Y ∼ U (−1, 1). Para ello, note que
eit + e−it
ϕXk (t) = E(eitXk ) =
2
cos(t) + i sin(t) + cos(−t) + i sin(−t) 2 cos(t)
= =
2 2
= cos(t).
Ası́, se tiene que

n
Y n
Y
ϕYn (t) = ϕXk /2k (t) = cos(t/2k ).
k=1 k=1
Por otra parte, notemos que de la identidad sin(2t) = 2 sin(t) cos(t) se concluye que
sin(t/2k−1 )
cos(t/2k ) = ,
2 sin(t/2k )
para k = 1, 2, . . .. Luego,
n
Y sin(t/2k−1 ) sin(t)
ϕYn (t) = k
= n ,
2 sin(t/2 ) 2 sin(t/2n )
k=1
y recordando que lim sin(x)/x = 1, vemos que

x→0
sin(t)
lim ϕYn (t) = .
n→∞ t
Notemos que este lı́mite se puede definir como 1 para t = 0, caso en el que la funci ón
resultante es continua en 0 (recuerde que cualquier funci ón caracterı́stica evaluada en
t = 0 vale 1). Sea ahora Y ∼ U (−1, 1), y calculemos su funci ón caracterı́stica. Se
tiene
Z 1 Z 1
1 1 1 1
Z
ϕY (t) = cos(tx) dx + i sin(tx) dx = cos(tx)dx
−1 2 −1 2 2 −1
sin(t) − sin(−t) sin(t)
= = ,
2t t
que coincide con el lı́mite de ϕYn (t). En virtud del Teorema 6.4.3, hemos mostrado
D
que Yn −→ Y ∼ U (−1, 1).
Para terminar esta secci ón, veremos dos resultados adicionales de convergencia en distribuci ón,
los que resultan ser muy útiles en una variedad de aplicaciones.
Teorema 6.4.4 (Scheff e´)

Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk , con densidades respectivas f (x), f1 (x), f2 (x), . . ..
D
Si para todo x ∈ Rk se cumple lim fn (x) = f (x), entonces X n −→ X.
n→∞

´
En otras palabras, el Teorema 6.4.4 establece que si la sucesi ón de densidades converge pun-
tualmente a una cierta densidad, entonces existe convergencia en distribuci ón. Por otra parte, no es
necesario que la convergencia ocurra para absolutamente todos los puntos x ∈ R k , pudiendo ésta
no verificarse en un conjunto numerable de puntos en R k .
Ejemplo 6.4.4 En el Ejemplo 6.2.7 se mostr ó que Zn = n min{X1 , . . . , Xn } con-

verge en distribuci ón a una cierta variable aleatoria Z con distribuci ón exponencial
de media 1, usando la Definici ón 6.2.1(a). Veamos ahora lo mismo usando el Teore-
ma 6.4.4. Puesto que FZn (z) = 1 − (1 − z/n)n , entonces
fZn (z) = (1 − z/n)n−1 , 0 < z/n < 1,
de donde se tiene que
lim fZn (z) = e−z , z > 0,

n→∞
que corresponde a la densidad de Z.

Definamos ahora Wn = n(1 − max{X1 , . . . , Xn }). Por (4.4.8), y usando la transfor-
maci ón g(x) = n(1 − x), se tiene que
fWn (w) = (1 − w/n)n−1 , 0 < w/n < 1,

D
y por el argumento anterior, se concluye que Wn −→ W ∼ Exp(1). Veamos ahora
qué sucede con la distribuci ón conjunta de (Zn , Wn ). Por lo hecho en el Ejemplo 4.4.8,
y usando el cambio de variables g(x, y) = (nx, n(1 − y)), se tiene que
(
n(n−1)
n2
(1 − nz − w
n)
n−2 si 0 ≤ z < 1 − w < 1
n n
fZn ,Wn (z, w) =
0 si no.
Tomando lı́mite, se tiene que esta densidad conjunta converge a
fZ,W (z, w) = e−z−w , z, w > 0,

D
y se concluye que (Zn , Wn ) −→ (Z, W ), donde Z y W son i.i.d. con distribuci ón
exponencial de media 1.
Teorema 6.4.5 (Slutsky)

D P
Sean X, X1 , X2 , . . . e Y1 , Y2 , . . . variables aleatorias tales que Xn −→ X e Yn −→ c, donde c es
una constante. Entonces:
D
(a) Xn + Yn −→ X + c.
D
(b) Xn − Yn −→ X − c.
D
(c) Yn Xn −→ cX.

´
(d) Si c 6= 0 y P (Yn 6= 0) = 1,
Xn D X
−→ .
Yn c
El Teorema 6.4.5 se usa fundamentalmente para construir nuevas sucesiones de variables ale-
atorias que convergen en distribuci ón a partir de casos en que se conozca dicha convergencia pre-
viamente. Este resultado se usa habitualmente en combinaci ón con el Teorema Central del Lı́mite,
tema de nuestra pr óxima secci ón.
6.5 El Teorema Central del Lı́mite
Hemos dejado para esta última secci ón uno de los resultados fundamentales de la Teorı́a de Pro-
babilidades. Hasta ahora hemos visto en la Secci ón 6.3 que promedios de variables aleatorias i.i.d.
con valor esperado finito µ, convergen a µ. Este resultado permite justificar una interpretaci ón de
probabilidad desde un punto de vista frecuentista, es decir, las probabilidades se pueden concebir
como lı́mites de frecuencias relativas de eventos, si el experimento en cuesti ón se repite indefinida-
mente en forma independiente y siempre bajo las mismas condiciones. Sin embargo, las Leyes de
Grandes N úmeros no establecen cuan cerca est á – en términos de probabilidades – este promedio
de variables aleatorias del valor µ al que converge. En otras palabras, serı́a deseable saber cu ál es
la probabilidad que este promedio difiera de µ en menos que una cantidad prefijada δ > 0.
Establecemos a continuaci ón el resultado b ásico que nos permite calcular (al menos aproxi-
madamente) probabilidades como las descritas en el p árrafo anterior, del que veremos primero la
versi ón univariada.
Teorema 6.5.1 (Teorema Central del L´ ı mite (TCL))

Sean X1 , X2 , . . . variables aleatorias i.i.d., con E(X1 ) = µ y Var(X1 ) = σ 2 > 0. Entonces se
tiene que √
n(X n − µ) D
Zn = −→ Z ∼ N (0, 1). (6.5.1)
σ
√
Demostraci oń: Supondremos en primer lugar que µ = 0 y σ = 1. En este caso, Z n = nX n ,
y debemos probar que Zn converge en distribuci ón a una variable aleatoria Z con distribuci ón
N (0, 1). Para ello, usaremos el Teorema 6.4.3, en virtud del que basta probar que la sucesi ón
2
n
de funciones caracterı́sticas {ϕZn (t)} converge para todo t a e−t /2 . Si Sn =
P
Xj , entonces
j=1
X n = Sn /n. Por la independencia de X1 , X2 , . . . se tiene
n
Y
ϕSn (t) = ϕXj (t) = ϕ(t)n ,
j=1
donde ϕ(t) = ϕX1 (t). Luego,

√ n
ϕZn (t) = ϕSn /√n (t) = ϕ(t/ n) .

´
Puesto que E(X12 ) < ∞, es posible probar (no lo haremos) que su funci ón caracterı́stica (que
hemos denotado ϕ(t)), posee dos derivadas continuas. Luego, podemos hacer un desarrollo en serie
de Taylor de orden 2, para obtener
t2
ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (θ(t)) · ,
2
donde |θ(t)| ≤ |t|. Luego,
t2 t2
ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (0) · + e(t),
2 2
donde e(t) = ϕ00 (θ(t)) − ϕ00 (0), y e(t) → 0 cuando t → 0. Por otra parte, y usando propiedades
de funciones caracterı́sticas, se tiene que ϕ(0) = 1, ϕ0 (0) = iµ = 0 y ϕ00 (0) = i2 E(X12 ) =
−E(X12 ) = −1. Por lo tanto,
t2 t2 e(t)
ϕ(t) = 1 − + ,
2 2
de donde se deduce que
√ n n
t2 t2 e(t/ n) t2 √

ϕZn (t) = 1 − + = 1− 1 − e(t/ n) .
2n 2n 2n
El resultado se obtiene directamente, una vez que se prueba que si {c n } es una sucesi ón de n úmeros
complejos tales que cn → c cuando n → ∞ entonces
cn n
1+ → ec ,
n
lo cual se propone como ejercicio. Finalmente, para el caso general µ ∈ R y σ 2 > 0, defina
Xn − µ
Yn = ,
σ
√
de modo que Zn = nY n , y lo hecho recientemente se aplica a las variables aleatorias (i.i.d.)
Y1 , Y2 , . . ..
Uno de los aspectos m ás interesantes del Teorema 6.5.1 es que la convergencia vale cualquiera
que sea la distribuci ón original de las variables aleatorias involucradas. Por ejemplo, no hace falta
que las variables sean continuas, la convergencia tambi én vale para variables aleatorias discretas,
aun cuando es necesario tener cierto cuidado en aproximar distribuciones discretas por una normal.
Veamos algunas aplicaciones del TCL.
Ejemplo 6.5.1 Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón N (µ, σ 2 ).
El TCL establece entonces que
√
n(X n − µ) D
Zn = −→ Z ∼ N (0, 1).
σ
Sin embargo, en este caso particular, dicha convergencia es trivial, pues se tiene que la
distribuci ón exacta de Zn es N (0, 1).

´
Supongamos ahora que µ = 0. La LFGN establece que
X12 + · · · + Xn2 c.s.

−→ E(X12 ) = σ 2 .
n
n
1
Además, Var(X1 ) = 2σ 4 (ver Ejemplo 3.8.9), de modo que si Y n =
P
n Xk , el
k=1
TCL implica que √
n(Y n − σ 2 ) D
√ −→ Z ∼ N (0, 1).
2σ 2
Además, usando el Teorema 6.4.5, es f ácil ver que
√
n(Y n − σ 2 ) D
√ −→ Z ∼ N (0, 1).
Yn 2
Luego, si δ > 0 se tiene que
√ √
n(Y n − σ 2 )

2 nδ
P (|Y n − σ | < δ) = P √ < √
Yn 2 Yn 2
√
nδ
≈ P |Z| < √
Yn 2
√
nδ
= 2Φ √ − 1,
Yn 2
de modo que dado el valor de δ > 0, y conocido el valor de Y n (a partir de una muestra
de tama ño n) el valor de P (|Y n − σ 2 | < δ) se puede aproximar. Por ejemplo, si
n = 100, δ = 1 e Y n = 2.7, la probabilidad se aproxima por 0.991179. Note que para
realizar este cálculo, no se requiere conocer el valor de σ 2 .
Ejemplo 6.5.2 Supongamos que X1 , X2 , . . . , X100 son i.i.d. con distribuci ón expo-
nencial de media 5, y calculemos aproximadamente P (S 100 > 600), donde S100 =
100
P
Xk . Tenemos que E(X1 ) = 5, Var(X1 ) = 25, de modo que la variable Z100 en
k=1
(6.5.1) se transforma en
10(X 100 − 5)
Z100 = = 2(X 100 − 5),
5
la que tiene distribuci ón aproximadamente N (0, 1). Ahora,
P (S100 > 600) = P (X 100 > 6) = P (2(X 100 − 5) > 2 ∗ (6 − 5))

≈ P (Z > 2),
donde Z ∼ N (0, 1), y usando las tablas adecuadas, se puede obtener que
P (S100 > 600) ≈ P (Z > 2) = 0.0228.

´
Por otra parte, y recordando que S100 ∼ Γ(100, 5), la probabilidad exacta se expresa
mediante Z ∞ 99 −x/5
x e
100
dx,
600 99! 5
y mediante integraci ón numérica se obtiene que este valor es 0.0279, de modo que la
aproximaci ón es razonablemente buena.
Es claro que la calidad de aproximaciones basadas en el Teorema 6.5.1 dependen del valor de
n. Para tener una mejor idea al respecto, el siguiente resultado es útil.
Teorema 6.5.2 (Berry-Ess eén)

Bajo las hip ótesis del Teorema 6.5.1, y si Gn (t) = P (Zn ≤ t), donde Zn fue definida en (6.5.1),
entonces se tiene la siguiente cota:
33 E(|X1 − µ|3 )
sup |Gn (t) − Φ(t)| ≤ √ , ∀n. (6.5.2)
t∈R 4 σ3 n
En la práctica, esta cota resulta ser casi siempre muy difı́cil de calcular. No obstante, lo inte-
resante del resultado es que el m áximo posible error cometido en las aproximaciones es del orden
de n−1/2 . Para visualizar un poco mejor esta aproximaci ón, note que el Teorema 6.5.1 implica que
para n grande, la distribuci ón de X n es aproximadamente N (µ, σ 2 /n). A este efecto, se generaron
en un computador 1000 muestras de tama ño n = 100 cada una, de la distribuci ón exponencial con
media 5, tal como en el Ejemplo 6.5.2. Por cada muestra se obtuvo el promedio de los valores ge-
1 1000
nerados en dicha muestra, los que designamos por X , . . . , X , y cuya distribuci ón aproximada
es N (5, 1/4). Estos valores se usaron para construir un histograma, y la funci ón de distribuci ón
empı́rica (ver Ejemplo 6.3.3), los que se muestran en la Figura 6.5.2. El histograma se construy ó de
modo que la suma de las área de las distintas barras sea igual a 1, de modo que la figura que se
obtiene es una aproximaci ón a la densidad N (5, 1/4), que aparece representada en lı́nea continua.
Por otra parte, la funci ón de distribuci ón empı́rica (lı́nea punteada) es una aproximaci ón a FY (y),
donde Y ∼ N (5, 1/4) (lı́nea continua). Se aprecia que la aproximaci ón es, en términos generales,
bastante buena.
Ejemplo 6.5.3 (Aproximando la distribuci oń Binomial)

En el Ejemplo 6.2.5 se mostr ó que si X ∼ Bin(n, pn ) con npn → λ > 0, entonces
la distribuci ón de X se puede aproximar por la distribuci ón de Poisson con par ámetro
λ, provisto que n es grande. Consideremos ahora el siguiente enfoque alternativo.
Sean Y1 , Y2 , . . . , Yn i.i.d. con distribuci ón Bernoulli de par ámetro pn . Entonces la
Pn
distribuci ón de Y = Yk coincide con la de X. Puesto que E(Y1 ) = pn y Var(Y1 ) =
k=1
pn (1 − pn ), el Teorema Central del Lı́mite implica que la distribuci ón de Y es tambi én
aproximadamente N (npn , npn (1 − pn )). Puesto que npn ≈ λ, se deduce que Y tiene
distribuci ón N (λ, λ), aproximadamente, donde hemos despreciado el t érmino np2n .
Ahora bien, en el momento de aproximar probabilidades binomiales (m ás generalmen-
te, aquellas provenientes de distribuciones discretas) mediante la distribuci ón normal,

´
Funcion de Distribucion Empirica y Acumulada

0.8 1.0
0.8
Histograma y Densidad
0.6
0.6
0.4
0.4
0.2
0.2
0.0 0.0
3 4 5 6 7 3 4 5 6 7
Valores Simulados Valore Simulados
Figura 6.5.2: Distribuci ón del promedio de 100 variables aleatorias i.i.d. con distribuci ón exponen-
cial de media 5, y aproximaci ón normal mediante Teorema Central del Lı́mite.
es necesario tener el siguiente cuidado. Si X ∼ Bin(n, pn ), entonces P (X = 2) es

una cantidad positiva (aun cuando su valor puede ser despreciable en ciertos casos).
Puesto que X tiene distribuci ón aproximadamente igual a la de Y ∼ N (λ, λ), al usar
esta aproximaci ón nos encontramos con que P (Y = 2) = 0, pues Y es continua, y
esto sucede para cualquier otro valor particular de inter és. Para corregir este problema
se usa la llamada correcci ón de continuidad, que consiste en aproximar P (X = k)
mediante P (k − 12 < Y < k + 12 ), es decir,
! !
k + 12 − λ k − 12 − λ
P (X = k) ≈ Φ √ −Φ √ . (6.5.3)
λ λ
En otras palabras, se asume que el punto k representa el intervalo [k − 12 , k + 12 ] para

la distribuci ón normal, al momento de usar la aproximaci ón.
A modo de ejemplo, consideremos el caso n = 100, p n = 0.05, con lo que λ = npn =

´
Probabilidades Binomiales; Aproximacion Poisson y Normal
Binomial
Poisson
0.15
Normal
0.10
0.05
0.0
0 5 10 15
Figura 6.5.3: Aproximaciones Poisson(5) y N (5, 5) a la distribuci ón Bin(100, 0.05).
5. La Figura 6.5.3 muestra las probabilidades exactas correspondientes a dicha distribu-

ci ón, ası́ como las aproximaciones derivadas de la distribuci ón de Poisson y Normal,
como se detall ó anteriormente. Es claro que la aproximaci ón Poisson es superior a
la Normal para este caso. Sin embargo, la aproximaci ón Normal es usualmente m ás
simple de calcular, y su precisi ón aumenta a medida que n crece.
Veamos ahora la extensi ón multivariada del Teorema 6.5.1.
Teorema 6.5.3 (Teorema Central del L´ ı mite Multivariado)

Sean X 1 , X 2 , . . . vectores aleatorios i.i.d. en Rk , con E(X 1 ) = µ y V (X 1 ) = Σ, donde µ ∈ Rk
y Σ es una matriz definida positiva. Entonces
√ D
Zn = n(X n − µ) −→ Z ∼ Nk (0, Σ), (6.5.4)
n
1 P
donde X n = n X k , y la suma se interpreta coordenada a coordenada.
k=1

´
Ejemplo 6.5.4 Sean Y1 , Y2 , . . . variables aleatorias i.i.d. con distribuci ón N (µ, σ 2 ),
donde µ ∈ R y σ 2 > 0. Defina los vectores X 1 , X 2 , . . . en R2 mediante

Yk
Xk = .
Yk2
Se tiene que E(Yk ) = µ, E(Yk2 ) = Var(Yk ) + (E(Yk ))2 , de modo que

µ
E(Y k ) = .
σ 2 + µ2
Por otra parte, se tiene que E(Yk3 ) = µ3 + 3µσ 2 y además E(Yk4 ) = 3σ 4 + 6σ 2 µ2 + µ4

(verificar esto como ejercicio). Luego,
Cov(Yk , Yk2 ) = E(Yk3 ) − E(Yk )E(Yk2 ) = µ3 + 3µσ 2 − µ(µ2 + σ 2 ) = 2µσ 2 ,
y además
Var(Yk2 ) = E(Yk4 ) − (E(Yk2 ))2 = 3σ 4 + 6σ 2 µ2 + µ4 − (µ2 + σ 2 )2 = 2σ 4 + 4µ2 σ 2 ,
y por lo tanto se tiene que
σ2 2µσ 2

Σ = V (X k ) = .
2µσ 2σ + 4µ2 σ 2
2 4
Luego, el Teorema 6.5.4 asegura que

n
  
1 P
 Y 
√  n k=1 k 
 
µ

D
n  n
 − 2 + σ2 −→ N2 (0, Σ).


 1 P
Yk2
 µ 

 n 
k=1
Para finalizar esta secci ón, veamos otro resultado muy útil para verificar convergencia en distri-
buci ón de funciones de promedios de variables o vectores aleatorios.
Teorema 6.5.4 (M e´todo Delta)

Sea {X n } una sucesi ón de vectores aleatorios en Rk tales que
√ D
n(X n − µ) −→ Nk (0, Σ),
y sea g : Rk → R una funci ón continuamente diferenciable en x = µ. Entonces

√ D
n(g(X n ) − g(µ)) −→ N (0, ∇g(µ)0 Σ∇g(µ)),
donde ∇g(x) es el vector (columna) de derivadas parciales de primer orden (o gradiente) de g

evaluado en x = µ.
Nota: Si k = 1, esto es, en el caso univariado, entonces la varianza de la distribuci ón lı́mite normal
es σ 2 (g 0 (µ))2 .

´
Ejemplo 6.5.5 Sean X1 , X2 , . . . i.i.d. con distribuci ón de Poisson con par ámetro λ >
0. Por el Teorema 6.5.1 se tiene que
√ D
n(X n − λ) −→ N (0, λ).
√
Sea g(x) = x, la que es continuamente diferenciable en x = λ. Puesto que g 0 (λ) =
λ−1/2 , se concluye en virtud del Teorema 6.5.4, con k = 1,
√
q √ D
n( X n − λ) −→ N (0, 1/4),
y observe que la distribuci ón lı́mite no depende de λ.
Ejemplo 6.5.6 En el Ejemplo 6.5.4, defina

n
1X
σ̂n2 = (Yk − Y n )2 .
n
k=1
Es sencillo verificar que

n
1X 2
σ̂n2 = Yk − (Y n )2 ,
n
k=1
de modo que por la LFGN se tiene que

c.s.
σ̂n2 −→ µ2 + σ 2 − (µ)2 = σ 2 .
Para obtener la distribuci ón lı́mite (asint ótica) de σ̂n2 considere la funci ón g(x, y) =
n n
y − x2 . Note que g(µ, µ2 + σ 2 ) = σ 2 . Además, se tiene que g( n1 Yk , n1 Yk2 ) =
P P
k=1 k=1
σ̂n2 , y
−2x
∇g(x, y) = ,
1
por lo que es fácil verificar que
∇g(µ, µ2 + σ 2 )0 Σ∇g(µ, µ2 + σ 2 ) = 2σ 4 ,
y por lo tanto hemos mostrado que

√ D
n(σ̂n2 − σ 2 ) −→ N (0, 2σ 4 ).

´
6.6 Problemas
1. En este problema se le pide verificar directamente el Teorema Central del Lı́mite en algunos
casos particulares, utilizando la convergencia de la f.g.m. a la de la distribuci ón N (0, 1).
Sean X1 , . . . , Xn iid con funci ón generadora de momentos M (t) y Xi ∼ F con media µ y
varianza σ 2 . Para cada uno de los siguientes casos: (i) F = N (a, b2 ) (ii) F = Exp(λ) (iii)
F ∼ Poisson(λ) (iv) F ∼ Bin(n, p):
n
P
a.- Encuentre la f.g.m. de Sn = Xi y de X n .
i=1
S√
n −nµ
√ X n −µ
b.- Encuentre la f.g.m. Mn (t) de Zn = = n( σ ).
nσ 2
t2
c.- Verifique que Mn (t) tiende a e 2 , cuando n → ∞.
2. Una máquina empaquetadora de detergentes ha sido observada durante un largo tiempo, a

través del cual se determin ó que la varianza del peso de llenado es σ 2 = 10 gramos. Por otra
parte el peso medio de llenado µ, depende del ajuste hecho a la m áquina por cada operador.
a.- Si mientras labora un mismo operador se realizan 25 observaciones, calcule aproxima-

damente la probabilidad que el peso medio observado se aleje en menos de 1 gramo de
la media real de la m áquina.
b.- ¿Cuántas observaciones deben realizarse para asegurar que la probabilidad que lo mis-
mo ocurra sea al menos 0.95?.
Resp : a)0.88 b)39
3. Suponga que dos dados se lanzan 600 veces. Sea X el n úmero de veces en que se obtiene
una suma de 7. Use el teorema central del lı́mite para aproximar P (90 < X < 110).
Resp. : 0.726.
4. Si X1 , . . . , X20 son variables aleatorias iid Poisson con media 1, use el teorema central del
20
P
lı́mite para aproximar P ( Xi > 15).
i=1
5. Sean X1 , X2 , . . . variables aleatorias i.i.d. con E(X1 ) = 0 y V ar(X1 ) = σ 2 , donde 0 <

σ 2 < ∞. Sean Y1 , Y2 , . . . variables aleatorias i.i.d. tales que E(Y1 ) = µ, donde µ es un
n úmero real. Si Un = X1 +···+X
n
n
y Vn = Y1 +···+Y
n
n
, pruebe que
√
Un + nVn −→ N (µ, σ 2 )
en distribuci ón cuando n → ∞.
6. Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón Poisson(λ). Encuentre el lı́mite
en probabilidad de
X 2 + · · · Xn2
Yn = 1 .
n
¿Existe convergencia casi segura?

´
7. Sean X1 , X2 , . . . variables aleatorias tales que E(Xn ) → α y V ar(Xn ) → 0. Pruebe que

P
Xn −→ α.
8. Sean X1 , X2 , . . . variables aleatorias independientes con X1 = 0, y tales que para j ≥ 2 se

tiene −3
j si k = ±1, ±2, . . . , ±j
P (Xj = k) = −2
1 − 2j si k = 0.
Demuestre que si α > 1/2
n
1 X P
Xj −→ 0
nα
j=1
j
k 2 = 16 j(j + 1)(2j + 1).)
P
cuando n −→ ∞. (Indicaci ón: Use el hecho que
k=1
9. Sean X1 , X2 , . . . independientes con distribuci ón com ún N (0, 1). Calcule el lı́mite casi
seguro de
X12 + · · · Xn2
.
(X1 − 1)2 + · · · + (Xn − 1)2
10. Sean X1 , X2 , . . . variables aleatorias i.i.d. con X1 ∼ U (0, θ) donde θ > 0. Demuestre que
√ n
D
Yn = 3n{log(2n−1
P
Xi ) − log(θ)} −→ Y , con Y ∼ N (0, 1).
i=1
11. Sean X1 , X2 , . . . variables aleatorias i.i.d. con E(X1 ) = 0 y E(X12 ) = 2. Encuentre el lı́mite
en distribuci ón de las siguientes secuencias:
(a) Y1 , Y2 , . . . donde √
n(X1 + · · · Xn )
Yn = .
X12 + · · · Xn2
(b) Z1 , Z2 , . . . donde
X1 + · · · X n
Zn = p 2 .
X1 + · · · Xn2
D D
12. (a) Suponga que Xn −→ N (0, 1), Yn −→ N (0, 1) y que, para todo n, Xn sea indepen-
D
diente de Yn . Muestre que Xn + Yn −→ N (0, 2).
D D
(b) Generalice el resultado de (a), probando que si Xn −→ F , Yn −→ G, con Xn indepen-
D
diente de Yn para todo n, entonces Xn + Yn −→ Z, donde la distribuci ón de Z coincide
con la de X + Y tales que X e Y sean independientes y verificando X ∼ F e Y ∼ G.
Indicaci ón: Use funciones caracterı́sticas.
13. Sean X1 , X2 , . . . e Y1 , Y2 , . . . dos secuencias de variables aleatorias i.i.d. y tales que los X j
son independientes de los Yk . Suponga que E(X1 ) = µX , V ar(X1 ) = σX 2 , E(Y ) = µ y
1 Y
2
V ar(Y1 ) = σY . Sea
√

Yn µY
Zn = n − ,
X n µX

´
donde
X1 + · · · + X n Y1 + · · · + Y n
Xn = e Yn = .
n n
(a) Encuentre el lı́mite en distribuci ón de Zn , usando el Teorema Central del Lı́mite biva-
riado aplicado a (X1 , Y1 ), (X2 , Y2 ), . . ., y el método delta.
(b) Repita (a) usando ahora el hecho que
√

µX Y n − µ Y X n
Zn = n ,
µX X n
y el resultado del ejercicio anterior.
14. Sean X, X1 , X2 , . . . e Y1 , Y2 , . . . variables aleatorias verificando P (Xn = 0) = 0 = P (X =

D P
0), Xn −→ X e Yn −→ c, donde c es una constante. Demuestre que
Yn D c
−→ .
Xn X
15. En el Ejemplo 6.5.6, determine la distribuci ón asint ótica de

√

σ̂n σ
n − ,
Yn µ
suponiendo que µ 6= 0.

Pontificia Universidad Católica de Chile
Facultad de Matemáticas
Departamento de Estadística
Cálculo Combinatorial
Guido del Pino M.
1 Introducción
El propósito de este apéndice es entregar algunas elementos de cálculo combinatorial. Las pregun-
tas básicas son extremadamente sencillas de plantear: ¿De cuántas maneras se puede obtener un
resultado?, o ¿Cuántas configuraciones de cierto tipo hay? Si bien en términos abstractos esto se
reduce a determinar la cardinalidad de un conjunto, esta tarea puede ser virtualmente imposible
de realizar, aún con la ayuda de un computador. En casos sencillos la solución descansa en la
construcción de una lista exhaustiva y sin repeticiones. La dificultad reside en que la naturaleza
de los elementos del conjunto no están claramente definidos y que el conjunto se describe de una
manera indirecta.
Recordemos que la cardinalidad de un conjunto no cambia al aplicar una transformación uno a

uno. De hecho, el principio básico para encontrar la cardinalidad de un conjunto es encontrar una
correspondencia biunı́voca entre él y otro conjunto, cuya cardinalidad sea más fácil de determinar.
En el cálculo combinatorial aparece una multiplicidad aplastante de fórmulas. Ellas se deducen a
partir de ciertos modelos concretos, aplicando algunos principios sencillos. En particular, esto da
fundamento a la resolución de problemas por analogı́a con estos modelos concretos.
2 Un ejemplo numérico
Para fijar las ideas es muy útil desarrollar en detalle un ejemplo sencillo, en que sea posible con-
feccionar listados exhaustivos. De hecho, la organización mental que requiere confeccionar la lista
arroja pistas para resolver el problema.
Consideramos una urna con 6 fichas, rotuladas por las letras a,b,c,d,e,f. Se extraen 3 fichas de esta
urna e interesa (a) Hacer un listado de los resultados posibles (b) Determinar cuantos resultados
posibles hay.
Una primera opción consiste en escribir un resultado como una sucesión de 3 letras adyacentes,
por ejemplo, bca. El Cuadro 1 entrega un listado completo, que debe leerse columna por columna,
el que cuenta con 216 elementos. Si se impone la condición de que la muestra sea sin reposición,
las letras no pueden repetirse. Una manera de ordenar los resultados es borrar del Cuadro 1 los
resultados con letras repetidas. Esto se muestra en el Cuadro 2, la que tiene 120 entradas. Por
1
otra parte, puede que no queramos tomar en cuenta el orden en que aparecen los elementos en
la muestra. Nuevamente podemos lograr esto borrando las entradas redundantes de las tablas
anteriores, luego de recorrer las tablas en orden. Se obtienen ası́ los Cuadros 3 y 4, que tienen 56
y 20 resultados respectivamente.
Claramente esta estrategia no es factible si la urna tiene 20 fichas y se hacen 10 extracciones. Sin
embargo, las tablas sugieren lo siguiente:
• Conviene ordenar los elementos de la urna – en este caso las letras – y luego ordenar las ternas
lexicográficamente. En el Cuadro 1 se hace variar más rápidamente la tercera componente y
más lentamente la primera. Si las letras a ... f se reemplazan por los dı́gitos del 0 al 5, el
orden lexicográfico coincide con el orden natural de los números.
• Cada entrada en el Cuadro 3 corresponde a un conjunto de entradas en el Cuadro 1. Los

tamaños de estos conjuntos pueden ser 1, 3 o 6, de acuerdo con el número de letras repetidas.
Por ejemplo, aaa 7→ {aaa}, aab 7→ {aab, aba, baa}, abc 7→ {abc, acb, bac, bca, cab, cba}.
• Cada entrada en el Cuadro 4 corresponde a un conjunto de entradas en el Cuadro 2. El

tamaño de estos conjuntos es constante e igual a 6, lo que permite relacionar los tamaños 120
y 20 de las listas respectivas.
• La relación de diferir sólo en el orden es una relación de equivalencia. Ella establece una
partición, cuyos elementos son los conjuntos de entradas mencionados en los puntos anteriores.
El uso de uno de los elementos de la clase de equivalencia para representar a la clase es un
procedimiento estándar, que es justamente el empleado para construir las tablas 3 y 4.
Anticipamos los resultados generales para entregar fórmulas que explican como obtener los números
216, 120, 56 y 20, sin necesidad de efectuar un recuento. Es inmediato adivinar cómo las fórmulas
se extienden a un número arbitrario de fichas y extracciones.
Caso Número de muestras

Ordenada con reposición 6 × 6 × 6 = 216
Ordenada sin reposición 6 × 5 × 4 = 120
6×7×8
No ordenada con reposición 3×2×1 = 56
6×5×4
No ordenada sin reposición 3×2×1 = 20
2
aaa baa caa daa eaa faa
aab bab cab dab eab fab
aac bac cac dac eac fac
aad bad cad dad ead fad
aae bae cae dae eae fae
aaf baf caf daf eaf faf
aba abb cba dba eba fba
abb bbb cbb dbb ebb fbb
abc bbc cbc dbc ebc fbc
abd bbd cbd dbd ebd fbd
abe bbe cbe dbe ebe fbe
abf bbf cbf dbf ebf fbf
aca bca cca dca eca fca
acb bcb ccb dcb ecb fcb
acc bcc ccc dcc ecc fcc
acd bcd ccd dcd ecd fcd
ace bce cce dce ece fce
acf bcf ccf dcf ecf fcf
ada bda cda dda eda fda
adb bdb cdb ddb edb fdb
adc bdc cdc ddc edc fdc
add bdd cdd ddd edd fdd
ade bde cde dde ede fde
adf bdf cdf ddf edf fdf
aea bea cea dea eea fea
aeb beb ceb deb eeb feb
aec bec cec dec eec fec
aed bed ced ded eed fed
aee bee cee dee eee fee
aef bef cef def eef fef
afa bfa cfa dfa efa ffa
afb bfb cfb dfb efb ffb
afc bfc cfc dfc efc ffc
afd bfd cfd dfd efd ffd
afe bfe cfe dfe efe ffe
aff bff cff dff eff fff
36 36 36 36 36 36
Tabla 1: 216 muestras ordenadas con reposición
3
cab dab eab fab
bac dac eac fac
bad cad ead fad
bae cae dae fae
baf caf daf eaf
cba dba eba fba
abc dbc ebc fbc

abd cbd ebd fbd
abe cbe dbe fbe
abf cbf dbf ebf
bca dca eca fca
acb dcb ecb fcb
acd bcd ecd fcd

ace bce dce fce
acf bcf dcf ecf
bda cda eda fda

adb cdb edb fdb
adc bdc edc fdc
ade bde cde fde

adf bdf cdf edf
bea cea dea fea
aeb ceb deb feb
aec bec dec fec
aed bed ced fed
aef bef cef def

bfa cfa dfa efa
afb cfb dfb efb
afc bfc dfc efc
afd bfd cfd efd
afe bfe cfe dfe
20 20 20 20 20 20
Tabla 2: 120 Muestras ordenadas sin reposición
4
aaa
aab
aac
aad
aae
aaf
abb bbb
abc bbc
abd bbd
abe bbe
abf bbf
acc bcc ccc

acd bcd ccd
ace bce cce
acf bcf ccf
add bdd cdd ddd

ade bde cde dde
adf bdf cdf ddf
aee bee cee dee eee

aef bef cef def eef
aff bff cff dff eff fff

21 15 10 6 3 1
Tabla 3: 56 muestras no ordenadas con reposición
5
abc
abd
abe
abf
acd bcd
ace bce
acf bcf
ade bde cde

adf bdf cdf
aef bef cef def
10 6 3 1 0 0
Tabla 4: 20 Muestras no ordenadas sin reposición
6
Supongamos ahora que la urna contiene las 5 letras a,b,c,d,e y que se extraen 5 fichas sin reposición.
Por enumeración exhaustiva se obtienen 120 muestras ordenadas de tamaño 5, las que aparecen
en el Cuadro 5. El orden de cada columna es lexicográfico. Los arreglos de las últimas cuatro
columnas se obtienen permutando cı́clicamente las letras de los 24 arreglos de la primera columna,
todos los cuales empiezan con la letra a. Ellos están en correspondencia uno a uno con los arreglos
formados al eliminar esta primera letra común, por ejemplo, bcde y bced para las primeras dos
filas. Una lista de estos 24 arreglos aparece en el Cuadro 6
abcde bcdea cdeab deabc eabcd

abced bceda cedab edabc dabce
abdce bdcea dceab ceabd eabdc
abdec bdeca decab ecabd cabde
abecd becda ecdab cdabe dabec
abedc bedca edcab dcabe cabed
acbde cbdea bdeac deacb eacbd
acdbe cdbea dbeac beacd eacdb
acdeb cdeba debac ebacd bacde
acebd cebda ebdac bdace bdace
acedb cedba edbac dbace baced
adbce dbcea bcead eadbc eadbc
adbec dbeca becad ecadb cadbe
adcbe dcbea cbead beadc eadcb
adceb dceba cebad ebadc badce
adebc debca ebcadad bcade cadeb
adecb decba ecbad cbade badec
aebcd ebcda bcdae cdaeb daebc
aebdc ebdca bdcae dcaeb caebd
aecbd ecbda cbdae bdaec daecb
aecdb ecdba cdbae dbaec baecd
aedbc edbca dbcae bcaed caedb
aedcb edcba dcbae cbaed baedc
24 24 24 24 24
Tabla 5: 120 permutaciones de 5 elementos
bcde bced bdce bdec becd bedc 6

cbde cbed cdbe cdeb cebd cedb 6
dbce dbec dcbe dceb adebc decb 6
ebcd ebdc ecbd ecdb edbc edcb 6
Tabla 6: 6 Permutaciones de 4 elementos
7
ordenado no ordenado
m×(m+1)×···×(m+k−1)
m × m × · · · × m = mk = m+k−1

con reposición 1×2×···×k k
m×(m−1)×···×(m−k+1) m
m×(m−1)×· · ·×(m−k+1)=m[k]

sin reposición 1×2×···×k = k
Tabla 7: Fórmulas para modelo de urna
3 Modelos de urnas y de casilleros
3.1 Modelo de Urna
Supongamos se extraen k fichas de una urna que contiene m fichas. Si miramos esto como un
experimento, una pregunta natural es cuántos resultados posibles hay. Decimos que el resultado es
una muestra de tamaño k, de una población de tamaño m. El proceso de selección de la muestra
se denomina muestreo.
No se puede decir cuantas muestras posibles hay sin información adicional, la que se solicita a partir
de dos preguntas:
• ¿Se distingue entre dos muestras que sólo difieran en el orden? Por ejemplo, si las fichas
extraidas consecutivamente son b, c y a, necesitamos saber si este resultado se considera
distinto de aquel en que se obtienen a, b y c, en ese orden. Si la respuesta a la pregunta
general es positiva decimos que las muestras son ordenadas.
• ¿Puede una ficha extraida de la urna aparecer en futuras extracciones? En este caso decimos
que el muestreo es con reposición, aunque es frecuente utilizar palabras alternativas como
devolución, restitución, o reemplazo.
Cabe hacer notar que en el muestreo sin reposición la muestra obtenida se puede describir como la
respuesta a las dos preguntas siguientes (i) ¿Qué fichas aparecen en la muestra? (ii) ¿En qué orden
aparecen estas k fichas? En el caso especial k = m la respuesta a (i) es única, de modo que el
número de muestras ordenadas coincide con el número de maneras de ordenar o permutar las n
fichas de la urna. Obviamente este número coincide con el número de permutaciones de n objetos.
El Cuadro 7 entrega fórmulas explı́citas para cada uno de los cuatro casos. Como corolario, el
número de permutaciones de m objetos es m!.
3.2 Modelo de Bola en Casilleros
Supongamos nos interesa saber de cuántas maneras se pueden distribuir k bolas en m casilleros. La
respuesta es la misma que si nos interesan las maneras en que k bolas pueden ocupar m casilleros.
Esta última interpretación da a problemas de este tipo el nombre de problemas de ocupación. En
Fı́sica las bolas representan partı́culas atómicas y los casilleros los diferentes estados en que estas
partı́culas pueden estar.
8
Al igual que en el caso de la urna, no es posible responder la pregunta sin plantear dos preguntas
previas:
• ¿Se distinguen las bolas entre sı́? Si la respuesta es positiva, se dice que las bolas son dis-
tinguibles. Fı́sicamente esto puede hacerse suponiendo que las bolas son de distinto color,
están numeradas, o tienen asignada una etiqueta. En este caso el resultado debe determi-
nar explı́citamente cuales bolas son ubicadas (caen) en cada casillero. Cuando las bolas son
indistinguibles, sólo interesa saber cuantas caen en cada casillero.
• ¿Se permiten múltiples bolas en algún casillero? De la Fı́sica proviene el uso del término
exclusión. Si la presencia de una bola en un casillero impide que otra bola lo ocupe, decimos
que la distribución de bolas es con exclusión, dado que la presencia de una bola excluye la
posibilidad que otra bola lo ocupe. El nombre viene del Principio de Exclusión de Pauli, que
se usa en Fı́sica Atómica. Permitir múltiples bolas equivale a una distribución sin exclusión.
Hacemos notar que si k > m, entonces es necesario aceptar múltiples bolas. Por otra parte,
k < m garantiza que hayan casilleros vacı́os.
Para k = m, una asignación que no admita múltiples bolas por casillero asigna exactamente una
bola a cada uno. Si las bolas tienen etiquetas numeradas de 1 a m, por ejemplo, esto equivale a una
permutación de las etiquetas, lo que se puede hacer de m! maneras. El Cuadro 8 entrega fórmulas
explı́citas para cada uno de los cuatro casos.
bolas distinguibles bolas indistinguibles

m×(m+1)×···×(m+k−1)
= m+k−1

a lo más una bola m × m × · · · × m = mk 1×2×···×k k
por casillero
m×(m−1)×···×(m−k+1)
= m

sin restricción m×(m−1)×· · ·×(m−k+1)=m[k] 1×2×···×k k
Tabla 8: Fórmulas para modelo de bolas en casilleros
4 Arreglos y combinaciones
4.1 Definiciones
A k elementos puestos en sucesión se lo denomina un arreglo de largo k. Formalmente escribimos

esto como una k-tupla ordenada x = (x1 , . . . , xk ). Decimos que el elemento xi aparece en la posición
i. Nos interesa acá el caso particular cuando los xi pertenecen a un conjunto arbitrario A = (aj , j =
1, 2, . . . , m) de cardinalidad m. Asignaremos también etiquetas distintas a cada posición, denotando
por bi aquella asignada a la i-ésima posición. De esta forma el arreglo se puede identificar como
una función de B = {bi , i = 1, . . . , m} en A. Para k = m un arreglo sin repetición se llama también
permutación.
Cuando i 6= j ⇒ xi 6= xj se dice que x es un arreglo sin repetición. Por simetrı́a se denomina a

un arreglo cualquiera arreglo con repetición, en el entendido que las repeticiones sean forzosas. Los
9
arreglos sin repetición se pueden identificar con las funciones uno a uno de B en A. El término
combinación, por sı́ sólo, significa habitualmente combinación sin repetición.
Mirando al arreglo como una lista, es natural discutir si dos listas que sólo difieren en el orden de sus
elementos se consideran distintas o no (para efecto de contarlas). Cuando la respuesta es negativa,
lo que se cuenta no son los arreglos, sino ciertas clases de arreglos denominados combinaciones,
heredándose el calificativo de sin repetición o con repetición. Formalmente las combinaciones se
identifican con clases de equivalencia formada por arreglos. Por comodidad se suele usar uno de los
elementos de esta clase para representar la combinación, como se ilustra en las tablas 3 y 4. Dos
arreglos son equivalentes si se puede obtener uno a partir del otro permutando las posiciones.
Si decimos que estos arreglos son equivalentes, las combinaciones coinciden entonces con las clases
de equivalencia inducida por esta relación, las que constituyen una partición de un conjunto de
arreglos. Por ejemplo, la permutación 123456 7→ 415362 transforma (a, a, b, c, c, c) en (c, a, c, b, c, a),
de modo que estos arreglos son equivalentes, correspondiendo a una misma combinación.
La admisión o no de repeticiones, ası́ como el uso o no del orden, está asociado con el enunciado
del problema. Por ejemplo, si los objetos son palabras de largo k escritas con m letras el orden es
claramente fundamental. La posibilidad de usar una letra más de una vez corresponde al concepto
de repetición.
Si se lanza k veces un dado o se lanzan k dados simultáneamente, los resultados posibles son
equivalentes siempre que los dados sean distinguibles. Por ejemplo, si hay k = 3 dados de colores
rojo, azul y blanco, basta enumerar los colores, por ejemplo, rojo=1, azul= 2 y blanco =3, el arreglo
(2, 5, 3) se asocia a que el dado rojo muestre 2, el azul muestre 5 y el blanco muestre 3. Si se lanza
un dado tres veces, el arreglo representa los resultados consecutivos. Es claro que se debe admitir
repeticiones.
Es importante señalar que la distinguibilidad de los dados es, en general, un problema conceptual
más que un problema fı́sico. Por ejemplo, si en un juego de Póquer se lanzan 5 dados de distintos
colores, el efecto práctico de estos colores es nulo. Por otra parte, en problemas probabilı́sticos es
difı́cil pensar que pintar a los dados de colores distintos pueda afectar la probabilidad de un suceso
determinado, como obtener un par y un trı́o. Se demuestra en teorı́a de la probabilidad que lo
apropiado es considerar que los arreglos de largo k son los equiprobables. El problema se reduce a
encontrar la cardinalidad de un subconjunto de arreglos definido por ciertas condiciones.
Es útil en combinatoria pensar en un dado virtual de m caras. Por ejemplo, una moneda corresponde
a m = 2 y una ruleta estándar a m = 38. Para m cualquiera, este dado virtual se puede realizar a
través de extracciones sucesivas, con reposición, de una urna con m fichas.
4.2 Caracterización por números de repeticiones
Una caracterización más cómoda es asumir que dos arreglos son equivalentes si contienen los mismos
elementos, y cada uno de estos elementos aparece repetido el mismo número de veces en cada
arreglo. Sea (a1 , a2 , . . . , am ) una enumeración de A, sea Ej = {i/xi = aj } el conjunto de posiciones
que ocupa aj en el arreglo x y sea nj su cardinalidad. Notemos que Ej puede ser vacı́o, en cuyo
caso nj = 0. Dos arreglos son equivalentes si comparten el vector n = (n1 , n2 , . . . , nm ). Esto
quiere decir que n representa la clase de equivalencia a la que pertenece un arreglo, es decir la
10
combinación correspondiente. Por lo tanto, el conjunto de combinaciones de k entre m elementos
está en correspondencia biunı́voca con
m
X
N CREP = {n/ni ≥ 0, i = 1, . . . , m, ni = k} (4.1)
i=1
cuando ellas admiten repeticiones, y con

m
X
N SREP = {n/ni ∈ {0, 1}, i = 1, . . . , m, ni = k} (4.2)
i=1
cuando ellos son sin repetición. En consecuencia, el número de combinaciones es card N CREP
cuando ellas son con repetición y card N SREP cuando ellas son sin repetición.
4.3 Caracterización por productos
Una manera general de eliminar el orden automáticamente y, al mismo tiempo, determinar n es

m
Q
representar a x por xi . Esto se debe simplemente a que el orden de los factores no altera el
i=1
producto. Pero
m m
n
Y Y
xi = aj j
i=1 j=1
Por ejemplo, si el conjunto de elementos es {a, b, c, d}, el arreglo cacbca genera a2 bc3 = a2 b1 c3 d0 , y
los exponentes 2, 1, 3, 0 son los ni .
4.4 Combinaciones sin repetición y subconjuntos
En el caso de un arreglo sin repetición, n está en correspondencia uno a uno con el conjunto
{x1 , . . . , xk }, de modo que una combinación está determinada por el conjunto {x1 , . . . , xk }. Por lo
tanto, el número de estas combinaciones es igual al número de subconjuntos de tamaño k de un
conjunto de tamaño m.
4.5 Notaciones
La siguiente tabla ilustra la correspondencia entre las diversas notaciones.
Conjunto Tipo de Descripción Descripción

objeto usual alternativa
{a, b, c, d} arreglo aabccc ({1, 2}, {3}, {4, 5, 6}, φ)
{a, b, c, d} arreglo cacbca ({2, 6}, {4}, {1, 3, 5}, φ)
{a, b, c, d, e, f } arreglo cea ({3}, φ, {1}, φ, {3}, φ)
{a, b, c, d} combinación aabccc = a2 bc3 (2, 1, 3, 0)
{a, b, c, d, e, f } combinación {a, c, e} (1, 0, 1, 0, 1, 0)
11
4.6 Reduciendo combinaciones con repetición a combinaciones sin repetición
Las combinaciones con repetición se pueden reducir a combinaciones sin repetición mediante un
truco sencillo pero ingenioso. Este consiste en asociar con el vector n de la combinación con
repetición un vector binario N , de acuerdo a la regla que se describe a continuación.
Supongamos se desea saber cuántas combinaciones sin orden y con repetición como an1 1 · · · anmm
existen. Ası́, de los m posibles elementos, se desea una muestra de tamaño k = n1 + · · · + nm .
Para ello, consideramos inicialmente un arreglo con m ceros. A continuación, intercalamos ni
unos antes del i-ésimo cero, y finalmente eliminamos el último elemento de este arreglo, que es
siempre 0. Por ejemplo, a n = (2, 1, 3, 0), que corresponde a la combinación con repetición a2 bc3 ,
se le asocia (1, 1, 0, 1, 0, 1, 1, 1, 0), a ac2 d3 se le asocia N = (1, 0, 0, 1, 1, 0, 1, 1, 1), mientras que
N = (0, 1, 1, 1, 1, 0, 1, 1, 0) proviene de n = (0, 4, 2, 0), el que a su vez corresponde a la combinación
con repetición b4 c2 . Para simplificar la escritura se puede omitir las comas y los paréntesis. Ası́, a
a2 bc3 , ac2 d3 y b4 c2 , le asociamos 110101110, 100110111 y 011110110, respectivamente.
De este modo, N se puede interpretar como el vector correspondiente a una combinación sin
repetición de k unos de un conjunto de m + k − 1 ceros y unos. Las fórmulas correspondientes se
muestran en el Cuadro 9.
arreglos combinaciones
m×(m+1)×···×(m+k−1) m+k−1
m × m × · · · × m = mk

con repetición 1×2×···×k = k
m×(m−1)×···×(m−k+1)
m×(m−1)×· · ·×(m−k+1)=m[k] = m

sin repetición 1×2×···×k k
Tabla 9: Fórmulas para arreglos y combinaciones
5 Equivalencia de los modelos
Sea (aj , j = 1, . . . , m) una enumeración de A, sea bi , i = 1, . . . , k la etiqueta asociada a la i-ésima

posición, y sea B = {bi , i = 1, . . . , k}. Un arreglo de largo k es x ∈ Ak , o bien la función de B en
A que a bi le asigna ai .
Se establece una correspondencia entre el problema de contar arreglos y combinaciones con el de

contar muestras o distribuciones de bolas. Esto explica que las tablas construidas para cada una
de estas situaciones son idénticas, excepto por los encabezamientos de las filas y columnas, como
se muestra en el Cuadro 10
6 Principios Básicos
La acción de contar es tan básica que es difı́cil a veces detectar cual es la lógica subyacente. La
suma y la multiplicación (que es una suma repetida) de números naturales son las operaciones
12
Muestras de una población
m Tamaño de la población.
k Tamaño de la muestra.
a1 , a2 , . . . , am Elementos de la población.
bi Etiqueta de i-ésima extracción.
xi Resultado de la i-ésima extracción.
nj Número de veces que aparece aj en la muestra.
Sin repetición Sin reposición.
Arreglo Muestra ordenada.
Combinación Muestra no ordenada.
Bolas en casilleros
m Número de casilleros.
k Número de bolas.
a1 , a2 , . . . , am Etiquetas de casilleros.
bi Etiqueta de la i-ésima bola.
xi Casillero que ocupa la bola bi .
nj Número de bolas en casillero aj .
Sin repetición A lo más 1 bola por casillero.
Arreglo Distribución de bolas distinguibles en casilleros.
Tabla 10: Equivalencia de modelos
fundamentales. La aplicación de ellas a problemas de combinatoria da origen a las llamadas reglas

aditiva y multiplicativa.
6.1 Regla Aditiva
r
P
La notación A = Ai significa que (A1 , . . . , Ar ) es una partición ordenada de A, es decir, los
i=1
conjuntos Ai son disjuntos y su unión es igual a A. Con esta notación podemos enunciar:
r
X r
X
card Ai = card Ai . (6.1)
i=1 i=1
6.2 Representación por árboles y regla multiplicativa
Sea x = (x1 , . . . , xk ) ∈ S1 × S2 × · · · × Sk . Cualquier subconjunto Ω de S1 × S2 × · · · × Sk se

puede definir recursivamente, indicando que valores puede tomar xi para valores dados de las
componentes previas. Denotamos a este conjunto por Si (x1 , . . . , xi−1 ), para i = 2, . . . , k. Sin
pérdida de generalidad podemos suponer que el conjunto de valores posibles para x1 es S1 (en caso
contrario redefinimos S1 ). Esta definición recursiva permite asociar con cada x ∈ Ω la rama de un
árbol, de modo que la cardinalidad de Ω puede encontrarse contando las ramas del árbol asociado
con Ω.
Todas las ramas parten de un origen O. La rama que corresponde a x pasa sucesivamente por k
13
nodos. El i-ésimo nodo (o nodo de orden i) está en correspondencia con el único camino que lo
conecta con el origen, de modo que representa (x1 , . . . , xi ). Sin embargo, se le pone al nodo el rótulo
xi , los demás valores pudiendo leerse en los nodos previos del camino que llega a él. Los nodos de
orden 1 (primarios) corresponden a x1 ∈ S1 . Los nodos de orden i que están conectados con el nodo
de orden i − 1 asociado con (x1 , . . . , xi−1 ), están en correspondencia biunı́voca con Si (x1 , . . . , xi−1 ).
Por ejemplo, los nodos secundarios que están conectados con el nodo primario asociado con x1
representan al conjunto S2 (x1 ).
Se dice que un árbol es regular si el número de arcos que sale de un nodo depende sólo del orden
del nodo. Consideremos un árbol regular con ramas de largo k y sea ni el número de arcos que sale
de un nodo de orden (i − 1) (donde el origen es el nodo de orden 0). Entonces el número de ramas
es n1 × n2 × · · · × nk .
La regla multiplicativa se puede escribir más formalmente como sigue:

r
Y
card Si (x1 , . . . , xi−1 ) = ni , i = 1, . . . , k ⇒ card Ω = ni (6.2)
i=1
Tomando S1 = A1 y Si (x1 , . . . , xi−1 ) = Ai , i = 2, . . . , k se obtiene

r
Y r
Y
card Ai = card Ai .
i=1 i=1 (6.3)
Regla Multiplicativa Básica

r
Y
donde Ai = A1 × · · · × Ar , o sea el producto cartesiano de A1 , A2 , . . . , Ar .
i=1
6.3 Relaciones de equivalencia:
Dado un conjunto de N elementos y una relación de equivalencia, interesa contar el número t de

clases de equivalencia. Esto es, en general, muy difı́cil de realizar, excepto cuando todas las clases
de equivalencia tengan un mismo tamaño p, en cuyo caso hay
N
t= (6.4)
p
clases de equivalencia. Esto puede verse como consecuencia de la regla multiplicativa si construimos
un árbol regular en que el nodo primario es la clase de equivalencia y los nodos secundarios corres-
ponden a los elementos de esta clase. En efecto, es inmediato ver que en este caso (6.2) implica
tp = N.
7 Demostraciones
Los arreglos con repetición de largo k son elementos de S k , con card S = m. Basta aplicar (6.3)
con Si = S, y card S = m, de modo que ni = m. Esto demuestra que hay mk arreglos de largo k.
14
Para los arreglos sin repetición aplicamos (6.2), con Si (x1 , . . . , xi−1 ) = S \ {x1 , . . . , xi−1 }. Se tiene
entonces que ni = m − i + 1 y por tanto hay m × (m − 1) × · · · × (m − k + 1) = m[k] arreglos de
largo k sin repetición. En particular el número de permutaciones de m elementos es m!.
Consideremos ahora las combinaciones sin repetición. Partamos por el caso de una combinación
que contiene los elementos a, b y d. Ella se identifica con la clase de equivalencia formada por los
arreglos abd, adb, bad, bda, dab y dba, que consta de 6 elementos. Es claro que todas las clases
de equivalencia correspondientes a combinaciones de 3 elementos tienen la misma cardinalidad.
En general, para una combinación de largo k, la clase de equivalencia está formada por todos los
arreglos de largo k basados en k elementos, es decir, por k!. Usando (6.2) con N = m[k] y p = k!,
se obtiene que el número de clases de equivalencia es
m[k]

m! m
= = .
k! k!(m − k)! k
8 Permutaciones
Las permutaciones son mucho más que un simple caso particular de un arreglo sin repetición. Ellas
pueden ser consideradas como conceptos básicos en la teorı́a combinatoria. Desde el punto de vista
abstracto, una permutación sobre un conjunto A se puede identificar con una transformación uno
a uno, digamos f, de A sobre sı́ mismo. Si (a1 , . . . , am ) es una enumeración de A, la función f
está determinada por el arreglo (f (a1 ), . . . , f (am )) ∈ Am . Recı́procamente, un arreglo x ∈ Am
determina f mediante f (ai ) = xi , i = 1, . . . , m. Esto justifica el uso del término permutación en
el contexto de arreglos sin repetición. Imaginando los elementos de A como bolas que ocupan los
casilleros bj , j = 1, 2, . . . , m, podemos determinar un arreglo de dos maneras
• Para cada posición b = bi indicar el elemento xi = aj de A que se encuentra en ella.
• Para cada elemento a = aj de A indicar la posición bi que él ocupa, es decir, el número i que
satisface xi = aj .
La naturaleza de los elementos de A o de las posiciones, es irrelevante desde el punto de vista

combinatorial. La correspondencia bi 7→ aj se transforma en una función de m̄ = {1, 2, . . . , m}
sobre sı́ mismo, definida por f (i) = j. Las dos descripciones corresponden a especificar f y f −1 ,
respectivamente.
8.1 Barajando un naipe
La acción de barajar un naipe inglés (sin comodines) equivale a aplicar sucesivas permutaciones
a un conjunto de 52 elementos. Ordenemos las pintas como ♠: Pique (P), ♥: Corazón (C), ♦:
Diamante (D), y ♣: Trébol (T). Escribamos además los números del 1 al 13, identificando J, Q y
K con 11, 12 y 13, respectivamente. El orden lexicográfico es
Pique 1–13 1P 2P 3P 4P 5P 6P 7P 8P 9P 10P JP QP KP
Corazón 14–26 1C 2C 3C 4C 5C 6C 7C 8C 9C 10C JC QC KC
Diamante 27–39 1D 2D 3D 4D 5D 6D 7D 8D 9D 10D JD QD KD
Trébol 40–52 1T 2T 3T 4T 5T 6T 7T 8T 9T 10T JT QT KT
15
Si el as de diamantes pasa a ocupar la posición en que originalmente estaba el as de corazón,
podemos escribir esto como f (27) = 14. Procediendo análogamente con todas las cartas, se define
una función f del conjunto {1, 2, . . . , m} sobre sı́ mismo, donde m = 52, la cual representa el efecto
de barajar el naipe.
Si se etiquetan las m fichas de una urna, la extracción secuencial de las m fichas define una de las
m! permutaciones. Si la extracción se realiza al azar, este esquema permite barajar un naipe al
azar sin ser experto en el arte de barajar.
La interpretación de una permutación como una transformación presenta importantes ventajas

matemáticas. Por ejemplo, la composición de funciones induce una operación sobre el conjunto de
permutaciones, lo que no es natural cuando se la representa como un arreglo. El conjunto de las
m! permutaciones es, de hecho, un grupo con respecto a esta operación y varios subgrupos son de
interés. En la resolución de problemas uno suele utilizar la equivalencia entre las representaciones
por arreglos y funciones.
Digamos que dos arreglos x e y en Am son equivalentes, lo que denotamos por x ∼ y, si y sólo
si xi = yi , i = 1, . . . , k. Cada clase de equivalencia está asociada con el arreglo (x1 , . . . , xk ). Por
lo tanto, el número de arreglos sin repetición es igual al número de clases de equivalencia. Ahora
bien, dado un arreglo x, todos los y ∼ x se obtienen permutando las últimas n − k componentes
de x. Por ejemplo, si m = 7 y k = 4, los arreglos equivalentes con 2361745 son 2361745, 2361754,
2361475, 2361457, 2361574 y 2361547. Ellos están en correspondencia con 745, 754, 475, 457, 574
y 547, respectivamente, que son las 3! = 6 permutaciones de {4, 5, 7}. En general, los 7! = 5040
arreglos de largo 7 se agrupan en clases de tamaño 6, de modo que hay 5040 6 = 840 tales clases.
Usando (6.2) con N = m! y p = (n − k)!, se obtiene

m!
t= = m[k] ,
(n − k)!
lo que entrega una demostración alternativa de la fórmula para el número de arreglos sin repetición
de largo k.
9 Coeficientes multinomiales
9.1 Naipes
En muchos juegos de naipe, las 52 cartas del naipe se dividen por partes iguales entre 4 jugadores
y es irrelevante el orden en que le lleguen las cartas a un jugador. La pregunta natural es cuántas
reparticiones distintas hay. Es conveniente pensar que el naipe se baraja y luego se ponen las
52 cartas en sucesión para formar un arreglo x. Las primera 13 cartas, es decir, x1 , x2 , . . . , x13 le
corresponden al primer jugador, las segundas 13, esto es, x14 , x15 , . . . , x26 le corresponden al segundo
jugador, y ası́ sucesivamente. Como el orden de las cartas de cada jugador no interesa, todos los
arreglos equivalentes con x se obtienen permutando separadamente las cartas de cada jugador. Por
la regla multiplicativa, las clases de equivalencia tienen cardinalidad 13! × 13! × 13! × 13!. Como
hay un total de 52! arreglos posibles, el número de distribuciones distintas es
52!
.
13! × 13! × 13! × 13!
16
Notemos que el no considerar el orden para un jugador es equivalente a considerar el conjunto de
cartas que le corresponde.
9.2 Generalización
La generalización es inmediata. Se dividen los n elementos de un conjunto A en r grupos (A1 , A2 , . . . , Ak ),

bajo la condición que el i-ésimo grupo contenga ni elementos, donde n1 + n2 + · · · + nk = n. El
número de distribuciones posibles es

n n!
= . (9.1)
n1 n2 · · · nk n1 ! × n2 ! × · · · × nk !
Cuando n = 2, A1 y A2 son complementarios, de modo que especificar una partición es equivalente

a especificar A1 o A2 . El número de particiones coincide ası́ con el número de combinaciones de
tamaños n1 o n2 de un conjunto de tamaño n1 + n2 . Esto proporciona una demostración alternativa
para la fórmula de las combinaciones, y da una interpretación interesante a la identidad

n1 + n2 n1 + n2 n1 + n2
= =
n1 n2 n1 n2
9.3 Urnas, casilleros, dados
1. En un modelo de urna, se subdivide el conjunto de elementos en la urna en r grupos Bj ,j =

1, . . . , r, donde el subı́ndice j de Bj puede identificarse mediante uno de r colores. Al extraer
sucesivamente los n elementos de la urna, los ni elementos del grupo Bi se obtendrán en un
cierto conjunto de extracciones, lo que define un subconjunto Ai de {1, 2, . . . , n}. Claramente,
(A1 , . . . , Ar ) es una partición de {1, 2, . . . , n}, de modo que (9.1) indica el número de tales
particiones.
2. En un modelo de n bolas distinguibles que se distribuyen, con exclusión, en n casilleros, queda

exactamente una bola en cada casillero. El conjunto Bi corresponde ahora a un conjunto
prefijado de casilleros ( por ejemplo, los primeros n1 casilleros forman A1 , los siguientes n2
casilleros forman A2 , y ası́ sucesivamente). El conjunto Ai está conformado por aquellas
bolas que caen en alguno de los casilleros en Bi . Por lo tanto (9.1) coincide con el número
de maneras de distribuir n bolas distinguibles en r grupos, donde el número de bolas en el
r-ésimo grupo es fijo e igual a ni .
3. Consideremos finalmente n lanzamientos de un dado. Para m = 12 un resultado posible es

(2, 1, 4, 2, 2, 3, 5, 4, 2, 4). Un as aparece en el lanzamiento 2, un dos en los lanzamientos 1, 4, 5
y 9, el seis no aparece nunca, etc. Esto corresponde a la partición
({2}, {1, 4, 5, 9}, {6}, {3, 8, 10}, {7}, φ),
cuyas cardinalidades respectivas son n1 = 1, n2 = 4, n3 = 1, n4 = 3, n5 = 1 y n6 = 0, lo que

denotamos por n = (1, 4, 1, 3, 1, 0). El número de resultados de los 10 lanzamientos del dado
tales que se obtiene este valor de n coincide ası́ con

10
= 25200.
141310
17
Para un dado de r caras, cada resultado es un arreglo x de largo n. El número de arreglos
que cumplen con la condición que la i-ésima cara aparezca ni veces está también dado por
(9.1).
9.4 Teorema del multinomio
Los resultados anteriores se pueden aplicar para demostrar el Teorema del Multinomio, es decir la
expansión  n
r r
n
X X Y
 xi  = c(n) xj j . (9.2)
j=1 n j=1
donde n = (n1 , n2, . . . , nr ). Interesa encontrar una fórmula para el coeficiente c(n1 , . . . , nr ) y para
el número de términos en la expansión.
Para fijar ideas, consideremos primero la expansión en un caso particular: (x1 + x2 + x3 + x4 )5 . Se

tiene
(x1 +x2 +x3 +x4 )5 = (x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )
×(x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )
La expansión se obtiene llevando a cabo los siguientes pasos
• Elegir un término de cada paréntesis (4 opciones).

• Multiplicarlos.
• Simplificar el monomio resultante.
• Repetir para las 45 elecciones posibles.
• Escribir la suma de los 45 términos como una combinación lineal de los distintos monomios.
• Determinar el coeficiente de un monomio dado.
Sea r = (r1 , r2 , r3 , r4 , r5 ) donde ri es el subíndice de x seleccionado en el i-ésimo paréntesis. Por

ejemplo, r = (2, 1, 2, 3, 3) corresponde a la selección (x2 , x1 , x2 , x3 , x3 ), que da origen al monomio
x1 x22 x23 . El problema es determinar cuántos arreglos r dan origen a un n dado.
Una manera más abstracta de presentar el procedimiento es como sigue:
• Seleccionar el conjunto Aj de paréntesis, imponiendo la condición card Aj = nj , donde Aj

indica en cuales paréntesis se elige xj .
• El número de particiones ordenadas (A1 , . . . , Ak ) está dado por (9.1).
Si partimos de los arreglos r, declaramos que dos arreglos son equivalentes si dan origen al mismo
monomio, es decir al mismo n. De esta forma, el coeficiente de x1 x22 x23 es

5 120
= = 30.
12200 1×2×2×1×1
18
Por (4.1), el número de términos distintos en la expansión del multinomio coincide con el número
de combinaciones con repetición de largo n de un conjunto de k elementos, es decir,

n+k−1
.
k−1
El Teorema del multinomio se expresa, entonces, como

 n
k X k
Y
X n n
 xi  = xj j (9.3)
n ,...,n
n 1 n 2 · · · n k
j=1 1 k j=1
Para k = 2, con a = x1 , x2 = b, n1 = i y n2 = j y m = n se obtiene el Teorema del Binomio:
X n n
n i j
X n i n−i
(a + b) = ab = ab (9.4)
ij i
i+j=n i=1
Tomando los términos xi , a y b iguales a 1 se obtienen las importantes identidades
X n

= kn , (9.5)
n1 ,...,nk
n1 n2 · · · nk
y
n
X n
= 2n . (9.6)
i
i=0
19

Probabilidades - Aravena, Del Pino, Quintana 2023-05-27 18-13-13

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidades - Aravena, Del Pino, Quintana 2023-05-27 18-13-13

Cargado por

Copyright:

Formatos disponibles

Departamento de Estadı́stica

Pontificia Universidad Cat ólica de Chile

1.1 Modelos Probabilı́sticos y Determinı́sticos

1.1.1 Determinismo y leyes fı́sicas

1.1.2 Probabilidad y leyes cientı́ficas

La Teorı́a de Probabilidad proporciona no s ólo un marco conveniente para estudiar el ajuste de

1.1.3 Heterogeneidad y variabilidad

Una dificultad para emplear modelos determinı́sticos es la presencia de heterogeneidad o variabi-

1.1.4 Fen o´menos ca o´ticos y probabilidad

Aravena, del Pino, Quintana: PROBABILIDADES 2

1.1.5 Vocabulario asociado a la probabilidad

El término probabilı́stico, se usa vagamente como contraposici ón a determinı́stico y se le aso-

1.2 Interpretaciones del Concepto de Probabilidad

1.2.1 Interpretaci o´n frecuentista

La interpretaci ón frecuentista o empı́rica de la probabilidad se aplica directamente en aquellos

Aravena, del Pino, Quintana: PROBABILIDADES 3

mente para n = 1, 2, 3, . . . el promedio tn de los primeros n n úmeros obtenidos, i.e.

ω Nn (ω) pn (ω) ω≥5 ω es ω≤4 ω entre

Aravena, del Pino, Quintana: PROBABILIDADES 4

La funci ón de probabilidad determina la distribuci ón de probabilidad y viceversa.

Si ω1 , ω2 , . . . , ωn es una enumeraci ón de los elementos de Ω, se acostumbra escribir pi en vez de

Aravena, del Pino, Quintana: PROBABILIDADES 5

Un concepto probabilı́stico clave es el de sucesos mutuamente excluyentes, es decir, que la

P (A ∪ B) = P (A) + P (B) si A y B son disjuntos, (1.2.7)

1.2.2 Interpretaci o´n subjetiva

La interpretaci ón frecuentista es muy especulativa cuando la probabilidad se refiere a situaciones

Aravena, del Pino, Quintana: PROBABILIDADES 6

1.2.3 Equiprobabilidad y la regla de Laplace

1.2.3.1 Regla de Laplace

Cuando los resultados posibles son equiprobables, la probabilidad de un suceso es el

Aravena, del Pino, Quintana: PROBABILIDADES 7

1.2.3.2 Algunos modelos equiprobables

Este resultado implica que hay N

Aravena, del Pino, Quintana: PROBABILIDADES 8

Finalmente, muchos problemas interesantes involucran permutaciones. Barajar un naipe de k

La probabilidad de cualquier suceso se obtiene contando casos favorables y dividiendo

Aravena, del Pino, Quintana: PROBABILIDADES 9

1.3 Modelo de Probabilidad Finito

1.3.1 Caso general

La funci ón de probabilidad y la distribuci ón de probabilidad ya fueron ya definidas en el contexto

Por (1.3.2), la distribuci ón de probabilidad P (·) determina p(·), pues

p(ω) = P ({ω}), ω ∈ Ω. (1.3.3)

Ejemplo 1.3.1 Por ejemplo, el Teorema del Binomio indica que

Por lo tanto, si p > 0, q > 0, p + q = 1, la funci ón

Aravena, del Pino, Quintana: PROBABILIDADES 10

Consideremos ahora los sucesos:

S1 : (a) está operativa.

S1 : x1 = 1 A1 = {(1, 0), (1, 1)} B1 = {ω1 , ω2 }

Aravena, del Pino, Quintana: PROBABILIDADES 11

1.3.2 Resultados favorables equiprobables

p(x) = p(x0 ) ∀x, x0 ∈ A, (1.3.4)

la probabilidad P (A) se puede encontrar mediante la f órmula

P (A) = card (A) × p(x0 ), donde x0 ∈ A. (1.3.5)

En otras palabras, la probabilidad del suceso se obtiene multiplicando la probabilidad de un resul-

Ejemplo 1.3.3 Se lanzan 5 monedas id énticas, pero no necesariamente equilibradas.

Ejemplo 1.3.4 Sea x = (x1 , · · · xn ) ∈ Ω = {0, 1}n , y sea Ai el suceso xi = 1. En-

Aravena, del Pino, Quintana: PROBABILIDADES 12

para muestreo sin reposici ón.

Aravena, del Pino, Quintana: PROBABILIDADES 13

Consideremos nuevamente la urna y agreguemos un nuevo ingrediente al modelo. Suponemos

La probabilidad que la ficha extraida sea de un color determinado coincide con la

card (Ω(x)) N (x)

lo que justifica la afirmaci ón anterior.

Aravena, del Pino, Quintana: PROBABILIDADES 14