Está en la página 1de 255

Departamento de Estadı́stica

Pontificia Universidad Cat ólica de Chile

PROBABILIDADES
Versi ón Preliminar 2002.2

Ricardo Aravena
Guido del Pino
Fernando Quintana

Agosto, 2002
Cap´
ıtulo 1

Introduccio´n

1.1 Modelos Probabilı́sticos y Determinı́sticos

La Teorı́a de Probabilidad es una rama de las Matem áticas que permite estudiar todo tipo de
fen ómenos en que aparecen conceptos como indeterminismo, incertidumbre, impredecible, hete-
rogeneidad, variabilidad, errores de medici ón, imprecisi ón y azar. En esta secci ón desarrollamos
algunas de estas ideas para motivar el estudio de dicha teorı́a.

1.1.1 Determinismo y leyes fı́sicas

La imposibilidad pr áctica de conocer los valores de todas las variables que influyen sobre el com-
portamiento de un sistema hace que los modelos determinı́sticos tengan un ámbito de aplicaci ón
limitado. En estos modelos, el cumplimiento de ciertas condiciones garantiza la ocurrencia de un
hecho dado. El paradigma cl ásico es la Mecánica de Newton, donde se puede predecir exactamente
la trayectoria de un objeto, una vez especificadas la posici ón inicial, la velocidad inicial y todas
las fuerzas que act úan sobre él. Desde un punto de vista filos ófico, la idea es que si tuvi éramos
toda la informaci ón y contáramos con un modelo adecuado, podrı́amos determinar completamente
todos los acontecimientos relacionados. A ún dentro del ámbito de la Fı́sica, tal idea est á en abierta
contradicci ón con las teorı́as más modernas, como la Mec ánica Cuántica.
Si somos tan afortunados como para disponer de un modelo te órico perfecto que vincula los
valores de ciertas variables con los de otras, su aplicaci ón se ve entrabada por la imposibilidad de
conocer estos valores con absoluta precisi ón, es decir, cuando hay errores de medici ón. Los modelos
probabilı́sticos constituyen una alternativa atractiva a los modelos determinı́sticos en situaciones de
este tipo.
Por otra parte, muchas de las leyes que rigen los fen ómenos fı́sicos y quı́micos han sido descu-
biertos experimentalmente. Este es el caso de la ley de Boyle: P V = κT , que relaciona la presi ón
P , el volumen V , y la temperatura T de un gas. Los errores de medici ón hacen que las f órmulas
matemáticas no se verifiquen de manera exacta con datos experimentales. C ómo ajustar modelos
te óricos a datos experimentales o c ómo rechazar teorı́as a partir de estos datos es un problema
importante que se ataca utilizando m étodos estadı́sticos, para los cuales la Teorı́a de Probabilidad

1
´
CAP ITULO ´
1. INTRODUCCI ON

sirve de base. Cabe hacer notar, adem ás, que leyes experimentales como la ley de Boyle rigen s ólo
aproximadamente y para ciertos rangos de valores de las variables.

1.1.2 Probabilidad y leyes cientı́ficas

La Teorı́a de Probabilidad proporciona no s ólo un marco conveniente para estudiar el ajuste de


modelos matem áticos a datos que contienen errores de medici ón, sino tambi én una base para desa-
rrollar modelos te óricos en ciertas ciencias. Tal es el caso de las leyes de la Termodin ámica, donde
se vinculan la presi ón y la temperatura de un gas con la energı́a cinética total de un enorme n úmero
de moléculas, cuyo movimiento individual es obviamente impredecible. En otras palabras, coexiste
una gran incertidumbre a nivel microsc ópico con una virtual certeza a nivel macrosc ópico del gas.
Algo análogo ocurre con las poblaciones humanas, donde la libertad del individuo es compatible
con un comportamiento bastante predecible a nivel agregado. La herramienta te órica que permite
fundamentar estas aseveraciones es la Ley de los Grandes N úmeros, popularmente conocida como
la Ley de los Promedios. Ella establece que, bajo ciertas condiciones, se puede predecir con exacti-
tud el valor del promedio, a ún cuando los valores individuales sean por completo inciertos. Hemos
privilegiado la discusi ón de ejemplos fı́sicos, donde hist óricamente los modelos determinı́sticos
han tenido bastante éxito. En las ciencias biol ógicas y sociales los modelos determinı́sticos son
s ólo interpretables en t érminos de un comportamiento promedio. Interesa definir qu é significa pro-
medio en este contexto y deducir el comportamiento promedio a partir de supuestos m ás simples de
naturaleza probabilı́stica.

1.1.3 Heterogeneidad y variabilidad

Una dificultad para emplear modelos determinı́sticos es la presencia de heterogeneidad o variabi-


lidad. A modo de ejemplo, consideremos las siguientes situaciones: (a) la composici ón de un lote
de mineral varı́a entre un lote y otro; (b) los tubos cat ódicos en mil televisores de un fabricante
determinado no tendr án exactamente las mismas especificaciones; (c) la vida útil de mil equipos
presentará gran variabilidad; (d) el n úmero de autom óviles que pasan por una intersecci ón no será el
mismo en dos intervalos de cinco minutos tomados aproximadamente a la misma hora.
Las leyes básicas se refieren generalmente a medios homog éneos, por ejemplo, gases y lı́quidos
ideales. La heterogeneidad complica notablemente la formulaci ón matemática y rara vez se dispone
de informaci ón precisa que permita tomarla en cuenta en el modelo.

1.1.4 Fen o´menos ca o´ticos y probabilidad

Los fen ómenos ca óticos son aquellos en que una peque ñı́sima perturbaci ón de las condiciones
iniciales de un sistema genera grandes cambios en el estado final del mismo. El matem ático Henri
Poincaré estudi ó este tipo de fen ómenos a principios de siglo y utiliz ó el carácter impredecible de
estos fen ómenos como un modelo fı́sico para la probabilidad. El lanzamiento de una moneda, el
lanzamiento de un dado, o el hacer girar la ruleta, son ejemplos familiares en que el resultado se
puede interpretar como el estado final de un sistema cuya evoluci ón es ca ótica.

Aravena, del Pino, Quintana: PROBABILIDADES 2


´
CAP ITULO ´
1. INTRODUCCI ON

1.1.5 Vocabulario asociado a la probabilidad

El término probabilı́stico, se usa vagamente como contraposici ón a determinı́stico y se le aso-


cia implı́citamente con palabras como incierto, impredecible, variable y presencia de error. Hay
incerteza en la respuesta a preguntas tan diversas como ¿Qui én es el culpable de un crimen?, ¿Ten-
dré cáncer?, ¿Acertar á el disparo en el blanco?, ¿Ser á hombre o mujer mi futuro hijo?, ¿Aprobar é el
examen?. La variabilidad aparece en los lotes de material, en la diversidad gen ética, en el clima y
en las posturas polı́ticas. Como ya se ha mencionado, los errores de medici ón aparecen en variables
fı́sicas, pero tambi én en exámenes de laboratorio y en la determinaci ón del nivel socioecon ómico.
A menudo la incerteza se refiere a la respuesta correcta a ciertas preguntas, o a la verdad o
falsedad de ciertas proposiciones. Cuando la pregunta admite Sı́ o No por respuesta, ella tiene
asociada la proposici ón la respuesta es afirmativa y el suceso que ocurre si y s ólo si la respuesta
correcta es positiva. Si la pregunta es ¿Se quemar á la ampolleta la pr óxima vez que se la encienda?
el suceso asociado A ocurre cuando la ampolleta se quema. Del mismo modo, el suceso asociado a
la pregunta ¿Saldr á un as al lanzar un dado? es B : Sale un as. Las probabilidades de estos sucesos
se escriben en modo subjuntivo, e.g. P (A) es la probabilidad que se queme la ampolleta y P (B) es
la probabilidad que salga un as.
Muchos modelos determinı́sticos son causales, por lo que el t érmino probabilı́stico se asocia
con ausencia de causa. En otras palabras, atribuimos un hecho al azar, palabra que el lector ha-
brá encontrado en relaci ón a los juegos de azar. En estos juegos, suelen intervenir procedimientos
mecánicos de car ácter ca ótico, como lanzar un dado, tirar una moneda al aire, barajar un naipe,
hacer girar la ruleta, o elegir una bolita en juegos como el KINO, el LOTO y otros. El resultado de
tal juego es claramente incierto, impredecible, y variable.

1.2 Interpretaciones del Concepto de Probabilidad

1.2.1 Interpretaci o´n frecuentista

La interpretaci ón frecuentista o empı́rica de la probabilidad se aplica directamente en aquellos


casos donde es posible repetir fı́sicamente un experimento muchas veces y bajo condiciones con-
troladas. Cuando para cada repetici ón del experimento se determina un n úmero real, como el valor
de cierta variable cuantitativa, se sabe empı́ricamente que, bajo ciertas condiciones, los promedios
exhiben una gran estabilidad a medida que el n úmero de repeticiones aumenta. Este es un ejemplo
de regularidad estadı́stica y se conoce popularmente bajo el nombre de Ley de los promedios (Ley
de los grandes n úmeros en teorı́a de probabilidad). Ya hemos mencionado que esta idea sirve de
base para la teorı́a estadı́stica de la termodin ámica. Ella es tambi én clave para los m étodos de
simulaci ón computacional, conocidos como m étodos de Monte Carlo.
Para fijar ideas, consideremos un ejemplo m ás pedestre, pero sencillo de llevar a cabo, – insta-
mos al lector a hacerlo – que consiste en lanzar repetidamente un dado. Para el i- ésimo lanzamiento
anotamos el resultado xi que muestra el dado – un n úmero entre 1 y 6 – y calculamos secuencial-

Aravena, del Pino, Quintana: PROBABILIDADES 3


´
CAP ITULO ´
1. INTRODUCCI ON

mente para n = 1, 2, 3, . . . el promedio tn de los primeros n n úmeros obtenidos, i.e.


n
1X
tn = xi .
n
i=1
El gráfico de tn versus n, donde se unen los puntos consecutivos por segmentos rectos, presenta
inicialmente gran inestabilidad, pero para valores grandes de n él se asemeja a una curva suave que
tiende asint óticamente a una recta horizontal, a una altura aproximada de 3.50.
Una modificaci ón del ejemplo anterior es determinar en cada lanzamiento si ocurre un seis o
no. Definiendo xi = 1 en caso positivo y xi = 0 en caso negativo, tn coincide con la proporci ón pn
de veces que sale un seis en los primeros n lanzamientos del dado. La Ley de los Grandes N úmeros
implica que pn tiene un valor lı́mite, el cual coincide con la probabilidad que salga seis al lanzar
un dado. Si el dado es equilibrado el gr áfico de pn versus n presentar á una ası́ntota horizontal, a
una altura de aproximadamente 0.167. La interpretaci ón frecuentista define esta probabilidad como
ese valor lı́mite. Como la Ley de los Grandes N úmeros es un resultado matem ático, que depende
de ciertos axiomas pero no de una interpretaci ón particular, no queda claro si tenemos derecho a
utilizar a priori la existencia del lı́mite sin caer en un argumento circular.
Por el momento denominemos suceso a algo cuya ocurrencia o no queda determinada por el
resultado de un experimento repetible. Sea Ω el conjunto de resultados posibles en cualquiera de
estas repeticiones– que se denominar á posteriormente espacio muestral – y sea A ⊆ Ω el conjunto
de resultados favorables al suceso de inter és, es decir, aquellos para los que éste tiene lugar. Los
elementos del conjunto complementario Ω \ A son, entonces, los resultados desfavorables. La
probabilidad del suceso depende exclusivamente del conjunto A y no de la descripci ón en palabras
del suceso de inter és. Tiene sentido ası́ denotarla por P (A) y, de hecho, podemos identificar al
suceso con A si lo deseamos.
Para entender mejor la interpretaci ón de P (A) e introducir la notaci ón, consideremos un mill ón
de lanzamientos de un dado. Los resultados posibles son 1, 2, 3, 4, 5 y 6. La segunda columna de
la siguiente tabla muestra el n úmero de veces que ocurri ó cada n úmero (los valores son ficticios
para simplificar la aritm ética). La tercera columna muestra las proporciones empı́ricas, las que
debieran parecerse bastante a los valores lı́mites, o sea, a las probabilidades correspondientes, dado

el elevado n úmero de repeticiones del experimento (lanzamientos del dado). El sı́mbolo en las
restantes columnas indica los resultados favorables para diversos sucesos, indicando las dos últimas
filas cuantas veces ocurri ó cada uno y la proporci ón respectiva.

ω Nn (ω) pn (ω) ω≥5 ω es ω≤4 ω entre


(en miles) par 3y4

1 200 .20
√ √
2 180 .18
√ √
3 170 .17
√ √ √
4 160 .16

5 150 .15
√ √
6 140 .14
N úmero 290 480 710 330
(en miles)
Pn (A) .29 .48 .71 .33

Aravena, del Pino, Quintana: PROBABILIDADES 4


´
CAP ITULO ´
1. INTRODUCCI ON

Denotemos por ω a un resultado posible del experimento y supongamos que éste se repite
n veces. Denotemos por Nn (ω) al n úmero de veces que ocurre el resultado ω, por Nn (A) al
n úmero de veces que ocurre el suceso representado por el subconjunto A, y por p n (ω) = Nnn(ω) y
Pn (A) = Nnn(A) a las proporciones respectivas. Si los lı́mites existen, las probabilidades que ocurra
el resultado ω y el suceso representado por A se definen por
def
p(ω) = lim pn (ω) probabilidad que ocurra ω.
n→∞
def
P (A) = lim Pn (A) probabilidad que ocurra A.
n→∞

La funci ón P que asigna a cada suceso A su probabilidad se denomina distribuci ón de probabilidad.
La funci ón p(·) se denomina funci ón de probabilidad y se expresa normalmente como una tabla o
como una f órmula matem ática. Cuando los elementos de ω son los valores de una variable aleatoria
X, la funci ón P se denomina tambi én distribuci ón de probabilidad de X y se suele denotar por PX .
P
Claramente Nn (A) = Nn (ω). Dividiendo por el n úmero de repeticiones y tomando el
ω∈A
lı́mite cuando n → ∞, la definici ón frecuentista de la probabilidad implica que ella es no negativa
y satisface, adem ás, las importantes igualdades
P (Ω) = 1. (1.2.1)
X
P (A) = p(ω). (1.2.2)
ω∈A

La igualdad (1.2.2) se traduce en la siguiente regla, v álida por ahora s ólo para la interpretaci ón
frecuentista:

Para un espacio muestral finito la probabilidad que un suceso ocurra es la suma de las
probabilidades de los resultados favorables.

Las propiedades
P (∅) = 0, (1.2.3)
X
p(ω) = 1, (1.2.4)
ω∈Ω

pueden obtenerse de la misma forma, pero tambi én se desprenden l ógicamente a partir de (1.2.1)
y (1.2.2). Por (1.2.2), la funci ón de probabilidad permite calcular las probabilidades de todos los
sucesos asociados con el experimento. La afirmaci ón recı́proca es trivialmente cierta. Por lo tanto:

La funci ón de probabilidad determina la distribuci ón de probabilidad y viceversa.

Si ω1 , ω2 , . . . , ωn es una enumeraci ón de los elementos de Ω, se acostumbra escribir pi en vez de


p(ωi ) para simplificar la notaci ón, con lo cual (1.2.2) queda
X
P (A) = pi , (1.2.5)
{i/ωi ∈A}
n
X
pi = 1. (1.2.6)
i=1

Aravena, del Pino, Quintana: PROBABILIDADES 5


´
CAP ITULO ´
1. INTRODUCCI ON

Un concepto probabilı́stico clave es el de sucesos mutuamente excluyentes, es decir, que la


ocurrencia de uno de ellos torna imposible que alg ún otro ocurra. Para una familia de sucesos esta
condici ón equivale a que a lo m ás uno de ellos puede ocurrir. Un resultado ω no puede ser favorable
a m últiples sucesos de esta familia, lo que significa que los conjuntos que los representan son
disjuntos. Recı́procamente, si los conjuntos de resultados favorables a dos sucesos son disjuntos,
los sucesos son mutuamente excluyentes. Se deduce de (1.2.2) la propiedad aditiva:

P (A ∪ B) = P (A) + P (B) si A y B son disjuntos, (1.2.7)

lo que se generaliza a una uni ón disjunta de un n úmero finito de sucesos. Cuando convenga, P es-
cribiremos una uni ón de conjuntos disjuntos reemplazando el sı́mbolo ∪ por el suma (+ o ), i.e.
Pn n
S
A + B en vez de A ∪ B y Ai en vez de Ai . Con esta convenci ón notacional, la propiedad de
i=1 i=1
aditividad puede escribirse de manera sugerente como
k k
!
X X
P Ai = P (Ai ). (1.2.8)
i=1 i=1

1.2.2 Interpretaci o´n subjetiva

La interpretaci ón frecuentista es muy especulativa cuando la probabilidad se refiere a situaciones


de carácter irrepetible, como conseguir empleo durante el pr óximo mes, que un familiar se case con
su pareja actual, que el candidato XYZ gane las pr óximas elecciones presidenciales, etc. Cuando la
probabilidad se aplica en casos como estos, ella se interpreta m ás bien como grado de certeza. Dado
que este último varı́a entre un sujeto y otro, aunque se refiera a un mismo hecho, esta interpretaci ón
se denomina subjetiva. Para precisar el valor de esta probabilidad subjetiva para un sujeto determi-
nado, podemos plantearle otros sucesos de probabilidad conocida y establecer comparaciones.
En la vida cotidiana es raro poder contestar preguntas importantes sin alg ún margen de duda, lo
que genera expresiones como estoy casi seguro que, me inclino a pensar que, y otras por el estilo,
de carácter cualitativo. La interpretaci ón de la probabilidad como grado de certeza, expresado en
una escala continua entre 0 y 1, representa una cuantificaci ón de las expresiones anteriores.
El enfoque subjetivo de la teorı́a de probabilidad ha sido el tema de muchas investigaciones ma-
temáticas y filos óficas, sobre las cuales no podemos extendernos. Lo que haremos es traducir los
resultados intuitivos de la interpretaci ón frecuentista en un sistema de axiomas, los cuales son apli-
cables a cualquier interpretaci ón de la probabilidad, incluyendo la subjetiva. Cabe hacer notar, sin
embargo, que los axiomas se pueden obtener a partir de consideraciones sobre el comportamiento
racional frente a la toma de decisiones con incertidumbre.
De esta manera, suponemos que las propiedades (1.2.1), (1.2.2), (1.2.3) y (1.2.4) siguen siendo
aplicables. El espacio muestral se interpreta como un listado de todas las alternativas posibles
(escenario en la terminologı́a de los economistas). Por ejemplo, si se quiere apostar en una carrera
de caballos, pese a no estar seguro de cu ál va a ganar, se debe asignar una probabilidad de ganar a
cada uno. Si se piensa en invertir dinero en comprar dolares, para venderlos un mes despu és, se tiene
incerteza sobre el futuro valor del dolar, que puede identificarse con ω. Tambi én se puede simplificar
el problema y atribuir una probabilidad a que el alza del dolar exceda una cota determinada.

Aravena, del Pino, Quintana: PROBABILIDADES 6


´
CAP ITULO ´
1. INTRODUCCI ON

A nivel intuitivo, si la ocurrencia del suceso A implica la del suceso B, debi éramos tener un
mayor grado de certeza en B que en A. Identificando los sucesos con conjuntos, la afirmaci ón
anterior corresponde a
A ⊆ B ⇒ P (A) ≤ P (B).
Esta propiedad de monotonicidad parece un supuesto mı́nimo cuando lo que interesa es decidir cu ál
de dos sucesos es m ás probable. En la interpretaci ón frecuentista las probabilidades se comportan
como proporciones y satisfacen un supuesto de aditividad P (C ∪ D) = P (C) + P (D). El or-
den relativo entre dos probabilidades se preserva si aplicamos una transformaci ón g estrictamente
creciente definida sobre [0, 1]. En otras palabras,
P (A) ≤ P (B) ⇒ g(P (A)) ≤ g(P (B)).
Si denotamos por p a la probabilidad de un suceso, una transformaci ón útil y que tiene importancia
p
hist órica es g(p) = 1−p . En inglés se le llama a g(p) odds y no existe una traducci ón universalmente
aceptada. En algunos libros se usa el t érmino momios. Aunque sea un anglicismo usaremos la
palabra chances, dado su uso en apuestas, como carreras de caballos o concursos de belleza. Ası́, si
uno cree algo 3 a 2, lo que significa es
p 3
= ,
1−p 2
3
lo que implica p = 3+2 = 0.6. Una apuesta 1 a 1 corresponde a p = 0.5. A diferencia de la
probabilidad, las chances no son aditivas.

1.2.3 Equiprobabilidad y la regla de Laplace

1.2.3.1 Regla de Laplace

Hay situaciones muy especiales en las que se puede argumentar que todos los resultados posibles
son equiprobables, es decir, tienen la misma probabilidad. Este argumento se justifica habitualmente
apelando a un argumento de simetrı́a y puede interpretarse de manera frecuentista o subjetiva. Por
ejemplo, las caracterı́sticas geométricas y fı́sicas de una moneda permiten sospechar que el supuesto
de equiprobabilidad se cumple aproximadamente. En t érminos frecuentistas, esto significa que
para un n úmero grande de lanzamientos, la proporci ón de caras sea muy parecida a la de sellos,
aunque los n úmeros de caras y de sellos sean muy distintos. Desde el punto de vista subjetivo, la
equiprobabilidad indica que nos es indiferente apostar a que sale sello o que sale cara, lo que puede
sustentarse tanto en consideraciones fı́sicas como en la experiencia empı́rica previa que tengamos.
Por cierto, no podemos esperar que la equiprobabilidad se cumpla exactamente con monedas reales,
sino de manera aproximada. Matem áticamente hablando, una moneda ideal o moneda equilibrada
arroja resultados equiprobables por definici ón. Algo parecido pasa con un dado ideal, donde las 6
caras son equiprobables.
Desde el punto de vista frecuentista la equiprobabilidad significa que la funci ón de probabilidad
es constante. Por (1.2.4) su valor es el recı́proco de la cardinalidad del espacio muestral y aplicando
(1.2.2) se llega a la famosa regla, atribuida a Laplace:

Cuando los resultados posibles son equiprobables, la probabilidad de un suceso es el


n úmero de casos favorables dividido por el n úmero de casos posibles,

Aravena, del Pino, Quintana: PROBABILIDADES 7


´
CAP ITULO ´
1. INTRODUCCI ON

donde la palabra casos se usa como sin ónimo de resultado. En libros antiguos de Algebra, esta regla
suele aparecer como definici ón de probabilidad. Esto es muy peligroso, ya que se puede f ácilmente
caer en contradicci ón con la interpretaci ón frecuentista.

1.2.3.2 Algunos modelos equiprobables

Un modelo fı́sico para la generaci ón de resultados equiprobables es el de una urna de N fichas, de
las cuales se extrae una al azar. Cada ficha tiene probabilidad N1 de ser elegida. Si se extraen al
azar y de manera independiente n fichas de la urna, el resultado es representable por un arreglo o
muestra ordenada y = (y1 , y2 , . . . , yn ). El elemento yi es la ficha o cualquier identificador. Sin
pérdida de generalidad, podemos enumerar las fichas de la urna de 1 hasta N y usar este n úmero
como yi . Los arreglos de largo n son equiprobables, tanto si el muestreo se hace sin reposici ón (se
restituye a la urna la ficha seleccionada) o con reposici ón (cuando se la restituye). El n úmero de
tales arreglos es N n y N (N − 1) × · · · × (N − n + 1), respectivamente. Cuando el suceso de inter és
se refiere s ólo al n úmero de fichas de cada color en la muestra, el orden en que aparecen los colores
es irrelevante. Sin embargo, la equiprobabilidad de las muestras no ordenadas s ólo ocurre para
muestreo sin reposici ón. En este caso, cada una de estas muestras corresponde a n! arreglos y, por
lo que su probabilidad es
 
n! N
= .
N (N − 1) × · · · × (N − n + 1) n

Este resultado implica que hay N



n muestras no ordenadas. Como cada una se puede representar por
N

un subconjunto de tama ño n de otro de tama ño N , n es también el n úmero de estos subconjuntos.
Otro modelo com ún es el de n lanzamientos de un dado equilibrado de N caras. Probabilı́sti-
camente, él equivale a una muestra con reposici ón de n fichas de una urna que contiene a N fichas.
Fı́sicamente, el dado se puede lograr para muy pocos valores de n. Una moneda es equivalente a un
dado de dos caras.

Ejemplo 1.2.1 Calcular la probabilidad de obtener una suma de k al lanzar dos dados,
donde 1 < k < 6.
Como los 36 pares (x, y) son equiprobables, basta con contar aquellos que son favora-
bles. Pero un tal par satisface x + y = k, de modo que toma la forma (x, k − x). Por
ejemplo, para k = 4, los resultados favorables son (1, 3), (2, 2) y (3, 1) y la probabili-
4
dad es 36 = 91 . El resultado general es

k−1
P (Suma = k) = .
36

Ejemplo 1.2.2 Calcular la probabilidad de obtener una suma de 6 al lanzar tres dados.
Sea xi el resultado del i- ésimo dado y sea x = (x1 , x2 , x3 ). El espacio muestral consta
de 63 = 216 resultados equiprobables. Sea B = {x/x1 + x2 + x3 = 6} y sea Aj el
suceso sale j en el primer dado y la suma es 6. Si x1 = j, x es favorable si y s ólo si
x2 + x3 = 6 − j. Entonces, B = B1 + B2 + B3 + B4 . Pero card (Bi ) = 5 − i, de
10
modo que card (B) = 4 + 3 + 2 + 1 = 10. La probabilidad buscada es P (B) = 216 .

Aravena, del Pino, Quintana: PROBABILIDADES 8


´
CAP ITULO ´
1. INTRODUCCI ON

Finalmente, muchos problemas interesantes involucran permutaciones. Barajar un naipe de k


cartas significa elegir al azar uno de los k! órdenes posibles, lo que equivale a elegir al azar una
permutaci ón. Probabilı́sticamente, esto equivale a obtener una muestra ordenada de tama ño k de
una urna con k fichas.

Ejemplo 1.2.3 Se baraja al azar un naipe de 4 cartas, asign ándole a cada una las letras
a, b, c y d. A continuaci ón mostramos un listado exhaustivo de las 24 permutaciones
de estas letras.
bcde bced bdce bdec becd bedc 6
cbde cbed cdbe cdeb cebd cedb 6
dbce dbec dcbe dceb adebc decb 6
ebcd ebdc ecbd ecdb edbc edcb 6

La probabilidad de cualquier suceso se obtiene contando casos favorables y dividiendo


por 24.

• Por inspecci ón, hay 6 resultados en que la primera letra es b, de modo que la
6
probabilidad que esto ocurra es 24 = 14 . Análogamente, la probabilidad que la
1
segunda letra sea c es tambi én 4 . La probabilidad que alguno de estos dos sucesos
ocurra no es 12 , debido a que estos sucesos no son mutuamente excluyentes. En
efecto, abcd y abdc son los dos casos en que ambos sucesos ocurren. Por lo tanto,
hay 6 + 6 − 2 = 10 resultados favorables y la probabilidad buscada es 10 24 .
12 1
• La probabilidad que la letra b aparezca antes de la c es 24 = 2 , lo que es evidente
por simetrı́a.
• La probabilidad que ninguna de las letras caiga en su ubicaci ón natural, i.e. 1
9
para b, 2 para c, 3 para d y 4 para e, es 24 , lo que se obtiene marcando estos casos
en el listado y contando cuantos hay.
• Se deja al lector con paciencia repetir esto para las 120 permutaciones de 5 ele-
mentos, que aparecen en la siguiente tabla.

abcde abced abdce abdec abecd abedc acbde acbed acdbe acdeb
acebd acedb adbce adbec adcbe adceb adebc adecb aebcd aebdc
aecbd aecdb aedbc aedcb bacde baced badce badec baecd baedc
bcade bcaed bcdae bcdea bcead bceda bdace bdaec bdcae bdcea
bdeac bdeca beacd beadc becad becda bedac bedca cabde cabed
cadbe cadeb caebd caedb cbade cbaed cbdae cbdea cbead cbeda
cdabe cdaeb cdbae cdbea cdeab cdeba ceabd ceadb cebad cebda
cedab cedba dabce dabec dacbe daceb daebc daecb dbace dbaec
dbcae dbcea dbeac dbeca dcabe dcaeb dcbae dcbea dceab dceba
deabc deacb debac debca decab decba eabcd eabdc eacbd eacdb
eadbc eadcb ebacd ebadc ebcad ebcda ebdac ebdca ecabd ecadb
ecbad ecbda ecdab ecdba edabc edacb edbac edbca edcab edcba
12 12 12 12 12 12 12 12 12 12
44
Contrario a la intuici ón de la mayorı́a, el n úmero obtenido es 120 , que es leve-
9
mente inferior a 24 .

Aravena, del Pino, Quintana: PROBABILIDADES 9


´
CAP ITULO ´
1. INTRODUCCI ON

1.3 Modelo de Probabilidad Finito

1.3.1 Caso general

La funci ón de probabilidad y la distribuci ón de probabilidad ya fueron ya definidas en el contexto


frecuentista, obteni éndose la serie de relaciones (1.2.1)–(1.2.8).

Definici o´n 1.3.1 Sea Ω un espacio muestral finito. Sea p(·) una funci ón no negativa con dominio
Ω que satisface las condiciones:
X
p(ω) = 1, p(ω) ≥ 0. (1.3.1)
ω∈Ω

La distribuci ón de probabilidad generada por p(·) es la funci ón P (·) que asigna a todo A ⊂ Ω el
valor
X
P (A) = p(ω). (1.3.2)
ω∈A

Por (1.3.2), la distribuci ón de probabilidad P (·) determina p(·), pues

p(ω) = P ({ω}), ω ∈ Ω. (1.3.3)

Todas las ecuaciones (1.2.1)–(1.2.8) rigen por definici ón o como consecuencia l ógica. En particular,
la probabilidad de un suceso es la suma de las probabilidades de los resultados favorables.

Ejemplo 1.3.1 Por ejemplo, el Teorema del Binomio indica que


n  
X n
(p + q)n = pk q n−k .
k
k=0

Por lo tanto, si p > 0, q > 0, p + q = 1, la funci ón


 
n k n−k
p(k) = p q , k = 0, 1, . . . , n,
k

se puede usar como la funci ón de probabilidad de cierta distribuci ón. De hecho, ella
corresponde a la famosa distribuci ón Binomial, que estudiaremos posteriormente.

Cuando la funci ón de probabilidad se entrega como un listado de resultados y de las probabi-

lidades correspondientes, basta marcar los resultados favorables, por ejemplo, con , y sumar las
probabilidades respectivas para obtener la probabilidad de un suceso. Cuanto se desea automatizar
el procedimiento computacionalmente, conviene generar una columna (o fila) adicional, en que los

se reemplazan por 1 y los blancos por 0, la que se interpreta como la funci ón indicatriz del suceso.

Aravena, del Pino, Quintana: PROBABILIDADES 10


´
CAP ITULO ´
1. INTRODUCCI ON

Ejemplo 1.3.2 Un equipo tiene dos componentes (a) y (b) e interesa si ellas est án
operativas o no. Definamos
x1 = 1 si (a) funciona, x1 = 0 en caso contrario.
x2 = 1 si (b) funciona, x2 = 0 en caso contrario.
El estado del equipo est á determinado por el par (x1 , x2 ), al cual podemos considera
como el resultado del experimento. Los resultados se pueden enumerar como indica la
tabla. Las probabilidades asignadas en la última columna son positivas y suman 1, de
modo que tal asignaci ón es válida.

Resultado x1 x2 Probabilidad
ω1 1 1 0.6
ω2 1 0 0.2
ω3 0 1 0.1
ω4 0 0 0.1

Consideremos ahora los sucesos:

S1 : (a) está operativa.


S2 : (b) está operativa.
S3 : Exactamente una componente est á operativa.
S4 : Al menos una componente est á operativa.

La tabla siguiente muestra c ómo representar estos sucesos usando las variables como
subconjuntos.

S1 : x1 = 1 A1 = {(1, 0), (1, 1)} B1 = {ω1 , ω2 }


S2 : x2 = 1 A2 = {(0, 1), (1, 1)} B2 = {ω1 , ω3 }
S3 : x1 + x 2 = 1 A3 = {(0, 1), (1, 0)} B3 = {ω2 , ω3 }
S4 : x1 + x 2 ≥ 1 A4 = {(0, 1), (1, 0), (1, 1)} B4 = {ω1 , ω2 , ω3 }

La tabla siguiente muestra c ómo representar esta misma informaci ón de una manera
más c ómoda:

Resultado x1 x2 S1 : S2 : S3 : S4 :
x1 = 1 x 2 = 1 x 1 + x 2 = 1 x 1 + x 2 ≥ 1
√ √ √
ω1 1 1
√ √ √
ω2 1 0
√ √ √
ω3 0 1
ω4 0 0

Reemplazando en la columna correspondiente a Si el sı́mbolo por 1 y un blanco por
0, se obtiene una nueva columna. Multiplic ándola término a término por la colum-
na de probabilidades se obtiene la probabilidad de Si . La siguiente tabla ilustra este
procedimiento.

Aravena, del Pino, Quintana: PROBABILIDADES 11


´
CAP ITULO ´
1. INTRODUCCI ON

Resultado
x1 x2 pi y1 p i y1 y2 p i y2 y3 p i y3 y4 p i y4
1 1 0.6 1 0.6 1 0.6 0 0 1 0.6
1 0 0.2 1 0.2 0 0 1 0.2 1 0.2
0 1 0.1 0 0 1 0.1 1 0.1 1 0.1
0 0 0.1 0 0 0 0 0 0 0 0
1.0 P (S1 ) = 0.8 P (S2 ) = 0.7 P (S3 ) = 0.3 P (S4 ) = 0.9

1.3.2 Resultados favorables equiprobables

Cuando para un suceso dado todos los resultados favorables son equiprobables, es decir,

p(x) = p(x0 ) ∀x, x0 ∈ A, (1.3.4)

la probabilidad P (A) se puede encontrar mediante la f órmula

P (A) = card (A) × p(x0 ), donde x0 ∈ A. (1.3.5)

En otras palabras, la probabilidad del suceso se obtiene multiplicando la probabilidad de un resul-


tado favorable (cualquiera de ellos da lo mismo) por el n úmero de resultados favorables. El c álculo
de card A requiere habitualmente de las herramientas de teorı́a combinatoria.

Ejemplo 1.3.3 Se lanzan 5 monedas id énticas, pero no necesariamente equilibradas.


Nos interesa la probabilidad de obtener exactamente dos caras entre las cinco monedas.
Sea 0 < p < 1 la probabilidad que una moneda determinada salga cara, y q = 1 − p
la probabilidad que salga sello. Sea yi = 1 si la i-ésima moneda es cara, e yi = 0
en caso contrario. Un resultado cualquiera del experimento se puede escribir como
y = (y1 , y2 , y3 , y4 , y5 ), pero estos 32 resultados no son equiprobables, a menos que
p = 0.5. En un capı́tulo posterior veremos que bajo un supuesto de independencia
entre los lanzamientos se deduce que la funci ón de probabilidad es
5
P 5
P
yi 5− yi
pi=1 q i=1 .

Cada resultado favorable tiene probabilidad p2 (1−p)3 , de modo que son equiprobables.
Para desarrollar nuestra intuici ón, escribamos dos resultados favorables, por ejemplo,
(1, 0, 0, 1, 0) y (0, 1, 1, 0, 0). Cada resultado favorable queda determinado por la posi-
ci ón de los unos (o de los ceros). Como hay 10 maneras de elegir 2 elementos de un
conjunto de 5, la probabilidad buscada es 10p2 q 3 .

Ejemplo 1.3.4 Sea x = (x1 , · · · xn ) ∈ Ω = {0, 1}n , y sea Ai el suceso xi = 1. En-


n
P
tonces, Sn (x1 , . . . , xn ) = xi es el n úmero de sucesos Ai que ocurre. Impongamos,
i=1
además, un supuesto de simetrı́a, que dice que la probabilidad de cada resultado x no
depende del orden de sus argumentos. Esto implica que la probabilidad de x depen-
de s ólo del valor s de Sn (x), o sea, es igual a g(s) para cierta funci ón g. Bajo este

Aravena, del Pino, Quintana: PROBABILIDADES 12


´
CAP ITULO ´
1. INTRODUCCI ON

supuesto, todos los casos favorables para el suceso S n = s son equiprobables. Ellos
están en correspondencia uno a uno con los ns conjuntos {i/xi = 1} de cardinalidad


s. Por (1.3.4),  
n
P (Sn = s) = g(s).
s
El valor de g(s) se puede calcular tomando cualquier resultado favorable, por ejemplo,
una sucesi ón de s unos seguida de n − s ceros.

Ejemplo 1.3.5 Una situaci ón práctica que queda cubierta por el resultado anterior es
el de una poblaci ón de tama ño N , m de cuyos integrantes poseen un atributo dado,
por ejemplo, ser mujer, tener un ingreso superior a un monto dado, haber padecido
cierta enfermedad, etc. Definiendo xi = 1 si la i-ésima persona en la muestra posee el
atributo y xi = 0 en caso contrario, Sn (x) = s es el n úmero de personas en la muestra
que poseen el atributo.
Se deja al lector verificar que

M s (N − M )n−s
g(s) = para muestreo con reposici ón,
Nn
y
M [s] (N − M )[n−s]
g(s) = para muestreo sin reposici ón,
N [ n]
donde a[r] = a × (a − 1) × · · · × (a − r + 1). De aquı́ se obtiene
   s 
M n−s

n M
P (Sn = s) = 1−
s N N
para muestreo con reposici ón, y
  [s]
n M (N − M )[n−s]
P (Sn = s) =
s N [ n]
n!M !(NM )!(N − n)!
=
s!(n − s)!(M − s)!(N − M − n + s)!N !
M N −M
 
s n−s
= N

n

para muestreo sin reposici ón.

1.3.3 Simulaci o´n del caso finito a partir del caso equiprobable

Si sabemos generar N resultados equiprobables, es posible generar resultados aleatorios para cual-
quier espacio muestral finito, bajo la condici ón que las probabilidades de los resultados tengan la
forma Nr . Si las probabilidades est án dadas por fracciones, basta elegir N como el m áximo com ún
denominador, o un m últiplo de éste. Si ellas están expresadas de modo decimal, con r cifras, se
puede tomar N = 10s con s ≥ r.

Aravena, del Pino, Quintana: PROBABILIDADES 13


´
CAP ITULO ´
1. INTRODUCCI ON

Consideremos nuevamente la urna y agreguemos un nuevo ingrediente al modelo. Suponemos


que existe una conjunto en correspondencia biunı́voca con el conjunto de fichas de la urna. Llama-
mos a este conjunto poblaci ón y a sus elementos individuos. Extraer una ficha al azar de la urna
equivale a seleccionar un individuo de la poblaci ón al azar. Supongamos, adem ás, que hay una va-
riable definida para los individuos, como edad, peso, n úmero de cargas familiares, renta, candidato
preferido, pasta de dientes favorita, etc. El n úmero de valores distintos est á acotado por N pero
puede ser muy inferior. Finalmente, establecemos una correspondencia biunı́voca entre el conjunto
de valores de la variable y un conjunto de colores, que se aplicar án a las fichas. Por ejemplo, si
un grupo consta de 60 personas con ingreso alto y 140 personas de ingreso bajo, elegir una per-
sona al azar equivale a extraer al azar una ficha, de una urna con 60 fichas blancas y 140 negras.
Denotaremos por m al n úmero de colores.
Un consecuencia inmediata de la equiprobabilidad, que tiene importantes aplicaciones, es:

La probabilidad que la ficha extraida sea de un color determinado coincide con la


proporci ón de fichas de ese color en la urna.

Para demostrar este hecho, introducimos algo de notaci ón. El espacio muestral natural es el conjun-
to Ω de las N fichas en la urna. Denotemos por t a un color (valor de la variable) y por x al color
de la ficha extraida (el valor que toma la variable para aquel elemento de la poblaci ón asignado a
la ficha extraida). Sea Ω(t) el conjunto de fichas de ese color en la urna, y N (t) su n úmero. Si se
realizan muchas extracciones con reposici ón, la proporci ón de fichas de color x se aproxima a la
probabilidad p(x) que el color de la ficha extraida sea x. Pero p(x) es la probabilidad que la ficha
seleccionada pertenezca a Ω(x). Por equiprobabilidad se obtiene

card (Ω(x)) N (x)


p(x) = = ,
card (Ω) N

lo que justifica la afirmaci ón anterior.

Ejemplo 1.3.6 Se desea simular, a partir de una urna con mil fichas, un dado de 6 caras
con probabilidades dadas en la segunda columna de la siguiente tabla:

1 0.3 1–300
2 0.2 301–500
3 0.15 501–650
4 0.10 651–750
5 0.14 751–890
6 0.11 891–1000

Como las probabilidades tienen dos decimales bastarı́a con 100 fichas, pero 1000 es
m últiplo de 100, de modo que lo pedido es factible. Enumerando las fichas de 1 a
1000, podemos tomar Ω = {1, 2, . . . , 1000} y subdividirlo en 6 conjuntos Ω(x) de
cardinalidad 1000p(x), donde p(x) es la probabilidad de la cara con el n úmero x. La
tercera columna de la tabla muestra una de las muchas subdivisiones posibles.

Aravena, del Pino, Quintana: PROBABILIDADES 14


´
CAP ITULO ´
1. INTRODUCCI ON

1.3.3.1 Extracciones sucesivas de una urna

Cuando s ólo interesa el color de las fichas, lo natural es tomar como resultado al arreglo ordenado
x = (x1 , x2 , . . . , xn ), donde xi es el color de la ficha obtenida en la i– ésima extracci ón (no con-
fundir con la i- ésima ficha en la urna). Si m es el n úmero de colores, hay mn arreglos x cuando el
muestreo es con reposici ón.
El caso de extracciones sucesivas al azar y con reposici ón nos da un modelo fı́sico concreto para
entender la repetici ón de experimentos en la interpretaci ón frecuentista. La ausencia de asociaci ón
entre las distintas extracciones se denomina independencia o independencia estadı́stica y se tra-
tará en el pr óximo capı́tulo. Los lanzamientos repetidos de un dado o una moneda es otro modelo
simple de repeticiones independientes de un experimento. Si X i representa al resultado incierto de
la i-ésima extracci ón, tenemos una sucesi ón de variables aleatorias independientes, cada una de las
cuales tiene a p(x) como funci ón de probabilidad.
Con m = 2 y m = 6 podemos simular n lanzamientos de una moneda o un dado no equilibra-
dos. En el caso equilibrado basta poner un mismo n úmero de fichas de cada color en la urna (una
ficha de cada color basta).

Ejemplo 1.3.7 Una urna contiene 2 fichas blancas y una negra. Se extraen, en forma
consecutiva, dos fichas de esta urna. Interesa listar los resultados cuando el muestreo
es con o sin reposici ón. Enumeremos las fichas, de modo que las dos primeras sean
blancas y la última sea negra.
Si el muestreo es con reposici ón, de los cuatro espacios muestrales
Ω1 = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}
Ω2 = {(b, b), (b, n), (n, b), (n, n)}
Ω3 = {11, 22, 33, 12, 13, 23}
Ω4 = {bb, bn, nn}
s ólo Ω1 tiene elementos equiprobables, de modo que la probabilidad de cada resultado
es 19 . Si el muestreo es sin reposici ón, de los cuatro espacios muestrales
Ω5 = {(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)}
Ω6 = {(b, n), (n, b), (b, b)}
Ω7 = {12, 13, 23}
Ω8 = {bn, bb}
Ω5 y Ω7 tienen elementos equiprobables, con probabilidades 16 y 31 , respectivamente. A
partir de estos espacios con elementos equiprobables se puede deducir las probabilida-
des de los resultados en otros espacios. Por ejemplo, a 11 y 12 en Ω 3 se le asocian los
subconjuntos {(1, 1)} y {(1, 2), (2, 1)} en Ω1 , lo que implica que sus probabilidades
respectivas son 91 y 29 . La equiprobabilidad de los elementos de Ω7 proviene del hecho
que todos ellos est án asociados con subconjuntos de cardinalidad 2 en Ω 1 .

Aravena, del Pino, Quintana: PROBABILIDADES 15


´
CAP ITULO ´
1. INTRODUCCI ON

1.4 Pre ámbulos para la Formulaci ón Axiom ática

1.4.1 Experimentos y resultados

En la interpretaci ón frecuentista se considera un experimento repetible, que tiene ciertos resultados
posibles, y se identifica un suceso con el conjunto de resultados para los cuales él ocurre, es decir,
los resultados favorables. La incerteza que tenemos sobre un suceso determinado deriva de la incer-
teza sobre el resultado del experimento. Es importante distinguir entre el resultado obtenido en una
realizaci ón del experimento, que es único, y un resultado potencial. Antes de realizar el experimen-
to, se tiene un conjunto de resultados potenciales y existe incerteza sobre cual ser á el resultado que
se obtenga. Una vez realizado el experimento, el resultado se conoce y la incerteza desaparece.
En la formulaci ón general de la teorı́a de probabilidad, que incluye la interpretaci ón subjetiva,
la palabra experimento se utiliza en un sentido muy amplio. Si bien en algunas ocasiones se realiza
efectivamente un experimento de laboratorio y se miden los valores de diversas variables, esta es la
excepci ón más bien que la regla. Situaciones tales como elegir al azar una persona de una poblaci ón
y hacerla llenar un cuestionario, o lanzar dados o monedas, o incluso anotar los tiempos de llegada
de los autom óviles a una intersecci ón durante un cierto perı́odo, serı́an difı́cilmente denominados
experimentos en el lenguaje usual. En situaciones donde las probabilidades son interpretables sub-
jetivamente, como la probabilidad que un empleado reci én contratado tenga un buen desempe ño en
su trabajo, no es f ácil visualizar cu ál puede ser el experimento correspondiente.
Matemáticamente, el experimento es un concepto no definido, es decir, se elude definirlo pa-
ra evitarse problemas y ampliar el campo de aplicaci ón de la teorı́a. Para eludir la definici ón, la
estrategia consiste en centrar la atenci ón en la colecci ón Ω de resultados potenciales, a la que se
denomina espacio muestral, por razones hist óricas que discutiremos m ás adelante. Podemos inter-
pretar al experimento como un mecanismo abstracto o caja negra que genera resultados inciertos.
Esta incerteza se transfiere a todo suceso cuya ocurrencia dependa del resultado del experimento.
El conjunto de resultados favorables representa matem áticamente al suceso. Por analogı́a con el
caso frecuentista, debi éramos esperar que la probabilidad de un suceso coincida con la suma de las
probabilidades de los resultados (casos) favorables.
Toda situaci ón admite m últiples descripciones y el resultado de un experimento no es la excep-
ci ón. Esto implica que el espacio muestral Ω admite diversas especificaciones. El punto de partida
de la teorı́a moderna de la probabilidad, creada por el matem ático ruso Kolmogorov en 1933, es
considerar a Ω como especificado externamente, es decir, la teorı́a no indica en absoluto c ómo ele-
girlo. No obstante esto, la especificaci ón de los resultados, y por tanto de Ω, es esencial para la
aplicaci ón de modelos probabilı́sticos a situaciones reales.
La elecci ón de lo que consideraremos resultado debe evitar que dos resultados distintos corres-
pondan al mismo acontecimiento. A su vez, el listado de resultados potenciales debe ser exhaustivo,
de modo que se cubran todas las eventualidades. Una manera m ás sintética de expresar esto es que
exactamente un resultado ocurra en cualquier realizaci ón del experimento.

Ejemplo 1.4.1 En el caso de un dado es posible describir su trayectoria, su posici ón fi-
nal sobre la mesa, la cara que queda hacia arriba, el n úmero que est á escrito en tal cara,
etc. Cualquiera de estas cosas puede considerarse como resultado del experimento.

Aravena, del Pino, Quintana: PROBABILIDADES 16


´
CAP ITULO ´
1. INTRODUCCI ON

Ejemplo 1.4.2 Se lanzan dos monedas al aire. Si distinguimos las monedas (por ejem-
plo pintándolas de distintos colores), es natural distinguir 4 resultados: (cara, cara),
(cara, sello), (sello, cara), y (sello, sello)). Si no se distinguen, lo único que sabemos
es el n úmero de caras, lo que da tres resultados posibles. Sin embargo, en probabilidad
los resultados de un experimento no requieren ser observables, lo que contrasta con el
uso habitual en los experimentos reales. M ás adelante veremos numerosos ejemplos
en que los elementos del espacio muestral m ás conveniente son no observables.

1.4.2 Sucesos y subconjuntos

Dada una familia A de sucesos de inter és y un espacio muestral Ω, la idea es identificar a cada
suceso A ∈ A con el subconjunto de Ω formado por los resultados favorables. La dificultad surge
cuando no es claro si cierto resultado ω ∈ Ω es favorable o no, pues el subconjunto queda indefinido.
Diremos que Ω est á adaptado a A cuando la dificultad mencionada no se presenta para ning ún par
(ω, A), con ω ∈ Ω, A ∈ A. En otras palabras, Ω est á adaptado a A si para cualquier resultado que
se produzca, y dado un único suceso de inter és A, siempre existe un espacio muestral Ω adaptado
a él, o sea, a {A}. Basta tomar Ω = {ω1 , ω2 } e identificar ω1 con la ocurrencia de A. Autom ática-
mente, el resultado ω2 indica que A no ocurri ó. La elecci ón can ónica es ω1 = 1 y ω2 = 0, lo que
equivale a escribir 1 y 0 para indicar la ocurrencia o no ocurrencia de A, respectivamente.

Ejemplo 1.4.3 Consideremos el lanzamiento de un dado y el suceso de inter és B: Sale


un as. La siguiente es una lista de espacios muestrales propuestos, algunos de los cuales
son inadmisibles porque violan los principios b ásicos enunciados.

(i) Ω = { mayor que 2, menor que 3 } es Inadmisible: Si el resultado es menor que


3, no podemos asegurar si sali ó un as o no.
(ii) Ω = {1, 2, 3, 4, 5} es Inadmisible: Puede salir un 6, el cual no est á en la lista.
(iii) Ω = { mayor que 1, menor que 2 } es Admisible: El suceso sale un as corres-
ponde al subconjunto { menor que 2 }.
(iv) Ω = { 1, entre 2 y 5, 6 } es Admisible: Exactamente uno de los resultados debe
ocurrir y el suceso de inter és corresponde al primero.
(v) {1, 2, 3, 4, 5, 6} es Admisible.

La elecci ón (v) tiene la ventaja de estar adaptada a cualquier suceso cuya ocurrencia
dependa exclusivamente del n úmero que se obtiene al lanzar el dado, e.g. Sale un
n úmero par o El n úmero excede 4.
Si se lanzan dos dados y consideramos como resultados posibles a Sale un 6 en el pri-
mer dado, Sale un 6 en el segundo dado y Otros casos, esta asignaci ón es inadmisible
ya que si sale un seis en ambos dados, los dos primeros resultados ocurren simult áne-
amente.

Consideremos una familia de sucesos expresada en t érminos de proposiciones l ógicas. Usando


los conectivos l ógicos y,o, y la negaci ón, se generan muchos otros sucesos. Por ejemplo, si se lanza

Aravena, del Pino, Quintana: PROBABILIDADES 17


´
CAP ITULO ´
1. INTRODUCCI ON

un dado y el suceso Ai es que salga un as en el i- ésimo lanzamiento, la siguiente tabla muestra


algunos posibles sucesos de inter és.
B : sale alg ún as en los tres primeros lanzamientos A 1 o A2 o A3 .
C : no sale un as en el segundo lanzamiento no ocurre A 2 .
D : salen ases en el segundo y cuarto lanzamiento ocurren A 2 y A4 .
E : salen exactamente dos ases en los primeros tres lanzamientos muy tedioso de escribir.
Para ciertos prop ósitos, incluyendo la formulaci ón axiomática de la probabilidad, es conve-
niente traducir los sucesos originales al lenguaje de conjuntos. Los conectivos l ógicos y,o y la
negaci ón traducen en uni ón, intersecci ón y complementaci ón respectivamente. La tabla anterior se
reescribirı́a como sigue:
B : A1 ∪ A 2 ∪ A 3
C : A02
D : A2 ∩ A4
E : [(A1 ∩ A2 ) ∪ (A1 ∩ A3 ) ∪ (A2 ∩ A3 )] \ (A1 ∩ A2 ∩ A3 )
Un concepto clave en la teorı́a de probabilidad es el de sucesos mutuamente excluyentes, es de-
cir, que la ocurrencia de uno de ellos torna imposible que alg ún otro ocurra. Esta condici ón equivale
a a lo m ás uno de los sucesos de la familia puede ocurrir. Cuando a lo menos uno de los sucesos en
la familia ocurre necesariamente, decimos que la familia es exhaustiva. Una familia de sucesos es
a la vez mutuamente excluyente y exhaustiva si, en una misma realizaci ón del experimento, exac-
tamente uno de los sucesos de la familia debe ocurrir. Una manera com ún de generar familias de
este tipo es que cada suceso corresponda a un valor de una o m ás variables. Mirando a la familia de
sucesos como una familia de conjuntos, tenemos la equivalencia mostrada en la siguiente tabla.

Notaci o´n probabilı́stica Notaci´ o n de conjuntos


Mutuamente excluyentes Disjuntos (intersecci ón vacı́a)
Exhaustiva Uni ón de los conjuntos es todo Ω
Mutuamente excluyente y exhaustiva Partici ón de Ω

El modelo probabilı́stico es un modelo matem ático que se representa por la terna (Ω, A, P ),
donde Ω es el espacio muestral, A es una familia de subconjuntos de Ω (que contiene a la familia
de sucesos de inter és), y P es una regla que asigna a cada A ∈ A un n úmero real entre 0 y 1, a la
que llamaremos distribuci ón de probabilidad.

1.4.3 Variables

Frecuentemente las preguntas que dan origen a los sucesos de inter és se pueden reformular en
términos de los valores que toman algunas variables. En tal caso, la ocurrencia del suceso est á en-
teramente determinada por los valores de las variables, y la incerteza sobre ellas se transmite a estos
sucesos. A cada variable se le puede asociar una serie de proposiciones o sucesos, por ejemplo, la
temperatura supera los 15 grados, la temperatura es inferior a 5 grados, la temperatura est á entre 6
y 14 grados, sale un n úmero par al lanzar el dado, gana un candidato particular, etc. Por otra parte,
un suceso puede depender de varias variables simult áneamente. Por ejemplo el suceso: el paciente
es obeso depende del peso, de la talla y de otras variables; el suceso la suma de los n úmeros ob-

Aravena, del Pino, Quintana: PROBABILIDADES 18


´
CAP ITULO ´
1. INTRODUCCI ON

tenidos en tres lanzamientos de un dado es mayor que 14 depende de los valores de tres variables,
correspondiendo cada una al n úmero que se obtiene en un lanzamiento determinado.
Cuando hay una única variable de inter és, el espacio muestral m ás natural es simplemente un
listado de los posibles valores de esta variable.
Consideremos una poblaci ón finita de individuos, cada de los cuales tiene definidos los valores
de k variables, a las que denotamos por X1 , X2 , . . . , Xk . Los términos “individuo” y “poblaci ón”
se utilizan para tener una percepci ón más concreta, pero matem áticamente los individuos de una
poblaci ón son simplemente los elementos de un conjunto arbitrario. Si se enumeran los individuos
de la poblaci ón de 1 a N , todos los valores se pueden organizar como un arreglo rectangular, en que
cada fila corresponde a un individuo y cada columna a una variable. Si denotamos por x ij al valor
de la variable Xj para el i-ésimo individuo, la i- ésima fila de este arreglo es (xi1 , x21 , . . . , xik ).
Para ilustrar las ideas, consideramos la Tabla 1.4.1, que muestra las 10 primeras lı́neas de un
archivo computacional de 500 lı́neas. Cada una de ellas indica la comuna de residencia, el nivel
socio-econ ómico (mayor n úmero indica mayor ingreso), el n úmero de integrantes del grupo fa-
miliar, el n úmero de consultas m édicas efectuadas a lo largo de un a ño, el sexo y el peso para el
individuo correspondiente.

Identificador X1 : X2 : Nivel Socio X3 : Tama n˜o X4 : N Consultas X5 : X6 : Peso


Comuna Econ o´mico Familia M e´dicas Sexo (kg)
1 A 1 3 3 M 74.8
2 A 1 3 2 F 54.2
3 A 1 4 4 M 69.7
4 A 3 4 2 F 58.4
5 C 3 3 8 M 64.6
6 C 4 3 1 F 64.5
7 B 2 3 6 M 72.1
8 A 3 2 2 F 66.0
9 C 3 1 4 M 71.6
10 A 2 2 2 M 72.9

Tabla 1.4.1: Primeras 10 lı́neas de un archivo de datos.

Ası́, el primer individuo es un hombre de 74.8 kg, que vive en la comuna A, de nivel socio-
econ ómico bajo. Su familia consta de tres personas y realiz ó tres visitas al médico el a ño pasado.
Las variables en nuestro ejemplo ilustran la diversidad que encontramos en la vida real. Ellas se
clasifican primariamente de acuerdo al conjunto E de valores posibles, pero tambi én se toma en
cuenta las estructuras adicionales definidas sobre E.
Denotemos a la variable por X y por E a su conjunto de valores posibles. Decimos que X es
finita si card (E) < ∞. Cuando card (E) = 2 decimos que la variable es binaria o dicot ómica.
Si los valores x ∈ E son no num éricos, se les denomina categorı́as y se dice que X es categ órica o
cualitativa. El sexo, el color, el nivel socio econ ómico, la preferencia por un candidato y la regi ón
de residencia son algunos ejemplos. A veces las categorı́as se codifican como n úmeros para efectos
computacionales, e.g hombre =1, mujer =2, pero carece de sentido efectuar operaciones aritm éticas
con estos c ódigos. Cuando las categorı́as poseen un orden natural y queremos enfatizar este aspecto,
decimos que la variable es ordinal. Ejemplos de variables ordinales son el nivel socioecon ómico, el

Aravena, del Pino, Quintana: PROBABILIDADES 19


´
CAP ITULO ´
1. INTRODUCCI ON

grado de dureza, el grado de acuerdo con una medida gubernamental, etc.


Cuando E ⊆ R, se dice que X es cuantitativa. Ellas se denomina discreta si E es finito o nume-
rable. Lo más com ún es que una variable discreta sea un recuento, es decir, el n úmero de veces que
algo ocurre, en cuyo caso, el conjunto E de valores de la variable est á contenido en {0, 1, 2, 3, . . .}.
Cuando el n úmero total está acotado por n, por ejemplo, si X es el n úmero de transistores de-
fectuosos en un lote de tama ño n, E = {0, 1, . . . , n}. Un recuento binario tiene s ólo valores 1
y 0, que se pueden interpretar como presencia o ausencia de una caracterı́stica determinada, y se
la denomina variable indicatriz o indicadora. Toda variable binaria se puede recodificar como una
variable indicatriz. Por ejemplo, la variable binaria sexo se transforma en indicatriz si le asignamos
el c ódigo 1 a una mujer y 0 a un hombre. La suma de todos los valores de esta variable indicatriz
sobre la poblaci ón entrega el n úmero total de mujeres y el promedio coincide con la proporci ón de
mujeres en la poblaci ón.
Cuando no se conoce, a priori, una cota superior para los recuentos es usual tomar E =
{0, 1, 2, 3, . . .}. El n úmero de hijos de una pareja y el n úmero de llamadas telef ónicas efectua-
das en un lapso de 5 minutos son dos ejemplos donde se da esta situaci ón.
Como el n úmero de decimales en cualquier medici ón siempre es finito, una variable num érica
X observable es siempre discreta. Sin embargo, cuando tiene sentido imaginar valores intermedios
entre cualquier par (x1 , x2 ) de valores de X, es útil aceptar la existencia de una variable subyacente
Y , que toma valores y ∈ [a, b] ⊆ R, tal que x se puede interpretar como una buena aproximaci ón
de y. Se dice que la variable Y es continua. La mayorı́a de los modelos cientı́ficos emplea variables
continuas, e.g., edad, peso, estatura, nivel de colesterol, concentraci ón de calcio, temperatura, velo-
cidad y longitud. Habitualmente se ignora la distinci ón entre la variable subyacente Y y la variable
observada X, de modo que se act úa como si X fuese continua.

Ejemplo 1.4.4 Si el experimento consiste en medir una temperatura, el resultado suele


describirse por un n úmero real. Sin embargo, podemos hacer las siguientes considera-
ciones:

• La elecci ón de escala afecta este n úmero (por ejemplo, 0 grados Celsius, 32 gra-
dos Farenheit y 273 grados Kelvin corresponden a una misma temperatura).
• Si tomamos en consideraci ón el hecho que el instrumento de medici ón tiene una
precisi ón finita, el resultado se puede describir m ás fielmente como un intervalo
en R. Por ejemplo, si la precisi ón es de un decimal, un valor de 36.7 grados
corresponde realmente al suceso que la verdadera temperatura est á en el intervalo
[36.65, 36.75).
• Se puede considerar un experimento ideal en que el resultado sea la temperatura
exacta, pero claramente ella no es observable.

Cuando no se desea imponer una cota superior o inferior a priori, basta tomar b = ∞ o a = −∞
respectivamente. Mediante un cambio lineal de variable, o sea, una transformaci ón lineal afı́n, se
reduce el estudio de estas variables a E = R, E = R+ y E = [0, 1]. La clasificaci ón de las variables
en la Tabla 1.4.1 es:

Aravena, del Pino, Quintana: PROBABILIDADES 20


´
CAP ITULO ´
1. INTRODUCCI ON

X1 : Comuna Categ órica


X2 : Nivel Socio-econ ómico Ordinal
X3 : Tama ño familia: Recuento
X4 : N úmero de consultas m édicas Recuento
X5 : Sexo Categ órica
X6 : Peso Continua
Un comentario final. Cuando la poblaci ón es finita, se puede concebir una tabla para la pobla-
ci ón total. Si Ω es el conjunto de todas las filas, y se identifica a la fila ω ∈ Ω con el elemento de la
poblaci ón, una variable asigna un valor a cada ω y, en consecuencia, se puede interpretar como una
funci ón definida sobre Ω, que es justamente la definici ón abstracta del concepto de variable.
Una ventaja del lenguaje de variables es que su uso es mucho m ás habitual que el de conjuntos.
Además, puede que sea claro que los sucesos de inter és correspondan a una variable, pero no
cuáles son exactamente los sucesos de inter és. Por ejemplo, nos puede interesar cu ál es el valor de
la temperatura, pero no tener claro si el suceso que la temperatura exceda 30 grados es de inter és.

1.4.4 Particiones, familias generadas y variables

Con un espacio muestral finito Ω, hay asociadas dos familias especiales de subconjuntos de Ω :

(i) La clase de los sucesos elementales {ω}, ω ∈ Ω.

(ii) La clase de todos los subconjuntos de Ω.

La primera clase constituye la partici ón más fina de Ω, mientras que todo suceso en (ii) es una
uni ón disjunta de algunos sucesos elementales. Cuando el resultado puede identificarse con el valor
de una variable finita, los sucesos elementales corresponden a la obtenci ón de un valor determinado
de la variable, mientras que los sucesos en (ii) son aquellos cuya ocurrencia o no, est á determinada
por el valor que se obtenga para la variable.
Una familia (A1 , . . . , Ak ) de subconjuntos b ásicos del espacio muestral Ω induce una partici ón
de Ω que consta de 2k términos. Cada t érmino es la intersecci ón de k subconjuntos, coincidiendo
el i-ésimo subconjunto en esta intersecci ón con Ai o su complemento A0i . Las uniones finitas de
los elementos de la partici ón inducida constituyen la familia de sucesos generada por A 1 , . . . , Ak ,
k
cuya cardinalidad es 22 . De esta forma, dos sucesos inducen una partici ón del espacio muestral
en 4 sucesos y la familia generada consta de 16 sucesos. Para tres sucesos, la partici ón inducida
y la familia generada constan de 8 y 256 sucesos respectivamente. La partici ón inducida por los
sucesos A y B es (A ∩ B, A ∩ B 0 , A0 ∩ B, A0 ∩ B 0 ). Para tres o más sucesos resulta tedioso detallar
los sucesos que forman la partici ón inducida por estos sucesos, sin contar con una notaci ón más
conveniente.
Con esta motivaci ón, consideramos la variable indicatriz de Ai , que toma el valor xi = 1 si Ai
y el valor 0 en caso contrario. El vector binario x = (x1 , . . . , xk ) determina cu áles sucesos b ásicos
ocurren y cu áles no lo hacen, siendo tambi én verdadera la afirmaci ón recı́proca. El conjunto for-
mado por los 2k arreglos x constituye un espacio muestral alternativo, que denotamos por X . Cada
elemento de X est á en correspondencia uno a uno con un suceso de la partici ón generada por los
Ai , al cual denotamos por Ex y los subconjuntos de X est án en correspondencia uno a uno con la

Aravena, del Pino, Quintana: PROBABILIDADES 21


´
CAP ITULO ´
1. INTRODUCCI ON

familia de sucesos generada por los Ai . Con esta notaci ón y tomando A1 = A y A2 = B, tenemos
E11 = A ∩ B, E10 = A ∩ B 0 , E01 = A0 ∩ B y E00 = A0 ∩ B 0 . A continuaci ón mostramos como
escribir algunos sucesos generados por A y B como uniones de los E x y en términos de condiciones
que satisfacen los valores x1 y x2 .
Ocurre B E11 ∪E10 : x2 = 1
Ocurre exactamente uno de los dos sucesos E10 ∪E01 : x1 + x 2 = 1
Ocurre al menos uno de los dos sucesos E11 ∪E10 ∪E01 : x1 + x 2 > 0
No ocurre ninguno de los dos sucesos E00 : x1 + x 2 = 0
Ocurren ambos sucesos E11 : x1 = 1, x2 = 1
Para tres sucesos A1 , A2 , A3 , la ocurrencia de dos o m ás de ellos corresponde al nuevo suceso
{(x1 , x2 , x3 )/x1 + x2 + x3 ≥ 2} de X , que a su vez corresponde al subconjunto [(A 1 ∩ A2 ) ∪ (A1 ∩
A3 ) ∪ (A2 ∩ A3 )] \ (A1 ∩ A2 ∩ A3 ) de Ω.
Como card (X ) tiene 2k elementos y la suma de sus probabilidades es igual a 1, basta especi-
ficar 2k − 1 n úmeros no negativos cuya suma no exceda 1 para determinar las probabilidades de los
k
22 sucesos generados por A1 , A2 , . . . , Ak . Ası́, para k = 3, 7 n úmeros determinan 256 probabili-
dades, mientras que para k = 4, 15 n úmeros determinan 65536 probabilidades. Las probabilidades
de los sucesos generados pueden tambi én calcularse a partir de aquellas asociadas a 2k − 1 sucesos
adecuadamente seleccionados. Los sucesos Ai y todas sus intersecciones, de a 2, de a 3, . . ., de a k,
sirven para este fin, aun cuando esto dista de ser obvio.

1.5 Axiomas

La teorı́a de probabilidad, considerada como rama de las matem áticas, descansa en una serie de
axiomas y de t érminos que no se definen. Dentro de la teorı́a, no se hace uso alguno del significado
o la interpretaci ón del n úmero real que representa la probabilidad. El c álculo de probabilidades
es el conjunto de reglas de operaci ón que permite determinar la probabilidad de ciertos sucesos, a
partir de los valores de las probabilidades de otros. Los axiomas son reglas b ásicas, a partir de las
cuales se deducen las reglas de operaci ón.

1.5.1 Aditividad y medida

Las interpretaciones frecuentista y subjetiva son radicalmente diferentes, por lo que es una grata
sorpresa que exista una teorı́a unificada. Esto es posible porque el enfoque matem ático consiste en
imponer ciertos axiomas y obtener luego conclusiones mediante un razonamiento l ógico. La utili-
dad de este enfoque requiere que no haya contradicci ón entre los axiomas elegidos y las nociones
intuitivas. Con la interpretaci ón frecuentista las probabilidades son proporciones lı́mites, lo que
sugiere que las reglas de operaci ón con probabilidades sean an álogas a las referentes a operaciones
con proporciones.
Una propiedad clave que satisfacen las proporciones es la aditividad. Para escribir esto riguro-
samente, consideremos una partici ón finita (A1 , . . . , Ak ) de A ⊆ Ω, donde Ω es un conjunto finito.
La aditividad significa que la proporci ón de elementos de Ω que est án contenidos en A es la suma
de las proporciones correspondientes a los conjuntos A i .

Aravena, del Pino, Quintana: PROBABILIDADES 22


´
CAP ITULO ´
1. INTRODUCCI ON

Con la notaci ón de (1.2.8), la aditividad de las proporciones se escribe como


k k
!
X X
Prop Ai = Prop(Ai ).
i=1 i=1

Muchos conceptos geom étricos y fı́sicos, tales como longitud, área, volumen, peso y carga
eléctrica, se pueden representar como una funci ón aditiva definida sobre una clase de conjuntos.
Por ejemplo, si cortamos un hilo en k pedazos y medimos la longitud de cada uno, la suma de estos
n úmeros coincide con la longitud original del hilo; si cortamos un pedazo de carne en k pedazos, los
pesamos por separado y sumamos los pesos, se recupera el peso original. Si bien los valores de la
longitud, el área, el volumen y el peso son todos positivos, ellos pueden ser positivos o negativos en
el caso de la carga el éctrica. Un caso semejante es el de una empresa con k sucursales. La ganancia
total de la empresa ser á la suma de las ganancias de cada sucursal (aditividad), pero algunas de estas
ganancias podrı́an ser eventualmente negativas (p érdidas).
En el caso de proporciones no tiene inter és considerar particiones infinitas, pero no ocurre lo
mismo con los ejemplos geom étricos y fı́sicos. Por ejemplo, un cı́rculo no es una uni ón finita
de rectángulos, pero se puede escribir como una uni ón numerable. Una medida es una funci ón m
definida sobre una clase de subconjuntos A de un conjunto Ω, que cumple el axioma de σ-aditividad,
también denominada aditividad numerable:
∞ ∞
!
X X
m Ai = m(Ai ). (1.5.1)
i=1 i=1

La longitud, el área, el volumen, el peso, la carga el éctrica, el n úmero de elementos y la proporci ón,
son todos ejemplos de medidas. A nivel de estas notas no enfatizaremos la aditividad numerable.
Decimos que una medida m es positiva si m(A) ≥ 0 para todo A ∈ A. En el caso del área de
una figura (o sea un subconjunto del plano) existen subconjuntos de inter és cuya área es infinita. Si
todos los subconjuntos de inter és están contenidos en una regi ón acotada Ω, el área de Ω es finita y
lo propio acontece con todos sus subconjuntos. Cuando la medida m satisface m(Ω) < ∞ se dice
que ella es finita. Si m(Ω) = 1 se dice que ella es normalizada.
La operaci ón de contar est á relacionada con una medida positiva, donde a cada subconjunto de
un conjunto finito Ω se le asocia su cardinalidad, i.e. el n úmero de elementos que contiene. La
aditividad de la cardinalidad es obvia; por ejemplo el n úmero de alumnos de un colegio se puede
obtener sumando los tama ños de todos los cursos. Matem áticamente,
k k
!
X X
card Ai = card (Ai ). (1.5.2)
i=1 i=1

La condici ón que los subconjuntos Ai sean disjuntos es ac á necesaria para evitar contar dos veces
el mismo elemento. La proporci ón m(A) de elementos contenidos en A, dada por
card (A)
m(A) = ,
card (Ω)
es también una medida normalizada. En general, toda medida positiva finita se puede normalizar,
dividiéndola por la medida de Ω. En el caso de la longitud, el área, el volumen y el peso, la
normalizaci ón se puede alcanzar con un simple cambio de unidades.

Aravena, del Pino, Quintana: PROBABILIDADES 23


´
CAP ITULO ´
1. INTRODUCCI ON

La aditividad no se puede extender a familias no numerables de conjuntos sin generar resultados


paradojales. Por ejemplo, el área de un cı́rculo es positiva, mientras que el área de un conjunto con
un solo punto es 0. De valer la aditividad en este caso, la suma de muchos ceros serı́a un n úmero
positivo.

1.5.2 Axiomas de probabilidad

Con la formulaci ón conjuntista, la distribuci ón de probabilidad es una funci ón con valores reales,
definida sobre una familia A de conjuntos del espacio muestral Ω. En el caso finito A est á consti-
tuida por todos los subconjuntos de Ω. Con estas definiciones,

La probabilidad es una medida positiva y normalizada

Esta afirmaci ón es equivalente a imponer los siguientes Axiomas de Probabilidad:


La distribuci ón de probabilidad P es una funci ón definida sobre una clase A de subconjuntos
de Ω que satisface las siguientes condiciones:
k k
!
X X
Aditividad : P Ai = card (Ai ). (1.5.3)
i=1 i=1
Positividad : P (A) ≥ 0, para todo A. (1.5.4)
Normalizaci ón : P (Ω) = 1. (1.5.5)
∞ ∞
!
X X
Aditividad numerable : P Ai = P (Ai ) (1.5.6)
i=1 i=1

Tabla 1.5.1: Axiomas de Probabilidad


La aditividad significa que si un suceso se descompone en un n úmero finito de sucesos mutua-
mente excluyentes, su probabilidad es la suma de las probabilidades de los sucesos en esta descom-
posici ón. La aditividad numerable es an áloga para particiones infinitas. Tomando Ai = φ, para
i > n y demostrando previamente que P (φ) = 0, se deduce que la aditividad numerable garantiza
la aditividad, existiendo contraejemplos para la afirmaci ón recı́proca.
La σ-aditividad permite calcular probabilidades bajo ciertos procesos lı́mites. Cuando el lı́mite
B∞ de una sucesi ón de sucesos Bn existe, se requiere la σ-aditividad para garantizar que P (B ∞ )
coincide con el lı́mite de las probabilidades P (Bn ). Los casos m ás importantes donde el lı́mite
existe corresponden a sucesiones encajonadas de conjuntos, en cuyo caso el lı́mite es la uni ón de
todos los conjuntos para sucesiones crecientes y la intersecci ón de todos ellos en el caso decreciente.
n X ∞
S
Un ejemplo se sucesi ón creciente es Bn = Ai , siendo B∞ = Ai el lı́mite respectivo.
i=1 i=1

Ejemplo 1.5.1 Considere lanzamientos sucesivos de una moneda con probabilidad de


cara p, con 0 < p < 1. Sea Cn el suceso no sale cara en los primeros n lanzamientos.

Aravena, del Pino, Quintana: PROBABILIDADES 24


´
CAP ITULO ´
1. INTRODUCCI ON

En el Capı́tulo 2 se demostrar á que P (Cn ) = pn , cuyo valor lı́mite es 0. Por otra parte

T
Cn es una sucesi ón decreciente y, en consecuencia, C = lim Cn = Cn . El suceso
n=1
C ocurre si nunca sale cara. El axioma de σ-aditividad implica que la probabilidad de
este conjunto es 0.

La σ-aditividad es esencial para estudiar problemas donde una variable aleatoria toma valores
enteros no negativos, pero hay una cota superior natural. La σ-aditividad garantiza que la suma de
las probabilidades de todos los resultados coincide con la probabilidad que ocurra alguno de ellos y
por tanto es igual a 1. Por cierto la suma es realmente el valor de una serie.

1.5.3 Propiedades b a´sicas

A partir de los axiomas se puede obtener muchas propiedades útiles. Algunas valen para toda me-
dida, otras para toda medida positiva y otras para toda medida positiva normalizada. El tratamiento
axiomático nos entrega una herramienta poderosa para intuir las propiedades probabilı́sticas bási-
cas. Simplemente usamos un modelo concreto para el cual comprendemos bien alguna medida
positiva normalizada, evitando utilizar caracterı́sticas muy especiales de esa medida. Por ejemplo,
si una figura está contenida dentro de otra, el área de la primera no puede exceder el área de la
otra. Esta propiedad intuitiva vale para cualquier medida positiva y se denomina monotonicidad.
Formalmente, la funci ón de conjunto m es mon ótona si

C ⊆ D ⇒ m(C) ≤ m(D), (1.5.7)

• Concepto probabilı́stico: La probabilidad de un suceso imposible es nula.


Propiedad general: Si alg ún conjunto tiene medida finita, entonces la medida del conjunto
vacı́o es igual a 0.
Demostraci ón: Inmediata a partir de A = A ∪ ∅ ⇒ m(A) = m(A) + m(∅).
• Concepto probabilı́stico: Monotonicidad. Si la ocurrencia de C implica la de D, entonces
P (C) ≤ P (D).
Propiedad general: Toda medida positiva es mon ótona.
Demostraci ón: Consideremos la uni ón disjunta D = C + (D \ A). Por aditividad m(D) =
m(C) + m(D \ C) y por positividad m(D \ C) ≥ 0. Usando un diagrama de Venn e
identificando m con el área, es fácil visualizar los pasos de la demostraci ón en términos muy
intuitivos.
• Concepto probabilı́stico: La probabilidad que ocurra alg ún suceso es menor o igual a la
suma de las probabilidades respectivas.
Propiedad general: Para toda medida positiva, la medida de una uni ón numerable de conjun-
tos se puede acotar por la suma de sus probabilidades.
Demostraci ón: Si la desigualdad se cumple para uniones finitas, la σ-aditividad permite pasar
al lı́mite. Basta demostrar, entonces, que
k k
!
[ X
m Ai ≤ m(Ai )
i=1 i=1

Aravena, del Pino, Quintana: PROBABILIDADES 25


´
CAP ITULO ´
1. INTRODUCCI ON

para toda medida positiva m. Por inducci ón se reduce la demostraci ón al caso k = 2. Para
obtener una idea intuitiva es útil construir diagramas de Venn para k = 2 y k = 3 y tomar a
m como el área.
Considerando un conjunto finito Ω y tomando m como la cardinalidad, la desigualdad se
produce al contar algunos elementos m ás de una vez. Si identificamos los elementos de Ω
con nombres de personas y Ai como una lista de algunos de estos nombres, la desigualdad nos
dice que el total de nombres puede ser mayor que la suma de los n úmeros de cada lista. Por
cierto, si no hay nombres repetidos, la desigualdad se transforma en igualdad. La ausencia
de repeticiones es equivalente a la intersecci ón vacı́a de los conjuntos en esta familia de
conjuntos.
• Concepto probabilı́stico: F órmula para la probabilidad que ocurra alg ún conjunto de una
familia dada.
Problema general: F órmula para la medida de una uni ón de conjuntos.

– Caso k = 2 :
m(A1 ∪ A2 ) = m(A1 ) + m(A2 ) − m(A1 ∩ A2 )
La demostraci ón es sencilla, siendo lo esencial considerar la partici ón (A1 \ A2 ) ∪
(A2 \ A1 ) ∪ (A1 ∩ A2 ). La desigualdad (1.5.13) para k = 2 se obtiene como corolario.
Notamos, adem ás, que m(A1 ∪ A2 ) = m(A1 ) + m(A2 ) si y s ólo si m(A1 ∩ A2 ) = 0.
Usando la analogı́a con área, si se corta un rect ángulo en dos pedazos, el área del borde
entre ellos es nula, de modo que se puede incorporar el borde a cada uno de los pedazos
sin alterar el área total.
– Caso general
k
[ k
X
m( Ai ) = (−1)j−1 αj , (1.5.8)
i=1 j=1

donde αj es la suma de la probabilidades de todas las intersecciones de j conjuntos. Por


ejemplo, para k = 3 se obtiene
m(A1 ∪ A2 ∪ A3 )) = m(A1 ) + m(A2 ) + m(A3 )
−m(A1 ∩ A2 ) − m(A1 ∩ A3 ) − m(A2 ∩ A3 )
+m(A1 ∩ A2 ∩ A3 )

Cuando m es la cardinalidad de un conjunto, (1.5.15) es una identidad combinatorial


que se conoce bajo el nombre de principio de uni ón-exclusi ón. La raz ón es que la
f órmula se puede interpretar como una manera de descontar repeticiones por exceso,
para posteriormente corregirlo, repiti éndose el ciclo varias veces.

Para facilitar las referencias posteriores entregamos una lista de las f órmulas probabilı́sticas que
hemos demostrado en un marco m ás general.

k k
!
X X
P Ai = P (Ai ) (1.5.9)
i=1 i=1

Aravena, del Pino, Quintana: PROBABILIDADES 26


´
CAP ITULO ´
1. INTRODUCCI ON

P (φ) = 0, (1.5.10)
C ⊆ D ⇒ P (C) ≤ P (D) (1.5.11)
∞ ∞
!
X X
P Ai = P (Ai ), (1.5.12)
i=1 i=1
k k
!
[ X
P Ai ≤ P (Ai ) (1.5.13)
i=1 i=1

P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) (1.5.14)

k
[ k
X
P( Ai ) = (−1)j−1 αj , (1.5.15)
i=1 j=1

donde αj es la suma de la probabilidades que ocurran j sucesos simult áneamente, al tomar exacta-
mente j sucesos a la vez.

1.5.4 Ejemplos

El primer ejemplo ilustra la idea de descomposiciones aditivas, en conjunto con argumentos de


simetrı́a.

Ejemplo 1.5.2 Calcular la probabilidad de obtener exactamente un par al lanzar 3 da-


dos balanceados. La siguiente tabla entrega una lista exhaustiva de resultados.

111 112 113 114 115 116 121 122 123 124 125 126
131 132 133 134 135 136 141 142 143 144 145 146
151 152 153 154 155 156 161 162 163 164 165 166
211 212 213 214 215 216 221 222 223 224 225 226
231 232 233 234 235 236 241 242 243 244 245 246
251 252 253 254 255 256 261 262 263 264 265 266
311 312 313 314 315 316 321 322 323 324 325 326
331 332 333 334 335 336 341 342 343 344 345 346
351 352 353 354 355 356 361 362 363 364 365 366
411 412 413 414 415 416 421 422 423 424 425 426
431 432 433 434 435 436 441 442 443 444 445 446
451 452 453 454 455 456 461 462 463 464 465 466
511 512 513 514 515 516 521 522 523 524 525 526
531 532 533 534 535 536 541 542 543 544 545 546
551 552 553 554 555 556 561 562 563 564 565 566
611 612 613 614 615 616 621 622 623 624 625 626
631 632 633 634 635 636 641 642 643 644 645 646
651 652 653 654 655 656 661 662 663 664 665 666
18 18 18 18 18 18 18 18 18 18 18 18

Si estos resultados son equiprobables – lo que justificaremos en el Capı́tulo 2 – la


90 5
probabilidad buscada es 216 = 12 . Una forma alternativa de c álculo, que no hace
uso de la lista completa, es utilizar las simetrı́as del problema y la aditividad. Sea A
el suceso sale un par, Ai el suceso sale un par de i y Aij el suceso sale un par de i

Aravena, del Pino, Quintana: PROBABILIDADES 27


´
CAP ITULO ´
1. INTRODUCCI ON

6
P
y un n úmero j. Entonces, A = Ai , y por simetrı́a P (A) = 6P (A1 ). A su vez
i=1
5
P
A1 = A1j y la simetrı́a implica P (A1 ) = 5P (A12 ). Ası́ P (A) = 30P (A12 ). En
i=2
términos del conjunto Ω de los 216 arreglos, el suceso A 12 , que corresponde a 2 ases
y 1 dos, se identifica con el conjunto {211, 121, 112}, de modo que él corresponde a 3
resultados favorables. Esto muestra que
3 1 5
P (A12 ) = , P (A) = 90 × = .
216 216 12

Ejemplo 1.5.3 (Probabilidad geom e´trica) La elecci ón de un punto al azar en una
regi ón acotada de un plano se obtiene normalizando el área, es decir, la probabilidad
de un subconjunto es la raz ón entre su área y el área total del plano. Por ejemplo,
la probabilidad que un punto elegido al azar en un cuadrado caiga dentro del cı́rculo
inscrito es π4 . Si se puede realizar repetidamente este experimento, la proporci ón de
veces que el punto cae dentro del cı́rculo, multiplicada por 4, permite aproximar el
valor de π experimentalmente.
Un cálculo similar muestra que si se elige un punto al azar en un disco, la probabilidad
que la distancia al origen sea inferior a la mitad del radio es 14 . Por otra parte, el disco
se puede escribir como

{(r cos θ, r sin θ)/ 0 ≤ r ≤ R, 0 ≤ θ < 2π}.

La idea de elegir un punto al azar en un di ámetro del disco, e independientemente


hacer una rotaci ón al azar, se traduce en la elecci ón del par (r, θ) al azar dentro del
rectángulo [0, R] × [0, 2π). Bajo este supuesto, la probabilidad que la distancia al
origen sea inferior a la mitad del radio es 12 . Esto ilustra los peligros de atacar estos
problemas de manera puramente intuitiva.
De manera an áloga, la probabilidad que un punto al azar en cierto intervalo A cumpla
con ciertas condiciones es el cuociente entre la longitud del conjunto de puntos que
satisfacen la condici ón y la longitud de A. Para una regi ón acotada en el espacio, lo
propio vale con la longitud reemplazada por el volumen.

Ejemplo 1.5.4 Consideremos un experimento en que el resultado es un n úmero real


en el intervalo [0, M ]. Se nos indica que la probabilidad de un intervalo cualquiera
es proporcional al área bajo cierta curva positiva y continua, entre las rectas verticales
x = 0 y x = M . Esta área representa efectivamente una medida acotada sobre los
subconjuntos de [0, M ], pero no est á normalizada. Si la curva es el gr áfico de una
funci ón continua h ≥ 0, entonces
Z b
Z b h(x)dx
m([a, b]) = h(x)dx y P ([a, b]) = Z aM .
a
h(x)dx
0

Aravena, del Pino, Quintana: PROBABILIDADES 28


´
CAP ITULO ´
1. INTRODUCCI ON

R1 1
Por ejemplo, si M = 1 y h(x) = x2 (1 − x), 0 h(x)dx = 12 y

P ([a, b]) = 4b3 − 3b4 − 4a3 + 3a4 .

La probabilidad que el resultado sea inferior a un n úmero b se obtiene tomando a = 0,


i.e. 4b3 − 3b4 . Esta es una funci ón estrictamente creciente en b, lo que est á de acuerdo
con la propiedad mon ótona de la probabilidad. Ella alcanza el valor 1 para b = 1, lo
que es simplemente la propiedad de normalizaci ón.

Ejemplo 1.5.5 Sea X = N ◦ de artı́culos defectuosos en un lote de 100 unidades. Los


valores posibles de X son 0, 1, 2, . . . , 100 y el espacio de probabilidad correspondiente
serı́a Ω = {0, 1, 2, . . . , 100}. Serı́a catastr ófico para la calidad del equipo que los 101
elementos de Ω fueran equiprobables. Se necesitan en principio 100 n úmeros para
determinar las probabilidades relevantes. Para facilitar los c álculos de probabilidades
del tipo P (X ≤ a), P (X > b), P (c < X < d), es preferible tabular las probabilidades
de los 100 sucesos: X ≤ x, x = 0, . . . , 99 (obviamente P (X ≤ 100) = 1). Esta idea
es enteramente an áloga a las distribuciones acumuladas de proporciones. Denotando
P (X ≤ x) por F (x) y a P (X = x) por p(x) se obtiene nuevamente un sistema
triangular de ecuaciones:

F (0) = p(0)
F (1) = p(0) + p(1)
F (2) = p(0) + p(1) + p(2)
..
.
F (x) = p(0) + p(1) + · · · + p(x)
..
.
F (99) = p(0) + p(1) + · · · + p(99),

cuya soluci ón es


p(x) = F (x) − F (x − 1). (1.5.16)

Los sucesos 0 ≤ X ≤ 2 y 2 ≤ X ≤ 3 no son mutuamente excluyentes pues ambos


ocurren cuando X = 2. Por lo tanto P (0 ≤ X ≤ 2 ó 2 ≤ X ≤ 3) = P (0 ≤ X ≤ 3)
= P (0 ≤ X ≤ 2) + P (2 ≤ X ≤ 3) − P (X = 2). Adem ás

P (a < X ≤ b) = F (b) − F (a). (1.5.17)

Advertencia: Es importante notar que la primera desigualdad en el lado izquierdo


de (1.5.17) es estricta, pero la segunda no lo es. Por ejemplo P (5 < X < 6) no
es F (6) − F (5) sino 0, ya que no hay n úmeros enteros estrictamente entre 5 y 6.
Análogamente, P (5 ≤ X ≤ 6) no es F (6) − F (5) sino F (6) − F (4). La clave est á en
reescribir, en caso de necesidad, la desigualdad en forma can ónica, es decir con las
desigualdades adecuadas. Por ejemplo 3 ≤ X < 6 ⇔ 2 < X ≤ 5, de modo que
P (3 ≤ X < 6) = P (2 < X ≤ 5) = F (5) − F (2). Observe que este procedimiento
usa fuertemente el hecho que los valores de X son n úmeros enteros.

Aravena, del Pino, Quintana: PROBABILIDADES 29


´
CAP ITULO ´
1. INTRODUCCI ON

1.6 Modelo de Probabilidad Numerable

1.6.1 Caso general

Sea Ω numerable y sea P una distribuci ón de probabilidad dada. Se define la funci ón de probabili-
dad por p(ω) = P ({ω}), ω ∈ Ω.
Los sucesos básicos {ω} constituyen una partici ón numerable de Ω y todo A ⊂ Ω es una uni ón
numerable de los sucesos b ásicos {ω, ω ∈ A}. Por σ-aditividad,
X
P (A) = p({ω}). (1.6.1)
ω∈A

Esto indica que la probabilidad de un suceso sigue siendo la suma de las probabilidades de los
resultados favorables.
Aplicando (1.6.1), con A = Ω, se tiene
X
p(ω) = 1, p(ω) ≥ 0. (1.6.2)
ω∈Ω

Todas las ecuaciones (1.2.1) – (1.2.8) rigen por definici ón o como consecuencia l ógica.
Si se enumeran los t érminos de A, la suma en (1.6.1) es el valor de una serie. La no negatividad
de los términos garantiza que este valor no depende de la enumeraci ón elegida. Adem ás, (1.6.2)
garantiza la convergencia. El caso finito sale como corolario, donde no se requiere la σ-aditividad,
sino la aditividad finita.

1.6.2 Enteros no negativos

Si el resultado del experimento es un n úmero entero no negativo k, para el cual no queremos impo-
ner una cota superior, lo habitual es elegir Ω como el conjunto de enteros no negativos {0, 1, 2, . . .}.
Esta situaci ón ocurre frecuentemente cuando la variable es un recuento, e.g. n úmero de accidentes,
de llamadas telef ónicas, de llegadas a una intersecci ón, de clientes en una cola, etc. Las igualdades
(1.6.2) y (1.6.1) se transforman en
X∞
p(k) = 1,
k=0
y X
P (A) = p(k),
k∈A

respectivamente. Para verificar si

p(k) = 0.7 × 0.3k−1 , k > 0, p(0) = 0

define una funci ón de probabilidad v álida, basta verificar que los valores son no negativos y calcular
la suma. Si el experimento consiste en extraer artı́culos de un lote hasta que aparezca el primer

Aravena, del Pino, Quintana: PROBABILIDADES 30


´
CAP ITULO ´
1. INTRODUCCI ON

defectuoso y k es el n úmero total de artı́culos que se extrae, P (X > 3) coincide con la probabilidad
que las primeras tres extracciones entreguen artı́culos no defectuosos. Un c álculo directo da

X
P (X ≥ 3) = p(k) (1.6.3)
k=4

X
3
= 0.7 × 0.3 0.3k−4 (1.6.4)
k=4
X∞
= 0.7 × 0.33 0.3j (1.6.5)
j=0

= 0.33 (1.6.6)
= 0.027 (1.6.7)

Si la serie converge pero la suma es c 6= 1, basta normalizar la funci ón dividiendo cada t érmino de
la serie por c. Basta, entonces, indicar el valor de la funci ón de probabilidad salvo por una constante
de proporcionalidad y determinarla usando (1.6.2). Por ejemplo, de la serie de Taylor de la funci ón

X 1 k
exponencial se deduce que c = λ = eλ , de modo que
k!
k=0

e−λ k
p(k) = λ , λ > 0, k ≥ 0
k!
es una legı́tima funci ón de probabilidad. La distribuci ón de probabilidad correspondiente se deno-
mina distribuci ón de Poisson y est á determinada por el par ámetro ajustable λ.

1.6.3 Familias param e´tricas y series de potencia

Es muy excepcional conocer los valores exactos de la funci ón de probabilidad. Lo habitual es que
exista informaci ón empı́rica previa sobre las frecuencias relativas de los distintos valores posibles de
una variable aleatoria. Para que el modelo probabilı́stico tenga relevancia pr áctica se procura elegir
la forma de funci ón de probabilidad p de tal modo que se asemeje a la funci ón de probabilidad
empı́rica (donde las proporciones empı́ricas reemplazan a las probabilidades). El uso de familias
paramétricas, como la de Poisson, permite ajustar la funci ón de probabilidad a los datos mediante
la elecci ón de uno o m ás n úmeros reales, que se denominan par ámetros.
Muchas familias param étricas se pueden deducir a partir de series de potencia conocidas. Sea

X
G(z) = ck z k , |z| < r, (1.6.8)
k=0

una serie de potencias con radio de convergencia r. El caso especial, en que todos los coeficientes
ck son nulos excepto un n úmero finito de ellos, da origen a un polinomio, para el cual r = ∞.
Si ck ≥ 0 para todo k, la funci ón p(·, θ) definida por
ck θ k
p(k, θ) = , θ < r, k ≥ 0, (1.6.9)
G(θ)

Aravena, del Pino, Quintana: PROBABILIDADES 31


´
CAP ITULO ´
1. INTRODUCCI ON

es una funci ón probabilidad v álida para 0 ≤ θ < r.

Ejemplo 1.6.1 Una aplicaci ón de (1.6.8) y (1.6.9) a las conocidas expansiones

X 1 k
ez = z , |z| < ∞,
k!
k=0

X
z(1 − z)−1 = z k , |z| < 1
k=1

conduce a las funciones de probabilidad

λk e−λ
p(k, λ) = , λ > 0.
k!
y
p(k, θ) = (1 − θ)θ k−1 , k > 0, 0 < θ < 1.
La primera genera la distribuci ón de Poisson, y la segunda recibe el nombre de ge-
ométrica. Para θ = 0.3 se obtiene la funci ón de probabilidad en el ejemplo de los
artı́culos defectuosos.

Ejemplo 1.6.2 La funci ón G(z) = (1 + z)n es un polinomio y el coeficiente de z k es


ck = nk , que es no negativo. Por lo tanto,
  k
n θ
p(k, θ) =
k G(θ)
θk
 
n
= , θ ≥ 0,
k (1 + θ)n
θ
define una familia param étrica. Si α = 1+θ , ésta se puede reescribir como
 
n k
α (1 − α)n−k , 0 ≤ α ≤ 1.
k

Aravena, del Pino, Quintana: PROBABILIDADES 32


´
CAP ITULO ´
1. INTRODUCCI ON

1.7 Problemas

1. Sean tres sucesos E, F y G. Encuentre expresiones para los siguientes sucesos en lenguaje de
conjuntos.

a.- S ólo ocurre E.


b.- Ocurren tanto E como G, pero no ası́ F.
c.- Al menos uno de los sucesos ocurre.
d.- Al menos dos de los sucesos ocurren.
e.- Los tres sucesos ocurren.
f.- Ninguno de los tres sucesos ocurre.
g.- A lo más uno de ellos ocurre.
h.- A lo más dos de ellos ocurren.
i.- Exactamente dos de ellos ocurren.

2. Pruebe la desigualdad de Boole:


n
[ n
X
P( Ei ) ≤ P (Ei )
i=1 i=1

3. Demuestre que la probabilidad que ocurra exactamente uno de los sucesos E o F es igual a:

P (E) + P (F ) − 2P (E ∩ F ).

4. Demostrar que si P y Q son dos medidas de probabilidad definidas sobre un mismo espacio,
entonces aP +bQ es tambi én una medida de probabilidad para algunos n úmeros no negativos
a y b tales que a + b = 1. Dar un ejemplo encontrando valores a y b que cumplan las
condiciones.

5. Una caja contiene una ficha roja, una verde y una azul. Considere el siguiente experimento:
se saca una ficha de la caja, ésta es devuelta y se extrae una segunda ficha. Describir un
espacio muestral apropiado. Repetir lo anterior si la ficha se extrae sin reposici ón.

6. Se lanza un dado hasta que aparece un seis. ¿Cu ál es el espacio muestral de este experimen-
to?. Si En denota el suceso que son necesarios n lanzamientos para completar el experimento,

¿qué elementos del espacio muestral est án contenidos en En ?. ¿Qué es ( En )c ?
S
i=1

7. Formular un modelo matem ático para los siguientes experimentos, describiendo el espacio
muestral e indicando las probabilidades asociadas a cada uno de sus elementos.

a.- Se lanza cinco veces una moneda.


b.- Se lanza un dado cinco veces.
c.- Se lanza cinco veces un dado cuyas caras est án marcadas 1, 1, 2, 2, 3, 4.

Aravena, del Pino, Quintana: PROBABILIDADES 33


´
CAP ITULO ´
1. INTRODUCCI ON

8. En una tienda existen tres camisas de distinto tipo para la venta.

a.- Si dos hombres compran una camisa cada uno, ¿cu ántas posibilidades de compra hay?
b.- Si dos camisas son vendidas, ¿cu ántas posibilidades de venta hay?

9. Se seleccionan dos cartas al azar en un juego de naipes. ¿Cu ál es la probabilidad que una de
ella sea un as y la otra no est é entre 1 y 7?

10. Cinco fichas son aleatoriamente distribuidas en tres cajas A, B y C. Evaluar la probabilidad
de los siguientes sucesos:

a.- La caja A est á vacı́a.


b.- S ólo la caja A está vacı́a.
c.- Exactamente una caja est á vacı́a.
d.- Al menos una caja est á vacı́a.
e.- No hay cajas vacı́as.
f.- Dos cajas est án vacı́as.
g.- La caja A o la caja B est án vacı́as.

11. Repetir el ejercicio anterior con n fichas y tres cajas. Verificar la expresi ón general para el
ejercicio anterior.

12. Se ordena un grupo de 30 personas al azar y se les va preguntando de uno a uno el dı́a de
su nacimiento. Calcule la probabilidad que no haya dos personas con el mismo cumplea ños
entre las primeras (i) 10 (ii) 20 personas.

13. Suponga que de un mazo de n cartas marcadas de 1 a n, se extraen cartas aleatoriamente


y éstas van siendo ordenadas seg ún el orden de extracci ón. Sea A el suceso que la carta
1 aparezca en la primera posici ón y sea B el suceso que la carta 2 aparezca en la segunda
posici ón.

a.- Demuestre que P (A) = P (B) = 1/n.


b.- Demuestre que P (A ∩ B) = 1/n(n − 1).
c.- Demuestre que P (A ∪ B) = (2n − 3)/n(n − 1)

14. Suponga que 4 tarjetas marcadas 1, 2, 3, 4 se mezclan y luego se colocan al azar en 4 posicio-
nes fijas. Sea X el n úmero de coincidencias, i.e, el n úmero de veces que una tarjeta marcada
i queda en la posici ón i. Demuestre por enumeraci ón directa de los 24 resultados posibles
que P (X = x) es la siguiente:

k 0 1 2 3 4
9 8 6 1
P (X = k) 24 24 24 0 24

15. Si un n úmero de 3 dı́gitos (000 a 999) es elegido al azar, encontrar la probabilidad que
exactamente un dı́gito sea mayor que 5.
Resp : 0.432

Aravena, del Pino, Quintana: PROBABILIDADES 34


´
CAP ITULO ´
1. INTRODUCCI ON

16. Suponga que h hombres y m mujeres se sientan aleatoriamente en h + m asientos puestos en


fila. Encontrar la probabilidad que todas las mujeres queden juntas.
h+1
Resp : .
(h+m
h )

17. Un experimento consiste en sacar diez cartas al azar de un naipe de 52 cartas.


a.- Si la extracci ón se hace con reemplazo, encontrar la probabilidad que no hayan dos
cartas con el mismo valor num érico.
b.- Si la extracci ón se hace sin reemplazo, encontrar la probabilidad que al menos nueve
cartas sean de la misma pinta.
4∗(13
9)
∗39+4∗(13
10)
Resp : a) 52∗48∗44∗···∗18
(52)10
b) .
(52
10)

18. Una caja contiene 2n helados, n de naranja, y n de lim ón. De un grupo de 2n personas, a < n
prefieren naranja, y b < n prefieren lim ón, mientras que las restantes 2n − a − b personas no
tienen preferencias. Demuestre que si los 2n helados se reparten al azar, la probabilidad que
todas las preferencias sean respetadas es
2n−a−b

n−a
2n
 .
n

Desafı́os

19. Se lanza un par de dados hasta que la suma de ellos sea cinco o siete. Encuentre la probabili-
dad que la suma cinco aparezca primero.
Hint : Sea En la suma cinco aparece en el n- ésimo lanzamiento y cinco o siete no aparece en

P
el lanzamiento n−1. Calcule P (En ) y argumente que P (En ) es la probabilidad deseada.
n=1

20. (Problema de Banach) El matem ático Banach mantenı́a dos cajas de f ósforos, una en cada
bolsillo y cada caja contenı́a n f ósforos. Cada vez que él necesitaba un f ósforo, seleccionaba
aleatoriamente uno de los bolsillos. Cuando él encontr ó que la caja seleccionada estaba vacı́a,
¿cuál es la distribuci ón del n úmero de f ósforos que quedaban en la otra caja ?
Hint: Divida en dos casos de acuerdo a que el bolsillo derecho e izquierdo est é vacı́o, pero
tenga cuidado con el caso en que ambos est én vacı́os.
21. Generalice el Problema 14 al caso de n tarjetas.
22. Una urna contiene n tarjetas enumeradas de 1 a n. Se sacan al azar las tarjetas una por una
y sin reemplazo. Si la tarjeta con el n úmero r aparece en la r- ésima extracci ón, entonces
diremos que ocurri ó un encuentro. Probar que la probabilidad que al menos un encuentro
ocurra es:
1 1 1 (−1)n−1
1− + − + ··· + → 1 − e−1
2! 3! 4! n!
cuando n → ∞.
Hint : Usar el Problema 13 y P (A1 ∪ A2 ∪ · · · ∪ An ).

Aravena, del Pino, Quintana: PROBABILIDADES 35


Cap´
ıtulo 2

Probabilidad Condicional e
Independencia

2.1 Probabilidad Condicional e Informaci ón

2.1.1 Introducci o´n

Analicemos las dos situaciones siguientes.

• La probabilidad de obtener dos caras al lanzar dos veces una moneda equilibrada es 14 . Sin
embargo, si alguien nos comunica que la primera moneda sali ó cara, la probabilidad relevante
es intuitivamente mayor. Dado que s ólo existe incertidumbre sobre el segundo lanzamiento,
el valor 21 parece reflejar mejor la situaci ón.

• La probabilidad de obtener al menos un as al lanzar dos dados es 11 36 , pues los 36 pares


(x1 , x2 ) son equiprobables. Si alguien nos informa que la suma de los dos dados es 5, po-
demos desechar casi todos los resultados y quedarnos s ólo con {(x1 , x2 )/ x1 + x2 = 5} =
{(1, 4), (2, 3), (3, 2), (4, 1)}. De estos 4 resultados hay 2 favorables, por lo que resulta ten-
tador usar la fracci ón 24 = 21 para representar nuestra incertidumbre. Cabe notar que la
equiprobabilidad implı́cita no es evidente.

• La probabilidad que una persona elegida al azar de una poblaci ón posea cierta caracterı́stica
genética coincide con la proporci ón α de personas de la poblaci ón que la poseen. Si la per-
sona se hace un test, que tiene un margen de error, y éste resulta positivo, interesa actualizar
esta probabilidad α para tomar en cuenta esta informaci ón.

El argumento implı́cito en los primeros dos casos es que resultados que eran equiprobables
siguen siéndolo luego de conocida cierta informaci ón. En estos tres ejemplos quedan de manifiesto
los siguientes hechos:

1. La informaci ón afecta la probabilidad.


2. La informaci ón se traduce en que cierto suceso F ocurre.

36
´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

3. Si sabemos que F ocurre, la ocurrencia de A implica la de A ∩ F .

La probabilidad buscada en los tres ejemplos se puede traducir en la probabilidad que ocurra A dado
que ha ocurrido F . Se la denotar á por P (A|F ) y se leer á probabilidad condicional de A dado F .

2.1.2 Interpretaci o´n frecuentista

Identificando a A y F con los respectivos conjuntos de resultados favorables en un experimento


dado, y suponiendo él es repetible muchas veces, podemos interpretar las probabilidades como
proporciones. Sea N = 106 el n úmero de repeticiones y supongamos que F se cumple en 400000
de ellas, mientras que A y F ocurrieron conjuntamente 300000 veces. Es claro que F ocurri ó un
75% de aquellas repeticiones en que el suceso A se cumpli ó. Esta fracci ón parece reflejar mejor la
incerteza sobre A cuando se sabe que F ocurri ó, que simplemente la probabilidad que ocurra A.

2.1.3 Caso equiprobable

Si los n puntos de Ω son equiprobables y s ólo sabemos que F ocurre, parece natural usar F como
nuevo espacio muestral y suponer que sus m puntos siguen siendo equiprobables. Notemos que
1
1 n
= m.
m n

2.2 Definici ón Formal de Probabilidad Condicional

Las interpretaciones discutidas en la secci ón anterior sugieren c ómo definir la probabilidad condi-
cional usando un enfoque axiom ático.

Definici´o n 2.2.1 Si P (F ) > 0, la probabilidad condicional de A dado F , que se denota P (A|F ),


está dada por
P (A ∩ F )
P (A|F ) = , (2.2.1)
P (F )

que es equivalente a la regla multiplicativa

P (A ∩ F ) = P (F )P (A|F ). (2.2.2)

En la práctica es más frecuente tener una idea de los valores de P (A|F ) y P (F ), por lo que la
versi ón multiplicativa es la m ás útil.

Nota: Si alguien nos informa de un suceso, cuya ocurrencia era absolutamente segura, ello no de-
biera cambiar nuestras probabilidades. En otras palabras, P (A|F ) debiera coincidir con P (A). Esto
se desprende inmediatamente de la definici ón axiomática, tomando F = Ω, bastando la condici ón
P (F ) = 1.
La utilidad de una definici ón formal se muestra en el pr óximo ejemplo.

Aravena, del Pino, Quintana: PROBABILIDADES 37


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Ejemplo 2.2.1 Se dispone de tres cartas: (1) con ambas caras blancas, (2) con ambas
negras y (3) con una cara de cada color. Se elige una carta al azar y luego se pone sobre
una mesa, eligiendo al azar una de sus caras. Si la cara mostrada es negra, calcule la
probabilidad que la otra sea negra.
La intuici ón indica que hay s ólo dos cartas posibles, y por la simetrı́a del problema
ambas son equiprobables, de modo que la probabilidad buscada es 12 . Si el lector tiene
la paciencia de repetir muchas veces el experimento, se dar á cuenta que del conjunto
de repeticiones en que la cara mostrada es negra, mucho m ás de la mitad tiene la otra
cara negra. Esto muestra que la intuici ón no siempre funciona.
Para analizar formalmente el problema, marquemos cada cara de las cartas (con tinta
invisible), con las letras a y b. Hay entonces 6 resultados 1a, 1b, 2a, 2b, 3a, 3b, que
debieran ser equiprobables, por simetrı́a. La informaci ón que la cara visible es negra
se traduce en un suceso B = {2a, 2b, 3b}. La probabilidad que la carta visible sea
negra y que la otra tambi én lo sea es igual a la probabilidad del suceso {2a, 2b}. Por
definici ón de probabilidad condicional la probabilidad buscada es
2
P ({2a, 2b}) 6 2
= 3 = .
P ({2a, 2b, 3b}) 6
3

Sean ahora X e Y las variables indicatrices de los sucesos A y F respectivamente. La regla


multiplicativa (2.2.2) equivale a P (X = 1, Y = 1) = P (X = 1)P (Y = 1|X = 1). La idea
general es que el valor de una variable finita X afecta las probabilidades relativas a otra variable Y ,
lo que podemos escribir como P (Y = y|X = x). En nuestro caso P (Y = 1|X = 0) = P (A|F 0 ),
P (Y = 0|X = 1) = P (A0 |F ), y P (Y = 0|X = 0) = P (A0 |F 0 ). Intuitivamente, P (A) debiera ser
un valor intermedio entre P (A|F ) y P (A|F 0 ), o sea, alg ún promedio ponderado de estos valores.
Si estamos bastante seguros que F debe ocurrir, P (A) debiera estar m ás cerca de P (A|F ) que de
P (A|F 0 ), por lo que debiera aparecer con m ás peso en el promedio ponderado. La descomposici ón
aditiva A = (A ∩ F ) + (A ∩ F 0 ) implica P (A) = P (A ∩ F ) + P (A ∩ F 0 ). Aplicando la regla
multiplicativa a los pares (A, F ) y (A, F ) permite obtener la f órmula exacta

P (A) = P (F )P (A|F ) + P (F 0 )P (A|F 0 ). (2.2.3)

En otras palabras, la probabilidad marginal (no condicional) de A es un promedio ponderado de


las probabilidades condicionales. Si P (F ) = 0, P (A|F ) no est á definido pero le podemos asignar
cualquier n úmero entre 0 y 1, de modo que P (F )P (A|F ) = 0. Algo an álogo ocurre cuando
P (F 0 ) = 0. Con esta convenci ón, (2.2.3) vale sin restricciones. En t érminos de las variables
indicatrices, ella se reescribe como P (Y = 1) = P (X = 1)P (Y = 1|X = 1) + P (X = 0)P (Y =
1|X = 1). Usando los mismos argumentos, se demuestra que

P (Y = y) = P (X = 1)P (Y = y|X = 1) + P (X = 0)P (Y = 1|X = 0).

2.3 Independencia de dos sucesos

El concepto de independencia est á intuitivamente asociado con ausencia de efecto o de interacci ón.
Desde el punto de vista probabilı́stico, nos interesa expresar la idea que la ocurrencia o no de un

Aravena, del Pino, Quintana: PROBABILIDADES 38


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

suceso no afecte la probabilidad que otro ocurra. En el lenguaje de variables, la idea es que el
valor que toma una variable no afecte las probabilidades de los valores de otra variable. Esta idea
aparece implı́citamente en la interpretaci ón frecuentista, pues se supone que lo que ocurra en una
de las repeticiones del experimento no afecta a las otras. Ya hemos mencionado que lanzamientos
sucesivos de una moneda o un dado, ası́ como el muestreo con reposici ón, parecen cumplir con esta
ausencia de interacci ón. El problema es c ómo dar una definici ón formal de este concepto, dentro
del marco axiom ático.
Si queremos expresar que la ocurrencia o no de un suceso F no afecta la probabilidad que otro
suceso A ocurra, parece natural imponer la condici ón

P (A|F ) = P (A|F 0 ), P (F ) > 0, P (F 0 ) > 0. (2.3.1)

La condici ón P (F ) > 0, P (F 0 ) > 0 es equivalente a 0 < P (F ) < 1, la que se requiere para que
queden bien definidas las probabilidades condicionales. Sin embargo, los casos excluidos corres-
ponden a la ocurrencia de un suceso seguro, lo que no debiera afectar nuestras creencias sobre otros
sucesos. Digamos provisionalmente que A es independiente de F cuando (2.3.1) se cumple. Por
otra parte, los otros casos corresponden a la ocurrencia de algo seguro, lo que no debiera afectar
nuestras creencias sobre la ocurrencia del suceso A. Para evitar imponer esto como condici ón, es
más conveniente reformular (2.3.1) como sigue. Por (2.2.3), P (A) es un promedio ponderado de
P (A|F ) y de P (A|F 0 ), de modo que la igualdad de dos de estas tres cantidades implica que todas
son iguales. Por lo tanto, (2.3.1) equivale a

P (A|F ) = P (A), P (F ) > 0. (2.3.2)

La definici ón de probabilidad condicional, hace que (2.3.2) equivalga a

P (A ∩ F ) = P (A)P (F ), (2.3.3)

donde la restricci ón P (F ) > 0 ha desaparecido. Desde un punto de vista pr áctico, (2.3.1), (2.3.2)
y (2.3.3) son efectivamente equivalentes.
Intercambiando A con F en la última ecuaci ón, se obtiene P (F ∩ A) = P (F )P (A), que es
idéntica con (2.3.3). Por esta raz ón decimos que la condici ón (2.3.3) es sim étrica en A y F . Una
consecuencia inmediata es que (2.3.1) equivale a

P (F |A) = P (F |A0 ).

Por lo tanto, la afirmaci ón A es independiente de F , es matem áticamente equivalente a F es in-


dependiente de A. Esta simetrı́a muestra que hay que tener sumo cuidado en la interpretaci ón de
esta condici ón y de su opuesto. Por ejemplo, el precio de una acci ón hoy incide sobre el precio
ma ñana. Por simetrı́a, esto indica que este precio futuro afecta el precio de hoy. Existe la tentaci ón
de intentar explicaciones sustantivas de este fen ómeno, lo cual puede llevar f ácilmente a contrasen-
tidos. Esencialmente, la noci ón probabilı́stica de de dependencia no discrimina entre A causa F y
F causa A. En vista de lo anterior, lo habitual es usar (2.3.3) como definici ón de independencia, lo
que cabrı́a traducir como A y F son independientes.
Para facilitar las referencias posteriores escribimos la definici ón formal:

Aravena, del Pino, Quintana: PROBABILIDADES 39


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

o n 2.3.1 Los sucesos A y B son independientes si


Definici´

P (A ∩ B) = P (A)P (B) (2.3.4)

Advertencia: Si dos sucesos de probabilidad positiva son mutuamente excluyentes, la ocurrencia de


uno de ellos garantiza la no ocurrencia del otro, lo que constituye un caso extremo de dependencia.
Pese a esto, suele producirse confusi ón entre estos conceptos. El siguiente ejemplo complementa
estas aseveraciones intuitivas con una demostraci ón rigurosa.

Ejemplo 2.3.1 Demostrar que dos sucesos son independientes y mutuamente exclu-
yentes s ólo si uno de ellos tiene probabilidad nula.
Si A y B son independientes P (A ∩ B) = P (A)P (B). Si ellos son, adem ás, mutua-
mente excluyentes P (A ∩ B) = 0. El cumplimiento simult áneo de estas condiciones
equivale a P (A ∩ B) = P (A)P (B) = 0. Como A ∩ B ⊆ A, esto se cumple si y s ólo
si P (A)P (B) = 0, lo que, a su vez, equivale a P (A) = 0 o P (B) = 0.

2.4 Teoremas B ásicos

En esta secci ón enunciamos dos teoremas famosos, cuya demostraci ón es notablemente sencilla
dentro del enfoque axiom ático. Aunque el enunciado habla de una familia numerable de conjuntos,
el caso más importante, dentro del presente capı́tulo, es el caso finito. La única diferencia entre
ambos casos es la necesidad del axioma de σ-aditividad.

Teorema 2.4.1 (Ley de probabilidades totales) Considere una familia, posiblemente infinita, de
sucesos (Ai , i = 1, 2, . . . , I). Suponga que P (Ai ) > 0, i = 1, 2, . . . , I, y que exactamente uno
de los sucesos Ai ocurre. Si Ω es el espacio muestral, las condiciones se ñaladas corresponden a la
existencia de una partici ón de Ω con probabilidades positivas para cada elemento de la partici ón.
Entonces, para cualquier suceso B se cumple:
I
X
P (B) = P (Ai )P (B|Ai )
i=1 (2.4.1)

Ley de las Probabilidades Totales

Demostraci o´n: Por definici ón de probabilidad condicional P (Ai )P (Bj |Ai ) = P (Ai ∩ Bj ). Pero
I
X
B= Ai ∩ Bj ,
i=1

y el resultado es consecuencia de la aditividad. 

Aravena, del Pino, Quintana: PROBABILIDADES 40


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Teorema 2.4.2 (Teorema de Bayes) Bajo las mismas condiciones del teorema 2.4.1, se cumple
para cualquier 1 ≤ r ≤ I, y cualquier suceso B con P (B) > 0, que
P (Ar )P (B|Ar )
P (Ar |B) = I
P
P (Ai )P (B|Ai )
i=1 (2.4.2)

Teorema de Bayes

Demostraci o´n: Por (2.4.1) el denominador de (2.4.2) coincide con P (B). Por otra parte, se tiene
que P (Ar )P (B|Ar ) = P (Ar ∩ B), de tal forma que el segundo miembro de (2.4.2) es P (A r ∩B)
P (B) y
el resultado se obtiene por definici ón de la probabilidad condicional. 

Nota Importante: Recordar que los Teoremas 2.4.1 y 2.4.2 son v álidos para I finito o
infinito. En el primer caso no se requiere el axioma de σ-aditividad.

En ciertas aplicaciones del Teorema de Bayes se considera a P (A i ) como la probabilidad a


priori, es decir, previa a saber que B ocurri ó. De esta forma, P (Ai |B) se denomina probabilidad
a posteriori, que es la relevante una vez que se sabe que B ocurri ó. El denominador en (2.4.2) se
cancela al calcular razones entre probabilidades a posteriori:

P (Ai |B) P (Ai ) P (B|Ai )


= . (2.4.3)
P (Aj |B) P (Aj ) P (B|Aj )

La raz ón entre dos probabilidades a posteriori se obtiene multiplicando la raz ón entre las probabi-
lidades a priori correspondientes por el factor

P (B|Ai )
,
P (B|Aj )

que en aplicaciones estadı́sticas, se denomina raz ón de verosimilitud. En particular, tomando I = 2,


A1 = A, A2 = A0 , y aplicando (2.4.3) se obtiene:

P (A|B) P (A) P (B|A)


= . (2.4.4)
1 − P (A|B) 1 − P (A) P (B|A0 )
Este resultado, que tiene numerosas aplicaciones, se puede expresar como:

Las chances a posteriori se obtienen multiplicando las chances a priori por la raz ón
de verosimilitud.

Ejemplo 2.4.1 Un m édico examina la radiografı́a de t órax de un paciente y est á inde-


ciso en su diagn óstico entre cáncer al pulm ón y tuberculosis. Sobre la base de infor-
maci ón hist órica, se estima que la probabilidad que el c áncer produzca una radiografı́a
de este tipo es 0.6, la cual aumenta a 0.8 para la tuberculosis. En su experiencia, el
médico estima que el 70% de los pacientes que consultan por sı́ntomas similares tiene
cáncer y el 30% tiene tuberculosis.

Aravena, del Pino, Quintana: PROBABILIDADES 41


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

(a) ¿Cuál es la probabilidad que el paciente tenga c áncer?


Sea A1 : el paciente tiene c áncer, A2 : el paciente tiene tuberculosis y B: el pa-
ciente tiene una radiografı́a del tipo observado. Las probabilidades de las 4 ramas
son:
Rama Prob. marginal Prob. condicional Producto
A1 B 0.7 0.6 0.42
A2 B 0.3 0.8 0.24
A1 B 0 0.7 0.4 0.28
A2 B 0 0.3 0.2 0.06
La suma de las dos primeras da P (B) = 0.66. Por divisi ón
42 24
P (A1 |B) = , P (A2 |B) = .
66 66
(b) Si la radiografı́a no hubiera sido del tipo que se observ ó, se presentarı́a nue-
vamente el problema de decidir entre c áncer y tuberculosis. Indique cu ál es la
probabilidad relevante y calc úlela.
La probabilidad adecuada es P (A1 |B 0 ). La probabilidad de B 0 es la suma de las
probabilidades de la tercera y la cuarta ramas, esto es, 0.28 +0.06=0.34. Alterna-
tivamente, podemos usar P (B 0 ) = 1−P (B) = 1−0.66 = 0.34. La probabilidad
buscada es 0.28 28
0.34 = 34 .
(c) Obtenga las chances de c áncer en cada una de los casos anteriores y deduzca las
probabilidades respectivas.
Aplicamos ahora (2.4.4).
Caso (a):
7 6 7
Chances de c áncer = × =
3 8 4
7 7 42
Prob. de cáncer = = =
7+4 11 66
Caso (b):
7 4 14
Chances de c áncer = × =
3 2 3
14 14 28
Prob. de cáncer = = = .
14 + 3 17 34

2.5 Tablas de probabilidades conjuntas y marginales

2.5.1 Tablas para sucesos

Consideremos dos particiones finitas o numerables cualesquiera, (A 1 , . . . , AI ) y (B1 , . . . , BJ ), del


espacio muestral Ω, en vez de (A, A0 ), (F, F 0 ), o (B, B 0 ). Estas dos particiones generan una par-
tici ón producto, cuyos elementos son las intersecciones A i ∩ Bj . Ella está ası́ constituida por

Aravena, del Pino, Quintana: PROBABILIDADES 42


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

los sucesos básicos Ai ∩ Bj . La representaci ón gráfica natural de esta construcci ón es una tabla
bidimensional, donde la i- ésima fila corresponde a un Ai y la j-ésima columna a un Bj . La in-
tersecci ón de esta fila y esta columna es la celda (i, j), la cual representa al suceso A i ∩ Bj . Las
probabilidades de los sucesos Ai ∩ Bj se denominan probabilidades conjuntas y generan una ta-
bla, cuyas celdas contienen estas probabilidades. La suma total es 1 y ellas permiten calcular todas
las probabilidades de inter és que sean formulables en t érminos de las dos particiones. En parti-
cular, la suma de las probabilidades de la columna encabezada por B j coincide con P (Bj ), por
ser (Ai ∩ Bj , i = 1, 2, . . . , I) una partici ón de Bj . Análogamente, el total de la fila encabeza-
da por Ai coincide con P (Ai ). Estas probabilidades marginales son representables por dos tablas
unidimensionales. Es c ómodo ubicar las probabilidades marginales P (Ai ) en una columna adicio-
nal, es decir, como margen derecho de la tabla. Del mismo modo, las probabilidades marginales
P (Bj ) se ubican en una fila adicional, es decir, como margen inferior. La definici ón de probabilidad
condicional implica

P (Ai ∩ Bj )
P (Bj |Ai ) =
P (Ai )
P (Ai ∩ Bj )
P (Ai |Bj ) = ,
P (Bj )

o sea,

la probabilidad condicional se encuentra dividiendo la probabilidad conjunta por la


probabilidad marginal del suceso a la derecha del sı́mbolo “|”.

Las probabilidades P (Ai |Bj ) se representan por tablas separadas para cada j, pero es c ómodo
agruparlas como columnas de una misma tabla. El total de cada columna es ahora igual a 1. An álo-
gamente, las tablas que contienen las probabilidades P (B j |Ai ) se ubican como filas de una tabla
com ún, siendo 1 el total de cada fila.
A continuaci ón mostramos c ómo todo este proceso es, en realidad, m ás difı́cil de explicarlo
que llevarlo a cabo.

Ejemplo 2.5.1 Para I = 3, J = 4 la tabla de sucesos conjuntos es

B1 B2
A1 A1 ∩ B1 A1 ∩ B2
A2 A2 ∩ B1 A2 ∩ B2
A3 A3 ∩ B1 A3 ∩ B2

Si las probabilidades conjuntas est án dadas por la tabla

B1 B2
A1 0.1 0.3
A2 0.1 0.2
A3 0.2 0.1

Aravena, del Pino, Quintana: PROBABILIDADES 43


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

se puede deducir de aquı́ las probabilidades marginales

Suceso Probabilidad
Suceso Probabilidad
A1 0.4
B1 B2
A2 0.3
0.4 0.6
A3 0.3

que son mejor representadas simult áneamente como m árgenes de la tabla de probabi-
lidades conjuntas:

B1 B2
A1 0.1 0.3 0.4
A2 0.1 0.2 0.3
A3 0.2 0.1 0.3
0.4 0.6 1

Dividiendo cada celda por los n úmero en los m árgenes se obtienen las probabilidades
condicionales:

B1 B2
P (B1 |Ai ) P (B2 |Ai ) Total 1 3
1 3 P (A1 |Bj ) 4 6
A1 4 4 1 1 2
1 2 P (A2 |Bj ) 4 6
A2 3 3 1 2 1
2 1 P (A3 |Bj ) 4 6
A3 3 3 1
Total 1 1

Las probabilidades en las tablas anteriores pueden interpretarse como proporciones. Suponga-
mos, por ejemplo, que i = 1, 2, 3 corresponde a nivel socio econ ómico bajo, medio y alto, y que
j = 2 significa estar a favor de un proyecto de rebaja de aranceles. De una encuesta a 1000 personas
se pueden obtener proporciones que coinciden num éricamente con las probabilidades conjuntas. Se
invita al lector a reinterpretar las dem ás tablas en este nuevo contexto.

2.5.2 Espacio producto y tablas para variables

En la práctica, las particiones (A1 , . . . , AI ) y (B1 , . . . , BJ ) son inducidas por dos variables dis-
cretas X e Y respectivamente. Cuando la partici ón está formada por un suceso y su negaci ón,
e.g., (F, F 0 ), (B, B 0 ), la variable es binaria. Sea {x1 , . . . , xi , . . . , xI } una enumeraci ón del con-
junto de valores X de X y sea {y1 , . . . , yj , . . . , yJ } una enumeraci ón del conjunto de valores
Y de Y . Definamos los sucesos Ai y Bj por X = xi e Y = yj respectivamente. Entonces
Ai ∩ Bj ⇔ (X = xi , Y = yj ). El espacio muestral m ás c ómodo es el espacio muestral producto
asociado al par de variables (X, Y ), que es el producto cartesiano

X × Y = {(xi , yj ), i = 1, . . . , I; j = 1, . . . , J.}.

Las etiquetas i y j son arbitrarias e innecesarias. En vez de X = x i y Y = yj , es preferible


escribir X = x y Y = y respectivamente. El punto (x, y) corresponde a la realizaci ón conjunta

Aravena, del Pino, Quintana: PROBABILIDADES 44


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

de los sucesos X = x e Y = y. Este calificativo se extiende a las probabilidad correspondientes,


ası́ como a la funci ón de probabilidad p, la que se denota por pX,Y si se desea evitar confusiones.
Si los sucesos de inter és dependen s ólo de la variable X, el espacio muestral natural es X y lo
llamamos espacio marginal asociado a X. El calificativo marginal se emplea tambi én para los
sucesos X = x, para sus probabilidades, ası́ como para la funci ón de probabilidad definida sobre
X , a la que denotamos por pX , dada por pX (x) = P (X = x). Algo semejante ocurre con la
variable Y .
Las variables aleatorias X e Y se pueden interpretar como resultados potenciales de la primera
y segunda etapa de un experimento. Con esta notaci ón, podemos reformular los resultados para
sucesos en términos de una variable discreta.
La regla multiplicativa se traduce en
pX,Y (x, y) = pX (x)pY |X (y|x). (2.5.1)
Los teoremas fundamentales cobran un aspecto m ás amistoso:

Teorema 2.5.1 (Ley de probabilidades totales) Sea X una variable discreta con funci ón de pro-
babilidad positiva. Entonces X
pY (y) = pX (x)pY |X (y|x). (2.5.2)
x∈X

Teorema 2.5.2 (Teorema de Bayes para una variable discreta) Sea X una variable discreta con
funci ón de probabilidad positiva.
pX (x0 )pY |X (y|x0 )
pX|Y (x0 |y) = X . (2.5.3)
pX (x)pY |X (y|x)
x∈X

2.6 Experimentos secuenciales

2.6.1 Construcci o´n del espacio muestral

Se lleva a cabo un experimento E0 obteniéndose un resultado x. De acuerdo a cual sea este resul-
tado, se realiza un segundo experimento, que denotamos por E x . No hay, a priori, ninguna relaci ón
entre los experimentos Ex . Llamamos X al espacio muestral, que suponemos numerable, asocia-
do con el experimento E0 y denotamos por pX a su funci ón de probabilidad. Del mismo modo,
denotaremos por Yx al espacio muestral correspondiente al experimento Ex .
Sea y el resultado de Ex . Si no conocemos x, el conjunto de valores posibles de la variable
correspondiente Y es [
Y= Yx .
x∈X
El resultado del experimento biet ápico es (x, y) ∈ X × Y, pero algunos elementos de este conjunto
pueden ser imposibles. Para no cambiar de espacio muestral, le asignamos probabilidad cero a tales
puntos. Por ejemplo, en muestras sin reposici ón en que x e y identifican completamente cada ficha,
los puntos (x, x) son imposibles.

Aravena, del Pino, Quintana: PROBABILIDADES 45


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Ejemplo 2.6.1 Sea E0 el lanzamiento de una moneda. Si sale cara se elige un n úmero
al azar del conjunto {a1 , a2 , a3 }; si sale sello, se elige un n úmero al azar del conjunto
{b1 , b2 }. Codificando cara =1, sello =2, tenemos X = {1, 2}, Y 1 = {a1 , a2 , a3 } e
Y2 = {b1 , b2 }. Si s ólo observáramos el resultado del segundo experimento, el espacio
muestral serı́a Y = {a1 , a2 , a3 , b1 , b2 }.

Ejemplo 2.6.2 Se lanza un dado y luego se lanza una moneda tantas veces como el
n úmero que indica el dado. En este caso X = {1, 2, 3, 4, 5, 6}. Codificando cara =1,
sello =0, tenemos

x Yx
1 {0, 1}
2 {0, 1} × {0, 1}
3 {0, 1} × {0, 1} × {0, 1}
4 {0, 1} × {0, 1} × {0, 1} × {0, 1}
5 {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1}
6 {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1}

En este caso Y resulta altamente artificial. Si consideramos como resultado del segundo
experimento al n úmero total de caras, esto se simplifica a

x Yx
1 {0, 1}
2 {0, 1, 2}
3 {0, 1, 2, 3}
4 {0, 1, 2, 3, 4}
5 {0, 1, 2, 3, 4, 5}
6 {0, 1, 2, 3, 4, 5, 6}

Si el interés está s ólo en el lanzamiento del dado, entonces Y = {0, 1, 2, 3, 4, 5, 6}.

2.6.2 Identificaci´
o n con probabilidades condicionales y regla multiplicativa

Por comodidad usaremos el lenguaje de variables. El supuesto clave es que tanto el espacio muestral
como las probabilidades asociadas con el experimento E x son conocidos. Denotemos por πx (·) la
funci ón de probabilidad asociada a Ex . Desde un punto de vista frecuentista, la proporci ón de
veces que se observa x tiende a pX (x) = P (X = x) y la proporci ón de veces que se obtiene (x, y)
tiene como lı́mite a pX (x)πx (y). Pero sabemos que este último lı́mite coincide con pX,Y (x, y) =
P (X = x, Y = y). Por definici ón de probabilidad condicional

πx (y) = P (Y = y|X = x) = pY |X (y|x).

La idea básica es:

Identificar la funci ón de probabilidad asociada al experimento Ex con la funci ón de


probabilidad condicional de Y dado X = x.

Aravena, del Pino, Quintana: PROBABILIDADES 46


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Ejemplo 2.6.3 Calculemos la probabilidad de obtener dos fichas blancas al extraer dos
fichas, sin reposici ón, de una urna que contiene dos fichas blancas y una negra. Si x e
y son los colores (b o n) de la primera y segunda ficha, X = Y = {b, n}. Por (2.5.1) la
probabilidad buscada es

pX,Y (b, b) = pX (b)P (Y = b|X = b).

En el cálculo de pX (b) podemos ignorar el hecho que habr á una segunda extracci ón.
Por equiprobabilidad se obtiene PX (b) = 32 . Por otra parte, dado X = b, se genera
fı́sicamente una nueva urna compuesta por una ficha de cada color. El experimento
Eb consiste en extraer una ficha al azar de esta urna y anotar su color, de modo que
πb (b) = 12 . Por lo tanto P (Y = b|X = b) = 12 . De aquı́ p(b, b) = 23 × 12 = 31 . El lector
debe verificar que el mismo resultado se obtiene considerando el espacio equiprobable
de las 6 muestras ordenadas.

En el ejemplo anterior, la representaci ón bietápica del experimento es natural en el contexto


del problema planteado. En otros ejemplos, esto no ocurre, pero la representaci ón bietápica sigue
siendo válida en un nivel puramente conceptual. Cabe recordar que las probabilidades obtenidas no
dependen de la representaci ón elegida; esta última es una herramienta de c álculo que puede o no
ser útil.
Por ejemplo, en la extracci ón de una muestra al azar ordenada y sin reposici ón, podemos pensar
que la primera etapa determina el conjunto de valores obtenido, mientras que la segunda genera un
orden particular. Podemos tambi én revertir el orden del tiempo y considerar como primera etapa
la segunda ficha extraida. En general, todo problema con espacio muestral X × Y y funci ón de
probabilidad pX,Y se puede representar secuencialmente. Simplemente se inventa un experimento
Ex con espacio muestral
Yx = {y ∈ Y/pX,Y (x, y) > 0}. (2.6.1)

2.6.3 Representaci o´n por a´rboles

Un árbol es una estructura matem ática formada por nodos y arcos dirigidos. Una variable discreta
X genera un nodo para cada valor x. Previamente existe un nodo origen, rotulado por O, el que se
une a cada uno de estos nodos generando arcos dirigidos que emanan del origen, a los que se denota
por Ox. Al nodo Ox se le asigna la probabilidad pX (x) = P (X = x). La suma de los valores
asignados a todos los arcos emergentes del nodo origen es, por tanto, igual a 1.
Consideremos ahora una segunda variable discreta Y . A partir de cada nodo x se dibujan arcos
emergentes con nodos terminales rotulados por los valores de y, lo que genera un nuevo árbol a
partir de cada nodo rotulado por x. Juntando todos estos árboles con el árbol original, se forma
uno más grande en que aparecen ramas, constituidas por los arcos Ox y xy. Las ramas est á en
correspondencia uno a uno con los pares de valores (x, y) y con los nodos terminales. Hay que
distinguir acá entre nodo y r ótulo del nodo. Pueden haber muchos nodos terminales con el r ótulo
y, pero a cada uno de estos nodos llega un solo arco, que proviene de un nodo primario dado. Cada
rama se puede interpretar como un resultado del experimento biet ápico. El origen del árbol se
puede asociar con el suceso seguro Ω. El producto de los n úmeros asignados a los arcos de la rama

Aravena, del Pino, Quintana: PROBABILIDADES 47


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Oxy es pX (x)pY |X (y|x), que coincide con pX,Y (x, y). La regla multiplicativa corresponde, ası́, a
multiplicar los n úmeros de una rama. Esto es f ácilmente extensible a k variables X1 , . . . , Xk , lo
que veremos en la pr óxima secci ón.

Ejemplo 2.6.4 Mostramos un árbol para


I = 3, J = 2, el que tiene 6 ramas.


@
@
@
4 3 @ 3
10 10 @10
@
@
  
@
A1 A2 A3
  
 B  B  B
 B  B  B
1  B 3 1  B 2 2  B 1
4 4 3 3 3
 B  B  B3
 B  B  B

  B 
  B 
  B
B1 B2 B1 B2 B1 B2
 
 
 
Cuando el experimento se describe secuencialmente, podemos asignar E 0 al origen y Ex al nodo
x. Las probabilidades que emanan de ese nodo corresponden, en este caso, a las probabilidades
πx (y).

Ejemplo 2.6.5 Sea una urna con 4 fichas negras y 2 blancas. Se extrae una muestra
ordenada de tama ño 2. Considere los colores del par de fichas extraido como resultado
del experimento.
(a) Calcule la probabilidad de cada resultado.
(b) Calcule la probabilidad que la segunda ficha sea negra.
(c) Calcule la probabilidad que la primera ficha sea negra, dado que la segunda tam-
bién lo es.
El diagrama de árbol que se muestra en la figura es una forma razonable de abordar este
problema. De este modo, las probabilidades de cada rama se obtienen de multiplicar
los n úmeros sobre cada arco, las que corresponden a lo pedido en (a).
Configuraci´
o n Inicial
xxx
xhh
4  Q 2
6 Q6
 Q
 Q
x Ficha 1 h
J J
3 J 2 4 J 1
5 J5 5 J5
J J
x h Ficha 2 x h

Aravena, del Pino, Quintana: PROBABILIDADES 48


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Ası́, P (nn) = 64 × 53 = 15 6
, P (nb) = 64 × 25 = 15 4
, P (bn) = 62 × 54 = 15 4
y
2 1 1
P (bb) = 6 × 5 = 15 . La probabilidad pedida en (b) se obtiene simplemente de sumar
6 4
las probabilidades de las ramas que terminan en •, lo que da 15 + 15 = 23 . Finalmente,
lo pedido en (c) es una aplicaci ón del Teorema de Bayes. El resultado es 53 , y los
detalles se dejan al lector como ejercicio.

2.6.4 Relaci o´n entre tablas y a´rboles

Hay una correspondencia uno a uno entre el conjunto de ramas, el conjunto de nodos terminales,
el conjunto de sucesos Ai ∩ Bj , y el conjunto X × Y. Esto indica que se puede elegir Ω como el
conjunto de ramas del árbol o como el conjunto de nodos terminales. Si se obtiene la probabili-
dad de cada rama por multiplicaci ón, y se organizan estos productos en la tabla de probabilidades
conjuntas, se puede obtener los m árgenes. El margen inferior entrega las probabilidades buscadas,
mientras que los n úmeros en el margen derecho deben coincidir con los valores P (A i ), que son un
dato del problema.
A partir de la tabla de probabilidades conjuntas, el margen derecho entrega las probabilidades
de los nodos primarios. Dividiendo la probabilidad de cada celda por el n úmero correspondiente en
esta marginal se encuentran las probabilidades de los arcos que conectan un nodo primario con uno
secundario.

Ejemplo 2.6.6 En el Ejemplo 2.6.5, sean X e Y el color de las fichas extraidas la


primera y segunda vez, respectivamente. Se tiene entonces que X = Y = {b, n}, y las
probabilidades conjuntas se obtienen de efectuar la multiplicaci ón en cada rama:

Y =n Y =b Total
4
X=n 6 × 35 = 12
30
4
6 × 25 = 30
8 2
3
2
X=b 6 × 45 = 30
8 2
6
1
× 5 = 302 1
3
2 1
Total 3 3 1

La probabilidad de un suceso cualquiera que depende de las variables X e Y se puede calcular


en dos pasos:

1. Identificar las ramas favorables, i.e. aquellas para las cuales el suceso ocurre.

2. Multiplicar los n úmeros de los arcos de estas ramas para obtener la probabilidad de cada rama
favorable.

3. Sumar las probabilidades del punto anterior.

Si lo que se desea es obtener la distribuci ón marginal de Y , entonces:

1. Multiplicar los n úmeros de los arcos de estas ramas para obtener la probabilidad de cada
rama.

2. Sumar las probabilidades de todas las ramas con nodo terminal y.

Aravena, del Pino, Quintana: PROBABILIDADES 49


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Ejemplo 2.6.7 Retomamos ac á el Ejemplo 2.2.1 de las tres cartas. Mostramos que el
problema se puede tambi én resolver aplicando el Teorema de Bayes. Sea X el n úmero
de la carta, y sea Y = b o Y = n seg ún sea blanco o negro el color mostrado. El árbol
con ramas (x, y) tiene 6 ramas, aunque 2 de ellas tienen probabilidad nula.

Rama pX (x) pY |X (y|x) pX,Y (x, y)


1 1
1b 3 1 3
1
1n 3 0 0
1
2b 3 0 0
1 1
2n 3 1 3
1 1 1
3b 3 2 6
1 1 1
3n 3 2 6

Organizando los valores de la última columna se obtiene la funci ón de probabilidad


conjunta de X e Y :
x=1 x=2 x=3
1 1
y=b 3 0 6
1 1
y=n 0 3 6
y de aquı́ la tabla de funciones de probabilidad condicional de X dado Y = y:

y pX|Y (1|y) pX|Y (2|y) pX|Y (3|y)


2 1
b 3 0 3
1 2
n 0 3 3

Ejemplo 2.6.8 Suponga que en el Ejemplo 2.6.2 se han obtenido dos caras. Calcu-
le la funci ón de probabilidad del n úmero que sali ó en el dado, condicional en esta
informaci ón.

Rama Prob. marginal Prob. condicional Producto


1
X = 1, Y = 3 6 0 0
1
X = 2, Y = 3 6 0 0
1
X = 3, Y = 4 6 0 0
1 1 4
X = 4, Y = 4 6 16 64
1 5 10
X = 5, Y = 4 6 32 64
1 15 15
X = 6, Y = 4 6 64 64
La funci ón de probabilidad condicional es proporcional a la última columna. Omitien-
do puntos de probabilidad nula se tiene:

x 4 5 6
4 10 15
pX|Y (x|4) 29 29 29

Aravena, del Pino, Quintana: PROBABILIDADES 50


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

2.7 Experimentos multiet ápicos

2.7.1 C a´lculo de probabilidades conjuntas

Sea Xi la variable que representa el resultado potencial de la i– ésima etapa, y sea Xi el conjunto
de mi valores posibles de esta variable. Es conveniente escribir el resultado en la forma x =
(x1 , x2 , . . . , xk ) ∈ X = X1 × X2 × · · · × Xk . El n úmero total de resultados,
k
Y
card (S) = m = mi ,
i=1

puede ser muy grande, tornando inviable una asignaci ón directa de la probabilidad para cada x.
Por ejemplo, si se lanza una moneda 100 veces, el n úmero de resultados posibles asciende a la
astron ómica cifra de 2100 . Consideremos la descripci ón secuencial:
Etapa 1. Se realiza experimento E0 , obteniéndose X1 = x1 .
Etapa 2. Se realiza experimento Ex1 , obteniéndose X2 = x2 .
.. ..
. .
Etapa r. Se realiza experimento Ex1 x2 ···xr−1 , obteniéndose Xr = xr .
.. ..
. .
Etapa k. Se realiza experimento Ex1 x2 ···xk−1 , obteniéndose Xk = xk .
Para r > 0 usamos la notaci ón xr = (x1 , x2 , . . . , xr ) y X r = (X1 , X2 , . . . , Xr ), de modo que
P (Xr = xr |Xj = xj , j < r) = P (Xr = xr |X r−1 = xr−1 ). Considerando a xr−1 como el
resultado de una primera macro-etapa, la funci ón de probabilidad sobre el espacio muestral asociado
con Exr−1 coincide con las funci ón probabilidad condicional de (Xr |X r−1 = xr−1 ).

Teorema 2.7.1 Sean X1 , X2 , . . . variables aleatorias. Sea α1 = β1 = P (X1 = x1 ) y


αr = P (Xr = xr |X r−1 = xr−1 ), βr = P (X r = xr ).
Entonces
βr = βr−1 αr
r
Y (2.7.1)
βr = αi , r = 1, 2, . . .
i=1

Demostraci o´n: La segunda igualdad en (2.7.1) se obtiene aplicando la primera recursivamente y


α1 = β1 . La primera es consecuencia directa de la definici ón de probabilidad condicional:
αr = P (Xr = xr |X r−1 = xr−1 )
= P (Xr = xr , X r−1 = xr−1 |X r−1 = xr−1 )/P (X r−1 = xr−1 )
= P (X r = xr )/P (X r−1 = xr−1 )
βr
= . 
βr−1

Observaciones:

Aravena, del Pino, Quintana: PROBABILIDADES 51


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

• Si el resultado x se interpreta como la rama de un árbol que pasa por los nodos x1 , x2 , . . ., la
probabilidad αr = P (Xr = xr |X r−1 = xr−1 ) se asigna al arco que une a xr−1 con xr . Ella
corresponde a la probabilidad del resultado xr en el experimento Exr−1 .
• Si el suceso Xi = xi se reemplaza por un suceso cualquiera Ai , (2.7.1) se satisface con
α1 = β1 = P (A1 ) y
r−1
\ r
\
αr = P (Ar | Ai ), βr = P ( Ai ).
i=1 i=1

Ejemplo 2.7.1 Para 4 variables X1 , X2 , X3 y X4 , (2.7.1) genera las tres igualdades:


P (X1 = x1 , X2 = x2 ) = P (X1 = x1 )P (X2 = x2 |X1 = x1 )

P (X1 = x1 , X2 = x2 , X3 = x3 ) = P (X1 = x1 , X2 = x2 )
×P (X3 = x3 |X1 = x1 , X2 = x2 )

P (X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 ) = P (X1 = x1 )
× P (X2 = x2 |X1 = x1 ) × P (X3 = x3 |X1 = x1 , X2 = x2 )
× P (X4 = x4 |X1 = x1 , X2 = x2 , X3 = x3 )

A continuaci ón, mencionamos varias representaciones simb ólicas de estas igualdades.


La estructura b ásica es clara, pero hay que indicar de alguna manera el orden de las
variables o sucesos.
• En términos de las variables, escribimos
(X1 X2 ) = (X1 )(X2 |X1 )
(X1 X2 X3 ) = (X1 )(X2 |X1 )(X3 |X1 X2 )
(X1 X2 X3 X4 ) = (X1 )(X2 |X1 )(X3 |X1 X2 )(X4 |X1 X2 X3 )

• Eliminando sı́mbolos redundantes, esto se simplifica a


(12) = (1)(2|1)
(123) = (1)(2|1)(3|12)
(1234) = (1)(2|1)(3|12)(4|123)

• Para cuatro sucesos A, B, C, D podemos escribir


(CB) = (C)(B|C)
(CBD) = (C)(B|C)(D|CB)
(CBDA) = (C)(B|C)(D|CB)(A|CBD).

La segunda ecuaci ón, por ejemplo, representa la igualdad


P (C ∩ B ∩ D) = P (C)P (B|C)P (D|C ∩ B).

Aravena, del Pino, Quintana: PROBABILIDADES 52


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Ejemplo 2.7.2 Ilustraremos las relaciones entre diversas funciones de probabilidad


asociadas con tres variables aleatorias. En primer lugar, mostramos la notaci ón a través
de algunos ejemplos:

P (X = x, Y = y, Z = z) = pX,Y,Z (x, y, z)
P (X = x, Y = y) = pX,Y (x, y)
P (X = x) = pX (x)
P (Y = y|X = x) = pY |X (y|x)
P (Z = z|X = x, Y = y) = pZ|X,Y (z|x, y)
P (Y = y, Z = z|X = x) = pY,Z|X (y, z|x)

El axioma de aditividad permite establecer relaciones usando sumas con respecto a los
argumentos adecuados en las funciones de probabilidad. Por ejemplo:

pX,Y (x, y) = pX,Y,Z (x, y, +)


pX (x) = pX,Y (x, +)
= pX,Y,Z (x, +, +)

La aditividad y el axioma de normalizaci ón (probabilidad del espacio muestral es 1)


producen relaciones como

pX,Y,Z (+, +, +) = 1
pX,Y (+, +) = 1
pX (+) = 1

Aplicando el axioma de normalizaci ón a las funciones de probabilidad condicionales


se obtienen igualdades como

pY |X (+|x) = 1
pZ|X,Y (+|x, y) = 1
pY,Z|X (y, +|x) = pY |X (y|x)
pY,Z|X (+, +|x) = 1

Ejemplo 2.7.3 Se extraen 3 fichas sin reemplazo de una urna con 4 fichas blancas y 5
fichas negras. Definamos las variables

X = x (color 1era ficha)

Y = y (color 2da ficha)


Z = z (color 3era ficha)
Interesa calcular p(b, b, n).
Experimento E0 : Extraer ficha de la urna [4b,5n]. P(blanca)= 94 . Experimento Eb :
Extraer ficha de la urna [3b,5n]. P(blanca)= 38 . Experimento Ebb : Extraer ficha de la
urna [2b,5n]. P(negra)= 75 .

Aravena, del Pino, Quintana: PROBABILIDADES 53


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Las probabilidades indicadas corresponden a la proporci ón de fichas blancas en la urna


que se indica. La rama del árbol
4 3 5
9 8 7

• •b •b •n
60 4 3 5
tiene asociada la probabilidad =
504 9 × × 8 7. En términos de funciones de probabi-
lidad, los n úmeros de los arcos son
4 3 5
pX (b) = , pY |X (b|b) = , pZ|X,Y (n|b, b) = .
9 8 7

2.7.2 Dos casos particulares

La definici ón de las probabilidades usando la representaci ón multietápica no representa, en general,
un ahorro en el n úmero de probabilidades independientes que hay que especificar. Para calcular este
n úmero, hay que recordar las igualdades de suma total igual a 1. Denotemos por M r a m1 × · · · ×
mr−1 × mr . Como el n úmero total de arreglos x es Mk , una asignaci ón directa requiere Mk − 1
probabilidades independientes. Utilizando el lenguaje de árboles, hay (m1 − 1) probabilidades
independientes para los m1 arcos que emanan del origen. De cada nodo de orden r − 1, que
representa a xr−1 , emergen mr arcos, lo que requiere especificar mr − 1 probabilidades, para cada
uno de Mr−1 nodos, es decir, Mr−1 (mr − 1) = Mr − Mr−1 . Sumando de r = 1 hasta r = k se
obtiene una suma telesc ópica, que coincide con Mk − 1.
La representaci ón multietápica es particularmente atractiva cuando en el c álculo de las pro-
babilidades αr , no es necesario especificar toda la historia pasada. En esta secci ón describimos
brevemente los casos m ás importantes. El primero se retoma en la pr óxima secci ón desde otro
punto de vista.

• Irrelevancia de toda la historia. En este caso αr depende s ólo de xr , de modo que podemos
escribir αr (xr ). La probabilidad asociada a un arco depende, entonces, s ólo del nodo de
llegada. Se requiere especificar un total de

(m1 − 1) + · · · + (mk − 1)

probabilidades. Por ejemplo,

P (X1 = 1, X2 = 3, X3 = 4, X4 = 3, X5 = 2) = α1 (1)α2 (3)α3 (4)α4 (3)α5 (2).

En la pr óxima secci ón veremos que el supuesto de historia irrelevante coincide con el de
independencia de variables aleatorias. Si X1 , X2 , . . . tienen la misma distribuci ón, basta
especificar m1 − 1 probabilidades.

• La historia influye s o´lo a trav´ ´


e s del valor de la ultima variable. Esto quiere decir que
αr depende s ólo de xr−1 y xr , para r > 1, de modo que escribimos α1 (x1 ) y αr (xr−1 , xr ),
r > 1. Por ejemplo,

P (X1=1,X2=3,X3=4,X4=3,X5=2) = α1 (1)α2 (1, 3)α3 (3, 4)α4 (4, 3)α5 (3, 2).

Aravena, del Pino, Quintana: PROBABILIDADES 54


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

La propiedad descrita ac á es conocida como propiedad markoviana, t érmino que deriva del
apellido de un eminente matem ático ruso. Si se identifica a r como una versi ón discreta del
tiempo y a xr como el estado de un sistema en el tiempo r, las funciones α r determinan el
mecanismo de evoluci ón probabilı́stica del sistema. Lo m ás habitual es que el conjunto Xr
de valores para xr se pueda elegir como el mismo para todo r. Si denotamos por S a este
conjunto com ún, decimos que S es el espacio de estados.
Si card (S) = m, la funci ón α1 está determinada por m − 1 probabilidades, y lo propio
ocurre con cada funci ón αr (xr−1 , ·). En total se requiere especificar (m−1)+(k−1)(m(m−
1)) = (m − 1)(1 + m(k − 1)) n úmeros. Un caso muy importante es el de un proceso
homogéneo, en el sentido que los αr son todos idénticos de r = 2, en adelante. Basta
entonces especificar α1 y α2 , lo que da m2 − 1 constantes en total.

Si las k variables tienen p valores cada una, el n úmero de probabilidades independientes, para varios
casos de interés, se muestra en la siguiente tabla:

Sin restricciones: pk − 1
Caso markoviano: (p − 1) + p(p − 1)(k − 1)
Caso markoviano homog éneo: p2 − 1
Independencia: k(p − 1)
Independencia y homogeneidad: p−1

Para p = 2 estos n úmeros se reducen a 2k − 1, (2k − 1), 3, k y 1 respectivamente.

Ejemplo 2.7.4 Representaci o´n Markoviana del Problema de Urnas: La probabili-


dad que en la r- ésima etapa la ficha extraida sea de un color determinado no depende
s ólo del color de la última ficha extraida. Sin embargo, podemos definir el estado del
sistema para que el modelo sea markoviano. Una elecci ón natural es la composici ón
de la urna inmediatamente antes de extraer una ficha, o sea, el n úmero de fichas de
cada color. Sea, entonces, yi = (yib , yin ), con yib = N◦ de fichas blancas e yin =
N◦ de fichas negras, despu és de la i-ésima extracci ón. Sea xi = 1 si la i-ésima ficha
es blanca y xi = 0 si ella es negra. Los valores de las variables Xi y la composici ón
inicial de la urna determinan la evoluci ón de su contenido.
Supongamos que la composici ón inicial es de 4 fichas blancas y 5 negras, es decir,
y0 = (4, 5). Si se extraen dos fichas blancas seguidas de una negra, X 1 = 1, X2 = 1,
X3 = 0, de donde y1 = (3, 5), y2 = (2, 5) e y3 = (2, 4). En el caso del muestreo sin
reposici ón, el n úmero de fichas decrece en 1 con cada extracci ón. Por esta raz ón, se
puede también elegir como estado del sistema a un elemento del par y i . Esto facilita
la escritura, aunque hace m ás difı́cil la comprensi ón de la notaci ón. La propiedad
markoviana implica

P (y = (3, 2, 2)) = P (Y1b = 3)P (Y2b = 2|Y1b = 3)P (Y3b = 2|Y2b = 2).

Condicional en los sucesos a la derecha de |, podemos expresar los sucesos a la izquier-

Aravena, del Pino, Quintana: PROBABILIDADES 55


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

da de | en funci ón de los Xi :

P (y = (3, 2, 2)) = P (X1 = 1) × P (X2 = 1|Y1b = 3) × P (X3 = 0|Y2b = 2)


= P (X1 = 1|Y0 = (4, 5)) × P (X2 = 1|Y1 = (3, 5))
×P (X3 = 0|Y2 = (2, 5))
4 3 5
= × × .
9 8 7

Hay 8 trayectorias posibles y se puede calcular la probabilidad de cada una usando una
regla multiplicativa, al igual que en el caso particular descrito. Se deja el lector dibujar
el árbol correspondiente, asignando las probabilidades a cada arco, y obteniendo las
probabilidades de las ramas por multiplicaci ón.

2.8 Noci ón general de independencia

2.8.1 Motivaci o´n

Si se lanzan 5 dados (equilibrados o no), la intuici ón indica que lo que muestra el tercer dado no
afecta, en absoluto, como se comporta el quinto. Tampoco pareciera que lo que muestran los dos
primeros influirá sobre la suma de los n úmeros de los otros tres. En general, no parece haber
asociaci ón entre los resultados de los cinco dados. Esta propiedad se parece a la de independencia,
pero la definici ón formal (2.3.4) se queda muy corta. Es fundamental generalizarla a m ás de dos
sucesos. El ejemplo de los dados sugiere la idea de independencia de variables. En efecto, el
lanzamiento de 5 dados se puede ver como un experimento con 5 etapas, correspondiendo la i-
ésima al lanzamiento del i- ésimo dado. El resultado natural de esta etapa es el n úmero xi que
muestra el dado, al que consideramos como el valor o realizaci ón de una variable Xi .
Los sucesos que dependen s ólo del resultado del i- ésimo dado son aquellos expresables en
términos de la variable Xi . Aquellos que dependen s ólo de los dados i1 , i2 , . . . , ip son los expresa-
bles en términos de (Xi , i ∈ {i1 , i2 , . . . , ip }). Por ejemplo, el suceso A= obtener el mismo n úmero
en los dados 4 y 5 es X4 = X5 ; el suceso B= La suma de los n úmeros de los dados 3, 4 y 5 es
mayor que 10 se escribe como X3 + X4 + X5 > 10; el suceso C: El n úmero del segundo dado es
mayor que el del primero se escribe como X2 − X1 > 0, etc.
Intuitivamente, los sucesos B y C son independientes, pues dependen de conjuntos disjuntos de
variables, es decir, {X3 , X4 , X5 } ∩ {X1 , X2 } = ∅. El mismo argumento sugiere que X1 + X2 = 6,
X3 par, y X5 > X4 son sucesos independientes, pero a ún no hemos definido la independencia de
tres sucesos.
Los sucesos Xi = j se pueden representar por un subconjunto Aij , los que constituyen una par-
tici ón del espacio muestral Ω (conjunto que a ún no ha sido definido). Aquellos sucesos que depen-
den s ólo de la i-ésima etapa son expresables como uniones de algunos de los (A ij , j = 1, . . . , 6).
Para sucesos cualesquiera que dependan de los n úmeros que aparecen en los lanzamientos, ellos se

Aravena, del Pino, Quintana: PROBABILIDADES 56


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

pueden expresar como uniones finitas de los conjuntos


5
\
B(x) = Aixi ,
i=1

que representan a los sucesos elementales X = x.


Es claro que el lenguaje de variables es mucho m ás atractivo que el de sucesos expresados como
subconjuntos de un gran espacio Ω. Lo que haremos es proponer definiciones v álidas para variables
y luego mostrar como se recuperan las definiciones tradicionales de sucesos independientes.

2.8.2 Definiciones y teoremas

o n 2.8.1 Las variables discretas X1 , . . . , Xk son independientes si


Definici´
k
Y
P (X1 ∈ A1 , . . . , Xk ∈ Ak ) = P (Xi ∈ Ai ), para todo Ai , i = 1, . . . , k. (2.8.2)
i=1

Las variables aleatorias en la sucesi ón X1 , X2 , . . . son independientes si para cualquier k finito,
X1 , . . . , Xk son independientes.

Teorema 2.8.1 (Factorizaci o´n) Si X1 , . . . , Xk son variables discretas, la condici ón


k
Y
P (X1 = x1 , . . . , Xk = xk ) = P (Xi = xi ), para todo xi , i = 1, . . . , k, (2.8.3)
i=1

es necesaria y suficiente para la independencia de las variables X 1 , . . . , Xk .

Definici´o n 2.8.2 Las particiones generadas por ciertas variables son independientes si estas varia-
bles lo son.

o n 2.8.3 Considere la partici ón generada por el suceso Ai , esto es, (Ai , A0i ) Entonces, los
Definici´
sucesos A1 , . . . , Ak son independientes si las particiones generadas por estos procesos lo son.

El supuesto de independencia es muy fuerte y, a la vez, difı́cil de verificar. Sin embargo, resulta
muy atractivo su uso, al menos inicialmente, o para disminuir la complejidad de los modelos. Por
ejemplo, la independencia de los lanzamientos de tres dados permite especificar 15 probabilidades
en vez de 215. En efecto, si

P(1er dado muestra i) = αi


P(2◦ dado muestra j) = βj
P(3er dado muestra k) = γk ,

entonces P (X1 = i, X2 = j, X3 = k) = αi βj γk . Si los dados son parecidos, o si en vez de tres


dados se trata de tres lanzamientos del mismo dada, αi = βi = γi y s ólo se requiere asignar 5
n úmeros.

Aravena, del Pino, Quintana: PROBABILIDADES 57


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

La independencia simplifica enormemente la obtenci ón de la funci ón de probabilidad conjunta.


Por ejemplo, considere n monedas cargadas y codifique los resultados usando x i = 1 para Cara y
xi = 0 para Sello. El resultado x = (x1 , . . . , xn ) está contenido en X = {0, 1}n , cuya cardinalidad
es n. Denotemos por pi la probabilidad que la i– ésima moneda sea Cara y por qi la probabilidad que
ella sea Sello. Por supuesto pi + qi = 1 para i = 1, . . . , n. El supuesto de independencia implica
que pi , i = 1, . . . , n, determinan la funci ón probabilidad. Adem ás, es muy sencillo escribir la
probabilidad de cualquier resultado. Por ejemplo, P ({(1, 1, 0, 0)}) = p 1 p2 q3 q4 . De acá se obtiene,
mediante una suma, la probabilidad de cualquier resultado. Por ejemplo, la probabilidad de obtener
exactamente 1 cara al lanzar las dos primeras monedas es la probabilidad del suceso {(1, 0), (0, 1)},
cuyos elementos tienen probabilidades p1 q2 y q1 p2 . La probabilidad buscada es p1 q2 + q1 p2 .
El ahorro de n úmeros es espectacular si las monedas son homog éneas, o sea, p1 = · · · = pn =
p. Basta el n úmero 0 < p < 1 para determinar las probabilidades de todos los resultados (para
n = 20 ya hay m ás de un mill ón de éstos). La probabilidad de obtener exactamente 1 cara se
reduce ahora a 2p(1 − p).

2.8.3 Resultados adicionales para dos variables

Para dos variables X e Y , la condici ón (2.8.3) se reduce a

P (X = x, Y = y) = P (X = x)P (Y = y) para todo x, y. (2.8.4)

Cuando x e y tienen dos valores cada uno, digamos 1 y 2, se tiene la situaci ón especial en que
A2 = A01 y B2 = B10 . Escribiendo A1 = A y A2 = B se obtiene que las cuatro condiciones (2.8.4)
son
P (A ∩ B) = P (A)P (B)
P (A ∩ B 0 ) = P (A)P (B 0 )
(2.8.5)
P (A0 ∩ B) = P (A0 )P (B)
P (A0 ∩ B 0 ) = P (A0 )P (B 0 ).
Por la Definici ón 2.3.1, estas condiciones equivalen a

A y B son independientes.
A y B 0 son independientes.
(2.8.6)
A0 y B son independientes.
A0 y B 0 son independientes.

En términos de la tabla de probabilidades conjuntas, la independencia equivale a que la probabilidad


de una celda es el producto de los valores marginales, es decir, que sea una tabla de multiplicaci ón.
Para dos particiones (A, A0 ) y (B, B 0 ), una tabla general (sin imponer independencia) es

B B0
A P (A ∩ B) P (A ∩ B 0 ) P (A)
A0 P (A0 ∩ B) P (A0 ∩ B 0 ) P (A0 )
P (B) P (B 0 ) 1

En general hay 3 probabilidades conjuntas que se pueden elegir de manera arbitraria, sujeto s ólo a
la positividad y la suma igual a 1. Para m árgenes fijos, cualquier probabilidad conjunta determina

Aravena, del Pino, Quintana: PROBABILIDADES 58


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

todas las demás. Escribiendo P (A) = a, P (B) = b y P (A ∩ B) = c, la tabla general es

A c a
A0 1−a
b 1−b 1

Si c = ab, un sencillo c álculo algebraico permite completar la tabla, obteniendo la tabla de multi-
plicaci ón
A ab a(1 − b) a
A0 (1 − a)b (1 − a)(1 − b)
b 1−b 1
Esto muestra que la independencia de A y B en (2.8.6) implica la independencia de los otros tres
pares de sucesos. Por simetrı́a, es claro que la independencia de cualquier par implica la de los otros
tres. Este hecho se puede expresar sucintamente como un teorema:

Teorema 2.8.2 Las definiciones 2.3.1 y 2.8.3 son equivalentes.

Generalicemos ahora la equivalencia de (2.3.1), (2.3.2) y (2.3.3) a dos particiones o dos varia-
bles.

Teorema 2.8.3 Las variables discretas X e Y son independientes si

P (Y = y|X = x) no depende de x, (2.8.7)

o si
P (Y = y|X = x) = P (Y = y) para todo x e y. (2.8.8)

Demostraci o´n: La condici ón (2.8.8) es inmediatamente equivalente al Teorema de Factorizaci ón.
Además ella implica (2.8.7). Por el Teorema de Probabilidades Totales, P (Y = y) es un promedio
ponderado de los P (Y = y|X = x). Luego (2.8.7) implica (2.8.8), lo que concluye la demostra-
ci ón.
En términos de árbol, (2.8.7) dice que el n úmero asignado al arco xy depende s ólo del nodo de
llegada.

Ejemplo 2.8.1 Consideremos las siguientes tablas correspondientes a variables alea-


torias independientes X e Y :

x 0 1 2 y 0 1
PX (x) 0.5 0.3 0.2 PY (y) 0.4 0.6

Entonces la tabla conjunta es

Aravena, del Pino, Quintana: PROBABILIDADES 59


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

x/y 0 1 PX (x)
0 0.20 0.30 0.5
1 0.12 0.18 0.3
2 0.08 0.12 0.2
PY (y) 0.4 0.6 1

Las probabilidades condicionales de inter és se obtienen como cuocientes entre las pro-
babilidades conjuntas y marginales correspondientes. Por ejemplo

0.12
PY |X (1|2) = 0.2 = 0.6
0.12
PX|Y (2|1) = 0.6 = 0.2
0.08
PX|Y (2|0) = 0.4 = 0.2

Como era de esperar, debido a la independencia, dichas probabilidades condicionales


coinciden con las no condicionales.

El siguiente resultado muestra c ómo transformaciones de grupos disjuntos de variables aleato-


rias independientes resulta en variables aleatorias independientes, sin importar las transformaciones
empleadas. Si X1 , . . . , X5 representan los resultados de 5 lanzamientos independientes de un da-
do, el siguiente teorema justifica algunas aseveraciones intuitivas hechas sobre la independencia de
ciertos sucesos que dependen de conjuntos disjuntos de dados.

Teorema 2.8.4 Sean X1 , . . . , Xm , Xm+1 , . . . , Xm+n independientes, y defina las variables aleato-
rias Y, Z mediante
Y = g(X1 , . . . , Xm ),
Z = h(Xm+1 , . . . , Xm+n ),
donde g y h son funciones de m y n argumentos respectivamente. Entonces Y y Z son tambi én
independientes.

Para concluir la secci ón, enunciamos, sin demostraci ón, una caracterizaci ón alternativa de inde-
pendencia de sucesos. Ella es la m ás popular en los textos de probabilidad, pero tiene la desventaja
de no extenderse naturalmente a las variables aleatorias, que es el m ás usado en las aplicaciones
usuales.

Teorema 2.8.5 Sea M = {1, . . . , k}. Los conjuntos (A1 , . . . , Ak ) son independientes, seg ún la
Definici ón 2.8.3, si y s ólo si se cumplen las siguientes igualdades
!
\ Y
P Ai = P (Ai ) , para todo E ⊆ M , con card E > 1. (2.8.9)
i∈E i∈E

Aravena, del Pino, Quintana: PROBABILIDADES 60


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

2.9 Aplicaciones de independencia

2.9.1 Demostraci o´n de equiprobabilidad

Definici´o n 2.9.1 Una variable aleatoria tiene distribuci ón de probabilidad uniforme sobre el con-
junto finito Ω si su funci ón de probabilidad es constante. Se dice tambi én que X se distribuye
uniformemente sobre Ω.

Teorema 2.9.1 Si un experimento secuencial tiene etapas independientes y los resultados de ca-
da etapa son equiprobables, entonces los resultados son equiprobables. En otras palabras, si
Xi tiene distribuci ón uniforme sobre Ωi y X1 , X2 , . . . , Xk son independientes, entonces X =
(X1 , X2 , . . . , Xk ) se distribuye uniformemente sobre Ω1 × Ω2 × · · · × Ωk .

Demostraci o´n: Inmediata por el Teorema 2.8.1 (teorema de factorizaci ón).


El modelo de urna, con extracciones ordenadas sin reposici ón, es un caso particular con ni = m
para todo i. El caso de un dado equilibrado corresponde a m = 6 y el de una moneda equilibrada a
m = 2.

2.9.2 Aplicaci o´n a confiabilidad

Ejemplo 2.9.1 En el circuito que se indica en el diagrama siguiente



I1



A I3 B



I2

interesa calcular la probabilidad

π = P (pasa corriente entre A y B).

Este suceso depende del estado de los tres interruptores. Suponiendo independencia
entre los interruptores, basta especificar la probabilidad p i que el interruptor Ii deje
pasar la corriente. El resto es un simple c álculo algebraico. Sea Xi = 1 si el interruptor
Ii deja pasar la corriente y Xi = 0 en caso contrario. El resultado del experimento
puede tomarse como (x1 , x2 , x3 ) y el comportamiento probabilı́stico equivale a lanzar
3 monedas cargadas y anotar 1 o 0 seg ún salga cara o sello. La lista de resultados y sus

correspondientes probabilidades se indica a continuaci ón. La presencia del signo en

Aravena, del Pino, Quintana: PROBABILIDADES 61


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

la última columna indica que la fila correspondiente identifica un resultado favorable


con respecto al suceso de inter és, es decir que pasa corriente entre A y B.

X1 X2 X3 Probabilidad
0 0 0 q 1 q2 q3
0 0 1 q 1 q2 p3
0 1 0 q 1 p2 q3

0 1 1 q 1 p2 p3
1 0 0 p 1 q2 q3

1 0 1 p 1 q2 p3
1 1 0 p 1 p2 q3

1 1 1 p 1 p2 p3

La probabilidad buscada se obtiene sumando todas las filas marcadas por :

π = q1 p2 p3 + p1 q2 p3 + p1 p2 p3 = αp3 ,

con α = (q1 p2 + p1 p2 + q1 q2 ). Pero α debe coincidir con la probabilidad que el


subsistema formado por los dos primeros interruptores deje pasar la corriente. Por otra
parte, la única forma que no pase corriente es que ni I1 ni I2 dejen que esto ocurra, lo
que por independencia tiene probabilidad q2 q3 . Finalmente α = 1 − q2 q3 , lo que se
puede verificar algebr áicamente a partir de la identidad (p1 + q1 )(p2 + q2 ) = 1.

2.9.3 Aplicaci o´n a simulaci o´n

´
2.9.3.1 Tablas de n umeros aleatorios

Un espacio muestral Ω de cardinalidad N est á en correspondencia biunı́voca con {1, 2, . . . , N }


y con {0, 1, 2, . . . , N − 1}. Cuando los elementos de Ω son equiprobables, la probabilidad de
cualquier suceso es una fracci ón con denominador N . Por conveniencia pr áctica, N = 10r es el
caso más com ún debido a que el sistema num érico decimal tiene base 10.
Sea U una variable aleatoria con funci ón de probabilidad constante sobre Ω. Fı́sicamente, U
es representable por la ficha extraida de una urna con N fichas. El muestreo con reposici ón desde
tal urna genera una sucesi ón de variables U1 , U2 , . . . independientes e id énticamente distribuidas
(i.i.d.), o sea, Ui y Uj tienen la misma distribuci ón, para todo i 6= j. Cuando Ω es un conjunto
numérico, decimos que los Ui son n úmeros aleatorios. Existen tablas con realizaciones de esta su-
cesi ón para U1 , U2 , . . . , UM , donde M es un n úmero grande. La mayorı́a de estas tablas considera
Ω = {0, 1, 2, . . . , 9}, agrupando los n úmeros de a 5. Esto facilita la lectura y tiene una ventaja
adicional que explicamos a continuaci ón.
Si interpretamos al arreglo de 5 n úmeros como un n úmero de 5 cifras, o sea Y1 = 104 U1 +
103 U 2
2 + 10 U3 + 10U4 + U5 , se verifica que Y1 tiene una distribuci ón uniforme entre 0 y 99999.
En efecto, el Teorema 2.9.1 muestra que los valores u = (u 1 , u2 , u3 , u4 , u5 ) del vector aleatorio
(U1 , U2 , U3 , U4 , U5 ) son equiprobables y u est á en correspondencia biunı́voca con y1 = 104 u1 +
103 u2 +102 u3 +10u4 +u5 . Anotando Yt+1 = 104 U5t+1 +103 U5t+2 +102 U5t+3 +10U5t+4 +U5t+5 ,

Aravena, del Pino, Quintana: PROBABILIDADES 62


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

t = 0, 1, 2, . . . se obtiene una sucesi ón Y1 , Y2 , . . . de variables aleatorias uniformemente distribuidas


entre 0 y 99999.
La independencia de los Ui y el Teorema 2.8.4 implican que Y1 , Y2 , . . . son i.i.d. Por otra parte,
Zi = 10−5 Yi tiene resultados equiprobables 0.00000, 0.00001, . . . , 0.99998, 0.99999. Esto difiere
muy poco de la elecci ón de un punto al azar en un segmento recto de largo 1, el que se modela
por una variable continua V con valores en [0, 1]. Si se dispone de V y se trunca el n úmero a 5
decimales se obtiene U y |U − V | ≤ 0.00001.
Este procedimiento de agrupaci ón de cifras permite usar una urna con 10 fichas en vez de una
urna con 105 fichas, un ahorro substancial. Si la urna tiene fichas numeradas de 1 hasta N , y ellas se
agrupan en arreglos de r fichas cada uno (N = 9, r = 5 en el caso reci én analizado), se obtiene una
sucesi ón i.i.d. de variables aleatorias uniformemente distribuidas sobre {0, 1, 2, . . . , N r − 1}. El
caso N = 2 es especialmente importante a nivel computacional. Adem ás, en este caso, U1 , U2 , . . .
pueden generarse fı́sicamente lanzando una moneda.

2.9.3.2 Simulaci o´n de variables i.i.d.

En la Secci ón 1.3.3 vimos c ómo simular cualquier distribuci ón de probabilidad finita. En el lengua-
je de variables aleatorias, se dispone de U con funci ón de probabilidad constante sobre el conjunto
Ω de cardinalidad N . Fı́sicamente, U es representable por la ficha extraida de una urna de N fi-
chas y se genera la variable aleatoria X mediante X = g(U ). La funci ón g se define identificando
{u/g(u) = x} con el conjunto de fichas para las que X = x. El muestreo con reposici ón genera las
sucesiones de variables independientes U1 , U2 , . . . y X1 , X2 , . . .. La variable Xi se obtiene de Ui
por el mismo procedimiento usado para generar X a partir de U , es decir, X i = g(Ui ). La indepen-
dencia de los Ui y el Teorema 2.8.4 implican que X1 , X2 , . . . son independientes. Como Ui y Uj
tienen la misma distribuci ón, lo propio ocurre con Xi y Xj , de modo que las variables X1 , X2 , . . .
son i.i.d.
Hemos demostrado ası́ que se puede simular variables aleatorias finitas i.i.d. a partir de n úmeros
aleatorios o de lanzamientos de una moneda equilibrada.

Ejemplo 2.9.2 Simular una muestra aleatoria de tama ño 200, con reemplazo, de una
poblaci ón subdividida en categorı́as A, B, C, D, E, F , con las proporciones indivi-
duales y acumuladas dadas en la siguiente tabla:

Categorı́a Prob. categ. Prob. acum. 100 × Prob. acum.


A 0.06 0.06 6
B 0.12 0.18 18
C 0.15 0.33 33
D 0.28 0.61 61
E 0.20 0.81 81
F 0.19 1.00 100

Se generan n úmeros al azar entre 00 y 99 usando una tabla de n úmeros aleatorios y se


hace la asignaci ón

Aravena, del Pino, Quintana: PROBABILIDADES 63


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

1-6 A
7-18 B
19-33 C
34-61 D
62-81 E
82-99, 00 F

Por ejemplo, si los 10 n úmeros obtenidos de la tabla fueran 72, 75, 28, 93, 64, 02, 15,
08, 54 y 18, se obtienen las letras que se indica:

72 75 28 93 64 02 15 08 54 18
E E C F E A A A D B

La simulaci ón da una muestra con 3 personas de la categorı́a A, 1 de la B, 1 de la C, 1


de la D, 3 de la E y 1 de la F.

Ejemplo 2.9.3 Hoy en dı́a las tablas de n úmeros aleatorios han sido reemplazadas
por programas computacionales, que pueden generar miles de n úmeros al azar en
fracciones de segundo. En vez de n úmeros enteros se generan decimales con un
cierto n úmero de dı́gitos. Si (Ti , i = 1, 2, . . .) son i.i.d. con distribuci ón uni-
forme en {0, 1, . . . , N − 1}, las variables Ui = TNi son uniformes en el conjunto
{0, N1 , . . . , NN−1 }. Si N = 10r , los elementos de este conjunto son los n úmeros re-
ales 0 ≤ ui < 1, redondeados hacia abajo con s ólo r dı́gitos. La variable Ui sa-
tisface la igualdad P (a ≤ U ≤ b) = b − a, con un excelente grado de aproxima-
ci ón. Los computadores y calculadoras cientı́ficas generan una sucesi ón U1 , U2 , . . .
de variables i.i.d. con distribuci ón uniforme en [0, 1], lo que significa que satisfacen
P (a ≤ Ui ≤ b) = b − a. El arte de la simulaci ón consiste en simular sistemas
probabilı́sticos más complejos usando un generador de variables uniformes.
A modo de ejemplo, para simular la muestra aleatoria del Ejemplo 2.9.2 usando un
generador de uniformes, una posible regla es:

Xi = A si 0 ≤ Ui ≤ 0.06
Xi = B si 0.06 < Ui ≤ 0.18
XI = C si 0.18 < Ui ≤ 0.33
Xi = D si 0.33 < Ui ≤ 0.61
Xi = E si 0.61 < Ui ≤ 0.81
Xi = F si 0.81 < Ui ≤ 1.00

Aravena, del Pino, Quintana: PROBABILIDADES 64


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

2.10 Problemas

1. Un dado se lanza dos veces, independientemente. Dado que los resultados de ambos lanza-
mientos fueron distintos, calcule la probabilidad condicional que

(a) al menos uno de los n úmeros fue 6.


(b) la suma de los n úmeros es 8.

2. En una pregunta con alternativas, la probabilidad que un alumno sepa la respuesta es p. Ha-
biendo m alternativas, si el alumno sabe la respuesta, responde correctamente con probabili-
dad 1; en caso contrario, el alumno escoge una respuesta al azar. Dado que el alumno dio la
respuesta correcta, ¿cu ál es la probabilidad que él haya sabido la respuesta?

3. Suponga que el n úmero de accidentes en un dı́a de semana cualquiera entre Lunes y Jueves
tiene la siguiente funci ón probabilidad: p(0) = 0.7, p(1) = 0.2, p(2) = 0.1. An álogamente,
de Viernes a Domingo estas probabilidades cambian a p(0) = 0.5, p(1) = 0.3, p(2) = 0.2.
Suponga que el n úmero de accidentes en dı́as distintos son independientes.

(a) Describa el espacio muestral adecuado para el problema y utilice la hip ótesis de inde-
pendencia para asignar la probabilidad de cada punto del espacio muestral.
(b) Calcule la probabilidad que el n úmero total de accidentes en una semana sea (i) Igual a
2. (ii) Al menos 2.

4. Un modelo probabilı́stico muy simple para estudiar el tiempo atmosf érico clasifica cada dı́a
como seco o h úmedo. Se supone luego que el tiempo de ma ñana será igual al de hoy con
probabilidad 0.8. Sabiendo que el dı́a 15 de Mayo fue seco:

(a) Asigne las probabilidades a cada uno de los 8 escenarios posibles para el tiempo en los
pr óximos 3 dı́as.
(b) Calcule la probabilidad que el segundo dı́a sea seco.
(c) Calcule la probabilidad que exactamente dos dı́as sean secos.

5. Dos deportistas disparan sucesivamente a un blanco. Las probabilidades de acertar en el


primer disparo son 0.4 y 0.5 respectivamente. Estas probabilidades se incrementan en 0.05
para cada uno, en los disparos sucesivos. ¿Cu ál es la probabilidad que el primer disparo haya
sido efectuado por el primer deportista dado que el blanco fue acertado en el quinto disparo?.

6. Considere una urna que contiene doce fichas de las cuales ocho son blancas. Una muestra de
cuatro fichas es elegida sin reemplazo.

(a) Calcule la probabilidad que la primera y la tercera ficha extraidas sean blancas.
(b) Calcule la probabilidad que exactamente tres de las fichas sean blancas.
(c) ¿Cuál es la probabilidad condicional que la primera y la tercera ficha extraidas sean
blancas, dado que la muestra contenı́a exactamente tres fichas blancas?.
(d) Repita lo anterior suponiendo que despu és de cada extracci ón la ficha se restituye a la
urna.

Aravena, del Pino, Quintana: PROBABILIDADES 65


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

7. Tres cajas A, B y C contienen instrumentos nacionales (N) e importados (I). La composici ón
de A, B y C es 2N y 4I, 8N y 4I, y 1N y 3I respectivamente. Se selecciona al azar un
instrumento de una caja elegida al azar.

(a) ¿Cuál es la probabilidad de obtener un instrumento nacional?.


(b) Si el instrumento seleccionado es nacional, calcule la probabilidad que provenga de la
caja A.

8. Con las mismas cajas del Problema 7, suponga que se selecciona un instrumento al azar de
cada una de las cajas y que exactamente dos de ellos resultan ser nacionales. ¿Cu ál es la
probabilidad que éste provenga de la caja A?.

9. Una compa ñı́a de seguros clasifica a las personas en una de tres categorı́as : bajo riesgo,
riesgo medio y alto riesgo. Sus registros indican que la probabilidad que las personas tengan
un accidente durante el a ño son 0.05, 0.15, 0.30, respectivamente. Si el 20% de la poblaci ón
es de bajo riesgo, el 50% de riesgo medio, y el 30% de alto riesgo, ¿cu ál es la proporci ón de
personas que tienen accidentes en un a ño fijo?. Si la p óliza tomada por A no tuvo accidentes
en 1992, ¿cu ál es la probabilidad que esta persona haya sido de bajo riesgo en ese a ño?.

10. Suponga que un dado se lanza una vez. Si N es el resultado del lanzamiento, entonces
P (N = i) = pi , i = 1, 2, 3, 4, 5, 6. Si N = i una moneda equilibrada se lanza i veces.
Encontrar la probabilidad condicional que N sea impar dado que se obtuvo al menos una
cara.
1
p + 7 p + 31 p
2 1 8 3 32 5
Resp : 1
p + p + 7 p + 15 p + 31 p + 63 p
3 .
2 1 4 2 8 3 16 4 32 5 64 6

11. Suponga que lanzamos una moneda n veces con probabilidad p de obtener una cara y q
de obtener un sello en cada lanzamiento. Suponga adem ás que todos los lanzamientos son
independientes. Sea Sn la variable aleatoria que cuenta el n úmero de caras obtenidas en los
n lanzamientos. Encuentre P (Sn ≥ 3|Sn ≥ 1).
1−q n −npq n−1 − 21 n(n−1)p2 q n−2
Resp : 1−q n .

12. Suponga que un dado equilibrado se lanza una vez. Si sale un n úmero impar, una moneda
honesta se lanza repetidamente; si sale un n úmero par una moneda sesgada con probabilidad
de obtener cara p 6= 21 se lanza repetidamente (los lanzamientos de la moneda son indepen-
dientes en cada caso). Si los n primeros resultados son caras, ¿cu ál es la probabilidad que
una moneda insesgada haya sido usada?.
1
2n+1
Resp : 1
+ 21 pn
.
2n+1

13. Suponga se tiene una urna con bolitas blancas y negras, sumando un total de n bolitas, y
se extraen bolitas con reemplazo de dicha urna. Si se hacen k extracciones y se observan k
bolitas blancas, ¿cu ál es la probabilidad que la urna tenga s ólo bolitas blancas?

14. La probabilidad que un pan de pascua contenga exactamente k pasas est á dada por pk =
λk e−λ
k! , k = 0, 1, 2, . . .. Suponga que por cada pasa que contiene este pan de pascua, una
moneda con probabilidad de cara p se lanza. Si sale cara, Ud. se come la pasa, y si sale

Aravena, del Pino, Quintana: PROBABILIDADES 66


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

sello, Ud. la guarda para alg ún amigo. ¿Cu ál es la probabilidad que Ud. coma exactamente
n pasas?. ¿Cu ál es el rango de valores para n?.

15. Sea Qn la probabilidad que en n lanzamientos de una moneda regular no aparezcan corridas
de tres caras sucesivas. Demuestre que:
1 1 1
Qn = Qn−1 + Qn−2 + Qn−3 ,
2 4 8
sabiendo que Q0 = Q1 = Q2 = 1. Encontrar Q8 .

16. Como un modelo simplificado para predecir el tiempo atmosf érico, se supone que el tiempo
(seco o h úmedo) para ma ñana será igual al de hoy con probabilidad p. Si el tiempo atmosf éri-
co el primero de Enero fue seco, demostrar que Pn , la probabilidad que llueva n dı́as después,
satisface la relaci ón

Pn = (2p − 1)Pn−1 + (1 − p), n ≥ 1,

con P0 = 1. Demuestre adem ás que


1 1
Pn = + (2p − 1)n , n ≥ 0.
2 2

17. Una jaula A contiene cinco aves blancas y siete aves negras. La jaula B contiene tres blancas
y doce negras. Se lanza una moneda al aire. Si el resultado es cara, entonces un ave de
A es seleccionada, mientras que si el resultado es sello, se selecciona un ave de la jaula B.
Suponga que el ave seleccionada es blanca. ¿Cu ál es la probabilidad que la moneda haya
mostrado cara?.
12
Resp : 37

18. Una urna contiene N fichas negras y A fichas azules. Se selecciona una ficha al azar, y se la
devuelve a la urna, junto con C fichas adicionales del mismo color. Se selecciona ahora una
segunda ficha al azar. Demuestre que la probabilidad que la primera ficha era negra, dado que
N
la segunda fue azul es (N +A+C) .

19. Hay tres monedas en una caja. Una de ellas tiene dos caras, la otra es normal, y la tercera
muestra cara con probabilidad 75%. Dado que cuando se elige una de las tres monedas al azar
y se lanza el resultado es cara, calcule la probabilidad que ésta sea la moneda de dos caras.
Resp : 94 .

20. Dos bolas se eligen aleatoriamente desde una urna que contiene ocho blancas, cuatro negras
y dos amarillas. Suponga que ganamos $2 por cada bola negra seleccionada, perdemos $1
por cada bola blanca seleccionada, y que no hay cambios si se selecciona una bola amarilla.
Determine los posibles valores que se pueden obtener, y calcule las probabilidades corres-
pondientes.

k 4 2 1 0 −1 −2
Resp : 6 8 32 1 16 28
P (k) 91 91 91 91 91 91

Aravena, del Pino, Quintana: PROBABILIDADES 67


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

21. Un comprador de transistores adquiere éstos en lotes de 20, y es su polı́tica inspeccionar


cuatro transistores elegidos aleatoriamente desde un lote y aceptar el lote solamente si los
cuatro están buenos. Si cada componente de un lote es, independientemente, defectuosa con
probabilidad 0.1, ¿cu ál es la proporci ón de lotes rechazados?.
Resp : 0.3439

Desaf´
ı os

22. Una maleta contiene a esferas blancas y b negras. Las esferas se eligen de la maleta de
acuerdo a la siguiente regla:

a.- Una esfera se elige al azar y se elimina.


b.- Una segunda esfera se elige a continuaci ón. Si su color es distinto al de la primera, ésta
es sustituida en la maleta y se repite el proceso del comienzo. Si el color es igual al de
la primera, la esfera se elimina y se comienza desde el punto b.

En otras palabras, las esferas son muestreadas y eliminadas hasta que ocurre un cambio de
color, en tal caso la última esfera es devuelta a la maleta, y el proceso comienza de nuevo.
Denote por Pab la probabilidad que la última esfera en la maleta sea blanca. Demostrar que:
1
Pab =
2
Hint: Use inducci ón sobre k ≡ a + b.

23. Un dado A tiene cuatro caras rojas y dos caras blancas, por otra parte un dado B tiene dos
caras rojas y cuatro caras blancas. Una moneda es lanzada una vez. Si el resultado es cara, el
juego continua con el dado A; si es sello, el dado B es usado.

a.- Demuestre que la probabilidad que salga una cara roja es 12 .


b.- Si en los primeros dos lanzamientos aparece la cara de color rojo, ¿cu ál es la probabili-
dad que en el tercer lanzamiento la cara sea roja?.
c.- Si el rojo aparece en los dos primeros lanzamientos, ¿cu ál es la probabilidad que se
haya usado el dado A?.

Resp : b) 35 ; c) 45

24. Sup óngase que los dı́as son clasificados en “Soleados” y “Nublados”, y que las condicio-
nes del clima en ma ñanas sucesivas forman una cadena de Markov con probabilidades de
transici ón estacionarias. Suponiendo que la matriz de transici ón sea:

Soleado Nublado

Soleado 0.7 0.3

Nublado 0.6 0.4

Aravena, del Pino, Quintana: PROBABILIDADES 68


´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

a.- Si un dı́a esta nublado, ¿cu ál es la probabilidad que est é nublado al dı́a siguiente?.
b.- Si un dı́a es soleado, ¿cu ál es la probabilidad que los dos dı́as que siguen sean soleados?.
c.- Si un dı́a esta nublado, ¿cu ál es la probabilidad que al menos uno de los tres dı́as
siguientes esté soleado?.

Aravena, del Pino, Quintana: PROBABILIDADES 69


Cap´
ıtulo 3

Variables Aleatorias

En este capı́tulo desarrollamos con mayor profundidad algunos temas que ya fueron presentados
en los capı́tulos previos. Ası́, en la Secci ón 1.4.3 discutimos el concepto de variable en t érminos
de una poblaci ón finita, distinguiendo tipos de variables. Por otra parte, una muestra al azar de
una poblaci ón finita transforma las probabilidades de los sucesos en proporciones dentro de la
poblaci ón finita. De esta forma, la construcci ón y descripci ón de distribuciones de probabilidad
está ı́ntimamente ligada al estudio de poblaciones en esta poblaci ón; un paso al lı́mite arroja luz
sobre las variables continuas. Un subproducto importante del estudio de poblaciones finitas es que
permite visualizar concretamente a una variable como una funci ón definida para una poblaci ón,
lo que hace m ás natural la definici ón abstracta de variable aleatoria. La primera secci ón trata
la descripci ón de proporciones para variables discretas y continuas, lo que proporciona una base
intuitiva para atacar problemas probabilı́sticos.

3.1 Descripci ón de Proporciones en una Poblaci ón

Continuamos ac á el estudio iniciado en la Secci ón 1.4.3 sobre el concepto de variable en el contexto
de una poblaci ón finita. Examinamos ahora la descripci ón de poblaciones para distintos tipos de
variables. Para ilustrar las ideas continuamos el ejemplo de dicha secci ón, donde se muestran
las 10 primeras lı́neas de un archivo computacional. Supondremos ahora una poblaci ón de gran
tama ño, digamos cien mil personas, de la cual se ha extraido una muestra al azar de 500 personas.
Dada la peque ña fracci ón de muestreo, hay poca diferencia entre el muestreo sin y con reposici ón.
Adoptando este último supuesto, para cada columna de la tabla de datos, las 500 componentes
pueden ser consideradas como una realizaci ón de 500 variables i.i.d., cuya distribuci ón com ún
coincide con la distribuci ón de proporciones en la poblaci ón. Por razones de espacio, la Tabla 3.1.1
muestra s ólo las 100 primeras lı́neas del archivo de datos, pero algunos resultados se obtienen sobre
la base de la muestra completa de tama ño 500.
Por la manera de generar la informaci ón hay simetrı́a entre los individuos, es decir, una reor-
denaci ón arbitraria de las filas de la tabla no debiera afectar las conclusiones. Por otra parte, el
n úmero de filas de la tabla coincide con el tama ño de la muestra, el que est á sujeto a limitaciones
de tiempo y presupuesto. En consecuencia, conviene caracterizar el comportamiento de las varia-

70
´
CAP ITULO 3. VARIABLES ALEATORIAS

bles prescindiendo del tama ño de la poblaci ón. Los promedios aritm éticos y las proporciones son
res úmenes sencillos que tienen estas caracterı́sticas deseables.
Por descripciones entendemos tanto a n úmeros, tablas num éricas o a los gr áficos correspon-
dientes, los que varı́an seg ún el tipo de variable. Los ejemplos que se exhiben a continuaci ón se
refieren a los datos de la Tabla 3.1.1. La clasificaci ón de variables se aplica tambi én a las variables
aleatorias y las probabilidades se describen de manera an áloga a las proporciones.

Identificador Comuna Nivel Socio Tama˜


no N Consultas Sexo Peso
Econ o´mico Familia M e´dicas (kg)
1 A 1 3 3 M 74.8
2 A 1 3 2 F 54.2
3 A 1 4 4 M 69.7
4 A 3 4 2 F 58.4
5 C 3 3 8 M 64.6
6 C 4 3 1 F 64.5
7 B 2 3 6 M 72.1
8 A 3 2 2 F 66.0
9 C 3 1 4 M 71.6
12 A 2 2 2 M 72.9
13 A 1 6 5 F 46.3
14 B 2 3 4 F 56.3
15 A 1 6 4 F 52.2
16 B 1 5 4 F 62.0
17 B 5 1 4 F 66.3
18 A 2 3 5 M 77.3
19 B 1 7 9 M 79.4
20 A 1 5 2 M 70.1
21 A 2 4 6 F 63.9
22 A 2 2 3 F 61.5
23 A 1 5 0 F 57.8
24 A 3 1 5 M 69.3
25 A 2 3 5 M 86.3
26 A 2 1 2 M 78.3
27 B 3 1 1 M 73.9
28 A 2 4 5 F 55.0
29 B 2 3 4 F 72.3
30 B 4 1 1 M 76.6
31 A 2 2 4 M 71.0
32 A 1 3 1 F 57.7
33 B 2 2 4 M 71.8
34 A 1 3 2 M 73.7
35 A 2 1 2 M 77.7
36 A 3 2 7 F 58.5
37 C 4 2 3 F 58.9
38 A 1 4 3 F 67.0
39 A 1 6 3 F 57.5
40 C 1 5 7 M 79.9
41 B 3 4 7 M 74.9
42 B 3 1 4 F 54.8
43 C 4 3 1 M 79.7
44 B 2 3 4 F 72.1
contin u´a en la siguiente p a´gina

Aravena, del Pino, Quintana: PROBABILIDADES 71


´
CAP ITULO 3. VARIABLES ALEATORIAS

Identificador Comuna Nivel Socio Tama˜


no N Consultas Sexo Peso
Econ o´mico Familia M e´dicas (kg)
45 A 1 3 2 F 50.4
46 C 1 4 4 F 67.0
47 B 1 6 5 M 76.0
48 B 2 5 2 F 64.0
49 C 1 7 1 M 76.6
50 A 1 2 3 F 65.3
51 A 1 2 4 F 64.2
52 A 2 4 2 M 78.6
53 A 1 4 0 F 60.4
54 B 1 4 6 F 57.5
55 C 5 2 1 M 79.6
56 B 1 5 4 F 54.4
57 A 1 5 7 F 58.4
58 A 1 4 7 M 73.7
59 A 1 5 3 M 73.8
60 C 3 2 4 M 75.4
61 A 2 1 4 M 75.0
62 A 2 1 8 F 55.4
63 A 2 2 0 M 71.4
64 B 2 4 3 F 58.2
65 A 1 3 2 M 87.2
66 A 2 1 2 M 72.9
67 A 3 3 7 M 78.3
68 A 1 3 7 M 81.5
69 C 5 1 3 M 83.6
70 B 1 1 1 F 57.9
71 A 1 2 0 F 58.4
72 A 2 5 4 M 70.0
73 A 1 3 6 M 69.6
74 B 5 3 3 F 57.7
75 A 1 5 4 F 56.8
76 C 3 1 2 F 48.1
77 C 5 1 4 F 54.9
78 B 4 1 2 M 79.6
79 B 1 4 2 M 69.5
80 C 3 2 2 F 59.8
81 A 1 4 5 F 67.6
82 B 1 5 6 F 58.2
83 A 1 4 5 F 52.7
84 C 4 2 1 F 68.2
85 A 2 1 2 F 54.3
86 A 1 4 1 F 55.9
87 C 3 2 3 F 62.0
88 A 1 6 6 F 57.9
89 B 4 1 5 F 64.3
90 A 3 2 8 M 71.8
91 B 4 1 7 M 79.6
92 A 2 2 3 F 61.5
93 C 5 1 5 F 52.9
contin u´a en la siguiente p a´gina

Aravena, del Pino, Quintana: PROBABILIDADES 72


´
CAP ITULO 3. VARIABLES ALEATORIAS

Identificador Comuna Nivel Socio Tama˜


no N Consultas Sexo Peso
Econ o´mico Familia M e´dicas (kg)
94 B 1 3 3 F 54.4
95 A 1 4 5 F 59.6
96 A 1 5 9 F 59.7
97 A 1 5 2 F 56.4
98 B 1 6 7 M 70.6
99 A 4 2 4 F 54.7
100 A 1 6 4 F 61.6

Tabla 3.1.1: Variables para subpoblaci ón de 100 individuos

Para una variable categ órica, la descripci ón es obvia. Simplemente se indica la proporci ón
o porcentaje para cada categorı́a. Para una variable binaria basta la proporci ón correspondiente
a una de las dos categorı́as. Cuando las categorı́as están ordenadas se pueden calcular, adem ás,
proporciones acumuladas. La representaci ón gráfica depende mucho del ingenio, siendo tradicional
los diagramas de barra o de torta, que frecuentemente aparecen en peri ódicos y revistas.
Una variable discreta se puede tratar como ordinal, siendo tradicional utilizar lı́neas o barras
delgadas, para enfatizar que los valores intermedios carecen de sentido, e.g. 2.5 miembros en una
familia. Los gráficos en la Figura 3.1.1 representan al tama ño de grupo familiar y n úmero de visitas
médicas.
No es conveniente hacer lo mismo con una variable continua X, por la proliferaci ón de barras
y el hecho que si x se expresa con muchos decimales, todas las proporciones ser án muy peque ñas.
De hecho, si el valor x no aparece en la tabla, la proporci ón correspondiente ser á igual a cero.
Esto muestra que los valores individuales no tienen inter és directo, y que lo relevante son las pro-
porciones correspondientes a ciertos intervalos. Para resumir la informaci ón, conviene tomar una
partici ón o una sucesi ón creciente de intervalos. En ambos casos se elige una sucesi ón ordenada
de n úmeros reales: −∞ = t0 < t1 < · · · < tj−1 < tj < · · · < tr−1 < tr = ∞. La partici ón
generada es (A1 , . . . , Ar ), con Aj = (tj−1 , tj ]. La sucesi ón creciente est á formada por los conjun-
tos Bj = (−∞, tj ], j = 1, . . . , r. Denotando por qj y Qj a las proporciones correspondientes a los
intervalos Aj y Bj respectivamente, se tienen las relaciones
j
X
Qj = Qj−1 + qj , qj = Qj − Qj−1 , Qj = qm .
m=1

Podemos construir ahora dos gr áficos asociados.

• Proporciones acumuladas. Se grafican los puntos (tj , Qj ) para j = 1, . . . , r−1 (uni éndolos
opcionalmente por segmentos lineales).

• Histograma. Se construye una funci ón constante dentro de cada Aj , de modo que su gr áfico
tiene forma de escalera. Se elige el valor dj que toma la funci ón dentro de Aj , como
qj
dj = c × ,
tj − tj−1
donde c se calcula de tal forma que la proporci ón qj coincida con el área bajo el pelda ño
correspondiente. El gr áfico de esta funci ón se denomina histograma. Se sugiere al lector

Aravena, del Pino, Quintana: PROBABILIDADES 73


´
CAP ITULO 3. VARIABLES ALEATORIAS

Numero de consultas medicas


6
4
2
0
0.20 0.15 0.10 0.05 0.0

Proporciones

7
6

Tamano grupo familiar


5
4
3
2
1

0.20 0.15 0.10 0.05

Proporciones

Figura 3.1.1: Tama ño de grupo familiar y n úmero de visitas m édicas en Tabla 3.1.1.

verificar que el área total bajo la escalera es 1 y que la funci ón cuyo gráfico es el histo-
grama coincide con la derivada de la funci ón, cuyo gr áfico es la poligonal descrita para las
proporciones acumuladas.

La Figura 3.1.2 muestra el histograma de la variable peso, construido a partir de la poblaci ón de
500 individuos, de los cuales la Tabla 3.1.1 muestra a 100 de ellos. Superpuesta al histograma hay
una curva suave, que posteriormente vincularemos a la funci ón densidad de probabilidad. Las áreas
bajo esta curva tambi én aproximan a las proporciones en un intervalo dado. La Figura 3.1.3 repite
lo anterior, separadamente para hombres y mujeres. Invitamos al lector a proponer una explicaci ón
para la forma de estos gr áficos.
Elijamos a los tj como los valores distintos que una variable X alcanza en la tabla de datos,
ordenados de menor a mayor, y supongamos que la tabla tiene muchas filas. Entonces, los valores
consecutivos de la variable estar án muy pr óximos uno de otro y el gr áfico de proporciones acumu-
ladas se aproximar á bien por una curva suave, que crece desde 0 hasta 1, a medida que aumenta el
valor de x de la variable. Tal curva es el gr áfico de cierta funci ón F , y la proporci ón π(a, b) de

Aravena, del Pino, Quintana: PROBABILIDADES 74


´
CAP ITULO 3. VARIABLES ALEATORIAS

0.06
0.05
0.04
0.03
0.02
0.01
0.0

40 50 60 70 80 90

Peso

Figura 3.1.2: Histograma de la variable peso en la Tabla 3.1.1.

individuos que satisfacen a < x ≤ b se puede aproximar por

π(a, b) = F (b) − F (a). (3.1.1)

Procediendo del mismo modo, el histograma se aproximar á bien por el gr áfico de cierta funci ón
no negativa f , tal que áreas bajo la curva aproximen a las proporciones. Las curvas superpuestas
a los histogramas en las Figuras 3.1.2 y 3.1.3 son gr áficos de una funci ón f . Analı́ticamente las
áreas bajo una curva son integrales, de modo que
Z b
π(a, b) = f (x)dx. (3.1.2)
a

3.2 Variable Aleatoria y su Distribuci ón de Probabilidad

3.2.1 Variable Aleatoria como Funci o´n

Hasta ahora, las variables han aparecido primariamente para ayudar a definir el resultado de un
experimento y, por tanto, en la elecci ón del espacio muestral Ω. Tanto los elementos ω ∈ Ω como
los subconjuntos (sucesos) de inter és suelen describirse en t érminos de los valores x1 , x2 , . . . , xn
de ciertas variables originales, a las que denotamos por las letras may úsculas correspondientes.

Aravena, del Pino, Quintana: PROBABILIDADES 75


´
CAP ITULO 3. VARIABLES ALEATORIAS

90
80

Peso de hombres
70
60
50
40
0.10 0.08 0.06 0.04 0.02 0.0

90
80

Peso de mujeres
70
60
50
40
0.10 0.08 0.06 0.04 0.02 0.0

Figura 3.1.3: Histograma de la variable peso, separado por sexo, en la Tabla 3.1.1.

Cuando el resultado ω coincide con el valor x de X, se asignan directamente probabilidades a los


elementos del conjunto X de valores posibles de esta variable. Cuando no es claro c ómo calcular
las probabilidades pX (x) = P (X = x), una posible vı́a de soluci ón es escribir x = h(ω), donde
ω es el resultado de cierto experimento, asignar probabilidades a los subconjuntos de Ω y deducir
P (X = x). Si Ω es finito o numerable, basta asignar las probabilidades p(ω) = P ({ω}) y obtener
pX (x) como suma de las probabilidades de los casos favorables. En otras palabras,
X
pX (x) = p(ω)
ω∈Ω / h(ω)=x

En el importante caso de la elecci ón de un individuo, al azar, de una poblaci ón finita de tama ño N ,
lo natural es tomar Ω = {1, 2, . . . , N }, donde ω identifica al individuo seleccionado. Por hip ótesis,
cada ω tiene probabilidad N1 y de aquı́ se deduce que P (X = x) coincide con una proporci ón
poblacional. Si imaginamos una tabla de datos para toda la poblaci ón, cada variable se representa
por una columna de esa tabla o por una funci ón que le asigna a ω el valor de la variable para el
individuo con identificador ω.
Cuando las variables de inter és son X1 , X2 , . . . , Xk , es natural elegir ω = (x1 , x2 , . . . , xk ).
Con esta elecci ón, la variable Xi corresponde a la funci ón que asigna a cada arreglo de largo k
su i-ésima componente. Por otra parte, el valor y de cualquier variable de inter és Y debe estar
determinada por ω, es decir, debe existir una funci ón g para la cual y = g(x1 , x2 , . . . , xn ). En este
esquema, denominamos a las Xi variables originales o primarias, mientras que a Y la denominamos

Aravena, del Pino, Quintana: PROBABILIDADES 76


´
CAP ITULO 3. VARIABLES ALEATORIAS

variable derivada o secundaria y la denotamos por Y = g(X 1 , X2 , . . . , Xn ). Cuando las variables


Xi son discretas, i.e. el n úmero de valores posibles es finito o numerable, se tiene

• El espacio muestral Ω es numerable.

• Toda variable derivada es discreta.

• Denotando por p(x) = p(x1 , x2 , . . . , xk ) a P (X1 = x1 , X2 = x2 , . . . , Xk = xk ), la funci ón


de probabilidad pY (y) se obtiene mediante
X
pY (y) = p(x).
x / g(x)=y

Si se toma a Ω como el conjunto de los arreglos x posibles, la funci ón g tiene dominio Ω.
Motivados por la discusi ón anterior, entregamos una definici ón abstracta de variable aleatoria.

Definici o´n 3.2.1 Una variable aleatoria es una funci ón definida sobre el espacio muestral Ω, con
valores en el conjunto X .

Notaci o´n: Si el valor de la variable aleatoria se denota por una letra min úscula, la variable se denota
por la letra may úscula correspondiente. Normalmente se utilizan las últimas letras del alfabeto. Con
esta convenci ón escribimos x = X(ω). El suceso: “el valor x de X pertenece al conjunto B se
denota por X ∈ B. Cuando B = {x} se simplifica la notaci ón a {X = x} o X = x. Hacemos
notar que utilizamos la misma letra para denotar un valor x incierto (antes de conocer el resultado
del experimento). Una vez conocido el resultado ω, el valor de la variable es x = X(ω), donde
usamos la letra X para representar una funci ón. El suceso correspondiente a que el valor x de la
variable X satisfaga un conjunto de condiciones se escribe reemplazando x por X. Por ejemplo,
P (X 2 − 5X + 6 ≤ 0) es la probabilidad que el valor x de la variable X satisfaga x 2 − 5x + 6 ≤ 0,
o sea, 2 ≤ x ≤ 3. Ası́ P (X 2 − 5X + 6 ≤ 0) = P (2 ≤ X ≤ 3).

Definici o´n 3.2.2 Dada una variable aleatoria X definida sobre Ω, con valores en X , la distribuci ón
de probabilidad inducida por X sobre X se define, para un evento B ⊂ X como:

PX (B) = P (X −1 (B)), (3.2.1)

donde X −1 (B) = {ω ∈ Ω/ X(ω) ∈ B} es un evento en Ω, y P es la distribuci ón de probabilidad


definida sobre Ω.

Se denomina tambi én a PX distribuci ón de probabilidad o distribuci ón de la variable aleatoria X.
Con la convenci ón notacional adoptada PX (B) = P (X ∈ B), es decir, es la probabilidad que
el valor de X esté contenido en B. Conocer la distribuci ón de probabilidad de una variable aleatoria
equivale a conocer la probabilidad que el valor de X est é contenido en B, para todo suceso B. La
relaci ón básica es que el suceso B en el espacio muestral X ocurre si y s ólo si ocurre el suceso
X −1 (B)) en el espacio muestral Ω. Este último corresponde a la ocurrencia de un resultado ω ∈ Ω,
tal que X(ω) ∈ B.

Aravena, del Pino, Quintana: PROBABILIDADES 77


´
CAP ITULO 3. VARIABLES ALEATORIAS

En general, especificar PX directamente es una tarea difı́cil. En el Capı́tulo 1 vimos que en el


caso particular que X es un conjunto finito o numerable, las probabilidades quedan determinadas
por la funci ón de probabilidad pX , definida por

pX (x) = PX ({x}) = P ({ω ∈ Ω/ X(ω) = x).

La funci ón pX debe ser no negativa y la suma de sus valores ser igual a 1.

Ejemplo 3.2.1 Considere 10 lanzamientos sucesivos de una moneda (en forma inde-
pendiente). Si esto es todo lo que sabemos, lo m ás natural es escribir el resultado como
la 10-tupla (C, C, S, C, S, S, S, C, C, S) o similar, lo que equivale a elegir como es-
pacio muestral a Ω = {C, S}10 , que contiene 210 = 1024 elementos. El n úmero de
sucesos, es decir, el n úmero de subconjuntos de Ω, asciende a la escalofriante cifra de
21024 . Afortunadamente, la probabilidad de cualquiera de ellos es calculable si conoce-
mos las probabilidades de los 1024 sucesos elementales {ω} y no todos los sucesos son
de interés. Tı́picamente, aquellos de inter és se pueden expresar en t érminos del valor x
de alguna variable. Las preguntas m ás habituales se relacionan con el n úmero de caras
o sellos obtenidos. Por ejemplo: El n úmero de caras es superior al numero de sellos o
El n úmero de sellos es superior a 7 se expresan en t érminos de la variable X : n úmero
total de caras, por X > 5 o X ≤ 2 respectivamente. En estas circunstancias, parece
atractivo utilizar X = {1, 2, . . . , 10} como un espacio muestral alternativo a Ω, dada
su menor complejidad. Sin embargo, resulta poco claro como asignar probabilidades a
los valores x ∈ X , mientras que la probabilidad de cada ω es m ás fácil de obtener.
Como el valor de x est á determinado por el de ω, debe existir una funci ón h, tal
que x = h(ω). Ası́, por ejemplo, tenemos que h(C, C, S, C, S, S, S, C, C, S) = 5,
h(S, S, S, S, S, S, S, S, S, S) = 0, h(S, C, C, C, S, C, S, C, S, S) = 5, etc. La defi-
nici ón abstracta identifica a la variable X con esta funci ón. Un peque ño cambio de
notaci ón simplifica la escritura. Denotemos por xi a la i -ésima componente del arre-
glo ω ∈ Ω y consideremos xi como valor de una variable Xi , que toma el valor C si
aparece cara en el i- ésimo lanzamiento, y S si sale sello. X1 , X2 , . . . , X10 son las va-
riables originales y sus valores determinan ω. De esta forma X = g(X 1 , X2 , . . . , X10 ).
Podemos definir otras variables derivadas:

• La variable Yi , que asigna el valor yi = 1, cuando la i- ésima moneda sale cara y


sello en caso contrario. En este caso, y1 , y2 , . . . , y10 determinan, a su vez, ω.
• Z = n úmero total de sellos. Para cada ω, los valores de x y z satisfacen x+z = 10,
de modo que Z = g(X) = 10 − X.
• La variable X se puede escribir m ás fácilmente en funci ón de los Yi que de los
10
P
Xi . En efecto X = Yi .
i=1

Supongamos que la moneda tiene probabilidad p de salir cara, y q = 1−p de salir sello.
El supuesto de independencia entre los lanzamientos de la moneda implica p(ω) =

Aravena, del Pino, Quintana: PROBABILIDADES 78


´
CAP ITULO 3. VARIABLES ALEATORIAS

P ({ω}) = px q 10−x , donde x = h(ω) = X(ω) es el n úmero de caras. De aquı́,

pX (x) = P (X = x)
X
= p(ω)
ω∈Ω/ h(ω)=x
 
10 x 10−x
= p q ,
x

donde x ∈ {0, 1, . . . , 10}, el conjunto imagen de X.

Ejemplo 3.2.2 Considere el juego de LOTO, y X definido como el n úmero  de aciertos


en una cartilla seleccionada al azar. El espacio muestral Ω consiste de 36 6 = 1.947.792
posibles cartillas, mientras que X est á simplemente dado por {0, 1, . . . , 6}. Es razona-
ble suponer que los elementos de Ω son todos equiprobables, de modo que el c álculo
de la funci ón de probabilidad inducida pX (x) para x ∈ X se reduce a contar casos
favorables. Por ejemplo,
6 30
 
× 20 × 4060
pX (3) = 3 36 3 = = 0.0417
6
1.947.792

Más generalmente, y usando id énticos argumentos, se puede concluir que


6 30
 
x × 6−x
pX (x) = 36
 , para x = 0, 1, . . . , 6.
6

3.2.2 Conjunto de valores de una variable aleatoria como espacio muestral

En los capı́tulos previos, el rol b ásico de las variables es definir el espacio muestral. A menudo,
la descripci ón del problema no aporta informaci ón alguna sobre, ya sea las probabilidades sobre
el espacio muestral Ω, o las probabilidades inducidas sobre X . Una forma de abordar el problema
es, simplemente, desentenderse de Ω, y tomar X como el espacio muestral. En otras palabras, dada
una única variable de inter és X, la elecci ón can ónica del espacio muestral es Ω = X . Se identifica
entonces la distribuci ón P sobre Ω con la distribuci ón inducida PX sobre X . Formalmente, esto es
un caso particular de la definici ón general en que X es la funci ón identidad, pero tal punto de vista
es bastante in útil. Toda variable aleatoria Y se puede representar por g(X), para cierta funci ón g.
Si un estudio previo nos entrega proporciones empı́ricas, podemos adoptar a estas frecuencias
como aproximaciones de las probabilidades sobre X . Una manera de obtener una distribuci ón de
probabilidad consiste en postular una familia param étrica de probabilidades sobre X , y usar los
datos previos para estimar los par ámetros y, por tanto, seleccionar a un miembro de esta familia
como la distribuci ón buscada. Los procedimientos de estimaci ón forman parte de la Inferencia
Estadı́stica (no contenidos en este texto), la que constituye una f értil área de aplicaci ón de la teorı́a
de probabilidad.

Aravena, del Pino, Quintana: PROBABILIDADES 79


´
CAP ITULO 3. VARIABLES ALEATORIAS

Si hay n variables de inter és, la elecci ón can ónica es que Ω sea un conjunto de arreglos
(x1 , . . . , xn ). En este caso, la variable Xi corresponde a la funci ón que asigna a cada arreglo
su i-ésima componente y toda variable aleatoria Y se puede escribir como g(X 1 , . . . , Xn ), para una
funci ón g adecuada. Cuando las variables Xi son discretas, y ω = (x1 , . . . , xn ), lo mismo se aplica
a cualquier variable aleatoria Y , de modo que PY queda determinada por su funci ón de probabilidad
pY . Si Y = g(X1 , . . . , Xn ), pY (y) es la suma de las probabilidades de los (x1 , . . . , xn ) tales que
g(x1 , . . . , xn ) = y.

Ejemplo 3.2.3 Considere un pan de pascua seleccionado al azar, y sea X definido


como el n úmero de pasas contenidos en el pan de pascua. El espacio muestral Ω para
este caso es el conjunto de todos los posibles panes de pascua que pudimos haber
seleccionado inicialmente (esto depende de la poblaci ón objetivo de panes de pascua).
El conjunto X queda representado por {0, 1, 2, . . .}. Una familia param étrica bastante
popular es
λx e−λ
pX (x) = P (X = x) =
x!
para x = 0, 1, 2, . . ., y para alg ún valor de λ > 0 (es f ácil verificar que estos valores
son positivos y suman 1). Para usar esta f órmula en la pr áctica, uno requiere estimar el
valor de λ. Veremos m ás adelante que el contenido promedio de pasas obtenido para
un conjunto de panes es una estimaci ón razonable.

Los siguientes ejemplos corresponden a X no numerable. El primero est á relacionado con el


Ejemplo 1.5.3.

Ejemplo 3.2.4 Considere un dardo lanzado al azar sobre un tablero circular de radio
unitario. Sea X la posici ón del dardo al hacer impacto con el tablero, como se indica
en la Figura 3.2.4.

El espacio muestral natural es ac á el disco unitario, cuya representaci ón cartesiana


sugiere la elecci ón de X = {(x1 , x2 ) ∈ R2 / x21 + x22 ≤ 1} como espacio muestral. El
vector ω = (x1 , x2 ) es el valor de una variable aleatoria, a la cual se la suele denominar
vector aleatorio. La no numerabilidad de X hace imposible asignar probabilidades
positivas a todos los puntos. Para evitar asimetrı́as muy marcadas hay que concluir
que la probabilidad de cada punto es cero. Afortunadamente, los sucesos de inter és
no incluyen conjuntos de un s ólo elemento, sino regiones de área positiva. Asignar
probabilidades para subconjuntos no numerables de R k es tema de otro capı́tulo. Sin
embargo, una traducci ón adecuada de la idea de lanzamiento al azar, es que todos los
subconjuntos de X de igual área sean equiprobables. De los axiomas de probabilidad
se deduce que la probabilidad de un suceso A ⊂ X es proporcional al área de A, esto
es:
1
Z
área(A) área(A)
PX (A) = = = dx1 dx2 .
área(X ) π A π
Esta última expresi ón, tendrá una importante interpretaci ón más adelante.

Aravena, del Pino, Quintana: PROBABILIDADES 80


´
CAP ITULO 3. VARIABLES ALEATORIAS
x2

(x1,x2)

-1 1
0 x1

-1

Figura 3.2.4: Representaci ón esquemática del lanzamiento de un dardo.

Ejemplo 3.2.5 Una ampolleta tiene una probabilidad p de quemarse al instante de ser
encendida. Si la ampolleta no se quema, entonces se sabe que la probabilidad que
sobreviva t > 0 horas est á dada por e−t . ¿Cuál es la probabilidad que la ampolleta
sobreviva 1 hora de funcionamiento?
Si denotamos por X el tiempo de vida de la ampolleta (esto es, el tiempo que tarda
en quemarse), necesitamos calcular P (X > 1). El espacio muestral se puede tomar
como X = [0, ∞). Por las condiciones del problema, sabemos que P (X = 0) = p
(si la ampolleta se quema), y que P (X > t|X > 0) = e−t (cuando la ampolleta no se
quema). Puesto que se quiere saber el valor de P (X > 1), el teorema de probabilidades
totales nos permite obtener que:

P (X > 1) = P (X > 1|X = 0)P (X = 0)


= +P (X > 1|X > 0)P (X > 0)
= 0 × p + e−1 × (1 − p) = (1 − p) × e−1 ,

que es lo que querı́amos saber.


Note que, a diferencia del ejemplo anterior, hay un punto del espacio muestral que tiene
una probabilidad positiva ( x = 0).

Aravena, del Pino, Quintana: PROBABILIDADES 81


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.3 Valores Esperados I

3.3.1 Motivaci o´n

La Ley de los Promedios o Ley de los Grandes N úmeros es un resultado clave de la Teorı́a de
Probabilidad. No existe la persona promedio, el alumno promedio o el árbol promedio, sino la altura
promedio, el peso promedio, la renta promedio, el n úmero promedio de accidentes, etc., que son
valores de ciertas variables. Lo que se promedia son n úmeros reales, o bien elementos de un espacio
vectorial (para el cual se puede hablar de combinaciones lineales). Como todo espacio vectorial de
dimensi ón finita es representable por Rn y la suma y multiplicaci ón en Rn se definen componente a
componente, el caso fundamental es el de una variable con valores reales. La Ley de los Promedios,
discutida informalmente en la Secci ón 1.2.1, refleja el hecho empı́rico que, bajo ciertas condiciones,
los promedios exhiben una gran estabilidad. Si el valor de la variable cuantitativa en la i- ésima
repetici ón se denota por yi , lo que hacemos es considerar al n úmero real yi como el valor de una
variable aleatoria. Las condiciones tı́picas bajo las cuales rige la Ley de los Promedios es que las
repeticiones sean independientes y que el experimento se realice bajo condiciones semejantes. Esto
se traduce formalmente en la condici ón

Las variables Yi son i.i.d.


n
1 P
El promedio de n repeticiones es tn = n yi , que no es predecible exactamente, de modo que la
i=1
incerteza se traduce en la distribuci ón de la variable aleatoria
n
1X
Tn = Yi .
n
i=1

Con esta formulaci ón, la Ley de los Promedios se puede formular como un teorema, que se deno-
mina Ley de los Grandes N úmeros. Esencialmente, este teorema afirma que la distribuci ón de Tn
tiende a concentrase m ás y más en torno a cierto n úmero µ, a medida que n aumenta:

P (µ −  < Tn < µ + ) → 1, cuando n tiende a ∞.

Cuando este valor µ existe, él está determinado por la distribuci ón com ún a todas las variables
Yi . Denotando por Y a una variable aleatoria, cuya distribuci ón PY coincide con la de cada Yi ,
el valor µ se denomina media de la distribuci ón PY o valor esperado o esperanza de la variable
aleatoria Y . Se plantea, entonces, el problema de dar una definici ón alternativa de µ o de E(Y )
que no requiera la repetici ón indefinida de un experimento. Aparte del ahorro de tiempo y energı́a,
esto tiene la ventaja de que el concepto de media o valor esperado no depende de la interpretaci ón
frecuentista.
Para fijar las ideas consideremos el ejemplo pedestre, pero sencillo de llevar a cabo, – instamos
al lector a hacerlo – que consiste en lanzar repetidamente un dado equilibrado. Si y i es el n úmero
que muestra el dado en el i- ésimo lanzamiento, el gr áfico de tn versus n presenta inicialmente una
gran inestabilidad, pero para valores grandes de n todos los puntos est án muy cercanos a una recta
horizontal, a una altura aproximada de 3.50. Si anotamos z i = 1 si sale un seis y zi = 0 en caso
contrario, el promedio de los zi coincide con la proporci ón pn de veces que sale un seis en los

Aravena, del Pino, Quintana: PROBABILIDADES 82


´
CAP ITULO 3. VARIABLES ALEATORIAS

primeros n lanzamientos del dado. Por la interpretaci ón frecuentista, pn tiene como valor lı́mite a
la probabilidad que salga seis al lanzar un dado, de modo que el gr áfico tiende nuevamente a una
recta horizontal, esta vez con una altura igual a la probabilidad que salga seis en un lanzamiento del
dado. Si Z representa una variable aleatoria con distribuci ón igual a la de Zi , tenemos el importante
resultado:
E(Z) = P (Z = 1)
Notemos que Zi = h(Yi ), donde h es la funci ón indicatriz del conjunto {6}. De esta forma, Z tiene
la misma distribuci ón que h(Y ) y, por tanto, el mismo valor esperado. Ası́,

E(Z) = E(h(Y )).

Esta profusi ón de paréntesis motiva la notaci ón simplificada E(Z) = Eh(Y ). Es interesante
resaltar que los promedios tienen perfecto sentido para cualquier funci ón h con valores reales,
sin importar la naturaleza de su dominio. Si el experimento consistiese en el lanzamiento de una
moneda, con resultados ω = C y ω = S, las repeticiones del experimento generarı́an una sucesi ón
de letras que no se pueden promediar. Sin embargo, si para cada repetici ón uno gana $1000 si sale
cara y pierde 500 si sale sello, la ganancia esperada, definida como lı́mite de la ganancia promedio
cuando el n úmero de repeticiones tiende a infinito, es el valor esperado de la variable aleatoria
definida sobre Ω = {C, S} por

W = 1000 si ω = C, y W = −500 si ω = S.

La ganancia promedio en los primeros n juegos es


1
Gn = [1000 × n úmero de caras + (−500) × (n- n úmero de caras)]
n
= [1000 × proporci ón de caras + (−500) × proporci ón de sellos]
→ 1000 × P (C) + (−500) × P (S)
X
= p(ω)h(ω).

donde
h(ω) = 1000, si ω = C, y h(ω) = −500 si ω = S.
La funci ón h coincide con la variable aleatoria W en la formulaci ón abstracta.
En la interpretaci ón subjetiva de la probabilidad Ω = {ω1 , i = 1, . . . , k} representa el conjunto
de alternativas y h(ω) es la utilidad asociada con la alternativa ω. Esta utilidad no coincide, en
general, con una ganancia monetaria, sino que es un concepto t écnico. Por definici ón, ella es tal
que uno debiera ser indiferente frente a la situaci ón incierta que se presenta (por ejemplo, en un
juego de azar o en una inversi ón financiera), y una utilidad cierta (segura) cuyo valor coincida con
el valor esperado X
p(ω)h(ω).
ω∈Ω

La pr óxima secci ón discute f órmulas de cálculo.

Aravena, del Pino, Quintana: PROBABILIDADES 83


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.3.2 F o´rmulas para el valor esperado

Cuando el espacio muestral Ω es finito, la f órmula para el valor esperado es muy sencilla:

Definici o´n 3.3.1 Sea Ω un espacio muestral numerable y sea X la variable aleatoria con valores
x = h(ω), donde g es real valorada. El valor esperado o esperanza de X se denota por E(X), y
está dado por: X
E(X) = p(ω)h(ω), (3.3.1)
ω∈Ω

donde la suma se interpreta como el valor de una serie cuando Ω es numerable. Si la serie no
converge se dice que E(X) no existe.

En particular, si ω = (x1 , . . . , xk ) e y = h(x1 , . . . , xk ),


X
E(Y ) = Eh(X1 , . . . , Xk ) = p(x1 , . . . , xk )h(x1 , . . . , xk ). (3.3.2)
(x1 ,...,xk )∈Ω

Si la variable aleatoria X es discreta, siendo Ω arbitrario tenemos una definici ón alternativa:

Definici o´n 3.3.2 El valor esperado o esperanza de una variable aleatoria X est á dado por:
X
E(X) = xpX (x), (3.3.3)
x∈X

donde la suma se interpreta como el valor de una serie cuando X asume una cantidad numerable
pero no finita de valores. Si la serie no converge se dice que E(X) no existe.

Teorema 3.3.1 Si Ω es numerable, las definiciones (3.3.1) y (3.3.2) son equivalentes.

Demostraci o´n: La haremos s ólo en el caso finito. Basta demostrar que las sumas (3.3.1) tienen el
mismo valor. Como X
pX (x) = p(ω),
h(ω)=x

(3.3.2) implica
X X
E(X) = x p(ω)
x∈X h(ω)=x
X X
= xp(ω)
x∈X h(ω)=x
X X
= h(ω)p(ω)
x∈X h(ω)=x

La última expresi ón es simplemente la suma en (3.3.1), efectuada en un orden distinto.

Aravena, del Pino, Quintana: PROBABILIDADES 84


´
CAP ITULO 3. VARIABLES ALEATORIAS

Las f órmulas (3.3.1) y (3.3.2) son ambas promedios ponderados de ciertos n úmeros. Estos
n úmeros corresponden a los valores de una misma variable, pero, en general, (3.3.2) tiene menos
términos (lo que no significa que sea m ás fácil de calcular). Si en vez de promediar valores de X
interesara promediar valores de Y = g(X), se tiene y = v(ω), donde v(ω) = g(h(ω)). Por lo
tanto,
X
E(Y ) = p(ω)v(ω)
ω∈Ω
X
= ypY (y)
y∈Y

Si X hubiera sido elegido como espacio muestral, la variable Y hubiese quedado expresada por la
funci ón g. Por (3.3.1) (con X en vez de Ω) se obtendrı́a
X
E(Y ) = pX (x)g(x),
x∈X

que es nuevamente un promedio ponderado. Como Y = g(X) se obtiene


X
E(g(X)) = pX (x)g(x).
x∈X

En otras palabras el valor esperado de una funci ón de la variable aleatoria X es un promedio ponde-
rado, donde los n úmeros promediados son los valores de la funci ón y los pesos son las probabilida-
des de los valores de la variable aleatoria. Por cierto, esto es, esencialmente, lo mismo que hicimos
anteriormente, cambiando el par (Ω, X ) por el par (X , Y).
Computacionalmente hablando, es m ás sencillo calcular el valor esperado de Y a partir de la
funci ón de probabilidad pX , que a partir de pY . De hecho, pY (y0 ) = Eg(X), con g la funci ón
indicatriz de y0 .
Cuando no deseamos referirnos al espacio muestral Ω, es m ás conveniente definir directamente
el valor esperado de una funci ón real valorada de una variable aleatoria:

Definici o´n 3.3.3 Sea X una variable aleatoria con valores en un conjunto numerable X . Sea g
una funci ón con dominio X y valores en R. El valor esperado de g(X) est á dado por
X
E(g(X)) = pX (x)g(x). (3.3.4)
x∈X

Teorema 3.3.2 Si Y = g(X), las definiciones 3.3.2 y 3.3.3 son equivalentes.

Demostraci o´n: Idéntica a la del Teorema 3.3.1, salvo por cambios notacionales.

Los teoremas de equivalencia se pueden intuir directamente de la interpretaci ón frecuentista.


Basta pensar en n repeticiones del experimento y considerar la proporci ón de veces que aparece
cada ω ∈ Ω, cada x ∈ X y cada y ∈ Y. La extensi ón a espacios muestrales o variables aleatorias
más generales, descansa en la idea que cualquier variable se puede aproximar adecuadamente por
variables finitas.

Aravena, del Pino, Quintana: PROBABILIDADES 85


´
CAP ITULO 3. VARIABLES ALEATORIAS

Ejemplo 3.3.1 Suponga que X verifica X = {−2, −1, 0, 1, 2}, con p X (x) = 0.1,
0.2, 0.3, 0.2, 0.2 respectivamente. Considere Y = g(X) = X 2 . Entonces Y =
{0, 1, 4}, y pY (y) = 0.3, 0.4, 0.3 respectivamente. Por otra parte, el valor esperado de
Y , calculado directamente de la definici ón es:

E(Y ) = 0 × 0.3 + 1 × 0.4 + 4 × 0.3 = 1.6,

mientras que, usando (3.3.4) se llega a que

E(X) = 4 × 0.1 + 1 × 0.2 + 0 × 0.3 + 1 × 0.2 + 4 × 0.2 = 1.6,

verificándose ası́ el Teorema 3.3.2.

Cuando la funci ón g es biyectiva, los c álculos se simplifican, pues en este caso tenemos que
{x ∈ X : g(x) = y} es simplemente el singleton (o conjunto con s ólo un punto) {g −1 (y)}, y por
lo tanto,
pY (y) = pX (g −1 (y)).
De esta forma (3.3.4) es inmediata.

Ejemplo 3.3.2 Sea X una variable aleatoria con funci ón de probabilidad
 
n k
p (1 − p)n−k , k = 0, 1, . . . , n.
k

Entonces, la media µ = E(X) de la distribuci ón de probabilidad PX se calcula por


n  
X n
E(X) = pk (1 − p)n−k
k
k=0
n
X n!
= k· pk (1 − p)n−k
k!(n − k)!
k=1
n
X (n − 1)!
= np pk−1 (1 − p)n−k
(k − 1)!(n − k)!
k=1
n−1
X n − 1 
= np pj (1 − p)(n−1)−j
j
j=0
= np

Del mismo modo,

E(X(X − 1)) = EX(X − 1)


n  
X n k
= k(k − 1) · p (1 − p)n−k
k
k=0
= n(n − 1)p2 .

Aravena, del Pino, Quintana: PROBABILIDADES 86


´
CAP ITULO 3. VARIABLES ALEATORIAS

Si escribimos g(x) = x2 = x + x(x − 1), se tiene


n 
2
X n k 2
E(X ) = k · p (1 − p)n−k
k
k=0
n  
X n k
= [k(k − 1) + k] · p (1 − p)n−k
k
k=0
n   n  
X n k n−k
X n k
= k(k − 1) · p (1 − p) + k· p (1 − p)n−k
k k
k=0 k=0
= n(n − 1)p2 + np
= (np)2 + np(1 − p).

Se observa que E(X 2 ) > (E(X))2 , a menos que p = 0 o p = 1. Finalmente, conside-


remos la funci ón g(x) = z x , donde z es un n úmero real o complejo. Tenemos
n 
X n k
E(z X ) = zk ·
p (1 − p)n−k
k
k=0
n  
X n
= (pz)k (1 − p)n−k
k
k=0
= (1 − p + pz)n .

Ejemplo 3.3.3 Si Y tiene funci ón de probabilidad

λy exp(−λ)
pY (y) = , y = 0, 1, 2 . . . ,
y!
y t es un n úmero real cualquiera,

X λy exp(−λ)
E(exp(tX)) = exp(ty)
y!
y=0

X (λ exp(t))y
= exp(−λ)
y!
y=0
= exp(−λ) exp(λ exp(t)) = exp(λ(exp(t) − 1)),

la que está definida para cualquier real t.

3.3.3 Propiedades

A continuaci ón listamos algunas propiedades del valor esperado, que no s ólo son váli-
das para variables discretas. Se invita al lector a demostrarlas en el caso discreto.

Aravena, del Pino, Quintana: PROBABILIDADES 87


´
CAP ITULO 3. VARIABLES ALEATORIAS

Teorema 3.3.3

Si X = c, una constante, entonces E(X) = c. (3.3.5)


n
X n
X
E( ci gi (X)) = ci E(gi (X)) (linealidad) (3.3.6)
i=1 i=1

Ejemplo 3.3.4 Cuando se quiere adivinar el valor de X mediante un n úme-


ro real α, el error cometido es X − α. Para deshacerse del potencial signo
negativo podemos usar el valor absoluto o el cuadrado del error. Este últi-
mo es más manejable analı́ticamente. En promedio, el cuadrado de error de
predicci ón es E(X − α)2 . Encontrar el valor de α que minimice este error
cuadrático medio y el valor mı́nimo.
Soluci o´n:

E(X − α)2 = E(X 2 − 2αX + α2 )


= E(X 2 ) − 2αE(X) + α2
= α2 − 2µα + E(X 2 )
= (α − µ)2 + E(X 2 ) − µ2 .

El polinomio en α se minimiza para α = µ y el valor mı́nimo alcanzado


tiene las expresiones alternativas

E(X − µ)2 = E(X 2 ) − µ2 .

De esta forma, la media µ es la mejor predicci ón de X, siempre que acep-


temos al error cuadr ático medio como criterio de comparaci ón.

Ejemplo 3.3.5 La distribuci ón de X es simétrica con respecto al valor θ, si


X − θ y θ − X tienen id éntica distribuci ón. Probar que si E(X) = µ existe
y la distribuci ón de X es simétrica con respecto al valor θ, entonces µ = θ.
Demostraci o´n: La igualdad de distribuciones implica la igualdad de las
medias. Por lo tanto, E(X − θ) = E(θ − X). Por linealidad, µ − θ = θ − µ
y de aquı́ µ = θ.

Definiendo Yi = gi (X), la propiedad de linealidad se escribe


X X
E( ci Y i ) = ci E(Yi ), (3.3.7)

que, de hecho, vale para variables Yi arbitrarias (que no requieren ser funciones de una
misma variable X). Para variables discretas, basta tomar x = (y 1 , . . . , yk ) y definir
gi (x) como el valor de la i- ésima componente de x. Tomando ci = 1 se obtiene el
caso más importante:
X X
E( Yi ) = E(Yi ), esto es, esperanza de la suma = suma de las esperanzas.
(3.3.8)

Aravena, del Pino, Quintana: PROBABILIDADES 88


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.3.4 Varianza y momentos

Definici o´n 3.3.4 La varianza de la variable aleatoria X se define como

V ar(X) = E (X − E(X))2 (3.3.9)

siempre que la esperanza exista. En este caso, se define la desviaci ón est ándar de X
como p
σ(X) = V ar(X) (3.3.10)

El Ejemplo 3.3.4 muestra que la varianza es el error cuadr ático medio de la mejor pre-
dicci ón de X. Esto sugiere que a mayor varianza corresponde una mayor variabilidad
de X o una mayor dispersi ón de su distribuci ón. La unidad de medida de x, µ = E(X)
y de σ(X) son id énticas, mientras que las unidades de la varianza son los cuadrados
de las unidades de los valores. El Ejemplo 3.3.4 entrega como subproducto la f órmula
computacional

Var (X) = E(X 2 ) − (E(X))2 = E(X 2 ) − µ2 . (3.3.11)

Finalmente, introducimos la noci ón de momentos de una variable aleatoria.

Definici o´n 3.3.5 El momento de orden α de una variable aleatoria X, se define como

µα (X) = E(X α ), (3.3.12)

provisto que la esperanza correspondiente exista, y el momento centrado de orden α de


X se define como
mα (X) = E((X − E(X))α ). (3.3.13)

El momento de orden 1 es simplemente, el valor esperado de X, mientras que el mo-


mento centrado de orden 1 es siempre 0, y el momento centrado de orden 2 es la
varianza de X. Usualmente el inter és se centra en momentos de orden k, donde k es
un entero positivo.
Los valores esperados de funciones de una variable aleatoria se utilizan tambi én en la
definici ón de varias funciones generadoras, las que estudiamos en las Secci ón 3.8.2 y
3.8.3. El cálculo de Ez X y EetX en los Ejemplos 3.3.2 y 3.3.3 muestra que la funci ón
generadora de probabilidades de la distribuci ón Binomial es ((1 − p + pz)n y que el
logaritmo de la funci ón generadora de momentos es λ(exp(t) − 1).

Ejemplo 3.3.6 El Ejemplo 3.3.2 muestra c ómo calcular directamente las


cantidades EX = np y E(X(X − 1)) = n(n − 1)p2 . Por linealidad,
x2 = x(x − 1) + x implica EX 2 = n(n − 1)p2 + np, que coincide con
lo obtenido directamente. Por (3.3.11), Var X = np(1 − p). Finalmente
p(1−p)
Var Xn = n , que converge a 0 cuando n tiende a ∞. Este resultado es
relevante para la Ley de los Grandes N úmeros.

Aravena, del Pino, Quintana: PROBABILIDADES 89


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.4 Funci ón de Distribuci ón Acumulada

Cuando los sucesos de inter és dependen de una variable real, las preguntas relevantes
se pueden formular, a menudo, en t érminos de intervalos, como por ejemplo: ¿Tendre-
mos ma ñana una temperatura superior a 5 grados? o ¿Ser á la inflaci ón del pr óximo
mes inferior a 1%? o ¿Se mantendr á la variaci ón del ı́ndice Dow-Jones estable entre
-5 y +10 puntos?, etc. En estos casos X ⊆ R y, de hecho, se puede tomar igual a
R, asignando probabilidad nula al complemento de X . Si se asignan probabilidades a
todos los intervalos, el axioma de σ-aditividad permite determinar autom áticamente la
probabilidad de todos los subconjuntos de R que aparecen en la realidad. En otras pala-
bras, la distribuci ón de probabilidad PX queda completamente determinada en cuanto
se conoce el valor de PX para cada intervalo.
A primera vista, lo anterior requerirı́a especificar el tipo de intervalo, e.g. si el intervalo
contiene o no su lı́mite izquierdo a o su lı́mite derecho b, ası́ como si a o b son o no
finitos. Para un tipo dado de intervalo, la probabilidad correspondiente depende natu-
ralmente de a y de b, de modo que ella podrı́a expresarse como GX (a, b) para cierta
funci ón GX con dominio R2 . Afortunadamente, podemos apelar a un procedimiento
que es válido para cualquier medida positiva, que consiste en considerar previamente
ciertas probabilidades acumuladas y deducir a partir de ellas la probabilidad de cual-
quier intervalo. Discutimos este enfoque en la pr óxima secci ón.

3.4.1 Definici´
o n y propiedades generales

Para un valor x cualquiera, est án definidas las 4 probabilidades acumuladas P (X ≤


x), P (X < x), P (X ≥ x) y P (X > x). Como ((X ≤ x), (X > x)) y ((X <
x), (X ≥ x)) son pares de sucesos complementarios, se cumplen autom áticamente las
identidades

P (X > x) = 1 − P (X ≤ x)
P (X ≥ x) = 1 − P (X < x).

El problema se reduce ası́ a asignar los valores de P (X ≤ x) y de P (X < x) para cada


x. Pero, para todo x0 ∈ R, el suceso X < x0 es el lı́mite, cuando n tiende a ∞, de la
sucesi ón creciente de sucesos X ≤ x0 − n1 . La σ-aditividad implica que P (X < x0 )
satisface
1
P (X < x0 ) = lim P (X ≤ x0 − ).
n→∞ n
En consecuencia, basta conocer el valor de P (X ≤ x) para todo x ∈ R. El resultado
general, es que basta conocer una cualquiera de las probabilidades acumuladas para
todo x ∈ R. Esta discusi ón motiva la siguiente definici ón:

Definici o´n 3.4.1 La funci ón de distribuci ón acumulada (f.d.a.), o simplemente, fun-
ci ón de distribuci ón de la variable aleatoria real valorada X, se define como:

FX (x) = PX (] − ∞, x]) = P (X ≤ x), para −∞ < x < ∞. (3.4.1)

Aravena, del Pino, Quintana: PROBABILIDADES 90


´
CAP ITULO 3. VARIABLES ALEATORIAS

Para una funci ón h definida sobre R y con valores en R utilizaremos la siguiente nota-
ci ón para los lı́mites que se indican:
def
h(x+
0) = lim h(x),
x→x+
0

def
h(x−
0) = lim h(x)
x→x−
0

def
h(∞) = lim h(x)
x→∞
def
h(−∞) = lim h(x)
x→−∞

La funci ón FX , para una variable aleatoria real, est á definida en toda la recta real, y
tiene las siguientes propiedades:

(a) 0 ≤ FX (x) ≤ 1 para todo x ∈ R.


(b) FX es no decreciente.
(c) Para todo x ∈ R, los lı́mites laterales FX (x+ ) y FX (x− ) existen (pero no nece-
sariamente coinciden).
(d) Para todo x ∈ R, FX (x− ) = P (X < x).
(e) Para todo x ∈ R, FX (x) = FX (x+ ), esto es, FX es continua por la derecha.
(f) FX (∞) = 1 y FX (−∞) = 0.
(g) P (X = x) = FX (x) − FX (x− ).
(h) P (X ∈]a, b]) = FX (b) − FX (a), y P (X ∈ [a, b]) = FX (b) − FX (a− ).

La propiedad (a) se cumple por ser F (x) una probabilidad. (b) es consecuencia de la
monotonicidad de la probabilidad, pero se puede deducir directamente de la aditividad
y la positividad como sigue: para x1 < x2 se tiene

FX (x2 ) = P (X ∈] − ∞, x2 ]) = P (X ∈] − ∞, x1 ]∪]x1 , x2 ])
= P (X ∈] − ∞, x1 ) + P (X ∈]x1 , x2 ])
≥ P (X ∈] − ∞, x1 ]) = FX (x1 )

La propiedad (c) se satisface para toda funci ón no decreciente. Las propiedades (d),
(e) y (f) son consecuencia de la σ-aditividad, pero omitimos sus demostraciones. Fi-
nalmente, (g) y (h) son consecuencia de las propiedades anteriores y la aditividad. La
continuidad por la derecha cambiarı́a a continuidad por la izquierda si P (X ≤ x) se
reemplaza por P (X < x).
Cuando X es el instante de falla de un equipo o de una componente, es com ún trabajar
con la funci ón de confiabilidad, definida por S(x) = P (X > x), y que no es otra cosa
que 1 − FX (x).
Un resultado matem ático importante, cuya demostraci ón excede largamente los requi-
sitos matemáticos de estas notas, es que dada cualquier funci ón F que satisface (b), (e)

Aravena, del Pino, Quintana: PROBABILIDADES 91


´
CAP ITULO 3. VARIABLES ALEATORIAS

y (f), ella corresponde a la funci ón de distribuci ón acumulada de alguna variable alea-
toria. Las propiedades (d),(g) y (h) permiten calcular las probabilidad de un intervalo y
de un punto cualquiera.
Cuando existe un intervalo S = [c, d], tal que P (X ∈ S) = P (c < X < d) = 1, los
puntos c y d juegan el rol de −∞ y +∞ respectivamente. En particular, la condici ón
(f) equivale a FX (c) = 0 y FX (d) = 1. Adem ás, FX (x) = 0 para todo x < c
y FX (x) = 1 para todo x ≥ d. Por (g), la funci ón FX es continua si y s ólo si la
probabilidad de cualquier conjunto de un elemento es nula. En este caso, P X ([a, b]) =
PX (]a, b]) = PX ([a, b[) = PX (]a, b[), para todo a, b.

3.4.2 Ejemplos
Ejemplo 3.4.1 Considere la siguiente tabla parcial de valores para F X :
x 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
FX (x) 0.30 0.38 0.45 0.52 0.58 0.62 0.65 0.68 0.70 0.71 0.72

Entonces:
• P (X ≤ 1.4) = 0.58.
• P (X > 1.7) = 0.32.
• P (1.4 < X ≤ 1.7) = 0.68 − 0.58 = 0.10.
Si se sabe que la funci ón F es continua, se puede afirmar que
• P (X < 1.4) = 0.58.
• P (X ≥ 1.7) = 0.32.
• P (1.4 ≤ X ≤ 1.7) = P (1.4 ≤ X < 1.7) = P (1.4 < X ≤ 1.7) =
0.10.

Ejemplo 3.4.2 La variable aleatoria X es el n úmero de mujeres en un con-


junto de 5 personas. Considere la siguiente tabla parcial de valores para
FX :
x 0 1 2 3 4 5
FX (x) .078 .337 .683 .913 .990 1.000
Entonces:
• P (X ≤ 2) = 0.683.
• P (X > 2) = 1 − .683 = .317.
• P (X ≤ 2.5) = P (X ≤ 2) = .683.
• P (X ≥ 3) = P (X > 2) = .317.
• P (X = 3) = P (2 < X ≤ 3) = .913 − .683 = .230.

Ejemplo 3.4.3 Verificar que para todo k entero positivo, la funci ón F defi-
nida por
k−1
X xj e−x
F (x) = 1 − , x>0
(k − 1)!
j=0

Aravena, del Pino, Quintana: PROBABILIDADES 92


´
CAP ITULO 3. VARIABLES ALEATORIAS

y F (x) = 0 si x ≤ 0, es la funci ón de distribuci ón acumulada de una


variable aleatoria. En este caso c = 0 y F (c) = F (0) = 0. Un c álculo
directo demuestra que la derivada de la funci ón F es positiva para todo
x > 0, de modo que F es creciente. Como ex aumenta mucho m ás rápido
que xj , para todo j ≤ 0, se tiene que xj e−x converge a 0 cuando x tiende a
∞ y, por tanto, F (∞) = 1.

3.4.3 Funci o´n de distribuci o´n acumulada para una variable aleatoria dis-
creta

Recordemos que una variable aleatoria X se dice discreta si tiene un n úmero finito o
numerable de valores. Este es el caso de las variables en los Ejemplos 3.2.2 y 3.2.3.
El adjetivo discreta se aplica tambi én a su distribuci ón de probabilidad PX . Para una
variable aleatoria discreta, PX queda completamente determinada por su funci ón de
probabilidad pX . Si el conjunto X de valores de X es un subconjunto de R tenemos
la opci ón de elegir a R o a X como espacio muestral inducido por X. Sin p érdida
de generalidad, supondremos que pX (x) > 0 para todo x ∈ X (si no, simplemente
eliminamos tal punto de X ). En este caso X se denomina soporte de X y es el menor
subconjunto de R que cumple la propiedad PX (S) = 1. Se lo puede escribir como

X = {x/ pX (x) > 0}

La funci ón de probabilidad pX determina PX s ólo cuando X es una variable discreta.


En particular, FX se puede expresar como
X
FX (x) = pX (y) (3.4.2)
{y∈X /y≤x}

Las caracterı́sticas de PX se reflejan necesariamente en FX . Cuando PX es discreta,


la funci ón FX s ólo crece a saltos, coincidiendo el conjunto de puntos de salto con el
soporte S. En otras palabras, su gr áfico tiene forma de escalera, con un pelda ño en cada
punto del soporte, coincidiendo la altura de este pelda ño con la probabilidad del punto
de salto. Más formalmente, FX es una funci ón escalera, y con una discontinuidad de
salto en cada punto x ∈ X . La magnitud del salto es precisamente p X (x). Se ilustra
esto en la Figura 3.4.5. Recı́procamente, si FX es una funci ón en escalera, la variable
X es necesariamente discreta.

3.5 Variables Aleatorias Continuas y Funci ón Densidad de


Probabilidad

3.5.1 o n y relaci o´n con la distribuci o´n acumulada


Definici´

La analogı́a de la probabilidad con otras medidas positivas, como la masa de un cuerpo,


sugiere utilizar la idea de densidad. Considerando a la masa como una medida positiva

Aravena, del Pino, Quintana: PROBABILIDADES 93


´
CAP ITULO 3. VARIABLES ALEATORIAS

Ejemplo de FDA caso discreto

1.0

0.8

0.6
FDA

0.4

0.2

0.0

0 2 4 6 8

x
Probabilidad concentrada en 4 puntos

Figura 3.4.5: Ejemplo de Funci ón de Distribuci ón Acumulada para una variable aleatoria discreta.

que se define sobre una clase de subconjuntos de R3 , que representan un cuerpo o sus
partes, la densidad de masa es una funci ón que asigna un valor real a cada punto de
una regi ón en R3 . Si el cuerpo ocupa una regi ón B en el espacio y la densidad se
denota por ρ(x), la masa del cuerpo es la integral de la funci ón ρ sobre el conjunto
B. Por analogı́a entre la masa de este cuerpo y la probabilidad PX (B), es razonable
estudiar la posibilidad de expresar PX (B) como la integral de una cierta funci ón, que
naturalmente recibe el nombre de densidad de probabilidad. Este segundo enfoque
tiene la ventaja de ser inmediatamente generalizable a R k .
La definici ón formal de la funci ón densidad es la siguiente:

Definici o´n 3.5.1 La variable aleatoria a valores reales X, o su distribuci ón de proba-
bilidad PX , se dirá absolutamente continua, si existe una funci ón fX definida sobre R,
y con valores no negativos tal que para cualquier suceso A ⊂ X
Z
PX (A) = P (X ∈ A) = fX (x)dx. (3.5.1)
A

La funci ón fX se denomina funci ón densidad de probabilidad, o, simplemente densi-


dad de X.

Las variables aleatorias en el Ejemplo 3.2.4 son absolutamente continuas. Cuando A es


un intervalo con lı́mite inferior a y lı́mite superior b, que es el caso m ás com ún, (3.5.1)

Aravena, del Pino, Quintana: PROBABILIDADES 94


´
CAP ITULO 3. VARIABLES ALEATORIAS

se escribe en la forma m ás familiar


Z b
PX ([a, b]) = P (a ≤ X ≤ b) = fX (x)dx. (3.5.2)
a

Cuando a = −∞ o b = ∞ la expresi ón se entiende en el sentido de una integral


impropia, es decir, haciendo tender a o b al lı́mite correspondiente. Desde un pun-
to de vista matem ático, las propiedades (3.5.1) y (3.5.2) son, de hecho, equivalentes.
Geométricamente, (3.5.2) es el área bajo el gr áfico de fX entre a y b.
Tomando A =] − ∞, x] en (3.5.1) se obtiene la importante relaci ón
Z x
FX (x) = fX (t)dt, (3.5.3)
−∞

que liga a la densidad con la distribuci ón acumulada. Por otra parte, a partir de (3.5.3),
es inmediato ver que
FX0 (x) = fX (x), (3.5.4)
bajo ciertas condiciones de regularidad que mencionamos en la secci ón 3.5.2. De
(3.5.4) se tiene que FX es una antiderivada o primitiva G de f . Entonces FX (x) =
G(x) + C y la constante C se determina conociendo el valor de F X (x) en cualquier
punto, incluyendo ∞ y −∞. Por ejemplo, si fX (x) = e−x , x > 0 y fX (x) = 0 en
otro caso, se tiene que G(x) = −e−x es una primitiva y FX (x) = −e−x + C. De
P (X ≤ 0) = 0 se deduce que FX (x) = 0 y, por tanto, C = 1. Lo mismo se obtiene
de 1 = F (∞) = 0 + C.
La definici ón intuitiva de densidad de masa ρ en un punto x0 dado, es que ella aproxima
al cuociente entre la masa de una peque ña parte del cuerpo que contiene a x0 y su
volumen. El producto de ρ(x0 ) y el volumen de la regi ón aproxima entonces la masa
de la regi ón. El mismo argumento sugiere que el producto de fX (x0 ) y la longitud de
un peque ño intervalo que contiene a x0 aproxima la probabilidad que X tome un valor
en dicho intervalo. Si la unidad de medida de x es centı́metros, fX tiene dimensi ón
cm−1 ; si ella es segundos, la unidad de fX es seg−1 . Esto muestra que no tiene sentido
interpretar a fX (x) como una probabilidad, a diferencia de lo que acontece con p X (x)
en el caso discreto. Por ejemplo, si X mide el peso de una persona en kilogramos,
fX (68) × 0.2 aproxima P (67.9 ≤ X ≤ 68.1) = FX (68.1) − FX (67.9).
Es instructivo buscar una interpretaci ón directa de (3.5.4), que no descanse en el teo-
rema fundamental del c álculo. Para ello hacemos la analogı́a con la densidad de masa.
Consideremos un intervalo peque ño (x0 − 2 , x0 + 2 ], centrado en un punto x0 de la
recta real y aproximemos la densidad en x0 por el cuociente entre su probabilidad y el
largo del intervalo. Entonces,

P (x0 − 2 < X ≤ x0 + 2 ]
fX (x0 ) ≈ (3.5.5)
largo((x0 − , x0 + ])
FX (x0 + 2 ) − FX (x0 − 2 )
= (3.5.6)

≈ FX0 (x0 ) (3.5.7)

Aravena, del Pino, Quintana: PROBABILIDADES 95


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.5.2 Caracterizaci o´n de una funci o´n densidad de probabilidad

Ası́ como una funci ón F no decreciente, continua por la derecha y que satisface
F (−∞) = 0 y F (∞) = 1 se puede considerar como la funci ón de distribuci ón acu-
mulada de cierta variable aleatoria, una funci ón f se puede considerar como la funci ón
densidad de probabilidad de cierta variable aleatoria X si ella satisface las condiciones

f (x) ≥ 0, para todo x ∈ R. (3.5.8)


Z ∞
f (x)dx = 1. (3.5.9)
−∞

En efecto, basta definir la funci ón de distribuci ón acumulada FX mediante (3.5.3).
Es más habitual determinar modelos probabilı́sticos especificando la funci ón densidad
de probabilidad que usando la funci ón de distribuci ón acumulada. Por otra parte, suele
ser conveniente definir la densidad salvo por una constante de proporcionalidad. Si
f (x) = cg(x), donde g es una funci ón definida en R, a valores reales no negativos,
y con integral finita, digamos I, (3.5.9) implica cI = 1, o sea f (x) = g(x)I −1 es
efectivamente una densidad. Por ejemplo, sea f definida en [0, 1], como f (x) = cx 3 , y
0 en todo otro punto. ¿Cu ál es el valor de c para que f sea una densidad? Todo lo que
se necesita es que Z ∞ Z 1
c
f (x)dx = c x3 dx = = 1,
−∞ 0 4
por lo que se requiere c = 4.

3.5.3 Propiedades anal´


ı ticas y otros tipos de distribuciones

3.5.3.1 Interpretaciones de la densidad

Cuando fX es continua en la vecindad de x0 se satisface



P (x0 − 2 ≤ X ≤ x0 + 2 )
→ fX (x0 ), cuando  → 0+ ,

de modo que fX (x0 ) es la probabilidad aproximada de un peque ño intervalo rodeando
a x0 . Haciendo variar x0 , esto describe la forma en que se concentra la distribuci ón
de probabilidades de X en torno a x. Reemplazando x 0 por x,  por dx, y el intervalo
centrado por uno con lı́mite izquierdo x, la igualdad aproximada toma una forma muy
sugerente:
P (x ≤ X ≤ x + dx) ≈ fX (x)dx (3.5.10)
El valor exacto del lado izquierdo es FX (x + dx) − FX (x). La aproximaci ón (3.5.10)
corresponde a una expansi ón de Taylor de primer orden de FX en torno a x. Si FX es
diferenciable en x, el error de aproximaci ón en (3.5.10) tiende a 0 m ás rápido que dx
(o sea al dividirlo por el n úmero positivo dx el cuociente converge a 0). Escribimos
simb ólicamente esto como

P (x ≤ X ≤ x + dx) = fX (x)dx + o(dx) (3.5.11)

Aravena, del Pino, Quintana: PROBABILIDADES 96


´
CAP ITULO 3. VARIABLES ALEATORIAS

Por otra parte, aplicando (3.5.2) al lado izquierdo de (3.5.10) se tiene la aproximaci ón:
Z x+dx
fX (t)dt ≈ fX (x)dx; (3.5.12)
x

Cuando fX es continua, el teorema del valor medio para integrales garantiza


Z x+dx
fX (t)dt ≈ fX (x∗ )dx, para alg ún x ≤ x∗ ≤ x + dx.
x

El error de aproximaci ón es |fX (x∗ )−fX (x)|dx, que se puede acotar por M dx, donde
M es la máxima variaci ón de la densidad en el intervalo. Si fX es continua en este
intervalo, el n úmero M tiende a 0 cuando dx tiende a 0.

3.5.3.2 Distribuciones absolutamente continuas y no at o´micas

Las propiedades de la distribuci ón de probabilidad PX están vinculadas con propieda-


des de FX . Un ejemplo importante es el siguiente

Definici o´n 3.5.2 Si P (X = x) = 0 para todo x ∈ R se dice que PX es continua o no


at ómica.

El siguiente teorema es inmediato

Teorema 3.5.1 PX es no at ómica si y s ólo si FX es continua.

Claramente toda distribuci ón absolutamente continua es no at ómica. Por otra parte,
todas las distribuciones de probabilidad continuas que se utilizan en la pr áctica son, de
hecho, absolutamente continuas. Los contraejemplos son algo complicados de cons-
truir y revisten un inter és puramente matem ático. Muchos libros utilizan el t érmino
variable aleatoria continua para referirse a una variable que admite una funci ón densi-
dad. Con nuestra definici ón, ambos conceptos no son equivalentes.
La continuidad absoluta de la distribuci ón, es decir la existencia de una funci ón densi-
dad, equivale esencialmente a cualquier de las dos propiedades equivalentes (la demos-
traci ón de la equivalencia requiere de herramientas matem áticas sofisticadas):

(a) Si el largo de A ⊆ R es 0, entonces P (A) = 0.


(b) Si el largo de An ⊆ R tiende a 0, lo mismo sucede con P (An ).

Aplicando (a) a A = {x} = [x, x] se deduce que P (X = x) = 0; aplicando (b) a


An =]x − n1 , x + n1 ], se deduce que FX (x) − FX (x− ) = lim n → ∞(F (x + n1 ) −
F (x − n1 )) = 0. Esto proporciona dos demostraciones alternativas al hecho que una
distribuci ón absolutamente continua es no at ómica.

Aravena, del Pino, Quintana: PROBABILIDADES 97


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.5.3.3 Falta de unicidad de la funci o´n densidad

Si las funciones f y g satisfacen (3.5.9) y (3.5.3) y difieren s ólo en un conjunto finito


de puntos, ellas son dos funciones de densidad de una misma distribuci ón. Llamamos a
f y g dos versiones de la funci ón densidad. Con una definici ón adecuada de integral, el
conjunto finito se puede reemplazar por un conjunto de largo cero. En R los conjuntos
de largo cero que no son numerables resultan ser bastante extra ños (o patol ógicos,
como se dice en lenguaje matem ático). En cambio, una curva suave en R2 , e.g. una
circunferencia o una lı́nea recta, tiene área cero y no es numerable.

3.5.3.4 Distribuciones mixtas

Existen distribuciones de probabilidad que no son ni discretas ni continuas, a las que


se denomina distribuciones mixtas. Su funci ón distribuci ón acumulada no es una fun-
ci ón puramente de saltos ni una funci ón continua, sino una combinaci ón convexa de
ambas. Esto quiere decir que toda distribuci ón mixta FX se puede escribir como una
combinaci ón lineal αFD + (1 − α)FC , donde 0 < α < 1, y FD y FC son las funcio-
nes de distribuci ón acumulada de dos variables aleatorias D y C, discreta y continua
respectivamente. La variable aleatoria en el Ejemplo 3.2.5 tiene una distribuci ón mixta.

3.6 Familias Paramétricas de Distribuciones de Probabili-


dad

3.6.1 Propiedades generales

Cuando se cuenta con una distribuci ón de proporciones empı́ricas, es com ún tratar de
mirarlas como una aproximaci ón a una distribuci ón de probabilidad te órica. Se dispo-
ne para ellos de muchos tipos de distribuciones de probabilidad conocidas. Dado un
tipo particular de distribuciones, una distribuci ón especı́fica queda determinada por un
vector de par ámetros, que denotamos por θ. Estos par ámetros ajustables se eligen para
que las proporciones empı́ricas se parezcan lo m ás posible a las probabilidades te óricas
correspondientes. Formalmente, tenemos una familia de distribuciones {P θ , θ ∈ Θ}.
Elegir un miembro de esta familia equivale a elegir un elemento θ ∈ Θ. El único caso
que consideraremos ac á es Θ ⊂ Rk , donde k n úmeros reales determinan la distribu-
ci ón de manera única. Por simplicidad de lenguaje se suele hablar de la distribuci ón
Pθ , aunque θ no est é especificado. Si X sigue la distribuci ón Pθ , lo que escribimos
X ∼ Pθ , la probabilidad que el valor de X pertenezca a A se denota por P θ (A).
Lo más c ómodo es representar a Pθ por su funci ón de probabilidad p(·; θ), o su funci ón
de densidad f (·; θ), seg ún sea la distribuci ón discreta o absolutamente continua. Estas

Aravena, del Pino, Quintana: PROBABILIDADES 98


´
CAP ITULO 3. VARIABLES ALEATORIAS

funciones son no negativas y satisfacen


X
p(x; θ) = 1
x∈S
Z
f (x; θ)dx = 1,
S

donde S es el soporte de Pθ , o sea, P (X ∈ S) = 1. En la pr áctica, S es un intervalo


de n úmeros reales o enteros.
Una funci ón no negativa g(x, θ) con suma o integral denotada por I(θ) < ∞, genera
una funci ón probabilidad o densidad al dividirla por I(θ). Esto proporciona una fuente
ilimitada de familias de distribuciones, siendo el único problema el c álculo de I(θ). En
la práctica I(θ) es una suma, el valor de una serie, una integral definida o una integral
impropia.

Ejemplo 3.6.1 En la secci ón 1.6 discutimos especialmente las distribucio-


nes de probabilidad cuyo soporte sea subconjunto de los enteros no negati-
vos. Dada una serie de potencias conocida

X
G(z) = ck z k , |z| < r,
k=0

se obtiene que
ck θ k
p(k, θ) = , 0 < θ < r.
G(θ)
es una legı́tima familia uniparam étrica de funciones de probabilidad, es
decir indexadas por el n úmero real θ.

3.6.2 Taxonom´
ıa

Los libros de probabilidad suelen entregar una peque ña lista de distribuciones de pro-
babilidad, donde se indican algunas de sus principales caracterı́sticas. Este libro no es
una excepci ón; la Secci ón 3.10 entrega tal lista. Cabe se ñalar que libros de referencia,
como la colecci ón escrita por Johnson y Kotz, contiene muchas m ás distribuciones e
informaci ón sobre ellas.
Esencialmente, podemos pensar que disponemos de un diccionario enciclop édico de
distribuciones y precisamos estrategias de b úsqueda. Los principales elementos para
acotar la b úsqueda son

• Distribuciones discretas versus continuas.


• El soporte de la distribuci ón.

Al igual que en las tablas de integrales, se reduce mucho el espacio necesario si las dis-
tintas expresiones se reducen a un n úmero más peque ño de formas est ándar o can óni-
cas.

Aravena, del Pino, Quintana: PROBABILIDADES 99


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.6.3 Familias param e´tricas discretas

• Caso degenerado: Si card S = 1, la variable aleatoria se degenera en una


constante.
• Caso binario: Si card S = 2, X es una variable aleatoria llamada binaria.
Si a < b son los dos valores posibles, la variable X se puede expresar como
una transformaci ón lineal afı́n de una variable Z ∼ Bern (p), mediante Y =
a + (b − a)Z.
• Caso finito: Los recuentos constituyen el caso m ás tı́pico. Otro caso importan-
te es una versi ón discreta del tiempo. Si el valor mı́nimo es m > 0, la nueva
variable Y = X − m toma valores en {0, 1, . . . , m}. Las distribuciones Bino-
mial, Hipergeom étrica, y Uniforme discreta son los casos m ás conocidos (ver
Secci ón 3.10).
• Caso entero no negativo: Si no hay un n úmero máximo claro, se toma formal-
mente n = ∞, o sea el soporte est á constituido por todos los enteros no negativos.
Las distribuciones m ás conocidas son la Geom étrica, Poisson y Binomial negati-
va (ver Secci ón 3.10). El valor mı́nimo puede ser m > 0, o bien ser eliminado
por resta. Por ejemplo el n úmero X de lanzamientos que se requiere para obtener
2 caras tiene distribuci ón BN(2, p) y el n úmero de de sellos Y tiene distribuci ón
BN0(2, p). Estas variables satisfacen la relaci ón Y = X − 2.
• Reales con n úmero finito de dı́gitos. Un intervalo [a, b] ⊆ R se aproxima por un
conjunto finito S de puntos equiespaciados, e.g. truncando los n úmeros reales a
s ólo k dı́gitos. Por ejemplo, [2, 3] se aproxima por {2.00, 2.02, . . . , 2.99, 3.00}
para k = 2. Un cambio de variables X = a + hY reduce una distribuci ón de
probabilidad con soporte S a otra con soporte can ónico {0, 1, 2, . . . , n}.

3.6.4 Familias param e´tricas continuas

Para una distribuci ón continua, es irrelevante si el intervalo contiene o no sus extremos,
pues ellos tienen probabilidad nula. Escribimos el soporte como un conjunto cerrado.

3.6.4.1 Reducci o´n a la forma can o´nica.

• La transformaci ón x = a + (b − a)y reduce el caso de una variable X con soporte


[a, b] al de una variable Y con soporte [0, 1].
• La translaci ón X = a + Y reduce el soporte [a, ∞[ a [0, ∞[.
• X = b − Y , que es una combinaci ón de translaci ón con reflecci ón con respecto
al origen reduce el soporte ] − ∞, b] a [0, ∞[.
• Si el soporte es R, él es preservado por toda transformaci ón lineal afı́n no cons-
tante.

De esta forma, es suficiente estudiar familias de distribuciones cuyo soporte es [0, 1],
[0, ∞[, o R =] − ∞, ∞[.

Aravena, del Pino, Quintana: PROBABILIDADES 100


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.6.4.2 Principales distribuciones.

• Soporte [0, 1] : Distribuci ón Beta [α, β], cuyo caso m ás importante es la distribu-
ci ón uniforme.
• Soporte [0, ∞, [: Exponencial, Gama, Weibull, Log-normal, valor extremo, Ji-
cuadrado, F de Snedecor.
• Soporte R. Normal, Student, Logı́stica, Cauchy

3.7 Variables Discretas Asociadas con el Proceso de Bernou-


lli

3.7.1 Definiciones y notaciones b´


a sicas

La definici ón frecuentista de probabilidad descansa en las repeticiones hipot éticas de


un experimento. Con la noci ón de independencia de variables aleatorias, tal situaci ón
se representa por una sucesi ón de variables aleatorias Y1 , Y2 , . . ., i.i.d., es decir, inde-
pendientes e id énticamente distribuidas. Consideremos un suceso cualquiera A, que
puede o no ocurrir en la i- ésima repetici ón, y definamos su variable indicatriz Xi por
Xi = 1 si Yi ∈ A y Xi = 0 en caso contrario. Entonces, X1 , X2 , . . . son también i.i.d.
y cada variable Xi es binaria, con valores 0 y 1. La distribuci ón de probabilidad de Yi
se denomina Bern (p), donde p = P (Xi = 1) (p = P (Yi ∈ A) en nuestro caso). A
continuaci ón damos una definici ón formal, junto con la nomenclatura usual.

Definici o´n 3.7.1 La distribuci ón de probabilidad que asigna probabilidad p al valor 1
y probabilidad q = 1 = p al valor 0, se denomina Bernoulli con par ámetro p. Un
proceso de Bernoulli de par ámetro p es una sucesi ón de variables aleatorias i.i.d. con
iid
distribuci ón Bern (p), lo que se escribe X1 , X2 , . . . ∼ Bern (p).
La variable Xi representa el resultado del i- ésimo ensayo, interpret ándose Xi = 1
como un éxito y Xi = 0 como un fracaso. El par ámetro p com ún representa la proba-
bilidad de éxito, P (Xi = 1), denotándose la probabilidad de fracaso por q = 1 − p.

Un modelo concreto es la repetici ón indefinida del lanzamiento de una moneda, con
probabilidad p de salir cara y q = 1 − p de salir sello, donde el resultado del i- ésimo
lanzamiento es xi = 1 si sale cara y xi = 0 si sale sello. La proporci ón de éxitos en
los primeros n ensayos es
n
1X
pn = Xi ,
n
i=1

i.e., el promedio de las primeras n variables. Si Xi = 1 cuando Yi ∈ A, esta proporci ón


es la frecuencia relativa con que ocurre el suceso A en n repeticiones del experimento.
La Ley de los Grandes N úmeros implica que pn tiende a p = P (Xi = 1).
Definamos ahora las siguientes variables aleatorias:

Aravena, del Pino, Quintana: PROBABILIDADES 101


´
CAP ITULO 3. VARIABLES ALEATORIAS

Nn : n úmero de éxitos obtenidos en los n primeros ensayos,


es decir, hasta el instante n, inclusive.
Tk : instante donde ocurre el k- ésimo éxito, con T0 = 0.
Zk : n úmero de ensayos que requiere obtener el k- ésimo éxito,
contado a partir del ensayo en que se obtiene el k − 1- ésimo éxito.
Observe que Z1 = T1
Wk : n úmero de fracasos consecutivos que precede al k- ésimo éxito.
Pn
Es inmediato que Nn = Xi , Zk = Tk − Tk−1 , Wk = Zk − 1 y Tk = inf . De
i=1 n/Nn =k
aquı́ se deduce
Tk ≤ n ⇔ Nn ≥ k.
k
X k
X
Tk = Zi , Tk − k = Wi .
i=1 i=1

La tabla siguiente ilustra las definiciones para una realizaci ón particular de las variables
X1 , X2 , . . . , X20 .

n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
xn 0 1 0 0 1 1 0 1 0 0 0 0 1 0 1 0 0 0 1 1
Nn 0 1 1 1 2 3 3 4 4 4 4 4 5 5 6 6 6 6 7 8

k 1 2 3 4 5 6 7
Tk 2 5 6 8 13 15 19
Zk 2 3 1 2 5 2 4
Wk 1 2 0 1 4 1 3

Hacemos notar que las variables aleatorias Nn , Tk , Zk y Wk han sido definidas sin
especificar su distribuci ón de probabilidad. De cualquiera de las 6 filas anteriores se
pueden deducir las otras 5 mediante un simple c álculo aritmético. Como el modelo
probabilı́stico subyacente a los resultados de la primera fila est á determinado por p,
lo mismo sucede con las distribuciones de probabilidad asociadas a las otras filas. La
siguiente tabla muestra los nombres asignados a las diversas distribuciones. Posterior-
mente deduciremos las funciones de probabilidad correspondientes.

Distribuci ón de nombre Notaci ón


Xn Bernoulli de par ámetro p. Bern (p)
Nn Binomial de par ámetros n y p. Bin (n, p)
Zk Geométrica de parámetro p. Geom(p)
Wk Geométrica de parámetro p
trasladada al origen Geom0(p)
Tk Binomial negativa de par ámetros k y p. BN(k, p).
Tk − k Binomial negativa de par ámetros k y p
trasladada al origen BN0(k, p).

Aravena, del Pino, Quintana: PROBABILIDADES 102


´
CAP ITULO 3. VARIABLES ALEATORIAS

La tabla indica que las distribuciones de Zk y de Wk no dependen de k, lo que ser á de-


mostrado más adelante. Si no se quiere hacer uso de este hecho, usamos Z 1 = T1
y W1 = T1 para definir las distribuciones Geom(p) y Geom0(p) respectivamente,
las que corresponden a BN(1, p) y BN0(1, p) respectivamente. F órmulas para sus
funciones de probabilidad se encuentran en la Secci ón 3.10.

3.7.2 Recuentos, camino aleatorio y la distribuci o´n Binomial.

La funci ón de probabilidad de Nn se indica en (3.10.7), y ya ha sido deducida, en


ejemplos de capı́tulos anteriores. Un caso especial con n = 10, se discute en el Ejem-
plo 3.2.1. Para mayor facilidad la repetimos ac á en el caso general. Observe que
Nn = k si y s ólo si hay exactamente k unos entre X1 , . . . , Xn (y, por ende, exac-
tamente n − k ceros). Cada n-tupla de unos y ceros con exactamente k unos tiene
probabilidad pk (1 − p)n−k . Por otra parte, el n úmero de n-tuplas con exactamente k
ceros coincide con el n úmero de formas diferentes de asignar k objetos indistinguibles
a n posiciones diferentes, o, equivalentemente, al n úmero de posibles subconjuntos
de tama ño k de un total de n objetos. Este n úmero es exactamente nk , y ası́ hemos
obtenido que
 
n k
pNn (k) = p (1 − p)n−k , para k ∈ {0, 1, . . . , n}.
k
Si imaginamos que alguien juega repetidamente, ganando a si X i = 1 y perdiendo b
si Xi = 0, la ganancia acumulada despu és de n juegos (que puede ser negativo) es
Yn = aNn − b(n − Nn ) = −bn + (a + b)Nn . Si el capital inicial es C0 , el jugador
se arruina si −Yn excede C0 . El caso más importante es a = b = 1. El gr áfico de Yn
versus n, o la sucesi ón Yn se denomina camino aleatorio.
No hay nada especial en los primeros n ensayos. Si representamos al j- ésimo ensayo
por el n úmero j ∈ N = {1, 2, . . .}, el n úmero NA de éxitos en un conjunto A de
ensayos satisface X
NA = Xj ∼ Bin ( card A, p) (3.7.1)
j∈A
Para A = {1, 2, . . . , n} NA se reduce a Nn .

Ejemplo 3.7.1 Demostrar que Yj ∼ Bin (nj , p), j = 1, . . . , k e Y1 , . . . , Yk


independientes, implica
k
X k
X
Yj ∼ Bin ( nj , p).
j=1 j=1

Demostraci o´n: Aplicando (3.7.1) a cada elemento de una partici ón orde-
k
P
nada de S = {1, 2, . . . , n}, con n = nj , se tiene
j=1

k
X
NS = N Aj .
j=1

Aravena, del Pino, Quintana: PROBABILIDADES 103


´
CAP ITULO 3. VARIABLES ALEATORIAS

Claramente NAj e Yj tienen la misma distribuci ón y los NAj son indepen-
k
P
dientes. Adem ás NS ∼ Bin ( nj , p), por definici ón.
j=1

Ejemplo 3.7.2 Demostrar que si X ∼ Bin (n, p), entonces se tiene que
Y = n − X ∼ Bin (n, 1 − p).
Demostraci o´n: Una demostraci ón directa se obtiene a partir de pY (y) =
P (Y = y) = P (n−Y = n−y) = P (X = n−y) = pX (n−y) y aplicando
(3.10.7). Una alternativa m ás interesante consiste en definir Yi = 1 − Xi ,
verificar que Y1 , Y2 , . . . es un proceso
Pn de Bernoulli con par ámetro 1 − p, y
utilizar la representaci ón Y = 1 Yi .

3.7.3 Distribuci o´n geom´


e trica

3.7.3.1 Tiempo entre e´xitos consecutivos

La funci ón de probabilidad de la distribuci ón geométrica está dada por (3.10.8). El
resultado fundamental est á contenido en la siguiente proposici ón.

Proposici o´n 3.7.1 Para un proceso de Bernoulli con probabilidad de éxito p se tiene
que los n úmeros de ensayos entre éxitos sucesivos, W1 , W2 , . . . son variables alea-
torias i.i.d. con distribuci ón com ún geométrica de parámetro p trasladada al origen.
Las distancias entre éxitos consecutivos Z1 , Z2 , . . . son i.i.d. con distribuci ón com ún
geométrica de parámetro p.

La demostraci ón general se deja como ejercicio e ilustramos la idea b ásica mediante
un caso particular. De la Tabla

P (W1 = 1, W2 = 2, W3 = 0, W4 = 1) = P (X1 = 0, X2 = 1, X3 = 0, X4 = 0,
X5 = 1, X6 = 1, X7 = 0, X8 = 1)
= qpqqppqp
= q 1 pq 2 pq 0 pq 1 p
= q w1 pq w2 pq w3 pq w4 p

Por el Teorema de Factorizaci ón se obtiene la independencia de los sucesos W1 = 1,


W2 = 2, W3 = 0, y W4 = 1. Usando este mismo argumento para otros valores de las
covariables y comparando con (3.10.9) se completa la demostraci ón.
La variable Wj = Zj − 1 es el n úmero de fracasos que media entre el (j − 1)- ésimo y
el j-ésimo éxito. Su funci ón de probabilidad est á dada por (3.10.9).

3.7.3.2 Falta de memoria.

Una propiedad interesante de la distribuci ón geométrica es la llamada falta de memo-


ria. En efecto, suponga que, para un proceso de Bernoulli con probabilidad de éxito p,

Aravena, del Pino, Quintana: PROBABILIDADES 104


´
CAP ITULO 3. VARIABLES ALEATORIAS

el instante del primer éxito T1 (que, como sabemos, tiene distribuci ón geométrica de
parámetro p) es posterior al instante actual, digamos, t, esto es, T 1 > t. La pregunta
que surge entonces, es: ¿Cu ál es la probabilidad que tengamos que esperar m ás de s
ensayos para observar el primer éxito? En otras palabras, dado que ya llevamos t en-
sayos esperando el primer éxito, ¿Cuál es la probabilidad que tengamos que esperar al
menos s ensayos m ás? Lo que se requiere calcular es P (T1 > s + t|T1 > t). Ahora,
P (T1 > s + t, T1 > t) P (T1 > s + t)
P (T1 > s + t|T1 > t) = = . (3.7.2)
P (T1 > t) P (T1 > t)
Por otra parte,

X ∞
X
P (T1 > t) = pT1 (k) = p(1 − p)k−1
k=t+1 k=t+1

X
= p(1 − p)t (1 − p)k−t−1
k=t+1

X
= p(1 − p)t (1 − p)j (con j = k − t − 1)
j=0
1
= p(1 − p)t × = (1 − p)t ,
1 − (1 − p)
por lo que usando (3.7.2) se obtiene
(1 − p)s+t
P (T1 > s + t|T1 > t) = = (1 − p)s = P (T1 > s),
(1 − p)t
y llegamos a la m ás bien sorprendente conclusi ón que la probabilidad en cuesti ón no
depende de t. Esta propiedad de la distribuci ón geométrica se llama, precisamente,
falta de memoria.

3.7.4 Instantes en que ocurre un e´xito y la distribuci o´n Binomial negati-


va.

Vamos ahora a demostrar que la distribuci ón de Tk es BN(k, p), cuya funci ón de
probabilidad est á dada por (3.10.10). Como el k- ésimo éxito no puede obtenerse antes
del instante k, y por otra parte, no es posible acotar el n úmero de ensayos requerido
para obtenerlo, Tk toma valores en {k, k +1, k +2, . . .}. El suceso {Tk = n} equivale a
observar k − 1 éxitos en los n − 1 primeros ensayos (sin especificar en qu é posiciones),
y un éxito en el n-ésimo ensayo. Por lo tanto, la funci ón de probabilidad de Tk ,
evaluada en n ≥ k coincide con P (Nn−1 = k − 1, Xn = 1). La independencia de los
Xi implica que Nn−1 (que depende de las variables X1 , . . . , Xn−1 ) es independiente
de Xn . Entonces:
P (Tk = n) = P ({Nn−1 = k − 1} ∩ {Xn = 1})
= P (Nn−1 = k − 1) × P (Xn = 1)
 
n − 1 k−1
= p (1 − p)n−k × p.
k−1

Aravena, del Pino, Quintana: PROBABILIDADES 105


´
CAP ITULO 3. VARIABLES ALEATORIAS

Una comparaci ón con (3.10.10) concluye la demostraci ón.

Ejercicio: Determine si la distribuci ón binomial negativa posee falta de memoria o no.

3.7.5 Distribuci o´n de Poisson

La distribuci ón de Poisson es muy importante por si sola, como modelo probabilı́stico
para recuentos. Por otra parte, ella se puede obtener como lı́mite de la distribuci ón
Bin (n, p), para n grande, p peque ño, y producto np moderado. Consideremos una
serie de n ensayos de Bernoulli, donde la probabilidad de éxito varı́a con el n úmero de
ensayos n, y denotando a esta probabilidad por pn , imponemos las condiciones

lim pn = 0, lim npn = λ > 0.


n→∞ n→∞

Un ejemplo de esto es la extracci ón al azar, con reemplazo, de una muestra de tama ño
n, a partir de una poblaci ón de tama ño N . El n úmero de veces X que aparece en la
muestra una ficha predeterminada de la poblaci ón, sigue una distribuci ón Bin (n, N1 ).
n
Interesa la aproximaci ón a P (X = x) cuando N → ∞, con N → λ > 0.
Sea X ∼ Bin(n, pn ), con las caracterı́sticas antes se ñaladas. Entonces:
 
n k
pX (k) = p (1 − pn )n−k
k n
= (k!)−1 n(n − 1) · · · (n − k + 1)pkn (1 − pn )n−k
k
Y
= (k!)−1 (n − i + 1)pn × (1 − pn )n−k
i=1

Es fácil ver que para cada i = 1, . . . , k, se tiene que lim (n − i + 1)pn = λ, y que
n→∞
lim (1 − pn )n−k = e−λ , de modo que limn→∞ pX (k) = f (k), donde f (y) es la
n→∞
funci ón probabilidad de la distribuci ón de parámetro λ, dada por (3.10.12).
La utilidad de esta aproximaci ón a la distribuci ón Binomial queda de manifiesto si con-
sideramos que para valores grandes de n, el c álculo de probabilidades usando (3.10.7)
es computacionalmente complicado, debido a la inestabilidad num érica de la f órmula.

Ejemplo 3.7.3 Suponga que s ólo 2 de cada 1000 personas expuestas a un


cierto virus desarrollan los sı́ntomas que éste provoca. Si un grupo de 2500
personas son expuestas a este virus, ¿Cu ál es la probabilidad que 5 o m ás
de ellas desarrollen los sı́ntomas correspondientes?
Si denotamos por X el n úmero total de personas que desarrollan los sı́nto-
P4
mas, entonces necesitamos P (X ≥ 5), o equivalentemente, 1 − P (X =
k=0
k). Si suponemos que estas personas se comportan independientemente, en-
tonces X ∼ Bin(2500, 0.002). Usando la aproximaci ón de la distribuci ón

Aravena, del Pino, Quintana: PROBABILIDADES 106


´
CAP ITULO 3. VARIABLES ALEATORIAS

de Poisson para este caso, concluimos que X ∼ Poisson(5), aproximada-


mente. Ası́,
5k e−5
pX (k) = P (X = k) ≈ ,
k!
de modo que pX (0) = 0.0067, pX (1) = 0.0337, pX (2) = 0.0842, pX (3) =
0.1404, pX (4) = 0.1755, y la probabilidad requerida es P (X ≥ 5) =
0.5595. Considerando que el valor exacto es 0.5597, la aproximaci ón es
muy buena.

3.8 Valores Esperados II

3.8.1 Valores Esperados en el Caso Continuo

La extensi ón a espacios muestrales no numerables o a variables aleatorias m ás gene-


rales, descansa en la idea que cualquier variable se puede aproximar adecuadamente
por variables finitas. En el caso continuo, la idea consiste en considerar un intervalo
peque ño, digamos [x, x + ∆x], cuya probabilidad aproximada es f X (x)∆x. Represen-
tando al intervalo por el punto x, el valor esperado de X corresponde a sumar elementos
del tipo x × fX (x)∆x. Intuitivamente, la suma se convierte en integral. Esto motiva la
siguiente definici ón:

Definici o´n 3.8.1 Si X es una variable continua con valores en R y densidad f X , el


valor esperado de X est á dado por:
Z ∞
E(X) = xfX (x)dx, (3.8.1)
−∞

siempre que la integral impropia converja absolutamente, es decir, si


Z ∞
|x|fX (x)dx < ∞.
−∞

Ejemplo 3.8.1 Si X ∼ Γ(α, λ), entonces


Z ∞ Z ∞ α
tα−1 exp(−t/λ) t exp(−t/λ)
E(X) = t· α
dt = dt
0 Γ(α)λ 0 Γ(α)λα
λΓ(α + 1) ∞ t(α+1)−1 exp(−t/λ) λΓ(α + 1)
Z
= α+1
dt = ·1
Γ(α) 0 Γ(α + 1)λ Γ(α)
= λα,

donde usamos que la integral de la densidad de la distribuci ón Γ(α + 1, λ) es 1. Si


α = 1, llegamos al caso de la distribuci ón exponencial, en el que el valor esperado se
reduce a λ.

Aravena, del Pino, Quintana: PROBABILIDADES 107


´
CAP ITULO 3. VARIABLES ALEATORIAS

Ejemplo 3.8.2 Si X ∼ U (a, b), entonces


b
1 b2 − a2 (a + b)
Z
E(X) = x· dx = = .
a (b − a) 2(b − a) 2

Ejemplo 3.8.3 Si X ∼ Beta(a, b), entonces,


1 1
xa−1 (1 − x)b−1 xa+1−1 (1 − x)b−1
Z Z
E(X) = x dx = dx
0 B(a, b) 0 B(a, b)
Γ(a+1)Γ(b)
B(a + 1, b) Γ(a+b+1) aΓ(a)Γ(a + b)
= = Γ(a)Γ(b)
=
B(a, b) (a + b)Γ(a)Γ(a + b)
Γ(a+b)
a
= .
a+b

Ejemplo 3.8.4 Sea X una variable aleatoria con distribuci ón de Cauchy, cuya densi-
dad es
1
fX (x) = , x∈R (3.8.2)
π(1 + x2 )
Entonces

x
Z
E(X) = 2
dx
−∞ π(1 + x )
1 1
= lim log(1 + x2 ) − lim log(1 + y 2 ),
x→∞ 2π y→−∞ 2π

expresi ón que no existe, pues cada lı́mite diverge a +∞. Por lo tanto, X no tiene
esperanza.

Ejemplo
R∞ 3.8.5 SeaRg es una funci ón par, no negativa ( o sea, g(−z) = g(z)) con

0 g(t)dt = 0.5 y 0 tg(t)dt < ∞. Entonces fX (x) = g(x − θ) define una densidad
de probabilidad, la distribuci ón de X es simétrica en torno de θ, y µ = E(X) = θ.
Para verificar la verdad de estas aseveraciones, basta plantear las integrales correspon-
dientes, lo que se deja como ejercicio para el lector.
Un ejemplo importante es el de la distribuci ón normal, para la cual
2 2
e−x /2σ
g(x) = √ .
2πσ 2

Ası́, si X ∼ N (µ, σ 2 ), se sigue que E(X) = µ.

Al igual que en el caso discreto, la esperanza de Y = g(X) se puede calcular a partir de la


distribuci ón de X o de la distribuci ón de Y . Si ambas variables son absolutamente continuas, se
tiene el siguiente teorema:

Aravena, del Pino, Quintana: PROBABILIDADES 108


´
CAP ITULO 3. VARIABLES ALEATORIAS

Teorema 3.8.1 Sean X e Y variables aleatorias absolutamente continuas, tales que Y = g(X).
Entonces Z ∞ Z ∞
E(Y ) = yfY (y)dy = g(x)fX (x)dx, (3.8.3)
−∞ −∞
siempre que una de las integrales converja absolutamente.

Ejemplo 3.8.6 Si X ∼ Exp(λ), entonces


Z ∞ k
k x
E(X ) = exp(−x/λ)dx
0 λ
Z ∞ (k+1)−1
x exp(x/λ)
= Γ(k + 1)λk dx
0 Γ(k + 1)λk+1
= Γ(k + 1)λk = k!λk

Ejemplo 3.8.7 Si X ∼ N (0, σ 2 ), sabemos del Ejemplo 3.8.5 que E(X) = 0. Calcu-
lemos ahora E(X 2 ). Se tiene que
∞ 2 2
x2 e−x /2σ
Z
E(X 2 ) = √ dx.
−∞ 2πσ 2
2 /2σ 2
Si u = x, y dv/dx = xe−x , entonces usando integraci ón por partes se obtiene:
∞ 2 2
e−x /2σ
Z
2 2
E(X ) = σ √ = σ2.
−∞ 2πσ 2

De aquı́ se deduce que V ar(X) = σ 2 . Note también que si X ∼ N (µ, σ 2 ), entonces


∞ 2 /2σ 2
(x − µ)2 e−(x−µ)
Z
V ar(X) = E(X − µ)2 = √ dx,
−∞ 2πσ 2
e introduciendo primero el cambio de variables y = x−µ, se llega a que V ar(X) = σ 2 .

3.8.2 Funci o´n generadora de momentos

En el cálculo de los momentos de una distribuci ón, la siguiente funci ón, llamada funci ón genera-
dora de momentos, juega un importante rol.

Definici o´n 3.8.2 La funci ón generadora de momentos de la variable aleatoria X, se define como

MX (t) = E(exp(tX)), (3.8.4)

para t ∈ R tal que el valor esperado correspondiente exista.

La importancia de la funci ón generadora de momentos queda establecida en el siguiente resul-


tado.

Aravena, del Pino, Quintana: PROBABILIDADES 109


´
CAP ITULO 3. VARIABLES ALEATORIAS

Teorema 3.8.2

(a) Si µk (X) existe para k ∈ {1, 2, 3, . . .}, y si ∞ k


P
k=0 µk t /k! converge absolutamente para
−h < t < h con h > 0, entonces MX (t) existe en −h < t < h, y
(k)
µk (X) = MX (0). (3.8.5)

(b) Si MX (t) es expandible en serie de potencias infinita en una vecindad de t = 0, entonces


µk (X) existe para todo k ∈ {1, 2, 3, . . .}, y estos momentos se pueden calcular mediante
(3.8.5).

Es este resultado el que origina el nombre de MX (t). Basta con que MX (t) sea expandible en
serie de potencias infinita en una vecindad de t = 0, para que los momentos de X existan, caso
en el que ellos se obtienen derivando la funci ón y evaluándola en t = 0. La demostraci ón de
este resultado, se basa en desarrollos de Taylor de MX (t). De hecho, (3.8.5) dice que µk (X) es
simplemente el coeficiente del t érmino tk en la expansi ón en serie de Taylor de MX (t) en torno a
t = 0.
Veamos a continuaci ón algunos ejemplos.

Ejemplo 3.8.8 Del Ejemplo 3.3.3 se deduce que la funci ón generadora de momentos
de una variable aleatoria X ∼ Poisson(λ) es

exp(λ(exp(t) − 1)),

la que está definida para cualquier real t, por lo que ella caracteriza la distribuci ón
Poisson(λ). Con un poco de paciencia, se obtiene que

d
MX (t) = λ exp(t) exp (λ(exp(t) − 1))
dt
d2
MX (t) = λ exp(t) exp (λ(exp(t) − 1)) (1 + λ exp(t)) ,
dt2
y aplicando (3.8.5), uno puede obtener que E(X) = λ y E(X 2 ) = λ(1 + λ), por lo
que V ar(X) = λ. Una alternativa es obtener las derivadas en el origen componiendo
2
expansiones de Taylor truncadas. Ası́ exp(z) ≈ 1 + z + z2 implica
2
t2 (t + t2 )2
exp(λ(exp(t) − 1)) ≈ 1 + λ(t + )+λ
2 2
2 t2 2
t 2 (t + 2 )
≈ 1 + λ(t + ) + λ
2 2
t 2
≈ 1 + λt + (λ + λ2 ) .
2
t2
Identificando los coeficientes de t y de 2 se obtiene EX, EX 2 y, de acá, Var X = λ.

Aravena, del Pino, Quintana: PROBABILIDADES 110


´
CAP ITULO 3. VARIABLES ALEATORIAS

Ejemplo 3.8.9 Sea X ∼N(0,1). Se tiene entonces que


Z ∞
1
MX (t) = E(exp(tX)) = √ exp(tx) exp(−x2 /2)dx
2π −∞
Z ∞
1 1
= √ exp(− (x2 − 2tx))dx
2π −∞ 2
exp(t2 /2) ∞ 1
Z
= √ exp(− (x − t)2 )dx
2π −∞ 2
= exp(t2 /2),

la cual está definida para cualquier t ∈ R. Puesto que



2
X t2k
MX (t) = exp(t /2) =
2k k!
k=0
t2 t4 t6 t2k
= 1+ + + + ··· + + ···
2 8 48 2k k!
no es difı́cil ver que
(
(k) 0 si k ≥ 1 es impar
E(X k ) = MX (0) = k!
2k/2 (k/2)!
si k ≥ 2 es par

Ejemplo 3.8.10 Sea X ∼ Γ(α, λ). Tenemos entonces que


Z ∞
MX (t) = exp(tx)fX (x)dx
0
Z ∞
1
= xα−1 exp(−x/(1/λ − t)−1 )dx
Γ(α)λα 0
(1/λ − t)−α ∞ xα−1 exp(−x/(1/λ − t)−1 )
Z
= dx
λα 0 Γ(α)(1/λ − t)−α
1
= ,
(1 − tλ)α

provisto que t < λ−1 . Puesto que

d λα
MX (t) = ,
dt (1 − tλ)α+1

d2 λ2 α(1 + α)
M X (t) = ,
dt2 (1 − tλ)α+2
se tiene que E(X) = αλ, y E(X 2 ) = λ2 α(1 + α), de modo que V ar(X) = αλ2 . El
caso en que X ∼ Exp(λ) se obtiene de imponer α = 1, con lo que V ar(X) = λ 2 .

Aravena, del Pino, Quintana: PROBABILIDADES 111


´
CAP ITULO 3. VARIABLES ALEATORIAS

Ejemplo 3.8.11 Sea X ∼ Geom(p). Entonces,



X
MX (t) = exp(tk)(1 − p)k−1 p
k=1

((1 − p) exp(t))k−1
X
= p exp(t)
k=1
p exp(t)
= ,
1 − (1 − p) exp(t)

siempre que p exp(t) < 1, esto es, t < − log(p). Por otra parte,

d p exp(t)
MX (t) = ,
dt (1 − (1 − p) exp(t))2

d2 p(exp(t) + (1 − p) exp(2t))
2
= ,
dt (1 − (1 − p) exp(t))3
con lo que E(X) = p−1 , E(X 2 ) = p−2 (2 − p), y, finalmente, V ar(X) = p−2 (1 − p).

3.8.3 Otras funciones generadoras

Aparte de la funci ón generadora de momentos, existen otras funciones generadoras de inter és.

Definici o´n 3.8.3 Sea X una variable aleatoria. Se define, para el rango de valores en que el valor
esperado correspondiente exista:

(a) la funci ón generadora de probabilidades de X, denotada por G X (z) mediante

GX (z) = E z X

(3.8.6)

(b) la funci ón generadora de cumulantes de X, denotada por K X (t) mediante

KX (t) = log(MX (t)) (3.8.7)

(c) la funci ón caracterı́stica de X, denotada por ϕX (t) mediante

ϕX (t) = E (exp(itX)) = E(cos(tX)) + iE(sin(tX)), (3.8.8)



donde i es el n úmero complejo −1.

La funci ón generadora de probabilidades se utiliza, casi exclusivamente, cuando la variable


aleatoria toma valores enteros no negativos. En este caso, si z es tal que G X (z) existe, entonces

X
GX (t) = tk pX (k) = pX (0) + pX (1)t + pX (2)t2 + · · · + pX (k)tk + · · · , (3.8.9)
k=0

Aravena, del Pino, Quintana: PROBABILIDADES 112


´
CAP ITULO 3. VARIABLES ALEATORIAS

lo cual coincide con la funci ón G(z) de la Definici ón 3.8.3. En otras palabras, ambas definiciones
son equivalentes.
La ventaja de la funci ón caracterı́stica de X es que ella est á siempre bien definida, cualquiera
que sea el real t. La raz ón de ello es que |E(exp(itX))| ≤ E| exp(itX)| = 1, para todo t ∈ R, o
bien usando el hecho que las funciones seno y coseno son acotadas. Es f ácil ver que en la medida
que las expresiones involucradas existan, se cumple que

ϕX (t) = MX (it) = GX (exp(it)). (3.8.10)

Por último, la funci ón generadora de cumulantes est á definida en el rango de valores para los
que la funci ón generadora de momentos existe. Como veremos a continuaci ón, KX (t) genera los
cumulantes de la distribuci ón de X, definidos justamente como los coeficientes de la expansi ón en
serie de Taylor de KX (t) en torno a t = 0.

Proposici o´n 3.8.1 (Propiedades de las funciones generadoras)

(a) Sea X una variable aleatoria discreta con X ⊂ {0, 1, 2, . . .}, y para la cual G X (z) existe en
una vecindad de z = 0. Entonces
1 dk
pX (k) = GX (0) (3.8.11)
k! dtk

(b) Si KX (t) se puede expandir mediante una serie de potencias infinita en una vecindad de
t = 0, entonces todos los cumulantes κk (X) existen y se calculan mediante:

dk
κk (X) = KX (0). (3.8.12)
dtk
En particular,
κ1 (X) = E(X) y κ2 (X) = V ar(X). (3.8.13)

(c) Sean a, b reales cualesquiera. En la medida que las siguientes expresiones existan, se cumple:

1. Ma+bX (t) = exp(at)MX (bt).


2. Ga+bX (z) = z a GX (z b ).
3. Ka+bX (t) = at + KX (bt).
4. ϕa+bX (t) = exp(iat)ϕX (bt).

(d) (Teorema de Caracterizaci ón): Sean X e Y dos variables aleatorias.

1. Si MX (t) = MY (t) para todo a < t < b, entonces FX = FY , esto es, X e Y tienen la
misma distribuci ón.
2. Si GX (z) = GY (t) para todo a < z < b, entonces FX = FY .
3. Si ϕX (t) = ϕY (t) para todo t ∈ R, entonces FX = FY .

Aravena, del Pino, Quintana: PROBABILIDADES 113


´
CAP ITULO 3. VARIABLES ALEATORIAS

Demostraci o´n: La verificaci ón de (a) es inmediata. Para obtener (b), note simplemente que

d M 0 (t)
KX (t) = X ,
dt MX (t)
y que
00 (t)M (t) − (M 0 (t))2
d2 MX X X
K X (t) = ,
dt2 (MX (t))2
de donde el resultado sale de evaluar lo anterior en t = 0. Por otra parte,

Ma+bX (t) = E(exp(t(a + bX))) = E(exp(at) exp(btX)) =


= exp(at)E(exp(btX)) = exp(at)MX (bt),

y las otras tres propiedades se prueban en forma similar. Finalmente, la prueba de (d) ser á omitida.


Ejemplo 3.8.12 Sea X ∼N(0,1), y defina Y = µ + σX, donde µ ∈ R, y σ 6= 0.


Entonces:
MY (t) = Mµ+σX (t) = exp(tµ + σ 2 t2 /2). (3.8.14)
Por otra parte, si σ > 0:

FY (y) = P (Y ≤ y) = P (µ + σX ≤ y) = P (X ≤ (x − µ)/σ)
 
x−µ
= FX ,
σ

de donde, mediante diferenciaci ón se obtiene que

(x − µ)2
 
1
fY (y) = √ exp − ,
2πσ 2 2σ 2

para y ∈ R, y se concluye que Y ∼N(µ, σ 2 ), y su funci ón generadora de momentos


está dada por (3.8.14). Note que

σ 2 t2
KY (t) = log(MY (t)) = µt + ,
2
de donde se deduce que E(Y ) = KY0 (0) = µ, y V ar(Y ) = KY00 (0) = σ 2 . Finalmente,

ϕY (t) = exp(iµt − t2 /2)

es la funci ón caracterı́stica de la distribuci ón N(µ, σ 2 ).

Ejemplo 3.8.13 Sea X con densidad triangular



1 − |x| si |x| ≤ 1
fX (x) =
0 si no

Aravena, del Pino, Quintana: PROBABILIDADES 114


´
CAP ITULO 3. VARIABLES ALEATORIAS

Es fácil ver que µk (X) debe existir para todo k ≥ 1, pues X tiene un rango de valores
acotado. Ası́, MX (t) también existe para cualquier t, y
Z 1
MX (t) = E(exp(tX)) = exp(tx)(1 − |x|)dx
−1
Z 0 Z 1
= exp(tx)(1 + x)dx + exp(tx)(1 − x)dx
−1 0
exp(t) + exp(−t) − 2
= .
t2
Note que, de acuerdo a la expresi ón obtenida, MX (t) no está definida en t = 0. Sin
embargo, observe que del desarrollo en serie de Taylor de exp(t) y exp(−t) se concluye
que
∞ k ∞
!
X t X (−1) k tk
MX (t) = t−2 + −2
k! k!
k=0 k=0
 2
t4 t6 t2k

−2 t
= t 2 + 2 + 2 + ··· + 2 + ···
2! 4! 6! (2k)!
2t2 2t4 2t2k−2
= 1+ + + ··· + + ···
4! 6! (2k)!
por lo que µ2k−1 (X) = 0, y µ2k (X) = 2(2k + 1)−1 (2k + 2)−1 , es decir,
(
0 si k es impar
µk (X) = 2
(k+1)(k+2) si k >= 2 es par

Por otra parte, note que exp(it) = cos(t)+i sin(t), y que exp(−it) = cos(t)−i sin(t),
por lo que
2(cos(t) − 1)
ϕX (t) = ,
t2
y la funci ón caracterı́stica de X es una funci ón a valores reales. No es difı́cil darse
cuenta que este ser á siempre el caso cuando la distribuci ón de la variable aleatoria en
cuesti ón sea simétrica con respecto al origen. En este caso, fX (x) = fX (−x) lo que
implica la simetrı́a. La demostraci ón de este resultado se propone como ejercicio.

3.9 Transformaciones de Variables Aleatorias Continuas

3.9.1 El caso biyectivo

El caso discreto es, en general, simple y directo de resolver. Para derivar el resultado en el caso
continuo, observe que si g es mon ótona creciente y diferenciable, entonces, podemos obtener la
densidad de Y = g(X) como sigue. La funci ón de distribuci ón acumulada de Y es, por definici ón,
FY (y) = P (Y ≤ y), y tenemos que:

FY (y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)),

Aravena, del Pino, Quintana: PROBABILIDADES 115


´
CAP ITULO 3. VARIABLES ALEATORIAS

y entonces
fY (y) = FY0 (y) = FX0 (g −1 (y)) = fX (g −1 (y))(g −1 )0 (y)
1
= fX (g −1 (y)) · 0 −1 ,
g (g (y))
donde Y = g(X ).
Cuando g es mon ótona decreciente, el mismo argumento se puede aplicar, despu és de ligeras
modificaciones. En efecto, el evento {g(X) ≤ y} equivale ahora al evento {X ≥ g −1 (y)}, pues g
es decreciente, y entonces FY (y) = 1 − FX (g −1 (y)). Finalmente, se obtiene que
1
fY (y) = −fX (g −1 (y)) · .
g 0 (g −1 (y))
Observe que g 0 es una funci ón negativa, de modo que el resultado es una funci ón positiva, despu és
de incorporar el signo negativo.
Finalmente, podemos resumir las f órmulas observadas en el siguiente resultado.

Teorema 3.9.1 Sea X una variable aleatoria con densidad f X , y sea Y = g(X), donde g es
mon ótona y diferenciable. Entonces
1
fY (y) = fX (g −1 (y)) · (3.9.1)
|g 0 (g −1 (y))|

Ejemplo 3.9.1 Suponga que X ∼ N (0, 1), y sea Y = µ + σX, con µ ∈ R y σ > 0.
En el Ejemplo 3.8.12 se obtuvo que Y ∼ N (µ, σ 2 ) mediante propiedades de funciones
generadoras. El mismo resultado se obtiene usando el Teorema 3.9.1 con g(x) = µ +
σx, que claramente cumple las hip ótesis de dicho resultado. Ası́, g −1 (y) = (y − µ)/σ,
g 0 (x) = σ, y la densidad de Y se obtiene de (3.9.1):
(x − µ)2
 
1
fY (y) = √ exp − , y ∈ R. (3.9.2)
2πσ 2 2σ 2

Es interesante notar que de la misma forma se obtiene que si Y ∼ N (µ, σ 2 ), entonces


Z = (Y − µ)/σ ∼ N (0, 1), proceso que recibe el nombre de estandarizaci ón. Note
además que puesto que P (Y ≤ y) = P ( Y σ−µ ≤ y−µσ ) se concluye que
 
y−µ
P (Y ≤ y) = Φ , (3.9.3)
σ
por lo que probabilidades relativas a una variable aleatoria con distribuci ón normal
cualquiera se pueden obtener a partir de la distribuci ón normal estándar. Por ejemplo,
si Y ∼ N (3, 4), entonces
 
Y −3 5−3
P (Y > 5) = 1 − P (Y ≤ 5) = 1 − P ≤
2 2
= 1 − P (Z ≤ 1) = 1 − Φ(1) = 1 − 0.841
= 0.159

Aravena, del Pino, Quintana: PROBABILIDADES 116


´
CAP ITULO 3. VARIABLES ALEATORIAS

Ejemplo 3.9.2 Suponga que X tiene densidad dada por

3x2 si 0 < x < 1



fX (x) =
0 si no,

y considere g(x) = 2x. Se tiene que Y = (0, 2), que g es claramente mon ótona
creciente, con g −1 (y) = y/2, y g 0 (x) = 2. Usando (3.9.1) es inmediato obtener que si
0 < y < 2 entonces

fY (y) = 3 · (y/2)2 · 1/2 = (3/8)y 2 .

Finalmente, se obtiene que

(3/8)y 2

si 0 < y < 2
fY (y) =
0 si no

Ejemplo 3.9.3 Suponga que X ∼ U (0, 1), y considere g(x) = − log(x), definida
sobre los reales positivos. Obtengamos fY para Y = − log(X). Se tiene que Y =
(0, ∞), g −1 (y) = exp(−y), g 0 (x) = −x−1 , y g es mon ótona decreciente. Entonces,
usando (3.9.1) se obtiene que, puesto que fX (x) = I(0,1) (x),

fY (y) = exp(−y),

y entonces Y ∼ Exp(1).

Ejemplo 3.9.4 Suponga que X tiene densidad triangular en el intervalo [0, 1], esto es,
fX (x) = c(1 − |1 − 2x|), para alg ún valor adecuado de c. Obtengamos la densidad de
Y = X 2 , con lo que Y = [0, 1]. Primeramente, se debe calcular el valor de c. Note que
Z 1 Z 1/2 Z 1
(1 − |1 − 2x|)dx = 2xdx + 2(1 − x)dx = 1/4 + 1/4 = 1/2,
0 0 1/2

de modo que c = 2. Ahora, en [0,1], la funci ón g(x) = x2 es creciente y diferenciable,



con g −1 (y) = y, g 0 (x) = 2x, y entonces, por (3.9.1):
√ √
2(1 − |1 − 2 y|) 1 − |1 − 2 y|
fY (y) = √ = √ ,
2 y y

para y ∈ [0, 1]. Ver Figura 3.9.6.

Ejemplo 3.9.5 Sea X ∼N(µ, σ 2 ), y considere Y = exp(X). La distribuci ón de Y se


conoce como distribuci ón log-normal, con par ámetros µ y σ 2 . La densidad de Y se
obtiene de aplicar (3.9.1) con g(x) = exp(x). Puesto que g −1 (y) = log(y) tenemos
que para y > 0:
1
fY (y) = fX (g −1 (y)) 0 −1 ,
|g (g (y))|

Aravena, del Pino, Quintana: PROBABILIDADES 117


´
CAP ITULO 3. VARIABLES ALEATORIAS

Densidad de X
Densidad de Y

2.0

1.5

1.0

0.5

0.0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 3.9.6: Densidad triangular fX y densidad fY de la transformaci ón Y = X 2 .

de donde
( √  2

(y 2πσ 2 )−1 exp − (log(y)−µ)
2σ 2 si y > 0
fY (y) =
0 si no
El cálculo de momentos de Y es complicado si se hace por definici ón. Sin embargo,
note que
µk (Y ) = E(Y k ) = E(exp(kX)) = MX (k)
k2 σ2
 
= exp kµ + .
2
En particular, E(Y ) = exp(µ + σ 2 /2), y E(Y 2 ) = exp(2µ + 2σ 2 ), por lo que
V ar(Y ) = exp(2µ + σ 2 )(exp(σ 2 ) − 1).

El resultado de (3.9.1) se puede generalizar de la siguiente manera.

Teorema 3.9.2 Sea X es una variable aleatoria definida sobre X , con densidad f X , y sea g : X →
Y biyectiva, diferenciable y tal que (g −1 )0 es no nulo sobre Y. Entonces la densidad de Y = g(X)
está dada por
1
fY (y) = fX (g −1 (y))|(g −1 )0 (y)|Iy∈Y = fX (g −1 (y)) · IY (y) (3.9.4)
|g 0 (g −1 (y))|

Aravena, del Pino, Quintana: PROBABILIDADES 118


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.9.2 El caso continuo no biyectivo

Cuando g no es biyectiva, los resultados reci én vistos no tienen validez. Sin embargo, hay veces
en que X se puede particionar de modo que g es biyectiva en cada una de esas porciones. Ası́,
el teorema es v álido en cada elemento de dicha partici ón, y se puede demostrar que la expresi ón
final de la densidad se obtiene de sumar cada una de las densidades restringidas. Este resultado se
enuncia a continuaci ón.

Teorema 3.9.3 Sea X una variable aleatoria con densidad f X definida sobre X , y sea g una funci ón
definida sobre X , verificando la propiedad que existe una partici ón A1 , A2 , . . . de X tal que gi ,
definida como la restricci ón de g a Ai es biyectiva y diferenciable. Entonces, Y = g(X) tiene
densidad fY dada por
∞ ∞
X X fX (gi−1 (y))
fY (y) = fX (gi−1 (y))|(gi−1 )0 (y)|Igi (Ai ) (y) = · Igi (Ai ) (y) (3.9.5)
i=1 i=1
|gi0 (gi−1 (y))|

Ejemplo 3.9.6 Suponga X ∼ N (0, 1), y calculemos la densidad de Y = g(X) = X 2 .


Aquı́ X = R, y es claro que g no es biyectiva en ese dominio. Sin embargo, uno
puede descomponer R en dos partes, los reales no negativos, y los reales negativos. El
lugar especı́fico del punto x = 0 carece de importancia, y, m ás a ún, se puede eliminar
si ası́ uno lo desea. De hecho, este es el procedimiento si la diferenciabilidad de g
no se tiene en alg ún punto particular. Sea, entonces, A1 =] − ∞, 0[ y A2 = [0, ∞[.
Es claro que g restringida a cualquiera de A1 o A2 es biyectiva y diferenciable, esto
es, A1 y A2 cumplen las hip ótesis del teorema. Por último, nada impide usar s ólo
dos conjuntos, en vez de una partici ón numerable pero infinita. Luego, tenemos que
√ √
g1 (x) = g2 (x) = x2 , pero g1−1 (y) = − y, g2−1 (y) = y, y gi0 (x) = 2x, para i = 1, 2.
Por otra parte,
exp(−x2 /2)
fX (x) = √ .

Entonces, el primer t érmino de la suma, correspondiente al aporte de la restricci ón a
n úmeros negativos, es
exp(−y/2)
√ √ ,
2π · 2 y
y es fácil ver que el otro t érmino es idéntico, por lo que al sumar se obtiene:

exp(−y/2) y 1/2−1 exp(−y/2)


fY (y) = √ √ = √ 1/2 ,
2π y π2

y el lector podr á deducir que Y ∼ Gama(1/2, 2), quedando s ólo por comprobar el

hecho que Γ(1/2) = π, lo cual queda propuesto como un ejercicio.

Ejemplo 3.9.7 Sea X ∼ Exp(λ) con λ > 0, y considere Y = cos(X). Es claro que
Y = [−1, 1]. Por otra parte, la funci ón g(x) = cos(x) es claramente no biyectiva en
(0, ∞). Considere entonces los conjuntos Ak = (kπ, (k + 1)π), para k = 0, 1, 2, . . ..

Aravena, del Pino, Quintana: PROBABILIDADES 119


´
CAP ITULO 3. VARIABLES ALEATORIAS

Entonces gk , definida como la restricci ón de g al conjunto Ak es biyectiva y con in-



S
versa continuamente diferenciable. Adem ás, P (X ∈ Ak ) = 1. No es difı́cil ver
k=0
que g0−1 (y) = arccos(y), g1−1 (y) = 2π − arccos(y), g2−1 (y) = 2π + arccos(y), y
ası́ sucesivamente. En general, para −1 < y < 1 se tiene que

−1 kπ + arccos(y) si k = 0, 2, 4, 6, . . .
gk (y) =
(k + 1)π − arccos(y) si k = 1, 3, 5, 7, . . .
Ası́, para cualquier k = 0, 1, 2, . . . se tiene
1 1
= (gk−1 (y))0 = − p ,
gk0 (gk−1 (y)) 1 − y2
de modo que aplicando (3.9.4) tenemos que si −1 < y < 1:

X 1
fY (y) = fX (gk−1 (y)) ·
k=0
gk0 (gk−1 (y))

1 X
= p  exp(−λ−1 {(k + 1)π − arccos(y)})
λ 1−y 2
k=1,3,5,...

X
+ exp(−λ−1 {kπ + arccos(y)})
k=0,2,4,...

exp(− arccos(y)λ−1 ) X
= p exp(−2πλ−1 )k
λ 1 − y2 k=0

exp((arccos(y) − π)λ−1 ) X
+ p exp(−2πλ−1 )k
λ 1−y 2
k=0
exp(−λ−1 arccos(y)) + exp(λ−1 (arccos(y) − π))
= p .
λ 1 − y 2 (1 − exp(−2πλ−1 ))
Finalmente, es claro que fY (y) = 0 si y 6∈ (−1, 1).

3.10 Resumen de Principales Distribuciones Univariadas

Para terminar este capı́tulo, entregamos a continuaci ón un listado de algunas de las principales
familias paramétricas de distribuciones. La mayorı́a de ellas se usa en diversas partes de este texto.

3.10.1 Algunas funciones de probabilidad discretas

f (1) = p, f (0) = q = 1 − p
(3.10.6)
Distribuci ón de Bernoulli Bern (p)

Aravena, del Pino, Quintana: PROBABILIDADES 120


´
CAP ITULO 3. VARIABLES ALEATORIAS

n
py q n−y ,

f (y) = y y = 0, . . . , n
(3.10.7)
Distribuci ón Binomial Bin (n, p)

f (y) = p(1 − p)y−1 para y = 1, 2, . . .


(3.10.8)
Distribuci ón Geométrica Geom(p)

f (y) = p(1 − p)y para y = 0, 1, 2, . . .


(3.10.9)
Distribuci ón Geométrica
trasladada al origen Geom(p)

y−1
 k
f (y) = k−1 p (1 − p)y−k para y = k, k + 1, k + 2, . . .
(3.10.10)
Distribuci ón Binomial negativa BN(k, p).

k(k+1)···(k+y−1) k y
f (y) = y! p q , y = 0, 1, 2, . . .

Γ(y+k) k y
= Γ(k)Γ(y+1) p q , y = 0, 1, 2, . . . (3.10.11)

Distribuci ón Binomial negativa


trasladada al origen BN0(k, p).

λk e−λ
f (y) = k! , para k = 0, 1, . . ..
(3.10.12)
Distribuci ón de Poisson Poisson(λ)

3.10.2 Algunas funciones densidad continuas

1
f (y) = b−a ,a < y < b
(3.10.13)
Distribuci ón Uniforme en[a, b]] U [a, b]

Γ(α+β)
f (y) = Γ(α)Γ(β) y α−1 (1 − y)β−1 , 0 < y < 1.
(3.10.14)
Distribuci ón Beta Beta(α, β)
Caso especial: α = β = 1 : Distribuci ón U [0, 1]

Aravena, del Pino, Quintana: PROBABILIDADES 121


´
CAP ITULO 3. VARIABLES ALEATORIAS

1
f (y) = λ(λy)α−1 e−λy Γ(α) , y>0

Distribuci ón Gama (α, λ)


Casos especiales: (3.10.15)
α = ν2 , λ = 21 Distribuci ón Ji cuadrado con ν
grados de libertad χ2 (ν)
α=1 Distribuci ón Exponencial Expo (λ).
f (y) = λe−λy , y > 0

β
f (y) = λβy β−1 e−λy , y > 0
(3.10.16)
Distribuci ón de Weibull Weib(λ, β)
Caso especial β = 1 : Distribuci ón Expo (λ).

1 1 2
f (y) = √ e− 2σ2 (y−µ) , −∞ < y < ∞
σ 2π
(3.10.17)
Distribuci ón Normal N (µ, σ 2 )

Γ( ν+1 ) x2 −
(ν+1)
f (x) = 2 √
Γ( ν2 )Γ( 21 ) ν
(1 + ν )
2 −∞<x<∞
(3.10.18)

Distribuci ón de Student con ν grados de libertad t(ν).

ν1 ν2
ν1 +ν2 ν1 ν1 +ν2
Γ( )ν12 ν22 y 2 −1 (ν1 y+ν2 ) 2
f (y) = 2
ν ν
Γ( 21 )Γ( 22 ) , −∞<y <∞ (3.10.19)

Distribuci ón F con ν1 y ν2 grados de libertad F (ν1 , ν2 ).

Aravena, del Pino, Quintana: PROBABILIDADES 122


´
CAP ITULO 3. VARIABLES ALEATORIAS

3.11 Problemas

1. En un experimento se observa la temperatura X = x en grados Celsius. Esta temperatura


sigue una distribuci ón de probabilidad con funci ón de distribuci ón acumulada F y densidad
f . Suponga ahora que se cambia la escala del instrumento, de modo que el resultado y queda
expresado en grados Fahrenheit. Denotemos la distribuci ón acumulada de esta temperatura
por G, y su densidad de probabilidad por g.

(a) Demuestre que G(y) = F ( y−32


1.8 ).
1 y−32
(b) Demuestre que g(y) = 1.8 f ( 1.8 ).
(c) Aplique los resultados anteriores al caso F (x) = 1 − e−λx , con x > 0.

2. Un dado equilibrado se lanza cuatro veces. Sea X el mı́nimo n úmero que se obtiene.

(a) Encuentre la distribuci ón de X.


(b) Calcule E(X) y Var(X).

3. Calcule el n úmero esperado de tr éboles que se obtienen en una mano de poker, consistente
en 5 cartas escogidas al azar de un total de 52.

4. Sea X el n úmero de aciertos en una cartilla de LOTO. Calcule E(X) y V ar(X).

5. En una secuencia de ensayos de Bernoulli, sea X el n úmero necesario de intentos requeridos


para obtener al menos un éxito y un fracaso.

(a) Calcule E(X) y V ar(X).


(b) Calcule la funci ón generadora de momentos de X, y repita (a) usando dicha funci ón.

6. Un dado no equilibrado asigna a la cara con el n úmero x probabilidades dadas por p(x) =
c × 0.7x × 0.36−x , x = 1, 2, 3, 4, 5, 6.

(a) Calcule el valor de c.


(b) Haga una tabla con los valores de la funci ón de distribuci ón F .
(c) Utilice la tabla para calcular la probabilidad que
(i) El n úmero esté entre 2 y 4.
(ii) El n úmero sea mayor que 2.

7. El tiempo entre dos terremotos consecutivos tiene densidad

fk (x) = cxk e−x , x > 0.

(a) Demuestre que c = k!.


(b) Obtenga la funci ón de distribuci ón acumulada Fk . (Integre por partes y use inducci ón).
(c) Haga una tabla con los valores de F3 , evaluándola para m últiplos de 0.5 entre 0 y 8.
(d) Utilice la tabla obtenida en (c) para calcular la probabilidad que el tiempo x : (i) sea
inferior a 4 a ños. (ii) esté comprendido entre 2.5 y 3.5 a ños. (iii) Exceda los 5 a ños.

Aravena, del Pino, Quintana: PROBABILIDADES 123


´
CAP ITULO 3. VARIABLES ALEATORIAS

(e) De todos los intervalos de la forma [0.5j, 0.5j + 0.5], j = 0, 1, . . . 15, encuentre aqu él
que tiene la máxima probabilidad.

8. La probabilidad que el n úmero de personas en una fila sea k est á dada por el coeficiente de
z k en el desarrollo en serie de Taylor de (q + pz)−2 .

(a) Demuestre que para que este modelo probabilı́stico tenga sentido es necesario que q +
p = 1.
(b) Obtenga la funci ón de distribuci ón acumulada F .
(c) Construya una tabla para p = 12 .

9. La proporci ón de calcio enRun mineral es altamente variable. La probabilidad que esta pro-
b
porci ón esté entre a y b es a f (x)dx, con

f (x) = ck xk (1 − x)k , 0 < x < 1,

y con k = 0, 1, 2.

(a) Encuentre ck .
(b) Calcule la funci ón de distribuci ón acumulada Fk (x).
(c) Eval úe la probabilidad πk que la proporci ón esté entre 0.25 y 0.75.
(d) Conjeture el comportamiento de πk a medida que k crece.

10. Sea X una variable aleatoria continua con funci ón de densidad f > 0. Si F es la funci ón de
distribuci ón de X pruebe que la variable Y = F (X) tiene distribuci ón uniforme en [0,1].

11. Si X ∼ U (0, 1) encontrar la funci ón densidad de Y = eX .


1
Resp. : fY (t) = t si 1 < t < e

12. Si Y ∼ U (0, 5), ¿cu ál es la probabilidad que las raı́ces de la ecuaci ón 4x2 +4xY +Y +2 = 0
sean ambas reales?.
3
Resp. : 5

13. Si un proyectil se lanza en un ángulo θ ∼ U (0, π4 ) de la tierra con una velocidad v, éste
2
caerá al suelo a una distancia R que puede ser expresada por R = ( vg )(sin 2θ), donde g es
la aceleraci ón de gravedad. Encontrar la funci ón de distribuci ón de R.
v2
Resp. : F (x) = 2
π arcsin gx
v2
para 0 ≤ x ≤ g

14. Un entero positivo I es seleccionado con P (I = n) = 21n para n = 1, 2, .... Si el entero es


n, se lanza una moneda al aire en que la probabilidad de obtener una cara es e −n . ¿Cuál es la
probabilidad que al lanzar la moneda obtengamos una cara?.
1
Resp : 2e−1

15. Se lanza una moneda en que la probabilidad de obtener una cara es p = 12 , y suponga que la
moneda se lanza repetidamente. Sea Xn el n úmero total de caras que han sido obtenidas en
los primeros n lanzamientos y sea Yn = n − Xn . Supongamos que paramos los lanzamientos

Aravena, del Pino, Quintana: PROBABILIDADES 124


´
CAP ITULO 3. VARIABLES ALEATORIAS

cuando se obtiene el primer n tal que Xn = Yn +3 o Yn = Xn +3. Determine la probabilidad


que Xn = Yn + 3 cuando se detienen los lanzamientos.
1
Resp : 2

16. Considere un elevador que comienza en el subterr áneo de un edificio y viaja hacia arriba.
Sea Ni el n úmero de personas que suben al elevador en el piso i. Suponga que los N i son
independientes y que Ni ∼ Poisson(λi ). Cada persona que sube en i, independiente del resto
sale en j con probabilidad pij . Sea Nij el n úmero de personas que suben al elevador en el
piso i y bajan en el j. Calcule P (Nij = k).
Resp : Nij ∼ Poisson(λi pij ).

17. Suponga que N1 ∼ Poisson(λ1 ), N2 ∼ Poisson(λ2 ) donde N1 y N2 son independientes.


Pruebe que N1 + N2 ∼ Poisson(λ1 + λ2 ), y además calcule P (N1 = 1|N1 + N2 = 1).
λ1
Resp : λ1 +λ2

18. (a) Sean X1 , . . . , Xn variables aleatorias independientes, y defina las nuevas variables ale-
atorias Y y Z mediante Y = min(X1 , . . . , Xn ), Z = max(X1 , . . . , Xn ). Argumente
que las siguientes relaciones son verdaderas:

P (Y > y) = P (X1 > y) · · · P (Xn > y)


P (Z ≤ z) = P (X1 ≤ z) · · · P (Xn ≤ z).

(b) Asuma que los tiempos de falla de un sistema de n componentes son T 1 , . . . , Tn , los que
se suponen independientes. Lo que nos interesa calcular es la distribuci ón del tiempo de
falla T del sistema completo en t érminos de las distribuciones de T1 , . . . , Tn . Aplique
la parte (a) a lo siguiente:
(i) Si de 10 componentes cada una tiene probabilidad 0.99 de durar al menos 100
horas, y éstas se encuentran en serie, ¿cu ál es la probabilidad que el sistema no
fallará en 100 horas?.
(ii) ¿Cuál es la probabilidad, si ahora las componentes est án en paralelo?. Resp :
1 − 10−20 .

19. Se lanzan dos dados perfectos. Sea X igual al producto de los valores obtenidos en los dados.
Determine X , y calcule P (X = x) para x ∈ X .

20. Suponga que un dado se lanza dos veces. ¿Cu áles son los posibles valores que pueden tomar
las siguientes variables aleatorias?

(a) El máximo valor en los dos lanzamientos.


(b) El mı́nimo valor en los dos lanzamientos.
(c) La suma de los dos lanzamientos.
(d) El valor del primer lanzamiento menos el valor del segundo lanzamiento.

21. Calcule el valor esperado y varianza en cada una de las partes del Problema 20.

Aravena, del Pino, Quintana: PROBABILIDADES 125


´
CAP ITULO 3. VARIABLES ALEATORIAS

22. Compare la aproximaci ón de Poisson con la probabilidad Binomial correcta para los siguien-
tes casos:
(a) P (X = 2) cuando n = 8, p = 0.1.
(b) P (X = 9) cuando n = 10, p = 0.95.
(c) P (X = 0) cuando n = 10, p = 0.1.
(d) P (X = 4) cuando n = 9, p = 0.2.
23. El n úmero de suicidios en cierto estado es de 1 por cada 100.000 habitantes en un mes.
(a) Encontrar la probabilidad que en una ciudad de 400.000 habitantes del mismo estado,
se produzcan por lo menos ocho suicidios.
(b) ¿Cuál es la probabilidad que durante dos meses del a ño ocurran ocho o m ás suicidios?.
(c) Contando el presente mes como el mes n úmero uno, ¿cu ál es la probabilidad que en el
mes i ocurran ocho o m ás suicidios?.
¿Que supuestos se deben hacer?.
24. Cada caja de una cierta marca de cereal contiene un animalito de pl ástico en su interior.
Hay un total de N posibles animalitos disponibles, y suponga que es igualmente probable
encontrar uno cualquiera de ellos en una caja dada. Determine el n úmero esperado de cajas
que se debe comprar para obtener la colecci ón completa de animalitos.
25. Una urna contiene n bolas numeradas 1, 2, . . . , n. Una persona extrae al azar una bola de
la urna y la devuelve, saca otra y la devuelve, continuando hasta sacar una misma bola por
segunda vez. Sea X el n úmero de intentos necesarios para obtener dicha repetici ón.
(a) Obtenga la distribuci ón de X. (Indicaci ón: calcule P (X > k))
(b) Demuestre que
     n−1
Y 
1 1 2 i
E(X) = 2 + 1 − + 1− 1− + ··· 1− .
n n n n
i=1

26. Pruebe que si X es una variable aleatoria cualquiera tal que P (X ∈ [a, b]), entonces a ≤
E(X) ≤ b y V ar(X) ≤ (b − a)2 /4. (Indicaci ón: haga primero el caso a = 0, b = 1).
Encuentre una variable aleatoria que alcance la m áxima varianza.
27. Sea X una variable aleatoria con distribuci ón U (0, 1), y defina Y = min{X, c}, donde
0 < c < 1. Calcule E(Y ) y V ar(Y ).
Nota: 
X(ω) si X(ω) ≤ c
Y (ω) =
c si no
28. El tiempo de vida en horas de un tubo fluorescente, es una variable aleatoria que tiene una
densidad de probabilidad dada por:
f (x) = α2 xe−αx x ≥ 0.
Calcule el tiempo de vida esperado del tubo.

Aravena, del Pino, Quintana: PROBABILIDADES 126


´
CAP ITULO 3. VARIABLES ALEATORIAS

29. Sea X una variable aleatoria con densidad


exp(−x)
fX (x) = , x ∈ R.
(1 + exp(−x))2
(a) Pruebe que la distribuci ón de X es simétrica en torno de 0.
(b) Determine si E(X) existe, y calcule su valor en caso afirmativo.
(c) Obtenga la densidad de Y = exp(X), y determine E(Y ).
(d) Calcule E(Y ) esta vez sin utilizar su densidad.

30. Se dice que X tiene distribuci ón de Weibull si

λαxα−1 exp(−λxα )

si x > 0
fX (x) =
0 si no.

Se asume que α > 0 y λ > 0. Determine E(X). ¿Cu ál es la distribuci ón de Y = X α ?

31. Encuentre la funci ón generadora de momentos de una variable aleatoria X ∼ U (a, b). Use
este resultado para calcular E(X) y V ar(X).

32. Sea X una variable aleatoria absolutamente continua con valores en los reales positivos, y
defina SX (x) = 1 − FX (x) = P (X > x) para un real positivo x cualquiera.

(a) Pruebe que si E(X 2 ) existe, entonces


Z ∞ Z ∞
2
E(X) = SX (x)dx y E(X ) = 2 xSX (x)dx.
0 0

(b) Aplique lo anterior al caso de la distribuci ón exponencial, y al caso de la distribuci ón
de Weibull.

33. Una urna contiene a bolas blancas y b bolas negras. Si sacamos una bola a la vez hasta obtener
la primera bola blanca, encontrar el n úmero esperado de bolas negras sacadas de la urna.
b
Resp : a+1 .

34. Una caja contiene inicialmente 3 bolitas rojas, 4 azules y 6 verdes, las que se retiran una a
una y sin reemplazo, hasta que todas las bolitas rojas han sido retiradas. Sea X el n úmero de
bolitas que se han retirado hasta ese momento.

(a) Calcule P (X ≤ 9)
(b) Calcule P (X = 9).
(b) Calcule E(X).

35. Sea X una variable aleatoria que sigue una de las siguientes distribuciones.

(a) Bin(n, p).


(b) Poisson(λ).
(c) Geométrica con par ámetro p.

Aravena, del Pino, Quintana: PROBABILIDADES 127


´
CAP ITULO 3. VARIABLES ALEATORIAS

(d) Uniforme en los enteros entre m y n, con m < n.

Para cada distribuci ón calcule

(a) E(X).
(b) E(X(X − 1)).
(c) E(X 2 ).
(d) V ar(X)
(e) E(z X ), donde z es un n úmero real.

36. Sea X una variable aleatoria con valores en {0, 1, . . . , n}, funci ón de probabilidad f y fun-
ci ón de distribuci ón F . Demuestre que
n
X
EX = (1 − F (x)).
x=0

Muestre que esta relaci ón es también válida para n = ∞. Aplı́quela para calcular la media
de la distribuci ón geométrica.

37. Un equipo tiene 5 componentes, de las cuales 2 son defectuosas. Se inspeccionan las compo-
nentes en un orden aleatorio.

(a) Si X es el n úmero de componentes que deben examinarse antes de encontrar una de-
fectuosa, calcule E(X).
(b) Si Y es el n úmero de componentes que deben examinarse para encontrar las dos defec-
tuosas, calcule E(Y ).

38. Si X es una variable aleatoria con esperanza finita µ y varianza σ 2 , y si g(·) es una funci ón
dos veces diferenciable, demuestre que:

g 00 (µ) 2
E[g(X)] ≈ g(µ) + σ .
2
Hint: usar la expansi ón de Taylor en torno a µ para g(·). Use s ólo los primeros tres t érminos.

39. Se realizan ensayos independientes, donde en el i- ésimo ensayo se obtiene un éxito con pro-
babilidad pi . Encuentre el n úmero esperado y la varianza del n úmero de éxitos que ocurren
en los primeros n ensayos.

40. Un hombre dispara a un blanco. Diez de estos tiros caen a una pulgada del blanco, cinco
entre una y tres pulgadas del blanco, y tres entre tres y cinco pulgadas del blanco. Encontrar
el n úmero esperado de tiros acertados si:

(a) Los tiros del hombre se distribuyen uniformemente en el cı́rculo de radio ocho pulgadas
con el blanco como centro.
(b) Las distancias verticales y horizontales de los tiros del hombre al blanco son (medidas
en pulgadas) variables aleatorias independientes e id énticamente distribuidas N (0, 4).

Aravena, del Pino, Quintana: PROBABILIDADES 128


´
CAP ITULO 3. VARIABLES ALEATORIAS

41. La duraci ón T de cierto tipo de llamada telef ónica satisface la relaci ón:

P (T ≥ t) = ae−λt + (1 − a)e−µt , t ≥ 0,

donde 0 ≤ a ≤ 1, λ ≥ 0 y µ ≥ 0 son constantes determinadas estadı́sticamente. Encontrar


la media y la varianza de T .

42. Una variable aleatoria X puede tomar cada uno de los siete valores −3, −2, −1, 0, 1, 2, 3 con
la misma probabilidad. Determinar fY (y), en donde Y = X 2 − X.

43. Suponga que X es una variable aleatoria cuya densidad es f y que Y = aX + b (a 6= 0).
Demuestre que la densidad de Y es la siguiente:
 
1 y−b
g(y) = f , −∞ ≤ y ≤ ∞.
|a| a

44. Suponga que X tiene funci ón densidad:


 −cx
ce si x ≥ 0
g(x) =
0 si no.
X
(a) Demostrar que 1+X tiene funci ón densidad:
( − x
e 1−x
(1−x)2
si 0 ≤ x ≤ 1
g(x) =
0 en otro caso

(b) Demostrar que X + c tiene funci ón densidad:


 −(x−c)
e si c ≤ x
g(x) =
0 si x ≤ c.

45. Sea X una variable aleatoria continua con funci ón densidad f y funci ón distribuci ón F .
Pruebe que la distribuci ón de Y = F (x) es U (0.1).

46. Supongamos que una calculadora posee cuatro circuitos. Si ésta se envı́a a reparaci ón, las
probabilidades que necesite 1,2,3 o 4 circuitos nuevos son 12 , 14 , 18 , y 81 . La empresa que
realiza las reparaciones mantiene un stock de 18875 circuitos anuales. Si en un a ño recibe
10000 calculadoras para reparar, ¿cu ál es la probabilidad que no se cubra la demanda?.
Resp : 0.117

47. Observando que, en promedio, el 12% de los pasajes reservados no se ocupan, una compa ñı́a
aérea decide aceptar reservas por un 10% m ás de su capacidad en aviones de 450 pasajeros.
Calcular la proporci ón de vuelos en que alg ún pasajero con reserva no tiene cabida.
Resp : 0.02

48. Suponga que X ∼ U (0, 1). Determine los valores de t ∈ R tales que E(X t ) existe.

49. (a) Un dado se lanza hasta obtener un dos. Si X es el n úmero de lanzamientos requeridos,
t
demostrar que la funci ón generadora de momentos de X es 6−5t .

Aravena, del Pino, Quintana: PROBABILIDADES 129


´
CAP ITULO 3. VARIABLES ALEATORIAS

(b) Un dado se lanza hasta obtener un dos o un tres. Demostrar que la funci ón generadora
t
de momentos del n úmero de lanzamientos requeridos es 3−2t .

50. Suponiendo que X tenga la siguiente funci ón densidad :

f (x) = λe−λ(x−a) X≤a

(a) Encontrar MX (t).


(b) Calcular E(X) y V ar(X).

51. Si X es una variable aleatoria continua no negativa, pruebe que


Z ∞
E(X n ) = nxn−1 (1 − F (x))dx,
0

donde F es la funci ón de distribuci ón de X.

52. Demostrar que si Xi , i = 1, . . . , k representa el n úmero de éxitos en k repeticiones de un


experimento para el que P ( éxito) = p ∀i, entonces X1 + · · · + Xk tiene una distribuci ón
Binomial.

Aravena, del Pino, Quintana: PROBABILIDADES 130


Cap´
ıtulo 4

Vectores Aleatorios

4.1 Motivaci ón

En el capı́tulo anterior hemos estudiado el importante concepto de variable aleatoria, con énfasis en
el caso en que ésta es univariada. Es usual, sin embargo, el caso en que el objeto aleatorio natural
para modelar una situaci ón dada es un vector aleatorio de n componentes, es decir, se observa
X = (X1 , X2 , . . . , Xn ), en que cada Xi es una variable aleatoria unidimensional, ya sea discreta,
absolutamente continua o mixta.
Este es el caso del Ejemplo 3.2.4 del Capı́tulo 3, en que el resultado de escoger un punto al
azar en el cı́rculo unitario se describe por un vector aleatorio bidimensional X = (X 1 , X2 ), y
en donde X = {(x1 , x2 ) | x21 + x22 ≤ 1}. Note que en este mismo ejemplo el resultado puede
también ser descrito en t érminos de coordenadas polares Y = (R, Θ), donde Y = {(r, θ) : 0 ≤
r ≤ 1, −π ≤ θ ≤ π}. Observe, sin embargo, que si este experimento se cambia por escoger un
punto en la circunsferencia unitaria {(x1 , x2 ) | x21 + x22 = 1}, el vector correspondiente es en
realidad un objeto unidimensional, lo que se puede modelar empleando las t écnicas del Capı́tulo 3.
Concretamente, en coordenadas polares, escogemos R = 1 y Θ ∼ U (0, 2π). Se propone como
ejercicio al lector obtener la correspondiente distribuci ón de las coordenadas cartesianas X1 y X2 .
Otra situaci ón es cuando una cierta medici ón se lleva a cabo en varios individuos. Por ejemplo,
suponga que interesa medir la estatura de cada uno de los 6 integrantes de una cierta familia. El
resultado de este experimento se puede representar mediante un vector aleatorio de dimensi ón 6, en
que cada componente representa la estatura de uno de los miembros de esta familia. Esta clase de
ejemplo es muy frecuente en problemas estadı́sticos de la vida real. Sin entrar en mayores detalles
por ahora, es conveniente distinguir el vector aleatorio obtenido de esta forma con aquel que uno
obtendrı́a si se midiera la estatura de uno de los miembros de esta familia 6 veces, y a ún con el caso
en que a este mismo individuo se le miden 6 caracterı́sticas diferentes (por ejemplo, estatura, peso,
etc.). Como veremos m ás adelante estas tres situaciones requieren de modelos probabilı́sticos radi-
calmente distintos, a ún cuando se trata de vectores aleatorios de la misma dimensi ón, y obtenidos
en situaciones “similares”.

131
´
CAP ITULO 4. VECTORES ALEATORIOS

4.2 Definiciones y Conceptos B ásicos

4.2.1 Definiciones

Veremos que muchas de las ideas del caso unidimensional tienen una extensi ón natural al caso
multidimensional. Por esta raz ón, no nos detendremos mayormente en revisar algunos aspectos
cubiertos en el Capı́tulo 3. Más bien, enfatizaremos los cambios especı́ficos que involucra el salto
desde dimensi ón 1 a n.

Definici´ o n 4.2.1 Un vector X = (X1 , . . . , Xn ) se dice vector aleatorio si cada uno de los Xi ,
i = 1, . . . , n es una variable aleatoria, siendo todas ellas definidas sobre un espacio muestral com ún
Ω. La notaci ón X ∈ Rn indicará que X tiene n coordenadas.

En otras palabras, si cada Xi es una variable aleatoria, i = 1, . . . , n, entonces se tiene que


X = (X1 , . . . , Xn ) es un vector aleatorio de dimensi ón n. La restricci ón que las n variables
aleatorias estén definidas sobre un mismo Ω obedece a razones t écnicas, y en la pr áctica, uno puede
asumir dicha condici ón sin pérdida de generalidad. Al igual que en el caso unidimensional, Ω suele
ser un conjunto difı́cil de especificar (¡en algunos caso es incluso difı́cil de imaginar!), por lo que
los modelos probabilı́sticos – expresados en t érminos de distribuciones – se postulan usualmente
sobre X , el conjunto de posibles valores de X.

o n 4.2.2 La funci ón de distribuci ón conjunta de un vector aleatorio X se define para un
Definici´
vector dado x = (x1 , . . . , xn ) ∈ Rn mediante:

FX (x) = FX1 ,··· ,Xn (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ). (4.2.1)

N ótese que en este caso se habla de funci ón de distribuci ón conjunta de X, denotando el hecho
que X posee m ás de una coordenada, estableci éndose ası́ una distinci ón explı́cita con el caso
unidimensional.

4.2.2 Propiedades de la funci o´n de distribuci o´n conjunta

La funci ón de distribuci ón conjunta tiene las siguientes propiedades:

1. FX es no decreciente en cada coordenada, esto es, si x i1 < xi2 , entonces

FX (x1 , . . . , xi1 , . . . , xn ) ≤ FX (x1 , . . . , xi2 , . . . , xn ).

2. FX es continua por la derecha en cada coordenada, esto es,

lim FX (x1 , . . . , xi , . . . , xn ) = FX (x1 , . . . , xi0 , . . . , xn ).


xi →x+
i0

Análogamente, los lı́mites por la izquierda en cada coordenada existen (aunque no necesa-
riamente coinciden con los valores de FX en los puntos en cuesti ón).

Aravena, del Pino, Quintana: PROBABILIDADES 132


´
CAP ITULO 4. VECTORES ALEATORIOS

3. Para cualquier i se tiene


lim FX (x1 , . . . , xn ) = 0,
xi →−∞
y
lim FX (x1 , . . . , xn ) = 1,
x1 ,...,xn →∞

donde este último lı́mite significa que todas las coordenadas tienden simult áneamente a ∞.

4. Para g : Rn → R sea

∆k(ak ,bk ] g(x1 , . . . , xn ) = g(x1 , . . . , bk , . . . , xn ) − g(x1 , . . . , ak , . . . , xn ).

Entonces,
∆1(a1 ,b1 ] · · · ∆n(an ,bn ] FX (x1 , . . . , xn ) ≥ 0,
cualesquiera que sean ai < bi , i = 1, . . . , n.

Se puede probar que estas cuatro propiedades caracterizan completamente la funci ón de distri-
buci ón conjunta, en el sentido que una funci ón F satisfaciéndolas coincide con FX para alg ún vec-
tor aleatorio X. Resulta entonces natural asignar el nombre funci ón de distribuci ón n-dimensional
o conjunta a cualquier funci ón F satisfaciendo 1-4 arriba.
La propiedad 4 es quiz ás la más novedosa entre ellas. Para visualizar lo que sucede, considere-
mos el caso n = 2, y el siguiente ejemplo.

Ejemplo 4.2.1 Sea F : R2 → R definida por



1 si x ≥ 0, y ≥ 0, x + y ≥ 1
F (x, y) =
0 si no.

Si F fuera la funci ón de distribuci ón de alg ún vector aleatorio (X, Y ), entonces, ano-
tando FX,Y (x, y) = F (x, y) se tiene

P (0 < X ≤ 1, 0 < Y ≤ 1) = FX,Y (1, 1) − FX,Y (1, 0)


−FX,Y (0, 1) + FX,Y (0, 0)
= F (1, 1) − F (1, 0) − F (0, 1)
+F (0, 0)
= 1 − 1 − 1 + 0 = −1,

que es claramente una contradicci ón.

Es claro, entonces, que la cuarta propiedad (que simplemente establece que probabilidades cal-
culadas a partir de F deben ser no negativas) resulta relevante, y no puede ser omitida. Dicha propie-
dad se puede visualizar como la extensi ón multivariada de aquella establecida en la Secci ón 3.4.1,
y que se traduce en el hecho que las funciones de distribuci ón univariadas son no decrecientes.
Como en el caso unidimensional, es posible clasificar vectores aleatorios como discretos y con-
tinuos.

Aravena, del Pino, Quintana: PROBABILIDADES 133


´
CAP ITULO 4. VECTORES ALEATORIOS

o n 4.2.3 El vector aleatorio X = (X1 , . . . , Xn ) se dice


Definici´

• discreto si X toma valores sobre un conjunto finito o infinito numerable. En este caso, si
x ∈ X , la funci ón
pX (x) = P (X1 = x1 , . . . , Xn = xn )
recibe el nombre de funci ón de probabilidad conjunta discreta.

• absolutamente continuo si existe una funci ón fX : Rn → R+ ∪ {0} tal que para cualquier
x ∈ Rn se cumple
Z xn Z x1
FX (x) = ··· fX (t1 , . . . , tn )dt1 · · · dtn .
−∞ −∞

En este caso, fX se llama funci ón densidad del vector aleatorio X, o funci ón densidad
conjunta de las variables aleatorias X1 , . . . , Xn .

Como en el caso unidimensional, FX suele tener poca importancia pr áctica cuando X es dis-
creto, y uno trabaja usualmente con pX . En el caso continuo, la probabilidad que el vector aleatorio
X tome valores en el rect ángulo n-dimensional

Rn = [a1 , b1 ] × · · · × [an , bn ],

se obtiene mediante integraci ón:


Z bn Z b1
P (X ∈ Rn ) = ··· fX (t1 , . . . , tn )dt1 · · · dtn . (4.2.2)
an a1

Si el vector aleatorio X est á definido en Ω, sobre el cual se ha definido una medida de proba-
bilidad P , el vector X induce una nueva medida de probabilidad, P X , esta vez sobre X , y dada
mediante la f órmula:

PX (B) = P (X ∈ B) = P (X −1 (B)) para B ∈ X . (4.2.3)

Al igual que en el caso univariado, PX recibe el nombre de medida de probabilidad inducida por
X, o distribuci ón de X.
Otras propiedades de las funciones de probabilidad se ver án a continuaci ón:

1. Si la funci ón de probabilidad discreta de X = (X1 , . . . , Xn ) es pX , entonces la funci ón de


probabilidad conjunta de un subconjunto cualquiera de (X 1 , . . . , Xn ) se obtiene simplemente
de sumar pX sobre las coordenadas correspondientes a las variables no incluidas en dicho
subconjunto, y atendiendo a las restricciones que los puntos en X poseen. En particular:
X
pX1 ,...,Xk (x1 , . . . , xk ) = pX (x1 , . . . , xk , xk+1 , . . . , xn ), (4.2.4)
S(k+1,...,n)

en donde
S(k + 1, . . . , n) = {(xk+1 , . . . , xn ) : (x1 , . . . , xn ) ∈ X }.

Aravena, del Pino, Quintana: PROBABILIDADES 134


´
CAP ITULO 4. VECTORES ALEATORIOS

En efecto, el conjunto de posibles valores para (X1 , . . . , Xk ) se obtiene de “proyectar” X so-


bre las primeras k coordenadas. Pero en este proceso, la probabilidad de un punto cualquiera
se obtiene como la suma de todos los puntos de X cuyas primeras k coordenadas coinciden
(esto es, aplicamos probabilidades totales), que es exactamente lo que se establece en (4.2.4).
Una notaci ón alternativa para (4.2.4) es

pX1 ,...,Xk (x1 , . . . , xk ) = pX (x1 , . . . , xk , +, . . . , +). (4.2.5)

2. Si X = (X1 , . . . , Xn ) tiene densidad conjunta fX , entonces, y en analogı́a con el caso dis-


creto, la densidad conjunta de un subconjunto de ellas se obtiene de integrar las coordenadas
que no pertenecen a dicho subconjunto:
Z ∞ Z ∞
fX1 ,...,Xk (x1 , . . . , xk ) = ··· fX1 ,...,Xn (x1 , . . . , xn )dxk+1 · · · dxn . (4.2.6)
−∞ −∞

3. Si FX es la funci ón de distribuci ón conjunta de X = (X1 , . . . , Xn ), entonces la funci ón


de distribuci ón conjunta de alg ún subconjunto de ellas se obtiene de tomar el lı́mite de ca-
da coordenada no involucrada en el subconjunto, cuando esta coordenada tiende a ∞. En
particular:

FX1 ,...,Xk (x1 , . . . , xk ) = lim FX1 ,...,Xn (x1 , . . . , xk , xk+1 , . . . , xn ). (4.2.7)


xk+1 ,...,xn →∞

Intuitivamente, al tomar lı́mite a infinito en alguna coordenada, digamos, para fijar ideas, la
última, se reemplaza el evento {Xn ≤ xn } por {Xn ≤ ∞}, el cual tiene probabilidad 1, y
por lo tanto, este evento no altera la probabilidad de los otros eventos que definen F X :

lim FX (x1 , ..., xn ) = lim P (X1 ≤ x1 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn )


xn →∞ xn →∞
= P (X1 ≤ x1 , . . . , Xn−1 ≤ xn−1 , Xn ≤ ∞)
= P (X1 ≤ x1 , . . . , Xn−1 ≤ xn−1 )
= FX1 ,...,Xn−1 (x1 , . . . , xn−1 ).

El argumento en el caso del lı́mite de dos o m ás coordenadas en forma simult ánea es esen-
cialmente idéntico.

4.2.3 Ejemplos

Veamos a continuaci ón algunos ejemplos.

Ejemplo 4.2.2 Sea X1 , X2 , . . . un proceso de Bernoulli con probabilidad de éxito


p. En este caso se tiene que X = (X1 , . . . , Xn ) es un vector aleatorio discreto n-
dimensional, cualquiera que sea n. Por las propiedades ya estudiadas para este caso,
X = {0, 1}n , y para cualquier x = (x1 , . . . , xn ) ∈ X se cumple:
n
P n
P
xi n− xi
pX (x) = p i=1 (1 − p) i=1 .

Aravena, del Pino, Quintana: PROBABILIDADES 135


´
CAP ITULO 4. VECTORES ALEATORIOS

Veamos ahora c ómo deducir esta f órmula. Para fijar ideas, supongamos que x consta
de k unos seguidos de n − k ceros. Por la independencia de X 1 , . . . , Xn , es claro que la
probabilidad de tal configuraci ón es pk (1 − p)n−k . Más aun, cualquier configuraci ón
con k unos y n − k ceros tiene exactamente la misma probabilidad. Pero el n úmero de
Pn
unos coincide con Xi , de donde se obtiene el resultado.
i=1

Ejemplo 4.2.3 Sean X e Y variables aleatorias discretas con funci ón de probabilidad
conjunta dada por la siguiente tabla:

y
x 0 1 2
0 0.15 0.15 0.25
1 0.10 0.15 0.20

Para obtener la funci ón de probabilidad discreta de X e Y , y usando (4.2.4), s ólo


debemos sumar por filas o columnas, respectivamente. Ası́, se obtiene que pX (0) =
0.55, pX (1) = 0.45, y pY (0) = 0.25, pY (1) = 0.3, pY (2) = 0.45.

Ejemplo 4.2.4 Considere (X, Y ) con densidad conjunta



c(|x| + |y|) si |x| + |y| ≤ 1
fX,Y (x, y) =
0 si no.

En este ejemplo, el primer paso consiste en calcular el valor de c > 0 para que efecti-
vamente se tenga una densidad. Se debe cumplir
ZZ
1= c(|x| + |y|)dxdy.
|x|+|y|≤1

Por la simetrı́a de ambos, el dominio de integraci ón y la funci ón en cuesti ón, la integral
sobre cada cuadrante es la misma, y
ZZ Z 1 Z 1−y
1 = 4c (x + y)dxdy = 4c (x + y)dxdy
0 0
{x+y≤1, x≥0, y≥0}
Z 1 Z 1
2
= 4c [(1 − y) /2 + y(1 − y)]dy = 4c [1/2 − y 2 /2]dy
0 0
= 4c(1/2 − 1/6) = 4c/3,

de donde se concluye que c = 3/4.


Calculemos ahora las correspondientes densidades marginales. A partir de (4.2.6) se
tiene que Z ∞
fX (x) = fX,Y (x, y)dy.
−∞

Aravena, del Pino, Quintana: PROBABILIDADES 136


´
CAP ITULO 4. VECTORES ALEATORIOS

Es necesario ser muy cuidadoso con los lı́mites de integraci ón. En primer lugar, X se
obtiene de proyectar el dominio sobre el eje x, obteni éndose X = [0, 1], de modo que
fX (x) = 0 si x 6∈ [0, 1]. Para x0 ∈ [0, 1] fijo, el rango de posibles valores de y se
obtiene de la desigualdad |x0 | + |y| ≤ 1, de donde se sigue que −(1 − |x0 |) ≤ y ≤
1 − |x0 |, como se muestra en el siguiente diagrama.
y
1
@
@ y ≤ 1 − |x0 |
@
@
@ 1
-1 @
@ 0 x0 x
@
@
@
@
@
-1

Se tiene entonces que


1−|x|
3
Z
fX (x) = (|x| + |y|)dy
4 −(1−|x|)
1−|x|
3 3
Z
= |x|(1 − |x|) + |y|dy
2 4 −(1−|x|)

3 3 1−|x|
Z
= |x|(1 − |x|) + ydy
2 2 0
3 3 3
= |x|(1 − |x|) + (1 − |x|)2 = (1 − x2 ).
2 4 4
Análogamente, y por la simetrı́a del problema,
 3 2
fY (y) = 4 (1 − y ) si y ∈ [−1, 1]
0 si no.

4.2.4 El caso mixto

Hay a ún un caso que discutir, y que corresponde a cuando parte de las variables en el vector aleato-
rio X son discretas, y el resto absolutamente continuas, caso en el que hablamos de vector aleatorio
mixto. Para simplificar la exposici ón, supongamos un vector bidimensional (X, Y ), donde X es
discreta, e Y es absolutamente continua, y denotemos por D al conjunto de posibles valores para
este vector. Notemos que la distribuci ón de (X, Y ) asigna probabilidades positivas a algunos sub-
conjuntos de R2 de la forma {x} × [a, b]. Sin p érdida de generalidad, podemos descartar aquellos
subconjuntos tales que P (X = x) = 0 marginalmente. Surge entonces el problema de c ómo defi-
nir una “funci ón densidad” que permita realizar los c álculos como lo hemos estado haciendo hasta
ahora. Es claro que al operar con esta funci ón densidad, se requerir á una combinaci ón de sumas e

Aravena, del Pino, Quintana: PROBABILIDADES 137


´
CAP ITULO 4. VECTORES ALEATORIOS

integrales, correspondientes a la parte discreta y continua respectivamente. Para ello, introduzcamos


primero la siguiente notaci ón. Sea A ⊂ D un evento de inter és, y defina:

Ax = {y ∈ R : (x, y) ∈ A}
= {x ∈ R : (x, y) ∈ A}
Ay
[
A(X) = Ay
y∈Y
[
A(Y ) = Ax .
x∈X

Los conjuntos Ax y Ay reciben el nombre de secciones de A. Ası́, Ax contiene todos los puntos
y ∈ Y para los que el segmento paralelo al eje y y que pasa por x est á contenido en A. Por su
parte, A(X) contiene todos los posibles valores x tal que (x, y) ∈ A para alg ún y ∈ A(Y ). Luego,
A(X) puede verse como la proyecci ón de A sobre el eje x correspondiente a la primera coordenada.
Una interpretaci ón análoga vale para Ay y A(Y ). Observe que, en general, A ⊂ A(X) × A(Y ),
pudiendo la inclusi ón ser estricta. Por otra parte, el soporte de X es simplemente D(X), y el de Y
es D(Y ).
Con esta notaci ón, es posible probar que para un vector aleatorio mixto, existe una funci ón
densidad mixta pX,Y (x, y) tal que
   
X 
 Z 
 Z X 
P ((X, Y ) ∈ A) = pX,Y (x, y)dy = pX,Y (x, y) dy. (4.2.8)
   
x∈A(X)  y∈Ax

y∈A(Y ) x∈Ay

Además, la funci ón de probabilidad discreta marginal de X se obtiene mediante


Z
pX (x) = pX,Y (x, y)dy, x ∈ D(X), (4.2.9)
y∈D x

mientras que la densidad marginal de Y se obtiene mediante


X
fY (y) = pX,Y (x, y), x ∈ D(Y ). (4.2.10)
x∈D y

Finalmente, el procedimiento se extiende en forma an áloga al caso n > 2, en que algunas de


las coordenadas son variables discretas, y las otras poseen una funci ón densidad conjunta.

Ejemplo 4.2.5 Considere un vector aleatorio de tipo mixto (X, Y ) para el que X =
{0, 1, . . . , n}, e Y = (0, 1), y con
( n
(x) x+a−1
B(a,b) y (1 − y)n−x+b−1 si (x, y) ∈ X × Y
pX,Y (x, y) =
0 si no,
donde a y b son reales positivos, n ≥ 1 es un entero cualquiera, y B(a, b) es la funci ón
Beta, definida por
Γ(a)Γ(b)
B(a, b) = .
Γ(a + b)

Aravena, del Pino, Quintana: PROBABILIDADES 138


´
CAP ITULO 4. VECTORES ALEATORIOS

Para calcular pX se procede como a continuaci ón, usando (4.2.9):


Z 1
pX (x) = pX,Y (x, y)dy
0
  Z 1
n −1
= Beta(a, b) y x+a−1 (1 − y)n−x+b−1 dy
x 0
n

x Beta(x + a, n − x + b)
= ,
Beta(a, b)
para x = 0, 1, . . . , n. Por otra parte, de (4.2.10)
n
X
fY (y) = pX,Y (x, y)
x=0
n  
−1 a−1 b−1
X n
= Beta(a, b) y (1 − y) y x (1 − y)n−x
x
x=0
y a−1 (1
− y)b−1
= ,
Beta(a, b)
y hemos visto ası́ que Y ∼ Beta(a, b). Se recomienda al lector establecer el parale-
lo entre la distribuci ón aquı́ considerada y un experimento consistente en escoger un
n úmero 0 < Y < 1 de acuerdo a la distribuci ón Beta(a, b), para luego lanzar una
moneda con probabilidad Y de dar cara n veces en forma independiente, anotando el
n úmero de caras X que se obtienen.

Ejemplo 4.2.6 Considere un vector aleatorio mixto (X, Y ) para el que


 yx
x! exp(−2y) si (x, y) ∈ {0, 1, 2, . . .} × (0, ∞)
pX,Y (x, y) =
0 si no,
Usando (4.2.9) se obtiene, despu és de algunos c álculos directos,
Z ∞
exp(−2y)y x 1
pX (x) = dy = x+1 , x = 0, 1, 2, . . . ,
0 x! 2
y de (4.2.10)

X exp(−2y)y x
fY (y) = = exp(−y), y > 0,
x!
x=0

y entonces Y tiene distribuci ón exponencial con par ámetro 1.

4.3 Independencia de Variables Aleatorias

Retomamos aquı́ el concepto de independencia de variables aleatorias introducido anteriormente,


dándole un tratamiento m ás general, y estudiando sus consecuencias en t érminos de las componen-
tes de un vector aleatorio.
Para comenzar, recordemos la definici ón, que se aplica a variables aleatorias de cualquier tipo.

Aravena, del Pino, Quintana: PROBABILIDADES 139


´
CAP ITULO 4. VECTORES ALEATORIOS

o n 4.3.1 Las variables aleatorias X1 , . . . , Xn , definidas en el mismo espacio muestral, se


Definici´
dicen independientes si para cualquier colecci ón de n eventos A1 , . . . , An se tiene
n
Y
P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (Xi ∈ Ai ) (4.3.1)
i=1

Como en el caso discreto, independencia de X1 , . . . , Xn significa que eventos relacionados a


subconjuntos disjuntos de estas variables son independientes, es decir, la ocurrencia de uno de ellos
no da informaci ón respecto de la probabilidad de ocurrencia de los otros.
Es posible obtener diversas caracterizaciones de independencia. La m ás general de ellas dice
relaci ón con la factorizaci ón de la funci ón de distribuci ón conjunta.

Proposici o´n 4.3.1

(a) Si X1 , . . . , Xn son independientes, entonces


n
Y
FX1 ,...,Xn (x1 , . . . , xn ) = FXi (xi ),
i=1

para cualquier x1 , . . . , xn .

(b) A la inversa, si existen funciones F1 , . . . , Fn tales que


n
Y
FX1 ,...,Xn (x1 , . . . , xn ) = Fi (xi ),
i=1

y si lim Fi (xi ) = 1, para i = 1, . . . , n, entonces X1 , . . . , Xn son independientes, y


xi →∞
FXi (xi ) = Fi (xi ) para i = 1, . . . , n.

En otras palabras, si las variables en cuesti ón son independientes, entonces la funci ón de dis-
tribuci ón conjunta de ellas factoriza como el producto de las funciones de distribuci ón univariadas
involucradas. La parte (b) establece un resultado recı́proco, pero esta vez, es necesario verificar que
para i = 1, . . . , n se tiene lim Fi (xi ) = 1. Note que no es necesario verificar que cada Fi es una
xi →∞
funci ón de distribuci ón. Por otro lado, si cada Xi es absolutamente continua (el caso discreto ya
fue anteriormente tratado en la Secci ón 2.8.1), podemos dar una versi ón de este resultado basado
s ólo en densidades.

Proposici o´n 4.3.2

(a) Si X1 , . . . , Xn son independientes, entonces para cualquier x1 , . . . , xn se cumple:


n
Y
fX1 ,...,Xn (x1 , . . . , xn ) = fXi (xi ).
i=1

Aravena, del Pino, Quintana: PROBABILIDADES 140


´
CAP ITULO 4. VECTORES ALEATORIOS

(b) Recı́procamente, si existen funciones densidad f1 , . . . , fn tales que


n
Y
fX1 ,...,Xn (x1 , . . . , xn ) = fi (xi ),
i=1

entonces X1 , . . . , Xn son independientes, y Xi tiene densidad fi , i = 1, . . . , n.

Veamos a continuaci ón algunos ejemplos.

Ejemplo 4.3.1 Sea (X, Y ) un vector aleatorio con distribuci ón uniforme en el cı́rculo
unitario, esto es,  −1
π si x2 + y 2 ≤ 1
fX,Y (x, y) =
0 si no
Tenemos que X = [−1, 1], y para −1 ≤ x ≤ 1 se cumple:

∞ 1−x2
1
Z Z
fX (x) = fX,Y (x, y)dy = √ dy
−∞ − 1−x2 π

2 1 − x2
= ,
π
y fX (x) = 0 si no. En completa analogı́a, fY (y) = fX (y), pero es claro que
fX,Y (x, y) 6= fX (x)fY (y), por lo que X e Y no son independientes.

Se propone como ejercicio verificar que si (X, Y ) est á distribuido uniformemente en el cuadra-
do unitario [0, 1] × [0, 1], entonces X e Y son independientes, cada una con distribuci ón U(0,1).

Ejemplo 4.3.2 Considere el vector aleatorio (X, Y ) con densidad conjunta


 
1 1 2 2
fX,Y (x, y) = p exp − (x − 2ρxy + y ) ,
2π 1 − ρ2 2(1 − ρ2 )

donde (x, y) ∈ R2 , y en donde −1 < ρ < 1. Se tiene que:


Z ∞
x2
 
1 1 2
fX (x) = exp − (y − ρx) − dy
2(1 − ρ2 )
p
2π 1 − ρ2 −∞ 2
 2
exp − x2 Z ∞ 
1

2
= exp − (y − ρx) dy
2(1 − ρ2 )
p
2π 1 − ρ2 −∞
 2
exp − x2
= √ ,

y X ∼ N (0, 1). An álogamente, Y ∼ N (0, 1), pero es claro que X e Y no son
independientes, a menos que ρ = 0, caso en que la densidad conjunta sı́ factoriza. Este
ejemplo será nuevamente discutido m ás adelante.

Aravena, del Pino, Quintana: PROBABILIDADES 141


´
CAP ITULO 4. VECTORES ALEATORIOS

4.4 Transformaciones de Vectores Aleatorios

4.4.1 Enfoque intuitivo

En muchos casos la informaci ón obtenida viene en la forma de un vector aleatorio n-dimensional
con distribuci ón conjunta conocida (ya sea mediante consideraciones propias al experimento, o
como parte de un cierto modelo probabilı́stico), pero lo que realmente interesa es determinar pro-
babilidades que digan relaci ón con una variable aleatoria definida como una funci ón del vector
aleatorio en cuesti ón, digamos, Y = g(X1 , . . . , Xn ). Ejemplos tı́picos de esta situaci ón son sumas,
promedios, productos, cambios de unidades de medida, etc étera. Concretamente, ya hemos visto el
caso en que la variable de inter és sea el n úmero de éxitos obtenidos hasta el n- ésimo ensayo en un
proceso de Bernoulli, que simplemente corresponde a sumar X 1 , . . . , Xn .
Note que
FY (y) = P (g(X1 , . . . , Xn ) ≤ y),
de modo que, en teorı́a el problema ya est á resuelto. En la pr áctica, sin embargo, son pocos los
casos en que este c álculo se puede hacer directamente. Veamos un par de ejemplos simples.

Ejemplo 4.4.1 Sea X ∼ N (0, 1), y sea Y = X 2 . Se tiene Y = R+ , de modo que para
y > 0:
√ √
FY (y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y)
Z √y
1 x2 √ √
= √
√ exp(− )dx = FX ( y) − FX (− y).
− y 2π 2

Luego, la densidad de Y se obtiene como FY0 (y):

d √ 1 √ 1
fY (y) = FY (y) = fX ( y) √ + fX (− y) √
dy 2 y 2 y
1
exp(− y2 ) y 2 −1 exp(− y2 )
= √ = 1√ ,
2 yπ 22 π

que corresponde a la distribuci ón Gamma( 12 , 2). Esta distribuci ón recibe tambi én el
nombre de Chi-cuadrado con 1 grado de libertad, como se ver á más adelante.

Ejemplo 4.4.2 Sean X1 y X2 i.i.d. con distribuci ón exponencial de par ámetro λ > 0.
Calculemos la densidad de Y = X1 + X2 . Es inmediato ver que Y = R+ , y que

fX1 ,X2 (x1 , x2 ) = λ−2 exp(−(x1 + x2 )/λ).

Aravena, del Pino, Quintana: PROBABILIDADES 142


´
CAP ITULO 4. VECTORES ALEATORIOS

Entonces, para y > 0:


FY (y) = P (X1 + X2 ≤ y)
Z
= λ−2 exp(−(x1 + x2 )/λ)dx1 dx2
{x1 +x2 ≤y, x1 ≥0,x2 ≥0}
Z y Z y−x2
= λ−(x1 +x2 ) exp(−(x1 + x2 )/λ)dx1 dx2
0 0
Z y Z y−x2 
−1 −1
= λ exp(−x2 /λ) λ exp(−x1 /λ)dx1 dx2
Z0 y 0

= λ−1 (exp(−x2 /λ) − exp(−y/λ))dx2


0
= 1 − exp(−y/λ) − λ−1 y exp(−y/λ),
y de aquı́ se concluye, mediante diferenciaci ón, que
fY (y) = λ−2 y exp(−y/λ),
y por lo tanto Y ∼ Γ(2, λ).

4.4.2 El Teorema del cambio de variables: caso biyectivo

Cuando la transformaci ón involucra funciones m ás complicadas, este m étodo “directo” se torna
difı́cil de emplear. Afortunadamente, es posible recurrir al Teorema del cambio de variables para
obtener el siguiente e importante resultado.

Teorema 4.4.1 Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional con valores en X ⊂ R n ,


y con densidad conjunta fX . Sea Y = g(X) una funci ón para la que g : X → Y = g(X ) ⊂ Rn
es biyectiva y tal que g −1 es continuamente diferenciable, y en donde X e Y son regiones abiertas
de Rn . Entonces Y es tambi én absolutamente continua, con densidad conjunta dada por
fX (g −1 (y))|det(Jg −1 (y))| si y ∈ Y

fY (y) = (4.4.1)
0 si no,

y en donde Jg −1 (y) es la matriz Jacobiana de la transformaci ón inversa g −1 = (g1−1 , . . . , gn−1 ) :


Y → X , dada por
 ∂g−1 (y) ∂g1−1 (y)

1
∂y1 ··· ∂yn
Jg −1 (y) = 
 .. .. 
.
 . . 
−1 −1
∂gn (y) ∂gn (y)
∂y1 ··· ∂yn

El teorema del cambio de variables es una herramienta bastante útil en el cálculo de distribu-
ciones de transformaciones de vectores aleatorios en el caso absolutamente continuo. Note que si
n = 1, el resultado se reduce a lo ya visto en el Teorema 3.9.1.
Veamos a continuaci ón algunas aplicaciones.

Aravena, del Pino, Quintana: PROBABILIDADES 143


´
CAP ITULO 4. VECTORES ALEATORIOS

p Sean X e Y variables aleatorias i.i.d. con distribuci ón com ún U(0,1).
Ejemplo 4.4.3
Sean R = 2 log(1/(1 − X)) y Θ = π(2Y − 1). Vamos a probar que Z = R cos(Θ)
y W = R sin(Θ) son independientes e id énticamente distribuidos, con distribuci ón
com ún N(0,1).
Primero, observe que Θ tiene distribuci ón uniforme en [−π, π]. En efecto, si g(y) =
π(2y − 1) entonces g([0, 1]) = [−π, π], y es claro que g es biyectiva y continuamente
diferenciable. Por otra parte,

1 si y ∈ [0, 1]
fY (y) =
0 si no.

Además g −1 (θ) = 2−1 (1 + θπ −1 ), por lo que |det(Jg −1 (θ))| = (2π)−1 , y de (4.4.1)


se obtiene
(2π)−1 si θ ∈ [−π, π]

fΘ (θ) =
0 si no,
de modo que Θ ∼ U (−π, π). En segundo lugar, calculemos la densidadp de R. Es f ácil
ver que R toma valores en ]0, ∞[. Ahora, si definimos g(x) = 2 log(1/(1 − X)),
entonces g es tambi én biyectiva y continuamente diferenciable. Adem ás, se tiene que
g −1 (r) = 1 − exp(−r 2 /2), y |det(Jg −1 (r))| = r exp(−r 2 /2). De aquı́ se sigue que

r exp(−r 2 /2) si r > 0



fR (r) =
0 si no.

Veamos ahora c ómo obtener el resultado. Puesto que X e Y son independientes, R y


Θ también lo son, de modo que

(2π)−1 r exp(−r 2 /2) si r > 0, −π < θ < π



fR,Θ (r, θ) =
0 si no.

Defina ahora las nuevas variables

(z, w) = g(r, θ) = (r cos(θ), r sin(θ))

sobre {(r, θ) : r > 0, −π < θ < π}. Es claro que (Z, W ) toma valores en todo R 2 ,
−1 −1
√ g es biyectiva y continuamente diferenciable, y que g está dada por g (z, w) =
que
2 2
( z + w , arctan(w/z)). La matriz Jacobiana de la transformaci ón inversa está dada
por !
√ z √ w
Jg −1 (z, w) = z 2 +w2
−w
z 2 +w2
z ,
z 2 +w2 z 2 +w2

y de aquı́ |det(Jg −1 (z, w))| = 1/ z 2 + w2 . Por (4.4.1), la densidad conjunta de
(Z, W ) está dada por
 
1 1 2 2
fZ,W (z, w) = exp − (z + w )
2π 2
 2
w2
 
1 z 1
= √ exp − × √ exp − ,
2π 2 2π 2

Aravena, del Pino, Quintana: PROBABILIDADES 144


´
CAP ITULO 4. VECTORES ALEATORIOS

que factoriza como el producto de dos funciones densidad N(0,1), y esto es exactamente
lo que querı́amos probar. Por último, note que se puede tomar un único cambio de
variables, que no requiera calcular previamente las densidades de R y Θ. Los detalles
de este procedimiento se proponen como ejercicio.

Ejemplo 4.4.4 Suponga que X e Y son independientes con X ∼ Γ(a, λ), e Y ∼


Γ(b, λ). Calculemos la densidad de Z = X/(X + Y ).
A ún cuando este problema se puede hacer sin usar el Teorema del cambio de variables
(es un buen ejercicio), preferimos utilizar aquı́ dicho resultado. La idea es construir un
cambio de variables en R2 que tenga a X/(X + Y ) en alguna coordenada, y alguna
transformaci ón simple en la otra. Una vez obtenida la densidad conjunta, se procede
a calcular la densidad marginal de la variable de inter és. Este método suele aplicarse
muy a menudo en problemas de esta ı́ndole.
Consideremos (Z, W ) = g(X, Y ) = (X/(X + Y ), Y ), donde es claro que este nuevo
vector toma valores en ]0, 1[×]0, ∞[. Se tiene que g −1 (z, w) = (zw/(1 − z), w). Note
que la matriz Jacobiana es triangular, pues el elemento (2,1) de esta matriz es ∂w/∂z =
0, de modo que el determinante correspondiente es el producto de los elementos en la
diagonal de la matriz, y ası́ no se necesita calcular el elemento (1,2). Luego:

w w
|det(Jg −1 (z, w))| = ×1 = .
(1 − z)2 (1 − z)2

Por otra parte, debido a la independencia,


exp(− x+y
( a−1 b−1
x y )
Γ(a)Γ(b)λa+b
λ
si x, y > 0
fX,Y (x, y) =
0 si no.

Por (4.4.1), la densidad conjunta de (Z, W ) est á dada por


( a−1 (a+b)−1  
z w w
Γ(a)Γ(b)λ a+b exp − λ(1−z) si 0 < z < 1, w > 0
fZ,W (z, w) =
0 si no.

Para obtener fZ , usamos (4.2.6):


Z ∞
fZ (z) = fZ,W (z, w)dw
0
Z ∞ (a+b)−1
z a−1
 
w w
= exp − dw
(1 − z)a+1 Γ(a)Γ(b) 0 λa+b λ(1 − z)
 
a−1 b−1 Z ∞ w(a+b)−1 exp − w
z (1 − z) λ(1−z)
= dw
B(a, b) 0 Γ(a + b)(λ(1 − z))a+b
z a−1 (1 − z)b−1
= ,
B(a, b)

y ası́ hemos probado que Z ∼ Beta(a, b).

Aravena, del Pino, Quintana: PROBABILIDADES 145


´
CAP ITULO 4. VECTORES ALEATORIOS

Ejemplo 4.4.5 Sea (X, Y ) un vector aleatorio con valores en X ⊂ R 2 y densidad con-
junta fX,Y . Sea Z = X + Y . Podemos calcular la densidad de Z mediante aplicaci ón
del cambio de variables (Z, W ) = g(X, Y ) = (X + Y, Y ). Es claro que g cumple las
hip ótesis del Teorema 4.4.1, y que (x, y) = g −1 (z, w) = (z − w, w), por lo que es
fácil obtener que |det(Jg −1 (z, w))| = 1. Se tiene, entonces, que

fX,Y (z − w, w) si (z − w, w) ∈ X
fZ,W (z, w) =
0 si no,
por lo que Z ∞
fZ (z) = fX,Y (z − w, w)dw. (4.4.2)
−∞
En el caso particular que X e Y son independientes, la ecuaci ón (4.4.2) toma la forma
especial de convoluci ón de fX y fY :
Z ∞
fZ (z) = fX ? fY (z) = fX (z − w)fY (w)dw, (4.4.3)
−∞

es decir, si X e Y son independientes con densidades respectivas f X y fY , su suma


tiene densidad dada por (4.4.3).
A modo de aplicaci ón, consideremos el caso en que X ∼ Γ(a, λ), e Y ∼ Γ(b, λ). La
densidad de Z = X + Y se obtiene de (4.4.3) mediante
Z z( )
(z − w)a−1 e−(z−w)/λ wb−1 e−w/λ
fZ (z) = × dw
0 Γ(a)λa Γ(b)λb
(note que se debe cumplir z − w > 0)
Z z
exp(−z/λ)
= (z − w)a−1 wb−1 dw
Γ(a)Γ(b)λa+b 0
Z 1
exp(−z/λ) (a+b)−1
= ×z (1 − x)a−1 xb−1 dx
Γ(a)Γ(b)λa+b 0
(cambio de variable x = w/z)
z (a+b)−1 exp(−z/λ)B(a, b) z (a+b)−1 exp(−z/λ)
= = ,
Γ(a)Γ(b)λa+b Γ(a + b)λa+b
de donde se tiene Z = X + Y ∼ Γ(a + b, λ).

4.4.3 El teorema del cambio de variables: caso no biyectivo

Consideremos ahora el caso en que la funci ón g no es biyectiva o diferenciable en todo el conjunto
X . En este caso, y al igual que en el caso unidimensional, hay una versi ón del Teorema del cambio
de variables basado en la existencia de subconjuntos X 1 , X 2 , . . . tales que la restricci ón de g a X i
verifique las hip ótesis del Teorema 4.4.1. Este resultado se enuncia a continuaci ón.

Teorema 4.4.2 Sea X un vector aleatorio n-dimensional con valores en X . Suponga que existen

S
subconjuntos de X 1 , X 2 , . . . de X tales que P (X ∈ X i ) = 1. Sea g : X → Y = g(X ) una
i=1

Aravena, del Pino, Quintana: PROBABILIDADES 146


´
CAP ITULO 4. VECTORES ALEATORIOS

funci ón tal que hi , definida como la restricci ón de g a X i , verifica las hip ótesis del Teorema 4.4.1.
Entonces Y = g(X) tiene densidad conjunta dada por
 ∞
 P f (h−1 (y))|det(Jh−1 (y))| si y ∈ Y
X i i
fY (y) = (4.4.4)
 i=1
0 si no.

Veamos una aplicaci ón de este resultado.

Ejemplo 4.4.6 Sean X1 y X2 variables aleatorias i.i.d. con distribuci ón com ún N(0,1).
Mostremos que Y1 = X12 + X22 e Y2 = X1 /X2 son independientes. El candidato
natural para funci ón g es en este caso g(x1 , x2 ) = (x21 + x22 , x1 /x2 ). Es claro, sin em-
bargo, que esta funci ón no es biyectiva. Por ejemplo, g(1, 1) = g(−1, −1). Adem ás,
no está definida para (x1 , 0), cualquiera que sea x1 ∈ R. Claramente X = R2 , y
g(X ) = Y = R2 . Consideremos ahora X 1 = {(x1 , x2 ) : x1 < 0}, y X 2 =
{(x1 , x2 ) : x1 > 0}. Puesto que P (X ∈ {(x1 , x2 ) : x1 = 0}) = 0 (X es ab-
solutamente continua) se tiene que P (X ∈ X 1 ∪ X 2 ) = 1. Además, h1 y h2 , las
restricciones de g a X 1 y X 2 respectivamente, son claramente biyectivas y satisfacen
las hip ótesis del Teorema 4.4.2.
Hay otra faceta interesante de este problema, y que consiste en que h −1
i no necesita ser
determinado explı́citamente. Note que
−1
Jh−1 −1
1 (y1 , y2 ) = Jh1 (h1 (y1 , y2 )) ,

de modo que

|det(Jh−1 −1 −1
1 (y1 , y2 ))| = |det(Jh1 (h1 (y1 , y2 )))| .

Además,  
2x1 2x2
Jh1 (x1 , x2 ) = ,
1/x2 −x1 /x22
y |det(Jh1 (x1 , x2 ))| = −2(x21 /x22 + 1) y por lo tanto

1
|det(Jh1 (h−1
1 (y1 , y2 )))| = .
2(y22+ 1)

Análogamente,
1
|det(Jh2 (h−1
2 (y1 , y2 )))| = ,
2(y22+ 1)
y la densidad conjunta de (Y1 , Y2 ) se obtiene de aplicar (4.4.4):

exp(−(x21 + x22 )/2)


fX1 ,X2 (x1 , x2 ) = ,

Aravena, del Pino, Quintana: PROBABILIDADES 147


´
CAP ITULO 4. VECTORES ALEATORIOS

y se tiene finalmente que

fY (y) = fY (h−1 −1 −1 −1
1 (y))|det(Jh1 (y))| + fY (h2 (y))|det(Jh2 (y))|
exp(−y1 /2) exp(−y1 /2) exp(−y1 /2)
= 2 + 2 =
4π(1 + y2 ) 4π(1 + y2 ) 2π(1 + y22 )
exp(−y1 /2) 1
= × ,
2 π(1 + y22 )
y puesto que esta densidad conjunta factoriza como el producto de la densidad exponen-
cial de parámetro 2, y de la densidad de Cauchy – definida en (3.8.2) –, concluimos que
Y1 ∼ Exp(2), e Y2 tiene distribuci ón de Cauchy, siendo ellas adem ás, independientes.

4.4.4 Aplicaci o´n: Estad´


ı sticos de orden

Para finalizar esta secci ón, estudiaremos los estadı́sticos de orden asociados a una secuencia de
variables aleatorias i.i.d. X1 , . . . , Xn , definidas como sigue:

o n 4.4.1 Considere X1 , . . . , Xn variables aleatorias i.i.d. con Xi ∼ FX . Los estadı́sti-


Definici´
cos de orden de esta muestra se definen como las variables aleatorias X (1) , X(2) , . . . , X(n) , donde
X(1) (ω), . . . , X(n) (ω) se obtienen de ordenar X1 (ω), . . . , Xn (ω) de menor a mayor. En consecuen-
cia, X(1) ≤ X(2) ≤ · · · ≤ X(n) , con X(1) = min{X1 , . . . , Xn }, y X(n) = max{X1 , . . . , Xn }.

Proposici o´n 4.4.1 Supongamos que X1 , . . . , Xn son variables aleatorias i.i.d. con densidad com ún
fX y funci ón de distribuci ón com ún FX , y con valores en X . Entonces, la densidad conjunta de
los estadı́sticos de orden est á dada por
n

 n! Q f (x ) si x < x < · · · < x
X i 1 2 n
fX(1) ,...,X(n) (x1 , . . . , xn ) = i=1 (4.4.5)
0 si no.

Demostraci o´n: Considere la funci ón g : X n → X n dada por

g(x1 , x2 , . . . , xn ) = xπ = (xπ1 , xπ2 , . . . , xπn ),

donde π = (π1 , . . . , πn ) es una permutaci ón que deja los elementos x1 , . . . , xn ordenados ascen-
dentemente, esto es, xπ1 ≤ xπ2 ≤ · · · ≤ xπn . Note que hay n! permutaciones de x1 , . . . , xn . Por
otra parte, los casos en que xi = xj para alg ún i 6= j pueden descartarse, pues tiene probabilidad
0. Ası́, si P es el conjunto de estas n! permutaciones de {1, 2, . . . , n}, tenemos que a π ∈ P se le
asocia un subconjunto X π tal que si x ∈ X π se cumple xπ1 ≤ · · · ≤ xπn . Se tiene entonces que la
funci ón hπ definida como la restricci ón de g a X π es biyectiva y diferenciable. M ás a ún, la matriz
Jacobiana de hπ es una permutaci ón de las filas de la matriz identidad, y por lo tanto su determi-
nante es ya sea 1 ó -1,Sy se tiene que |det(Jhπ (h−1π (xπ )))| = 1 para todo π ∈ P. Finalmente, se
cumple que P (X ∈ ) = 1, y el resultado se tiene entonces como consecuencia inmediata de
π∈P
(4.4.4). 
Veamos ahora algunas consecuencias de este resultado.

Aravena, del Pino, Quintana: PROBABILIDADES 148


´
CAP ITULO 4. VECTORES ALEATORIOS

1. La densidad de X(k) está dada por


n−1
FX (xk )k−1 (1 − FX (xk ))n−k fX (xk )
 
n k−1 si x ∈ X
fX(k) (xk ) = (4.4.6)
0 si no.

En efecto, la densidad conjunta (4.4.5) se puede integrar con respecto a x 1 , . . . , xk−1 y a


xk+1 , . . . , xn . Ası́, integrando xn , con x1 < · · · < xn−1 , y con xi ∈ X se tiene
(n−1 )
Y
fX(1) ,...,X(n−1) (x1 , . . . , xn−1 ) = n! fX (xi ) (1 − FX (xn−1 )).
i=1

Integrando respecto de xn−1 se tiene para x1 < · · · < xn−2 :


(n−2 )
n! Y
fX(1) ,...,X(n−2) (x1 , . . . , xn−2 ) = fX (xi ) (1 − FX (xn−2 ))2 .
2!
i=1

Por inducci ón, para x1 < · · · < xk se tiene:


k
( )
n! Y
fX(1) ,...,X(k) (x1 , . . . , xk ) = fX (xi ) (1 − FX (xk ))n−k .
(n − k)!
i=1

Ahora, integrando con respecto a x1 se obtiene que para x2 < · · · < xk :


( k )
n! Y
fX(2) ,...,X(k) (x2 , . . . , xk ) = fX (xi ) FX (x2 )(1 − FX (xk ))n−k .
(n − k)!
i=2

Integrando respecto de x2 se encuentra que para x3 < · · · < xk :


( k )
n! Y
fX(3) ,...,X(k) (x3 , ..., xk ) = fX (xi ) FX (x3 )2 (1 − FX (xk ))n−k
2!(n − k)!
i=3

y finalmente, por inducci ón se obtiene el resultado.

2. El caso particular k = 1 corresponde al mı́nimo entre {X1 , . . . , Xn }. En este caso, la densi-


dad se obtiene de (4.4.6) con k = 1:

n(1 − FX (x1 ))n−1 fX (x1 ) si x1 ∈ X



fX(1) (x1 ) = (4.4.7)
0 si no.

Análogamente, el caso k = n corresponde al m áximo entre X1 , . . . , Xn . Por (4.4.6)

nFX (xn )n−1 fX (xn ) si x1 ∈ X



fX(n) (xn ) = (4.4.8)
0 si no.

Aravena, del Pino, Quintana: PROBABILIDADES 149


´
CAP ITULO 4. VECTORES ALEATORIOS

3. Una forma alternativa de derivar los resultados del punto anterior es la siguiente.
P (X(n) ≤ x) = P (max{X1 , . . . , Xn } ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x)
n
Y
= P (Xi ≤ x) (por independencia de X1 , . . . , Xn )
i=1
= FX (x)n .
Ası́,
d d
fX(n) (x) = FX(n) (x) = FX (x)n
dx dx
= nFX (x)n−1 fX (x) para x ∈ X .
Por otra parte,
P (X(1) > x) = P (min{X1 , . . . , Xn } > x) = P (X1 > x, . . . , Xn > x)
n
Y
= P (Xi > x) (por independencia de X1 , . . . , Xn )
i=1
= (1 − FX (x))n .
Ası́, FX(1) (x) = 1 − (1 − FX (x))n , y
d d
fX(1) (x) = FX(1) (x) = (1 − (1 − FX (x)))n
dx dx
= n(1 − FX (x))n−1 fX (x) para x ∈ X .

4. La densidad conjunta de X(1) y X(n) se puede obtener de (4.4.5), mediante integrar las
variables x2 , . . . , xn−1 . Alternativamente, considere el siguiente razonamiento. El evento
(X(1) > x1 , X(n) < xn ) equivale a
min{X1 , . . . , Xn } > x1 , max{X1 , . . . , Xn } ≤ xn ,
y por lo tanto
P (X(1) > x1 , X(n) ≤ xn ) = P (x1 < X1 ≤ x1 , . . . , xn < Xn ≤ xn )
n
Y
= P (x1 < Xi ≤ xn )
i=1
= (FX (xn ) − FX (x1 ))n .
Note que
P (X(n) ≤ xn ) = P (X(1) ≤ x1 , X(n) ≤ xn ) + P (X(1) > x1 , X(n) ≤ xn ),
de donde se obtiene que
FX(1) ,X(n) (x1 , xn ) = P (X(1) ≤ x1 , X(n) ≤ xn )
= P (X(n) ≤ xn ) − P (X(1) > x1 , X(n) ≤ xn )
= FX (xn )n − (FX (xn ) − FX (x1 ))n .

Aravena, del Pino, Quintana: PROBABILIDADES 150


´
CAP ITULO 4. VECTORES ALEATORIOS

Finalmente, la densidad conjunta en cuesti ón se obtiene de derivar parcialmente con respecto
a cada argumento esta última expresi ón:

fX(1) ,X(n) (x1 , xn ) = n(n − 1)(FX (xn ) − FX (x1 ))n−2 fX (x1 )fX (xn ), (4.4.9)

para x1 < xn , y con x1 , xn ∈ X , y es claro que fX(1) ,X(n) (x1 , xn ) vale cero en caso contrario.

Veamos algunos ejemplos.

Ejemplo 4.4.7 Si X1 , . . . , Xn son i.i.d con distribuci ón exponencial de par ámetro λ >
0, entonces por (4.4.7), y recordando que FX (x) = 1 − exp(−x/λ), la densidad de
X(1) está dada por
 n
fX(1) (x) = λ exp(−nx/λ) si x > 0
0 si no,

y se tiene que X(1) ∼ Exp(λ/n).

Ejemplo 4.4.8 Sean X1 , . . . , Xn variables aleatorias i.i.d. U(0,1), y sean U = X(1) , y


V = X(n) . Por lo hecho anteriormente, se tiene que

n(n − 1)(v − u)n−2 si 0 ≤ u < v ≤ 1



fU,V (u, v) = (4.4.10)
0 si no.

Ejemplo 4.4.9 Calculemos ahora la densidad de X = V − U en el Ejemplo 4.4.8. Sea


(x, y) = g(u, v) = (v − u, v). El Jacobiano de esta transformaci ón tiene determinante
1, y además (u, v) = g −1 (x, y) = (x + y, y). Luego,

n(n − 1)xn−2 si 0 ≤ x ≤ y ≤ 1

fX,Y (x, y) =
0 si no,

por lo que
Z 1
fX (x) = n(n − 1)xn−2 dy = n(n − 1)xn−2 (1 − x),
x

si 0 ≤ x ≤ 1, y 0 si no. Se tiene entonces que X ∼ Beta(n − 1, 2). La varia-


ble X aquı́ considerada suele llamarse en Estadı́stica el rango de las observaciones
X1 , . . . , X n .

4.5 Valor Esperado de Vectores Aleatorios

4.5.1 Definici´
on

Corresponde ahora definir el valor esperado de un vector aleatorio, y la correspondiente generaliza-


ci ón del concepto de varianza.

Aravena, del Pino, Quintana: PROBABILIDADES 151


´
CAP ITULO 4. VECTORES ALEATORIOS

o n 4.5.1 Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional. El vector de valores


Definici´
esperados o esperanza de X se define mediante
   
X1 E(X1 )
 X2   E(X2 ) 
E(X) = E  .  =  , (4.5.1)
   
. ..
 .   . 
Xn E(Xn )

provisto que todos los valores esperados en cuesti ón existan.

Se tiene entonces que la esperanza del vector aleatorio X es simplemente el vector de los valores
esperados de cada componente.

4.5.2 Valor esperado de funciones de un vector aleatorio

El caso del valor esperado de una funci ón del vector aleatorio X se trata a continuaci ón.

Teorema 4.5.1 Sea X = (X1 , . . . , Xn ) un vector aleatorio n-dimensional, y sea g : Rn → Rm


una funci ón dada por  
g1 (x1 , . . . , xn )
 g2 (x1 , . . . , xn ) 
g(x1 , . . . , xn ) =  ,
 
..
 . 
gm (x1 , . . . , xn )
donde g1 , . . . , gm son m funciones definidas en Rn y a valores reales. Entonces:

(a) Si m = 1, el valor esperado de g(X) est á dado por


 X
 g(x)pX (x) si X es discreto
E(g(X)) = x∈X (4.5.2)
 R R
· · · g(x)fX (x) si X es continuo,

provisto que la suma o integral m últiple converja absolutamente.

(b) Si m ≥ 2 entonces
 
E(g1 (x1 , . . . , xn ))
 E(g2 (x1 , . . . , xn )) 
E(g(X)) = E(g(X1 , . . . , Xn )) =  , (4.5.3)
 
..
 . 
E(gm (x1 , . . . , xn ))

provisto que todas los valores esperados en cuesti ón existan.

Aravena, del Pino, Quintana: PROBABILIDADES 152


´
CAP ITULO 4. VECTORES ALEATORIOS

El resultado del Teorema 4.5.1 es simplemente la correspondiente generalizaci ón multivariada


del Teorema 3.8.1 del capı́tulo anterior.
En el caso particular m = 1 y g definida por la suma de las coordenadas de x, esto es,
n
P
g(x1 , . . . , xn ) = xi se puede probar que el Teorema 4.5.1 establece que si E(X i ) existe pa-
i=1
n
P
ra todo i = 1, . . . , n, entonces Xi también posee valor esperado y
i=1
n
X n
X
E( Xi ) = E(Xi ). (4.5.4)
i=1 i=1
Esto simplemente establece que la esperanza es lineal.

4.5.3 Valor esperado de productos de variables aleatorias independientes

Consideremos nuevamente el caso especial m = 1, y donde g est á dada ahora por g(x1 , . . . , xn ) =
n
Q
x1 x2 · · · xn = xi , esto es, el producto de las n coordenadas. Si X1 , . . . , Xn son además inde-
i=1
pendientes, entonces, en el caso absolutamente continuo se tiene:
E(g(X1 , . . . , Xn )) = E(X1 · · · Xn )
Z Z
= · · · x1 · · · xn fX1 (x1 ) · · · fXn (xn )dx1 · · · dxn
Z (Y n
Z )
= ··· xi fXi (xi ) dx1 · · · dxn
i=1
n Z
Y  n
Y
= xi fXi (xi )dxi = E(Xi ).
i=1 X i=1

Se puede probar que este resultado vale no s ólo en el caso continuo, y ası́ tenemos:

Proposici o´n 4.5.1 Sean X1 , . . . , Xn variables aleatorias independientes cada una con valor espe-
Qn
rado finito E(Xi ). Entonces E( Xi ) también existe y
i=1
n
Y n
Y
E( Xi ) = E(Xi ). (4.5.5)
i=1 i=1

Nota: Es posible probar que una condici ón suficiente para asegurar la existencia de E(XY ), es que
ambos X e Y posean segundos momentos, esto es, E(X 2 ) < ∞ y E(Y 2 ) < ∞.
Juntando los resultados de (4.5.4) y (4.5.5) podemos establecer lo siguiente:

Proposici o´n 4.5.2 Sean X1 , . . . , Xn variables aleatorias independientes con segundos momentos
finitos. Entonces
n
X Xn
V ar( Xi ) = V ar(Xi ). (4.5.6)
i=1 i=1

Aravena, del Pino, Quintana: PROBABILIDADES 153


´
CAP ITULO 4. VECTORES ALEATORIOS

Demostraci o´n: Basta probar el caso n = 2, del que el resultado se obtiene por inducci ón sobre n.
Por definici ón se cumple:
V ar(X + Y ) = E(X + Y )2 − (E(X + Y ))2
= E(X 2 + Y 2 + 2XY ) − (E(X) + E(Y ))2
= V ar(X) + V ar(Y ) + 2E(X)E(Y ) − 2E(X)E(Y )
= V ar(X) + V ar(Y ). 

Veamos a continuaci ón algunos ejemplos.

Ejemplo 4.5.1 Sean X1 y X2 variables aleatorias i.i.d. U(0,1). Calculemos E(X(1) )


de dos formas diferentes. Primero, por (4.4.7) se tiene que
Z 1 Z 1
E(X(1) ) = x · 2(1 − x)dx = 2 x(1 − x)dx
0 0
2Γ(2)Γ(2) 2 · 1! 1
= = = .
Γ(2 + 2) 3! 3
N ótese que este c álculo es inmediato debido a que (4.4.7) se habı́a obtenido previa-
mente. Por otra parte,
Z 1Z 1
E(X(1) ) = min{x1 , x2 } · 1dx1 dx2
0 0
Z 1 Z x2 Z 1Z 1
= x1 dx1 dx2 + x2 dx1 dx2
0 0 0 x2
1 1
x22
Z Z
= dx2 + x2 (1 − x2 )dx2
2 0 0
1 1 1 1
= + − =
6 2 3 3

Ejemplo 4.5.2 Sean X, Y, Z i.i.d. U(0,1), y defina W = (X + Y )Z. Calculemos


E(W ) y V ar(W ). Tenemos que E(X) = 1/2, y E(X 2 ) = 1/3.
E(W ) = E(XZ + Y Z) = E(XZ) + E(Y Z)
= E(X)E(Z) + E(Y )E(Z)
1 1 1 1 1
= · + · = .
2 2 2 2 2
Por otra parte,
E(W 2 ) = E((X + Y )2 Z 2 ) = E(Z 2 )E(X 2 + Y 2 + 2XY )
1
E(X 2 ) + E(Y 2 ) + 2E(X)E(Y )

=
3 
1 1 1 1
= + +
3 3 3 2
7
= ,
18

Aravena, del Pino, Quintana: PROBABILIDADES 154


´
CAP ITULO 4. VECTORES ALEATORIOS

de donde se sigue que


7 1 5
V ar(W ) = E(W 2 ) − E(W )2 = − = ≈ 0.1389
18 4 36

Ejemplo 4.5.3 Considere un punto (X, Y ) distribuido uniformemente en el cı́rculo


unitario centrado en el origen. ¿Cu ál es la distancia media de este punto al origen?.
¿Cuál es la varianza?.
Tenemos que  −1
π si x2 + y 2 ≤ 1
fX,Y (x, y) =
0 si no.

La distancia desde (X, Y ) al origen est á dada por R = X 2 + Y 2 , de modo que
necesitamos E(R). Por (4.5.2):
ZZ p
E(R) = π −1 x2 + y 2 dxdy.
{(x,y):x2 +y 2 ≤1}

A ún cuando esta integral se puede calcular directamente, es conveniente cambiar las
variables de integraci ón a coordenadas polares. Ası́,
Z1 Zπ Z1
−1 −1 2
E(R) = π r · rdrdθ = π · 2π r2 dr = .
3
0 −π 0

Similarmente,
Z1 Zπ Z1
2 −1 2 −1 1
E(R ) = π r · rdrdθ = π · 2π r3 dr = ,
2
0 −π 0

de donde se obtiene que V ar(R) = 1/18.

Ejemplo 4.5.4 Consideremos X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón


Bernoulli(p), y sea N independiente de éstas, con distribuci ón Poisson(λ), donde λ >
0. Considere la variable aleatoria
N
X
SN = Xi ,
i=1

la cual se puede interpretar como determinar un n úmero aleatorio de variables aleato-


rias con distribuci ón Bernoulli(p) de acuerdo a la distribuci ón de N , y luego sumarlas.
Para efectuar el c álculo de E(SN ), es conveniente considerar la distribuci ón conjunta
de (SN , N ). Ası́, note que para k ≤ n:

P (SN = k, N = n) = P (SN = k | N = n)P (N = n)


= P (Sn = k | N = n)P (N = n) = P (Sn = k)P (N = n)
λn exp(−λ) pk (1 − p)n−k λn exp(−λ)
 
n k
= p (1 − p)n−k · = .
k n! k!(n − k)!

Aravena, del Pino, Quintana: PROBABILIDADES 155


´
CAP ITULO 4. VECTORES ALEATORIOS

Note que P (Sn = k | N = n) = P (Sn = k), pues, una vez que el n úmero de
variables a sumar se fija, la dependencia en N se elimina. La raz ón es que X1 , X2 , . . .
es independiente de N . Luego,
n
∞ X
X pk (1 − p)n−k λn exp(−λ)
E(SN ) = k·
k!(n − k)!
n=0 k=0
∞ X n
X pk (1 − p)n−k λn exp(−λ)
=
(k − 1)!(n − k)!
n=1 k=1
∞ n−1
X pj (1 − p)n−1−j
X
= p λn exp(−λ) (j = k − 1)
j!(n − 1 − j)!
n=1 j=0
 
∞ n−1 n−1  
X λ exp(−λ)  X n−1 j
= pλ p (1 − p)n−1−j 
(n − 1)! j
n=1 j=0

X λn−1 exp(−λ)
= pλ
(n − 1)!
n=1
= pλ.

Note que el resultado obtenido coincide con E(X1 )E(N ), lo cual, lejos de ser una
coincidencia, tiene una justificaci ón que se ver á más adelante. Para calcular V ar(SN ),
obtengamos primero E(SN (SN − 1)). Se tiene:
∞ X
n
X pk (1 − p)n−k λn exp(−λ)
E(SN (SN − 1)) = k(k − 1) ·
k!(n − k)!
n=0 k=0
∞ X n
X pk (1 − p)n−k λn exp(−λ)
=
(k − 2)!(n − k)!
n=2 k=2
∞ n−2
2
X
n
X pj (1 − p)n−2−j
= p λ exp(−λ)
j!(n − 2 − j)!
n=2 j=0
(Note el cambio j = k − 2)
∞ n−2 
λn exp(−λ) X n − 2
X 
= p2 pj (1 − p)n−2−j
(n − 2)! j
n=2 j=0

2 2
X λn−2 exp(−λ)
= p λ
(n − 2)!
n=2
= p 2 λ2 .

Luego,
2
E(SN ) = E(SN (SN − 1)) + E(SN ) = p2 λ2 + pλ,
de donde, finalmente:
2
V ar(SN ) = E(SN ) − E(SN )2 = pλ.

Aravena, del Pino, Quintana: PROBABILIDADES 156


´
CAP ITULO 4. VECTORES ALEATORIOS

Una forma alternativa de derivar este resultado consiste en calcular directamente la


distribuci ón de SN . Se propone como ejercicio demostrar que en este caso S N ∼
Poisson(pλ), de donde el resultado se sigue inmediatamente.

4.5.4 Covarianza y coeficiente de correlaci´


on

En el caso univariado, vimos que la varianza proporciona una idea de la dispersi ón de la distribuci ón
de la variable aleatoria considerada. Cuando se trabaja con un vector aleatorio X = (X 1 , . . . , Xn ),
la varianza de cada uno de los Xi no proporciona una visi ón completa de la dispersi ón de la dis-
tribuci ón conjunta, ni da una idea del grado de dependencia que pueda haber entre las variables.
Recurrimos entonces a la versi ón multivariada de varianza, llamada matriz de varianza-covarianza
de X.

o n 4.5.2 La matriz de varianza-covarianza, o simplemente matriz de covarianza de X se


Definici´
define mediante
V (X) = E (X − E(X))(X − E(X))0 ,

(4.5.7)
provisto que todos los valores esperados en cuesti ón existan.

La matriz de covarianza de X tiene una estructura novedosa. El elemento V (X) i,j con i, j =
1, . . . , n corresponde a

V (X)i,j = E ((Xi − E(Xi ))(Xj − E(Xj )))


= E(Xi Xj ) − E (E(Xi )Xj ) − E (Xi E(Xj )) + E (E(Xi )E(Xj ))
= E(Xi Xj ) − E(Xi )E(Xj ) − E(Xi )E(Xj ) + E(Xi )E(Xj )
= E(Xi Xj ) − E(Xi )E(Xj ),

asumiendo que todos estos valores esperados existen. En el caso que i = j, esto se reduce simple-
mente a la varianza de Xi . En el caso i 6= j, nos referiremos a esta cantidad como la covarianza
entre Xi y Xj , de acuerdo a la siguiente definici ón formal.

Definici´
o n 4.5.3

1. La covarianza entre las variables aleatorias X e Y se define como

Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(X), (4.5.8)

provisto que los valores esperados en cuesti ón existan. Es inmediato ver que en este caso
se tiene Cov(X, Y ) = Cov(Y, X), esto es, la covarianza, vista como una funci ón de dos
variables aleatorias, es sim étrica.

2. El coeficiente de correlaci ón entre X e Y se define como


Cov(X, Y ) Cov(X, Y )
ρ(X, Y ) = p p = , (4.5.9)
V ar(X) V ar(Y ) σ(X)σ(Y )

provisto que todas las cantidades en cuesti ón existan.

Aravena, del Pino, Quintana: PROBABILIDADES 157


´
CAP ITULO 4. VECTORES ALEATORIOS

El concepto de covarianza se puede tambi én extender a vectores aleatorios.

Definici´o n 4.5.4 Si X e Y son vectores aleatorios de dimensi ón n y m respectivamente, se define


la matriz de covarianza entre X e Y mediante

Cov(X, Y ) = E((Y − E(Y ))(X − E(X))0 ). (4.5.10)

Ası́, Cov(X, Y ) es una matriz de n × m cuyo elemento (i, j) es Cov(Xi , Yj ). Note que
Cov(X, Y ) = Cov(Y , X)0 , y que Cov(X, X) es simplemente la matriz de varianza-covarianza
de X.
Veamos ahora algunas propiedades relacionadas a estos conceptos.

1. Si X e Y son independientes, entonces

Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E(X)E(Y ) − E(X)E(Y ) = 0,

y en consecuencia ρ(X, Y ) = 0. En general, si Cov(X, Y ) = 0, diremos que X e Y son no


correlacionadas.

2. Se tiene que para todo a, b, c, d, n úmeros reales, y puesto que E(a + bX) = a + bE(X),
E(c + dY ) = c + dE(Y ), entonces:

Cov(a + bX, c + dY ) = E {b(X − E(X))d(Y − E(Y ))}


= bdE((X − E(X))(Y − E(Y )))
= bdCov(X, Y ),

y puesto que V ar(a + bX) = b2 V ar(X), y V ar(c + dY ) = d2 V ar(Y ), entonces si adem ás
b 6= 0 y d 6= 0 se cumple:

ρ(a + bX, c + dY ) = sign(b)sign(d)ρ(X, Y ).

En particular, si b, d > 0, ρ(a + bX, c + dY ) = ρ(X, Y ).


En otras palabras, el coeficiente de correlaci ón es invariante bajo cambios de escala y locali-
zaci ón.

3. Si X e Y son no correlacionadas, ello no implica que sean independientes, como lo muestra


el siguiente ejemplo. Sea X ∼ U (−1, 1), e Y = X 2 . Es claro que E(X) = 0, y que
1
x3
Z
E(XY ) = E(X 3 ) = dx = 0,
−1 2

de modo que Cov(X, Y ) = 0, pero es claro que X e Y no pueden ser independientes.

4. Si E(X 2 ) < ∞ entonces Cov(X, X) = E(X 2 ) − (E(X))2 = V ar(X).

Aravena, del Pino, Quintana: PROBABILIDADES 158


´
CAP ITULO 4. VECTORES ALEATORIOS

5. Si las expresiones involucradas existen, entonces


n
X m
X n
X m
X n
X m
X
Cov( Xi , Yj ) = E( Xi Yj ) − E( Xi )E( Yj )
i=1 j=1 i=1 j=1 i=1 j=1
Xn Xm n
X m
X
= E( Xi Y j ) − E(Xi ) E(Yj )
i=1 j=1 i=1 j=1
X m
n X n X
X m
= E(Xi Yj ) − E(Xi )E(Yj )
i=1 j=1 i=1 j=1
Xn X m
= (E(Xi Yj ) − E(Xi )E(Yj ))
i=1 j=1
n X
X m
= Cov(Xi , Yj ),
i=1 j=1

lo que muestra que la covarianza, visto como una funci ón de dos variables aleatorias es bili-
nieal.

6. Desigualdad de Cauchy-Schwartz:
p p
|Cov(X, Y )| ≤ V ar(X) V ar(Y ).

En particular, se tiene que


−1 ≤ ρ(X, Y ) ≤ 1,
cualesquiera que sean X e Y , y asumiendo que las cantidades involucradas existen.

7. Si Y = a + bX, con b 6= 0 entonces:

Cov(X, Y ) = Cov(a + bX, X) = E((a + bX)X) − E(a + bX)E(X)


= aE(X) + bE(X 2 ) − aE(X) − bE(X)2
= b(E(X 2 ) − E(X)2 ) = bV ar(X),

de donde se sigue que


|ρ(X, Y )| = 1.
Es decir, si Y se obtiene de una transformaci ón lineal afı́n de X, entonces el coeficiente de
correlaci ón entre X e Y es 1 o -1, dependiendo del signo de b. Esto muestra que ρ(X, Y )
mide el grado de dependencia lineal que existe entre X e Y , correspondiendo el caso extremo
(esto es, |ρ(X, Y )| = 1) a la dependencia lineal perfecta.

8. Sea X = (X1 , . . . , Xn ) y A = (ai,j ) una matriz de n × n. Defina Y = AX, donde los


vectores son interpretados como columnas. Suponga que E(X) = µ y que V (X) = Σ.
Pn n
P
Puesto que Yk = ak,j Xj , se tiene que E(Yk ) = ak,j E(Xj ), y de aquı́ se obtiene que
j=1 j=1

Aravena, del Pino, Quintana: PROBABILIDADES 159


´
CAP ITULO 4. VECTORES ALEATORIOS

E(Y ) = Aµ. Por otra parte,


n
X n
X
Cov(Yk , Yl ) = Cov( ak,j Xj , al,m Xm )
j=1 m=1
n
X n
X
= ak,j Cov(Xj , Xm )am,l ,
j=1 m=1

y hemos ası́ probado las f órmulas

E(Y ) = AE(X) y V (Y ) = AΣA0 . (4.5.11)

Es directo ver que estas propiedades tambi én valen en el caso en que A es una matriz cual-
quiera, no necesariamente cuadrada.

9. Sean X ∈ Rn , Y ∈ Rm vectores aleatorios con matriz de covarianza C = Cov(X, Y ).


n
P
Considere matrices A de k × n y B de l × m. La i- ésima coordenada de AX es Ais Xs ,
s=1
m
P
la j-ésima coordenada de BY es Bjt Yt , y la covarianza entre estas coordenadas es
t=1

n
X m
X n X
X m
Cov( Ais Xs , Bjt Yt ) = Ais Cov(Xs , Yt )Bjt ,
s=1 t=1 s=1 t=1

de donde se puede obtener directamente que

Cov(AX, BY ) = ACB 0 . (4.5.12)

Note que la segunda ecuaci ón en (4.5.11) se puede obtener como caso particular de (4.5.12).

10. Para vectores aleatorios X e Y , y para vectores y matrices a, b, A, B con dimensiones


apropiadas, se tiene que

Cov(a + AX, b + BY ) = ACov(X, Y )B 0 ,

que es una ligera generalizaci ón de (4.5.12).

11. Se propone como ejercicio mostrar que

E(XY 0 ) = Cov(X, Y ) + E(X)(E(Y ))0 ,

y que si adem ás X e Y tienen las mismas dimensiones, entonces

V (X + Y ) = V (X) + V (Y ) + Cov(X, Y ) + Cov(X, Y )0 .

Veamos a continuaci ón algunos ejemplos.

Aravena, del Pino, Quintana: PROBABILIDADES 160


´
CAP ITULO 4. VECTORES ALEATORIOS

Ejemplo 4.5.5 Sean X1 , . . . , Xn i.i.d. U(0,1). Calculemos el coeficiente de correla-


ci ón entre X(1) y X(n) . Por (4.4.10), se tiene que
Z 1Z v
E(X(1) X(n) ) = n(n − 1) uv(v − u)n−2 dudv (w = u/v)
0 0
Z 1 Z 1 
2 n−2
= n(n − 1) v wv (v − wv) dw dv
0 0
Z 1 Z 1
n+1
= n(n − 1) v dv · w(1 − w)n−2 dw
0 0
1
= n(n − 1) · · B(2, n − 1)
n+2
n(n − 1) 1!(n − 2)!
= ·
n+2 n!
1
= .
n+2
Por otra parte,
Z 1Z v
E(X(1) ) = n(n − 1) u(v − u)n−2 dudv ( tome w = u/v)
0 0
Z 1 Z 1 
2 n−2
= n(n − 1) 1 wv (v − wv) dw dv
0 0
Z 1 Z 1
n
= n(n − 1) v dv · w(1 − w)n−2 dw
0 0
1 n(n − 1) 1!(n − 2)!
= n(n − 1) · · B(2, n − 1) = ·
n+1 n+1 n!
1
= .
n+1
Además:
Z 1Z v
E(X(n) ) = n(n − 1) v(v − u)n−2 dudv ( tome w = u/v)
0 0
Z 1 Z 1 
n−2
= n(n − 1) v v(v − wv) dw dv
0 0
Z 1 Z 1
n
= n(n − 1) v dv · (1 − w)n−2 dw
0 0
1 1
= n(n − 1) · ·
n+1 n−1
n
= ,
n+1
por lo que
1 1 n 1
Cov(X(1) , X(n) ) = − · = .
n+2 n+1 n+1 (n + 1)2 (n + 2)

Aravena, del Pino, Quintana: PROBABILIDADES 161


´
CAP ITULO 4. VECTORES ALEATORIOS

En forma análoga se prueba que


2 2 2 n
E(X(1) )= y E(X(n) )= ,
(n + 1)(n + 2) n+2
de donde
n
V ar(X(1) ) = V ar(X(n) ) = ,
(n + 1)2 (n + 2)
y, finalmente,
1
ρ(X(1) , X(n) ) = .
n

Ejemplo 4.5.6 Sea (X, Y ) con densidad conjunta dada por


 
1 1 2 2
fX,Y (x, y) = p exp − (x − 2ρxy + y ) ,
2π 1 − ρ2 2(1 − ρ2 )

donde (x, y) ∈ R2 , y en donde −1 < ρ < 1. Esta densidad corresponde a una forma
de la distribuci ón normal bivariada, como ya ha sido mencionado en el Ejemplo 4.3.1.
Calculemos ahora Cov(X, Y ). Puesto que sabemos que marginalmente ambos X e Y
tienen distribuci ón N (0, 1), s ólo necesitamos calcular E(XY ). Se tiene:
Z ∞Z ∞
(x2 − 2ρxy + y 2 )
 
xy
E(XY ) = exp − dxdy
2(1 − ρ2 )
p
−∞ −∞ 2π 1 − ρ2
 
Z ∞ y exp − y2 Z ∞
(x − ρy)2
  
2
= x exp − dx dy
2(1 − ρ2 )
p
−∞ 2π 1 − ρ2 −∞
 
Z ∞ y exp − y2 √ p
2
= p ρy 2π 1 − ρ2 dy
−∞ 2π 1 − ρ2
Z ∞  2
ρ 2 y
= √ y exp − dy = ρE(Y 2 )
2π −∞ 2
= ρ.
Es fácil ver que de aquı́ uno puede concluir que Cov(X, Y ) = ρ, y finalmente,
ρ(X, Y ) = ρ.
Por otra parte, en el Ejemplo 4.3.1 habı́amos ya probado que X e Y son independientes
sı́ y s ólo si ρ = 0, lo cual se traduce en que X e Y con distribuci ón normal bivariada
son independientes sı́ y s ólo si ellas son no correlacionadas.

4.6 Funciones Generadoras Revisitadas

4.6.1 Funciones Generadoras e Independencia

Es muy frecuente – en la pr áctica – encontrar aplicaciones en que el resultado de un experimento


corresponde a la suma de ciertas variables aleatorias independientes. El caso m ás tı́pico es el

Aravena, del Pino, Quintana: PROBABILIDADES 162


´
CAP ITULO 4. VECTORES ALEATORIOS

promedio de un n úmero de variables aleatorias i.i.d. A continuaci ón veremos una propiedad muy
simple de las funciones generadoras que dice relaci ón con esta situaci ón.

n
P
Proposici o´n 4.6.1 Sean X1 , X2 , . . . , Xn variables aleatorias independientes, y sea Sn = Xi .
i=1
En la medida que las expresiones siguientes existan, se tiene:

n
Q
1. MSn (t) = MXi (t).
i=1
n
Q
2. ΦSn (t) = ΦXi (t).
i=1
n
Q
3. GSn (t) = GXi (t).
i=1
n
P
4. KSn (t) = KXi (t).
i=1

La demostraci ón de este resultado es muy simple, y est á basada en el hecho que si X e Y son
independientes, entonces E(XY ) = E(X)E(Y ). Queda ésta propuesta como ejercicio.
Un caso particularmente importante es cuando X1 , X2 , . . . , Xn son i.i.d. En este caso, tenemos
que MXi (t) = MX1 (t) para i = 2, 3, . . . , n, y entonces los resultados de la Proposici ón 4.6.1 se
reducen a:

1. MSn (t) = (MX1 (t))n .

2. ΦSn (t) = (ΦX1 (t))n .

3. GSn (t) = (GX1 (t))n .

4. KSn (t) = nKX1 (t).

Veamos algunas aplicaciones de estos resultados.

Ejemplo 4.6.1 De acuerdo a lo visto en el Ejemplo 3.3.3, se concluye que si X ∼


Poisson(λ), entonces MX (t) = exp(λ(exp(t) − 1)), con t ∈ R. Si X1 , . . . , Xn son
independientes, con Xi ∼ Poisson(λi ), se tiene que
n n
!
Y X
MSn (t) = exp(λi (exp(t) − 1)) = exp ( λi )(exp(t) − 1) ,
i=1 i=1

n
P
de donde se sigue que Sn ∼ Poisson( λi ).
i=1

Aravena, del Pino, Quintana: PROBABILIDADES 163


´
CAP ITULO 4. VECTORES ALEATORIOS

Ejemplo 4.6.2 Sean X1 , . . . , Xn independientes, y tales que Xi ∼ N (µi , σi2 ). Enton-


ces por lo hecho en el Ejemplo 3.8.12 se tiene que MXi (t) = exp(tµi + σi2 t2 /2), y
entonces
n n n
!
Y X X
MSn (t) = exp(tµi + σi2 t2 /2) = exp t µi + (t2 /2) σi2 ,
i=1 i=1 i=1

n n
σi2 ). Si definimos X n como el promedio de X1 , . . . , Xn ,
P P
por lo que Sn ∼ N ( µi ,
i=1 i=1
entonces X n = n−1 Sn , y por el resultado de la Proposici ón 3.8.1(c) se tiene que
n n
!
X X
MX n (t) = exp tn−1 µi + (t2 /2)n−2 σi2 ,
i=1 i=1

n n
de donde se sigue que X n ∼ N ( n1 µi , n12 σi2 ). En el caso particular que las
P P
i=1 i=1
variables son i.i.d., entonces µ1 = · · · = µn = µ, y σ12 = · · · = σn2 = σ 2 , y es fácil
2
ver que X n ∼ N (µ, σn ).

i.i.d.
Ejemplo 4.6.3 Sean X1 , . . . , Xn ∼ N (0, 1), y defina la variable aleatoria Y =
n
Xj2 . Entonces, si t < 1/2:
P
j=1

n
Y  n
MY (t) = E(etY ) = MX 2 (t) = MX12 (t)
j
j=1
2
!n

e−x (1/2−t)
Z
= √ dx
−∞ 2π
 n
1 1
= 1/2
= ,
(1/2 − t) (1/2 − t)n/2

de donde se sigue que Y ∼ Γ(n/2, 2). A pesar de ser un caso particular de distribuci ón
Gama, la distribuci ón de Y recibe tambi én el nombre de distribuci ón chi-cuadrado con
n grados de libertad, lo que se denota Y ∼ χ2 (n), y como se mostr ó en este ejemplo,
corresponde a la suma de los cuadrados de n variables aleatorias i.i.d. con distribuci ón
N (0, 1) (ver Ejemplo 4.4.1). Como consecuencia de las propiedades de la distribuci ón
Gama, se tiene que E(Y ) = n y V ar(Y ) = 2n.

Ejemplo 4.6.4 Sea X ∼ BN(k, p). Por lo visto en la Secci ón 3.7, la distribuci ón
binomial negativa es la distribuci ón de Tk , el instante del k- ésimo éxito en una se-
cuencia de ensayos de Bernoulli. Por otra parte, tambi én se vio que las variables
T1 , T2 − T1 , T3 − T2 , . . . , Tk − Tk−1 , . . . son i.i.d. con distribuci ón geométrica de
parámetro p. Pero

Tk = T1 + (T2 − T1 ) + (T3 − T2 ) + · · · + (Tk − Tk−1 ), (4.6.1)

Aravena, del Pino, Quintana: PROBABILIDADES 164


´
CAP ITULO 4. VECTORES ALEATORIOS

de modo que Tk es simplemente la suma de k variables aleatorias i.i.d. con distribuci ón
Geom(p). Por lo hecho en el Ejemplo 3.8.11, se tiene que

p exp(t)
MT1 (t) = ,
1 − (1 − p) exp(t)

provisto que t < − log(p). Es entonces inmediato concluir que


 k
k p exp(t)
MX (t) = MTk (t) = (MT1 (t)) = ,
1 − (1 − p) exp(t)
la cual corresponde a la funci ón generadora de momentos para esta distribuci ón. Para
obtener esperanza y varianza de X (o, lo que es lo mismo, de T k ), hay varias alternati-
vas. Primero, se puede aplicar directamente el resultado de (3.8.5), lo cual se propone
como ejercicio. Por otra parte, recordemos que
1 1−p
E(T1 ) = y V ar(T1 ) = ,
p p2
de modo que de (4.6.1) se sigue inmediatamente que
k
E(Tk ) = E(T1 ) + E(T2 − T1 ) + · · · E(Tk − Tk−1 ) = ,
p
y que
k(1 − p)
V ar(Tk ) = V ar(T1 ) + V ar(T2 − T1 ) + · · · V ar(Tk − Tk−1 ) = ,
p2
donde usamos el hecho que T1 , T2 − T1 , . . . , Tk − Tk−1 son i.i.d., y (4.5.6).

4.6.2 Funciones Generadoras Multivariadas

Definimos a continuaci ón la contraparte multivariada de las funciones generadora de momentos y


caracterı́stica, vistas en las subsecciones 3.8.2 y 3.8.3.

Definici´o n 4.6.1 Sea X ∈ Rn un vector aleatorio. En la medida que las expresiones involucradas
existan, se define:

(a) La funci ón generadora de momentos multivariada de X mediante


0
MX (t) = E(et X ), t ∈ Rn , (4.6.2)

donde t0 X = t1 X1 + · · · + tn Xn .

(b) La funci ón caracterı́stica multivariada de X mediante


0
ϕX (t) = E(eit X ), t ∈ Rn , (4.6.3)

donde, como antes, i es el n úmero complejo −1.

Aravena, del Pino, Quintana: PROBABILIDADES 165


´
CAP ITULO 4. VECTORES ALEATORIOS

Resumimos a continuaci ón las propiedades m ás importantes de estas funciones.

1. Al igual que en el caso n = 1, la funci ón caracterı́stica multivariada est á siempre bien
definida, cualquiera que sea t ∈ Rn . No ocurre lo mismo con la funci ón generadora de
momentos multivariada, pues su existencia depende, en general, de t.

2. Si la funci ón generadora de momentos existe en una vecindad de t = 0, entonces para enteros
k1 , . . . , kn no todos nulos se tiene

∂ k1 +···+kn
MX (t) |t=0 = E(X1k1 · · · Xnkn ). (4.6.4)
∂tk11 · · · ∂tknn

Análogamente, se tiene que si el valor esperado en cuesti ón existe, entonces

∂ k1 +···+kn
ϕX (t) |t=0 = ik1 +···+kn E(X1k1 · · · Xnkn ). (4.6.5)
∂tk11 · · · ∂tknn

3. Teorema de Caracterizaci o´n: Si X e Y son vectores aleatorios tales que ϕX (t) = ϕY (t)
para todo t ∈ Rn , entonces FX y FY coinciden, es decir, tienen la misma distribuci ón.
Puesto que la recı́proca es obviamente cierta, se tiene entonces una relaci ón uno a uno entre
la distribuci ón y la funci ón caracterı́stica de vectores aleatorios.

4. Para obtener la funci ón caracterı́stica o generadora de momentos (univariada o multivaria-


da) marginal de una parte del vector aleatorio, basta con tomar como cero las coordenadas
correspondientes a la parte no deseada. Por ejemplo, ϕ X1 (t1 ) = ϕ(X1 ,X2 ,...,Xn ) (t1 , 0, . . . , 0).

5. Sean X = (X1 , . . . , Xn ) e Y = (Y1 , . . . , Ym ) vectores aleatorios, y defina el vector alea-


torio (n + m)-dimensional Z = (X, Y ). Entonces X e Y son independientes si y s ólo si
cualquiera que sean los n úmeros reales t1 , . . . , tn , tn+1 , . . . , tn+m se cumple

ϕZ (t1 , . . . , tn , tn+1 , . . . , tn+m ) = ϕX (t1 , . . . , tn )ϕY (tn+1 , . . . , tn+m ).

Esta propiedad establece que independencia de dos vectores aleatorios es equivalente a poder
factorizar la funci ón caracterı́stica conjunta de ambos vectores. El resultado se puede gene-
ralizar a tres o más vectores sin mayor dificultad. En particular, se tiene que las variables
aleatorias X1 , . . . , Xn son independientes si y s ólo si para cualquier t1 , . . . , tn ∈ R se tiene

ϕ(X1 ,...,Xn ) (t1 , . . . , tn ) = ϕX1 (t1 ) · · · ϕXn (tn ).

Veamos a continuaci ón algunos ejemplos.

Ejemplo 4.6.5 Sea X = (X1 , . . . , Xm ) con distribuci ón multinomial, cuya funci ón
de probabilidad est á dada por

n!
pX (X) = px1 px2 · · · pxmm ,
x1 !x2 ! · · · xm ! 1 2

Aravena, del Pino, Quintana: PROBABILIDADES 166


´
CAP ITULO 4. VECTORES ALEATORIOS

m
P
en donde p1 , . . . , pm son n úmeros reales no negativos con pj = 1, n es un entero
j=1
m
xj = n. Dado t ∈ Rm se
P
positivo, y x1 , . . . , xm son enteros no negativos tales que
j=1
tiene que
0
E(et X ) = E(et1 X1 +···+tm Xm )
X n!
= (p1 et1 )x1 · · · (pm etm )xm
x ,...,x
x 1 ! · · · x m !
1 m

= (p1 e + · · · + pm etm )n ,
t1

lo que nos da una expresi ón para MX (t). Observe que mediante el expediente de tomar
tj = 0 para j 6= k, se obtiene

MXk (tk ) = (1 − pk + pk etk )n , tk ∈ R,

de modo que Xk ∼ Bin(n, pk ) para cualquier k = 1, . . . , m. Calculemos ahora


ρ(X1 , X2 ). Se tiene que, por las propiedades de la distribuci ón binomial, E(Xk ) =
npk y V ar(Xk ) = npk (1 − pk ), Por otra parte.

M(X1 ,X2 ) (t1 , t2 ) = (p1 et1 + p2 et2 + 1 − p1 − p2 )n ,

de modo que

∂2
E(X1 X2 ) = M
∂t1 ∂t2 (X1 ,X2 ) (0,0)

= n(n − 1)p1 p2 ,

de modo que Cov(X1 , X2 ) = E(X1 X2 ) − E(X1 )E(X2 ) = −np1 p2 , y finalmente,

p1 p2
r
ρ(X1 , X2 ) = .
(1 − p1 )(1 − p2 )

En forma análoga se obtienen la correlaci ón para otro par dado de componentes de X.

Ejemplo 4.6.6 Sea X ∈ Rn un vector aleatorio, A una matriz de n × n, y defina


Y = AX, en donde X e Y se interpretan aquı́ como vectores columna, o matrices de
n × 1. Entonces
0 0
ϕY (t) = E(eit Y ) = E(eit AX )
= ϕX (A0 t). (4.6.6)

A modo de aplicaci ón, considere el caso n = 2, donde las componentes de X son


i.i.d.
variables aleatorias X1 , X2 ∼ N (0, 1), y sea
 
1 1 1
A= √ .
2 1 −1

Aravena, del Pino, Quintana: PROBABILIDADES 167


´
CAP ITULO 4. VECTORES ALEATORIOS

Se tiene entonces que  


0 1 t1 + t 2
At= √ .
2 t1 − t 2
Puesto que X1 y X2 son independientes, se tiene
2 2
ϕ(X1 ,X2 ) (t1 , t2 ) = ϕX1 (t1 )ϕX2 (t2 ) = e−t1 /2 e−t2 /2 ,

de modo que la funci ón caracterı́stica conjunta del vector Y es

ϕ(Y1 ,Y2 ) (t1 , t2 ) = ϕ(X1 ,X2 ) (A0 t)


(  )
1 t1 + t 2 2 1 t1 − t 2 2
  
= exp − √ − √
2 2 2 2
2 2
= e−t1 /2 e−t2 /2 ,

de donde se concluye que (Y1 , Y2 ) tiene componentes i.i.d., cada una con distribuci ón
N (0, 1). En otras palabras, hemos mostrado que
X1 + X 2 X1 − X 2
√ y √
2 2
son i.i.d. con distribuci ón N (0, 1).

4.7 La Distribuci ón Normal Multivariada

Estudiaremos a continuaci ón una distribuci ón que corresponde a la extensi ón a varias dimensiones
de la densidad definida en (3.9.2). Primero daremos una definici ón general, que es conveniente para
ciertos aspectos de manejo te órico, y posteriormente daremos una versi ón un tanto más restringida,
pero de mayor utilidad pr áctica. Es adem ás conveniente utilizar la convenci ón que cualquier vector
en Rn se entiende como un vector columna, o equivalentemente, como una matriz con n filas y
1 columna. Por razones tambi én te óricas, es conveniente introducir el concepto de distribuci ón
normal degenerada. En la f órmula (3.9.2) se requiere que la varianza σ 2 sea positiva, pues en caso
contrario dicha densidad no est á definida. Permitiremos que σ 2 tome el valor 0, caso en el cual se
dice que la distribuci ón normal es degenerada, lo que corresponde a decir que X ∼ N (µ, 0) si X
es constante e igual a µ. Ciertamente, esto corresponde a una variable aleatoria discreta, y no existe
densidad.

Definici´o n 4.7.1 Diremos que el vector X = (X1 , . . . , Xn ) tiene distribuci ón normal multivaria-
n
da, si para cualquier A = (a1 , . . . , an ) ∈ Rn no nulo se tiene A0 X =
P
ai Xi tiene distribuci ón
i=1
normal univariada.

Notemos que esta definici ón no hace referencia a densidad alguna. Sin embargo, si e i es el
i-ésimo vector de la base can ónica de Rn , se tiene e0i X = Xi , y se concluye que si X tiene
distribuci ón normal multivariada, entonces cada una de sus coordenadas tiene distribuci ón normal

Aravena, del Pino, Quintana: PROBABILIDADES 168


´
CAP ITULO 4. VECTORES ALEATORIOS

univariada. Por lo tanto, y puesto que E(Xi2 ) es finito para cada i = 1, . . . , n, tambi én existe la
matriz de varianza-covarianza (ver Definici ón 4.5.2).
Sea ahora t ∈ Rn . Puesto que t0 X tiene distribuci ón normal univariada, se concluye que
2 (t)/2
ϕX (t) = ϕt0 X (1) = eiµ(t)−σ ,

donde µ(t) = E(t0 X) y σ 2 (t) = V ar(t0 X). Denotando µ = E(X) y Σ = V (X), tenemos que
por (4.5.11), µ(t) = t0 µ y que σ 2 (t) = t0 Σt, de modo que la funci ón caracterı́stica multivariada
de X es
0 0
ϕX (t) = eit µ−t Σt/2 , t ∈ Rn . (4.7.7)
Puesto que la funci ón caracterı́stica de X determina su distribuci ón, vemos que basta con conocer
el vector de medias, y la matriz de varianza-covarianza de X para conocer su distribuci ón. La
notaci ón usual para una vector aleatorio n-dimensional X con distribuci ón normal multivariada y
tal que E(X) = µ y V (X) = Σ es X ∼ Nn (µ, Σ). En el caso univariado n = 1, el subı́ndice n
suele omitirse.

Ejemplo 4.7.1 Consideremos variables aleatorias independientes Y i ∼ N (µi , σi2 ), con


i = 1, 2, y defina X = (Y1 , Y2 ), visto como un vector columna. Sea A = (a1 , a2 ) 6=
(0, 0) un vector en R2 . Usando funciones generadoras, tal como en el Ejemplo 4.6.2,
es fácil ver que A0 X = a1 X1 + a2 X2 ∼ N (a1 µ1 + a2 µ2 , a21 σ12 + a22 σ22 ), y por la
Definici ón 4.7.1 se concluye que X tiene distribuci ón normal multivariada. El vector
de medias, y la matriz de varianza-covarianza correspondientes est án respectivamente
dados por    2 
µ1 σ1 0
E(X) = y Σ= .
µ2 0 σ22
Observe que Σ es una matriz invertible, provisto que σi2 > 0 para i = 1, 2. Defina
ahora Y = (Y1 , −2Y1 ). Observe que A0 Y = (a1 − 2a2 )Y1 , el cual tiene distribuci ón
normal univariada cualquiera que sean a1 y a2 , incluso en el caso en que a1 = 2a2
en el que A0 Y = 0, lo que corresponde a la distribuci ón degenerada N (0, 0). Note
además que la matriz de covarianza es ahora

σ12 −2σ12
 
.
−2σ12 4σ12

Es fácil ver que cualquiera que sea σ12 , esta matriz es no invertible.

El Ejemplo 4.7.1 motiva establecer una distinci ón entre vectores aleatorios con distribuci ón
normal multivariada. En el caso que la matriz de covarianza Σ de X sea no invertible, diremos que
X tiene distribuci ón normal multivariada degenerada, y esto corresponde a la extensi ón a varias
dimensiones del concepto anteriormente introducido para variables con distribuci ón normal univa-
riada. Intuitivamente, esto corresponde al caso en que alguna de las componentes de X se puede
escribir como una combinaci ón lineal de las otras. En otras palabras, cuando el vector aleatorio X
toma valores en un conjunto cuya dimensi ón es inferior a la dimensi ón de X, tal como aconteci ó en
el Ejemplo 4.7.1.

Aravena, del Pino, Quintana: PROBABILIDADES 169


´
CAP ITULO 4. VECTORES ALEATORIOS

En el caso en que Σ es invertible, definimos la siguiente forma cuadr ática:

Q(x) = (x − µ)0 Σ−1 (x − µ), x ∈ Rn (4.7.8)

en donde µ ∈ Rn es un vector cualquiera. Observe que los valores de Q son siempre n úmeros
reales, y el hecho que Σ sea invertible garantiza que ésta es además definida positiva, por lo que se
concluye que Q(x) ≥ 0 para cualquier x, y con igualdad s ólo si x = µ.
El siguiente resultado nos da una expresi ón para la densidad de X cuando Σ es invertible.

Proposici o´n 4.7.1 Sea X ∼ Nn (µ, Σ), donde Σ es una matriz invertible. Entonces, X tiene
densidad conjunta dada por
1
e− 2 Q(x)
fX (x) = np (4.7.9)
(2π) 2 det(Σ)
y en donde Q(x) fue definido en (4.7.8).

El lector podrá fácilmente convencerse que para el caso n = 1, (4.7.9) se reduce a (3.9.2).
Consideremos ahora el caso particular en que Σ = σ 2 I n , es decir, cuando la matriz de varianza-
covarianza adopta la forma especial de una matriz diagonal, donde cada elemento no nulo es igual a
σ 2 . Es claro que las componentes de X = (X1 , . . . , Xn ) son no correlacionadas, pues para i 6= j,
Cov(Xi , Xj ) = Σi,j = 0, y además, V ar(Xi ) = σ 2 para i = 1, 2, . . . , n. Por otra parte, observe
que la forma cuadr ática (4.7.8) adopta la forma especial de
n
1 X
Q(x) = 2 (xi − µi )2 ,
σ
i=1

de modo que la densidad conjunta de X est á dada por


i (x −µ )2
i
n
Y e− 2σ2
fX (x) = √ ,
i=1 2πσ 2

y se concluye que X1 , . . . , Xn son independientes. Este resultado se puede generalizar en forma


directa, para obtener:

Proposici o´n 4.7.2 Si X = (X1 , . . . , Xn ) ∼ Nn (µ, Σ), en donde Σ es una matriz diagonal, en-
tonces X1 , . . . , Xn son independientes.

Esto muestra una caracterı́stica muy particular de la distribuci ón normal multivariada, cual es
que la no correlaci ón equivale a la independencia. Vale la pena recordar que esto es, en general,
falso, como se mostr ó anteriormente.
Otras propiedades de la distribuci ón normal multivariada se resumen a continuaci ón. Note que
algunas de estas propiedades son v álidas s ólo para el caso en que Σ es invertible, pero algunas otras
valen en general.

Proposici o´n 4.7.3 Sea X ∼ Nn (µ, Σ), donde µ ∈ Rn y Σ es una matriz sim étrica de n × n.

Aravena, del Pino, Quintana: PROBABILIDADES 170


´
CAP ITULO 4. VECTORES ALEATORIOS

(i) Sea A una matriz de k × n. Si Y = AX entonces Y ∼ Nk (Aµ, AΣA0 ).


(ii) Suponga Σ invertible, y considere su descomposici ón de Cholesky Σ = RR0 , en donde R
def
es una matriz triangular inferior. Entonces Y = R−1 X ∼ Nn (R−1 µ, I n ).
(iii) Si Σ es invertible, entonces (X − µ)0 Σ−1 (X − µ) ∼ χ2 (n), la distribuci ón chi-cuadrado
con n grados de libertad.

Demostraci o´n: Haremos las demostraciones de estas propiedades, pues el procedimiento utilizado
es de interés por sı́ mismo. Para mostrar (i), consideremos la funci ón caracterı́stica de Y . Por
(4.6.6) tenemos que ϕY (t) = ϕX (A0 t), de modo que
0 0 0 0 0
ϕY (t) = ei(A t) µ−(A t) Σ(A t)/2
0 0 0 0
= eit Aµ−t AΣA t /2 ,
y el resultado es inmediato. La propiedad (ii) es directa de (i), tomando A = R −1 . Para ver (iii),
considere Y = R−1 (X − µ), donde R es la matriz triangular inferior mencionada en (ii). Por (ii),
se tiene que Y ∼ Nn (0, I n ), y además
n
X
0 −1 0
(X − µ) Σ (X − µ) = Y Y = Yj ,
j=1

i.i.d.
donde Y1 , . . . , Yn ∼ N (0, 1). El resultado es entonces una consecuencia de lo hecho en el Ejem-
plo 4.6.3. 
Veamos a continuaci ón algunas aplicaciones de estos resultados.

Ejemplo 4.7.2 Considere (X, Y ) con densidad conjunta proporcional a e −Q(x,y)/2 ,


donde
Q(x, y) = x2 + 2y 2 − 8x + 10y − 2xy + 17.
Por la forma que tiene la densidad, se deduce que (X, Y ) tiene distribuci ón normal
bivariada, pero es necesario identificar sus par ámetros. Consideremos la forma cua-
drática (4.7.8) correspondiente con n = 2,
 
−1 x − µ1
Q(x, y) = (x − µ1 , y − µ2 )Σ ,
y − µ2
la cual se quiere igualar con la expresi ón dada inicialmente. Para ello, igualaremos sus
derivadas, lo que da, escrito en forma vectorial:
   
2x − 8 − 2y −1 x − µ1
= 2Σ .
4y + 10 − 2x y − µ2
Note que igualando el lado derecho a (0, 0)0 , se obtiene, despu és de multiplicar a la
izquierda por Σ que x − µ1 = 0 e y − µ2 = 0, por lo que se concluye que µ1 y µ2 se
obtienen de resolver el sistema ∇Q(x, y) = (0, 0)0 . En nuestro caso:
2x − 2y = 8
4y − 2x = −10,

Aravena, del Pino, Quintana: PROBABILIDADES 171


´
CAP ITULO 4. VECTORES ALEATORIOS

cuya soluci ón es (µ1 , µ2 ) = (3, −1). Para obtener Σ, observe que al igualar las matri-
ces Hessianas se tiene  
2 −2
= 2Σ−1 ,
−2 4
de modo que Σ = 2(HQ(x, y))−1 . En nuestro caso:
 
2 1
Σ= ,
2 1

lo que termina de identificar los par ámetros de la distribuci ón normal bivariada busca-
da.
El método aquı́ empleado se puede extender f ácilmente a más dimensiones.

i.i.d.
Ejemplo 4.7.3 Sean X1 , . . . , Xn ∼ N (µ, σ 2 ) las coordenadas del vector X, y defina
n n
U = n1 (Xj −U )2 . Veamos que U y V son independientes. Considere
P P
Xj y V =
j=1 j=1
el vector  
U
 X1 − U 
Y = ,
 
..
 . 
Xn − U
el cual puede interpretarse como una transformaci ón lineal del vector X de la forma
Y = AX, donde A es una matriz de (n + 1) × n. Puesto que X tiene distribuci ón
normal multivariada, Y tambi én. Además

Cov(U, Xj − U ) = Cov(U, Xj ) − Cov(U, U )


n
1X
= Cov(Xk , Xj ) − V ar(U )
n
k=1
1 σ2
= V ar(Xj ) −
n n
σ 2 σ 2
= − = 0,
n n
de modo que U es independiente de X1 − U, . . . , Xn − U , de donde se sigue que U y
V son independientes. Note que este resultado no depende de los valores particulares
que µ y σ 2 puedan tomar.

Ejemplo 4.7.4 En el Ejemplo 4.7.3, veamos ahora que V /σ 2 ∼ χ2 (n − 1). Para ello,
considere primero el caso en que µ = 0, σ 2 = 1, y defina las variables aleatorias
X1 + X 2 + · · · + X n
Y1 = √
n
X1 + X2 + · · · + Xj−1 − (j − 1)Xj
Yj = p , j = 2, . . . , n.
j(j − 1)

Aravena, del Pino, Quintana: PROBABILIDADES 172


´
CAP ITULO 4. VECTORES ALEATORIOS

Sea
√1 ··· ··· ··· ··· √1 √1
 
n n n
 √1 − √12 0 0 ··· 0 0 
 2 
√1 √1 − √26 0 ··· 0 0
 
Q= ,
 
6 6
 .. .. .. .. .. .. .. 

 . . . . . . . 

√ 1
··· ··· ··· ··· √ 1 √−(n−1)
n(n−1) n(n−1) n(n−1)

de modo que si Y es el vector cuyas coordenadas son Y 1 , . . . , Yn , las transformaciones


descritas (conocidas como transformaciones de Helmert) se escriben Y = QX, donde
Q es una matriz de n × n. Observe que Q es una matriz unitaria, es decir, QQ 0 =
Q0 Q = I n , de modo que Y ∼ Nn (0, I n ). Entonces:
n
X
Yj2 = Y 0 Y = X 0 Q0 QX
j=1
n
X
0
= XX= Xj2
j=1
n
2 X
= nX n + (Xj − X n )2
j=1

= Y12 + V,

de donde V = Y22 + Y32 + · · · + Yn2 , y vemos ası́ que V se escribe como la suma
de n − 1 variables aleatorias i.i.d. con distribuci ón N (0, 1), de donde se sigue que
V ∼ χ2 (n − 1). Se sigue adem ás que U y V son independientes. En el caso general,
def
considere las mismas variables Y1 , . . . , Yn , definidas ahora en t érminos de Zj = (Xj −
µ)/σ ∼ N (0, 1), para j = 1, . . . , n. Por último, observe que E(V /σ 2 ) = n − 1, por
lo que E(V /(n − 1)) = σ 2 , resultado independiente del valor de µ.

4.8 El Mejor Predictor Lineal

Para finalizar este capı́tulo resolveremos el siguiente problema. Suponga X ∈ Rk+l es un vector
aleatorio con E(X) = µ y V (X) = Σ, lo cual anotaremos X ∼ (µ, Σ). Suponga adem ás que X
se puede particionar de la siguiente forma:
   
  W1 Y1
W
X= con W =  ...  , e Y =  ...  .
   
Y
Wk Yl

Si el valor de W es conocido, digamos w, ¿c ómo predecir el valor de Y ? Esta situaci ón se suscita
en casos donde las variables de inter és se observan s ólo en parte, de modo que se requiere “adivinar”
el valor de las variables no observadas, pero asumiendo µ y Σ conocidos.

Aravena, del Pino, Quintana: PROBABILIDADES 173


´
CAP ITULO 4. VECTORES ALEATORIOS

El problema ası́ planteado es un tanto vago. Para hacerlo m ás preciso, nos centraremos aquı́ en
predictores lineales, esto es, predictores de la forma a + BW , donde a ∈ R l , y B es una matriz de
l × k. Resta a ún por definir un procedimiento para obtener a y B. Para ello, recurrimos al criterio
de minimizar el error cuadr ático medio, es decir, resolveremos el problema de calcular a y B tales
que
E{(Y − a − BW )0 (Y − a − BW )} (4.8.1)
sea mı́nimo.
Introducimos ahora la siguiente notaci ón. Sean µw = E(W ) y µy = E(Y ) los vectores de va-
lores esperados de W e Y respectivamente. Las matrices de varianza-covarianza correspondientes
se denotarán por Σww y Σyy , y finalmente, la matriz de covarianzas entre W e Y se denotar á por
Σwy , de modo que
   
µw Σww Σwy
µ= y Σ= ,
µy Σyw Σyy

donde Σ es una matriz particionada. Observe que puesto que Σ debe ser sim étrica, se debe cumplir
que Σ0yw = Σwy . Con esta notaci ón, se tiene el siguiente resultado.

Proposici o´n 4.8.1 La soluci ón al problema de minimizaci ón (4.8.1) est á dada por

a = µy − Bµw , (4.8.2)

y
B = Σyw Σ−1
ww . (4.8.3)

Demostraci o´n: Observe que la expresi ón en (4.8.1) se puede reescribir como

E(Y 0 Y ) − 2a0 E(Y ) + a0 a − 2E(Y 0 BW ) + 2a0 BE(W ) + E(W 0 B 0 BW ),

la que a su vez es igual a


l l l k
l P
E(Yi2 ) − 2 a2i − 2
P P P P
ai E(Yi ) + Bij E(Yi Wj )
i=1 i=1 i=1 i=1 j=1
k
l P l k
Bij Wj )2 }.
P P P
+2 ai Bij E(Wj ) + E{(
i=1 j=1 i=1 j=1

Para minimizar, primero diferenciamos esta expresi ón con respecto a ai e igualamos a 0, con lo que
se obtiene
X l
−2E(Yi ) + 2ai + 2 Bij E(Wj ) = 0,
j=1

o equivalentemente,
l
X
ai = E(Yi ) − Bij E(Wj ),
j=1

Aravena, del Pino, Quintana: PROBABILIDADES 174


´
CAP ITULO 4. VECTORES ALEATORIOS

lo que escrito en forma vectorial resulta a = µy − Bµw , lo que prueba (4.8.2). Para obtener B,
usamos un procedimiento an álogo. Se deriva con respecto a Bij , se iguala a 0, para obtener, despu és
P k
de acomodar t érminos y reemplazar el valor de ai por E(Yi )− Bim E(Wm ) el conjunto de k ×l
m=1
ecuaciones
k
X
Bim Cov(Wm , Wj ) = Cov(Yi , Wj ) ∀ i, j,
m=1

de donde se obtiene el resultado B = Σyw Σ−1


ww . 
Ası́, el mejor predictor lineal (MPL), en el sentido explicado anteriormente, de Y dado un valor
para W es
a + BW = µy + Σyw Σ−1 ww (W − E(W )). (4.8.4)
Se propone como ejercicio mostrar que la matriz de varianza-covarianza del MPL est á dada por
Σyw Σ−1
ww Σwy . (4.8.5)

Ejemplo 4.8.1 Sea X ∈ R3 con


   
1 5 1 2
µ=  1  y Σ =  1 3 3 ,
0 2 3 6
y obtengamos el MPL de X3 dados X1 y X2 . Tenemos que, por (4.8.3):
 5 1 −1
 
1 
B= 3 5 = 3 13 .
1 3 14
Por otra parte, por (4.8.2):
 
1  1 16
a=0− 3 13 =− .
14 1 14
Ası́, el MPL buscado es, de acuerdo a (4.8.4):
−16 + 3X1 + 13X2
.
14
La varianza del MPL se obtiene de (4.8.5), y est á dada por
45
V ar(M P L) = .
14
Observe que en este caso el MPL es simplemente escalar.

Ejemplo 4.8.2 Sea X ∈ R5 con


2 12 −1 3 6 0
   
 0 
 

 −1 36 5 5 0 

µ=  −1  y Σ= 3 5 9 −1 0
 .
 
 1   6 5 −1 13 0 
−3 0 0 0 0 8

Aravena, del Pino, Quintana: PROBABILIDADES 175


´
CAP ITULO 4. VECTORES ALEATORIOS

Calculemos el MPL de Y dado W , donde


 
  X3
X1
W = e Y =  X4  .
X2
X5

En este caso tenemos, aplicando (4.8.2) y (4.8.3) que


   
3 5  −1 113 63
12 −1 1 
B= 6 5  = 221 66  ,
−1 36 431
0 0 0 0
y     
−1 113 63   −657
1 2 1  −11  .
a= 1 −  221 66  =
431 0 431
3 0 0 1293
Finalmente, el MPL buscado es
 
−657 + 113X1 + 63X2
1 
−11 + 221X1 + 66X2  .
431
1293

La matriz de varianza-covarianza del MPL es, de acuerdo a (4.8.5)


 
654 993 0
1 
993 1656 0  .
431
0 0 0

Observe la forma especial del MPL, particularmente su tercera coordenada, y la última


fila y columna de V (M P L). Esto no es coincidencia, y la raz ón es que X5 es no
correlacionada con las otras variables predictoras. Ası́, al no existir correlaci ón, el
MPL se transforma simplemente en E(X5 ) = 1293/431 = 3, tal como se obtuvo.

Aravena, del Pino, Quintana: PROBABILIDADES 176


´
CAP ITULO 4. VECTORES ALEATORIOS

4.9 Problemas

1. Sean X1 , X2 , . . . , Xn i.i.d. con funci ón de probabilidad p(x) = (1 − p)px , x = 0, 1, . . ., es


decir, con una distribuci ón de tipo geom étrico. Sea Yn = X1 + X2 + · · · + Xn .

(a) Encuentre la funci ón probabilidad de Y2 .


(b) Demuestre que la funci ón probabilidad pn de Yn está dada por

(y + n − 1)! n
pn (y) = θ (1 − θ)y , y = 0, 1, 2, . . .
y!(n − 1)!
Indicaci ón: Demuestre que si Z tiene funci ón probabilidad pm , U tiene funci ón pro-
babilidad p1 y Z y U son independientes, entonces Z + U tiene funci ón probabilidad
pm+1 . Proceda luego por inducci ón.
(c) Calcule la media de Yn en base a la expresi ón obtenida para pn .
(d) Calcule el valor esperado de Yn como la suma de los valores esperados de los Xi .

2. Un lote de tama ño N tiene D elementos defectuosos. Se extrae una muestra aleatoria de
tama ño n y se cuenta el n úmero X de elementos defectuosos en la muestra.

(a) Calcule E(X) a partir de la funci ón probabilidad.


(b) Exprese X como X1 + · · · + Xn y use E(X) = E(X1 ) + · · · + E(Xn ). Use ésto para
calcular E(X).

3. Demostrar la desigualdad de Cauchy-Schwartz :

(E(XY ))2 ≤ E(X 2 )E(Y 2 ).

Hint: Considere E((tX + Y )2 ).

4. Sean X e Y variables aleatorias independientes con distribuci ón uniforme en [θ − 12 , θ + 12 ],


θ ∈ R. Pruebe que la distribuci ón de X − Y no depende de θ, hallando su densidad.

5. Dado fX1 ,X2 (x1 , x2 ), encontrar fU,V (u, v) y fU (u), con:

(a) U = X1 + X2 , V = X2
(b) U = X1 X2 , V = X2
X1
(c) U = X2 , V = X2

Explicitar el caso particular en el que X1 y X2 son independientes.

6. En el Problema 5, encuentre fU (u) e identifique, de ser posible, la distribuci ón para X1 , X2


iid∼ N (0, 1).

7. Sean X1 , X2 , . . . , Xn iid con distribuci ón de Rayleigh con par ámetro θ > 0:
−x2
 x
f (x) = θ exp( 2θ 2 ) si x > 0
0 si x ≤ 0.

Aravena, del Pino, Quintana: PROBABILIDADES 177


´
CAP ITULO 4. VECTORES ALEATORIOS

a.- Determine la densidad conjunta de Y1 , Y2 , . . . , Yn donde Yi = Xi2 .


b.- ¿Cuál es la distribuci ón de U = min{X1 , . . . , Xn }?
X1
c.- Calcule la distribuci ón de Z = X2 .

X
8. Sean X e Y iid Exp(α). Muestre que Z = X+Y ∼ U (0, 1).

9. Sean X1 , X2 con densidad conjunta


(
1 −(x2 −x21 )
x21
e si x1 ≥ 1, x2 ≥ x21
fX1 ,X2 (x1 , x2 ) =
0 si no.

X2
Encontrar fY1 (y1 ), con Y1 = log(X1 ) y fY2 (y2 ), con Y2 = X1 .

10. Sean X, Y y Z son variables aleatorias independientes que tienen igual funci ón densidad
f (x) = e−x , 0 < x < ∞. Encuentre la distribuci ón conjunta de U = X + Y , V = X + Z,
W = Y + Z.

11. Suponga que X1 , X2 son variables aleatorias independientes con distribuci ón uniforme sobre
X1
el intervalo [0, 1]. Encuentre la distribuci ón conjunta de Y1 = X1 + X2 e Y2 = X 2
.

12. Cuando una corriente I (medida en amp éres) fluye a trav és de una resistencia R (medida
en ohms), la potencia generada est á dada por W = I 2 R (medida en Watts). Si I y R son
variables aleatorias independientes con densidades

fI = 6x(1 − x) 0 ≤ x ≤ 1

fR (x) = 2x 0 ≤ x ≤ 1,
Determine fW .

13. Sean X1 , . . . , Xn variables aleatorias i.i.d. con densidad

fX (x) = x−2 si 1 < x < ∞.

Sea Y = min{X1 , . . . , Xn }. ¿Existe E(X1 )? Si es ası́ encuéntrela. ¿Existe E(Y )? Si es


ası́ encuéntrela.

14. Sean X1 , X2 variables aleatorias independientes cada una con distribuci ón N (0, 1). Si Y1 =
X12 + X2 , Y2 = X2 , encuentre fY1 ,Y 2 y fY1 .

15. Suponga que los tiempos entre ocurrencias de un cierto fen ómeno pueden ser representados
por T1 , . . . , Tn , variables aleatorias independientes cada una con distribuci ón exponencial de
parámetro λ. Si T = T1 + · · · + Tn , encuentre la distribuci ón de T.

16. Si X e Y son las coordenadas de un punto seleccionado al azar del cı́rculo unitario {(x, y) :
x2 + y 2 ≤ 1}, ¿cuál es la distribuci ón de la variable aleatoria Z = X 2 + Y 2 ?.

17. Si T1 ∼ Exp(λ1 ) y T2 ∼ Exp(λ2 ), encuentre la densidad de T = T1 + T2 .

Aravena, del Pino, Quintana: PROBABILIDADES 178


´
CAP ITULO 4. VECTORES ALEATORIOS

18. Dados a < b y c < d, X ∼ U [a, b] e Y ∼ U [a, b], con X e Y independientes, calcule
fX ? f Y .
19. Suponga X1 , . . . , Xn son variables aleatorias i.i.d. con distribuci ón U [0, 1]. Pruebe que
1
−2n log(Y ) ∼ Gama(n, ),
2
donde Y es la media geom étrica de las Xi , esto es,
n
Y
Y =( Xi )1/n .
i=1

20. La densidad conjunta entre X e Y est á dada por:


−x
y e−y
e
fX,Y (x, y) = 0≤x≤∞ 0 ≤ y ≤ ∞.
y
Encuentre E(X).
21. Sean X1 , X2 , . . . , Xn iid U(0,1).
a.- Sean Yj = − log(Xj ) j = 1, . . . , n. Encontrar la funci ón generadora de momentos de
Yj , y a partir de ella calcule E(Y ) y V ar(Y ). ¿Qu é distribuci ón tiene Y ?.
Pn
b.- Sea Y = λ Yj con λ > 0. Encuentre la funci ón generadora de momentos de Y .
j=1
Calcule E(Y ), V ar(Y ). ¿Qu é distribuci ón tiene Y ?.
3
22. Si la variable aleatoria X tiene funci ón generadora de momentos dada por MX (t) = 3−t ,
obtener la desviaci ón estándar de X.
1
Resp : 3

23. En un circuito se ponen n resistencias en serie. Sup óngase que cada una de las resistencias
está distribuida uniformemente en (0,1), y suponga adem ás que todas las resistencias son
independientes. Sea R la resistencia total.
(a) Encontrar la funci ón generadora de momentos de R.
(b) Usando (a), encontrar E(R) y V ar(R).
24. Suponga que la distribuci ón conjunta de X1 y X2 es normal bivariada. Se definen las varia-
bles aleatorias Y1 = 3X1 + 2X2 + 1 e Y2 = X1 + 5X2 − 4. Demuestre que (Y1 , Y2 ) tiene
también distribuci ón normal bivariada, e identifique sus par ámetros.
25. Si (X1 , X2 )t ∼ N2 (µ, Σ) donde µt = (1,-2) y σ12 = 4, σ12 = −10, σ22 = 25, encuentre
directamente las densidades marginales de X1 y X2 .
26. Sean Y1 , Y2 , . . . , Yn definidos por

Yi = U + Yi−1 + Zi−1 i = 1, . . . , n Z0 = 0, Y0 = 0,

en donde U, Z1 , . . . , Zn son independientes de media cero, con Var(U ) = a, Var(Z i ) = b.

Aravena, del Pino, Quintana: PROBABILIDADES 179


´
CAP ITULO 4. VECTORES ALEATORIOS

a.- Encuentre la matriz de covarianzas de (Y1 , . . . , Yn )t .


b.- Determine el MPL de Y3 dado Y2
c.- Determine el MPL de Y4 dado Y2 + Y3

27. Sean Y1 , Y2 , Y3 independientes de media cero y varianza uno, defina las variables aleatorias
X1 , X2 , X3 por:
Y1
X1 = √ , X2 = αX1 + Y2 , X3 = αX2 + Y3
1 − α2

Encuentre Var(X1 , X2 , X3 )t y E(X1 , X2 , X3 )t

28. Dados E(X1 , X2 , X3 )t = (1, 2, 3)t y


 
a a a
Var(X) =  a a + b a 
a a a+c

a.- Encuentre el MPL de X1 dado X2 = x2 .


b.- Encuentre el MPL de X3 − X2 dado X1 = 4.

29. Sean X1 y Y2 variables aleatorias independientes con distribuci ón N (0, 1). Sean Y1 = α +
aX1 + bX2 , Y2 = β + cX1 + dX2 .

a.- Encuentre la distribuci ón conjunta de Y1 e Y2 .


b.- Calcule la varianza del error de predicci ón del MPL de Y2 dado Y1 .

Aravena, del Pino, Quintana: PROBABILIDADES 180


Cap´
ıtulo 5

Distribucio´n y Esperanza Condicional

5.1 Motivaci ón

En el Capı́tulo 2 se discuti ó extensamente en qu é sentido la informaci ón o conocimiento afecta


las probabilidades de eventos. Surge entonces la noci ón de probabilidad condicional, que refleja
c ómo estas probabilidades cambian. Ası́, si A y F son eventos tales que P (F ) > 0, en donde A
representa el evento de inter és, y F es la informaci ón disponible (esto es, se sabe que F ocurri ó),
entonces la probabilidad condicional de A dado F se define mediante
P (A ∩ F )
P (A|F ) = ,
P (F )
tal como lo expresa (2.2.1).
La inquietud natural que surge ahora se refiere a la posibilidad de implementar c álculos seme-
jantes pero ahora referidos a variables o vectores aleatorios. En otras palabras, si X es una variable
aleatoria de inter és, y si se conoce el valor y que toma otra variable aleatoria Y , ¿de qu é manera
se afecta la distribuci ón, y por ende, las probabilidades asociadas a X una vez conocida esta in-
formaci ón adicional? Esto es, ¿c ómo determinamos la distribuci ón condicional de X dado que
Y = y?
Hay algunos casos especiales en que esta pregunta se puede responder utilizando solamente los
conceptos ya introducidos anteriormente. Comenzamos nuestra discusi ón abordando estos casos.

5.2 Distribuci ón Condicional: Visi ón Preliminar

En el Capı́tulo 2 se tuvo ya un primer acercamiento al problema de determinar los cambios en la


distribuci ón de una variable aleatoria dada informaci ón relativa a una segunda variable aleatoria,
en el caso que éstas son discretas. En efecto, si X e Y son discretas con funci ón de probabilidad
discreta conjunta pX,Y (x, y) para (x, y) ∈ D, entonces la funci ón de probabilidad condicional de
X dado que Y = y se define mediante
pX,Y (x, y)
pX|Y =y (x|y) = (x, y) ∈ D. (5.2.1)
pY (y)

181
´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

En estricto rigor, esta definici ón se reduce simplemente a probabilidades condicionales para
eventos. En efecto, si A es el evento {X = x} y F es el evento {Y = y}, con P (F ) = P (Y =
y) > 0, entonces (5.2.1) no es otra cosa que (2.2.1). Es importante destacar que para que esta
definici ón tenga sentido, debe cumplirse que P (F ) = P (Y = y) > 0. En caso contrario, el
cuociente (5.2.1) se indefine.
Otra caracterı́stica interesante de la definici ón de funci ón de probabilidad condicional, es que
si X e Y son variables aleatorias independientes, entonces
pX,Y (x, y) pX (x)pY (y)
pX|Y =y (x|y) = = = pX (x),
pY (y) pY (y)
y en forma an áloga, pY |X=x (y|x) = pY (y). En otras palabras, cuando hay independencia entre
las variables aleatorias en cuesti ón, informaci ón respecto de una de ellas no altera las probabilida-
des (distribuci ón) de la otra. Esta caracterı́stica es no s ólo deseable, si no que, a nivel intuitivo,
completamente natural.
La definici ón de funci ón de probabilidad condicional se puede extender en forma natural a
vectores aleatorios. Ası́, si X e Y son vectores aleatorios discretos, se define la funci ón de proba-
bilidad discreta conjunta condicional de X dado que Y = y mediante
pX,Y (x, y)
pX|Y =y (x|y) = .
pY (y)

Ejemplo 5.2.1 Sean X ∼ Poisson(λ) e Y ∼ Poisson(µ) independientes. Sea Z =


X + Y , y calculemos la distribuci ón condicional de X dado que Z = z. Primero,
notemos que Z = {0, 1, 2, . . .}, y que para z ∈ Z
z
X
pZ (z) = P (Z = z) = P (X + Y = z) = P (X = x, Y = z − x)
x=0
z z
X X λx e−λ µz−x e−µ
= P (X = x)P (Y = z − x) =
x! (z − x)!
x=0 x=0
z  
e−(λ+µ) X z (λ + µ)z e−(λ+µ)
= λx µ(z−x) = ,
z! x z!
x=0

por lo que Z ∼ Poisson(λ + µ). Luego,


pX,Z (x, z) P (X = x, Z = z) P (X = x, Y = z − x)
pX|Z=z (x|z) = = =
pZ (z) P (Z = z) P (Z = z)
λx e−λ µz−x e−µ
P (Y = y)P (Y = z − x) x! (z−x)!
= = z e−(λ+µ)
P (Z = z) (λ+µ)
z!
  x  z−x
z λ λ
= 1− , x = 0, 1, . . . , z,
x λ+µ λ+µ
λ
y hemos ası́ probado que X|Z = z ∼ Bin(z, λ+µ ).
Note que probar el hecho que Z ∼ Poisson(λ + µ) se puede hacer en forma alternativa,
recurriendo a funciones generadoras. Se propone ésto como ejercicio.

Aravena, del Pino, Quintana: PROBABILIDADES 182


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Ejemplo 5.2.2 Se dispone de n monedas, cada una con probabilidad 0 < p < 1 de
dar cara. Considere el siguiente experimento. Se lanza cada moneda, independien-
temente de las dem ás. Posteriormente, aquellas monedas que dieron sello se lanzan
una vez más, independientemente entre sı́ y de los lanzamientos en la etapa anterior.
Obtengamos la distribuci ón del n úmero total de caras al final de este experimento.
Método I: Sean X e Y el n úmero de caras registrados en la primera y segunda ronda de
lanzamientos, respectivamente. Entonces, X ∼ Bin(n, p) e Y |X = x ∼ Bin(n−x, p),
y la variable que nos interesa es Z = X + Y . Luego, para z ∈ Z = {0, 1, . . . , n},
z
X
pZ (z) = P (Z = z) = P (X + Y = z) = P (X = k, Y = z − k)
k=0
z
X
= P (X = k)P (Y = z − k|X = k)
k=0
z    
n k n−k n − k
X
= p (1 − p) pz−k (1 − p)n−z
k z−k
k=0
  z  
n z 2n−z
X z
= p (1 − p) (1 − p)−k
z k
k=0
   z
n z 2n−z 1
= p (1 − p) 1+
z 1−p
   z
n z 2n−z 2 − p
= p (1 − p)
z 1−p
 
n n−z
= (p(2 − p))z (1 − p)2 ,
z

y notando que p(2 − p) + (1 − p)2 = 1 para cualquier p ∈ [0, 1], se concluye que
Z ∼ Bin(n, p(2 − p)).
Método II: Consideremos ahora variables aleatorias X1 , . . . , Xn tales que Xi = 1 si la
i-ésima moneda dio cara al final del experimento, 0 en caso contrario. Es decir, X i = 1
cuando la i-ésima moneda da cara despu és de ya sea el primer o segundo lanzamientos.
Se tiene que la cantidad de inter és se obtiene mediante la suma X1 + · · · + Xn , en
donde las variables en esta suma son i.i.d. con distribuci ón Bernoulli. Para calcular
P (Xi = 1), observe que Xi = 0 es equivalente a obtener dos sellos en igual n úmero
de lanzamientos independientes de una moneda con probabilidad 1 − p de dar cara.
Luego, para i = 1, 2, . . . , n se tiene

P (Xi = 1) = 1 − P (Xi = 0) = 1 − (1 − p)2 = p(2 − p),

y se concluye que el n úmero total de caras tiene distribuci ón Binomial, correspondiente
a n ensayos, cada uno con probabilidad de éxito dada por p(2 − p).

Ejemplo 5.2.3 Considere un par (X, Y ) con distribuci ón uniforme en el cı́rculo uni-
tario descrito por {(x, y) : x2 + y 2 ≤ 1}, y calcule P (X > 0.5|Y < 0.25).

Aravena, del Pino, Quintana: PROBABILIDADES 183


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Note que la probabilidad buscada es igual a


P (X > 0.5, Y < 0.25)
,
P (Y < 0.25)
las cuales se calculan como cuocientes de áreas (ver Figura 5.2.1). Ası́,
y

x=0.5

y=0.25

Figura 5.2.1: Diagrama para el Ejemplo 5.2.3.


0.25 Z 1−y 2 0.25
p
1 2 1 − y2
Z Z
P (Y < 0.25) = √ dxdy = dy
−1 − 1−y 2 π −1 π
p 0.25 0.25 √
y 1 − y2 sin−1 (y) 15 sin−1 (0.25) 1
= + = + +
π π −1 16π π 2
−1
≈ 0.6574811787.

Por otra parte,



0.25 Z 1−y 2
Z 0.25 p
1 1 − y 2 − 0.5
Z
P (X < 0.5, Y > 0.25) = dxdy = dy
−1 0.5 π −1 π
" p # 0.25
y 1 − y 2 sin−1 (y) 0.25 + 1
= + −
2π 2π 2π
−1

15 sin−1 (0.25) 1 5
= + + − ,
32π 2π 4 8π
≈ 0.1297969105,

y la probabilidad pedida es el cuociente entre dichas cantidades, lo que da aproximada-


mente 0.1974154009.

Aravena, del Pino, Quintana: PROBABILIDADES 184


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Note que aunque el Ejemplo 5.2.3 est á originalmente planteado en t érminos de variables aleato-
rias continuas, la probabilidad condicional calculada corresponde b ásicamente a una discretizaci ón
de dichas variables en t érminos de intervalos. Si la probabilidad pedida fuese P (X > 0.5|Y =
0.25), nuestra actual definici ón de probabilidad condicional no se puede aplicar, pues por ser Y una
variable aleatoria continua, se tiene que P (Y = 0.25) = 0.
Esto requiere entonces una definici ón más general de distribuci ón condicional, lo que se discute
a continuaci ón.

5.3 Definici ón General de Distribuci ón Condicional

Para motivar la definici ón, consideremos dos variables aleatorias X e Y con densidad conjunta
fX,Y (x, y), definidas en un subconjunto apropiado de R2 . Supongamos se quiere calcular la pro-
babilidad del evento X ∈ A, sabiendo que Y tom ó el valor y. Es necesario hacer la precisi ón que
el hecho que P (Y = y) = 0 no significa que Y no pueda jam ás tomar el valor y. Esta aparente
contradicci ón es s ólo producto del modelo matem ático que hemos adoptado para tratar variables
aleatorias. No obstante lo anterior, cuando se opera con variables aleatorias continuas, los eventos
de interés son usualmente intervalos o uniones de ellos.
Para resolver el problema planteado, consideremos un peque ño intervalo (y − , y + ] para
 > 0. Para dar sentido a la expresi ón P (X ∈ A|Y = y), usaremos un argumento basado en
lı́mites.

o n 5.3.1 Sean X e Y variables aleatorias. Se define la probabilidad condicional que X ∈ A


Definici´
dado que Y = y mediante

P (X ∈ A|Y = y) = lim P (X ∈ A|y −  < Y ≤ y + ). (5.3.1)


→0+

Más generalmente, si B es un evento definido en t érminos de una o m ás variables aleatorias


X1 , . . . , Xn , (por ejemplo, {X1 + X2 > X3 }), se define la probabilidad condicional de B dado que
Y = y mediante
P (B|Y = y) = lim P (B|y −  < Y ≤ y + ). (5.3.2)
→0+

En particular, la funci ón de distribuci ón acumulada condicional de X dado que Y = y se define
mediante

FX|Y =y (x|y) = P (X ≤ x|Y = y) = lim P (X ≤ x|y −  < Y ≤ y + ). (5.3.3)


→0+

Veamos algunas consecuencias de la Definici ón 5.3.1. En primer lugar, si X e Y son indepen-
dientes, entonces, para cualquier  > 0

P (X ∈ A|y −  < Y ≤ y + ) = P (X ∈ A),

de modo que el lı́mite en (5.3.1) se reduce a P (X ∈ A), tal como se espera desde un punto de vista
intuitivo. Note adem ás que este resultado no depende del tipo de variable involucrada.

Aravena, del Pino, Quintana: PROBABILIDADES 185


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

En segundo lugar, observe que si ambas variables son discretas, la definici ón (5.3.1) tendr á sen-
tido s ólo si y es un valor tal que P (Y = y) > 0. Observe adem ás que puesto que hemos asumido
que el soporte de Y contiene s ólo puntos con probabilidad estrictamente positiva, se concluye que
observar y tal que P (Y = y) = 0 es imposible. Ası́,
P (X ∈ A, y −  < Y ≤ y + )
lim P (X ∈ A|y −  < Y ≤ y + ) = lim
→0+ →0+ P (y −  < Y ≤ y + )
lim P (X ∈ A, y −  < Y ≤ y + )
→0+
=
lim P (y −  < Y ≤ y + )
→0+
P (X ∈ A, Y = y)
= = P (X ∈ A|Y = y)
P (Y = y)
X
= pX|Y =y (x|y),
x∈A∩X

tal como se tenı́a hasta el momento.


En tercer lugar, y volviendo a la situaci ón del comienzo de esta secci ón, suponga que X e Y
tienen densidad conjunta fX,Y (x, y). Entonces
P (X ≤ x|Y = y) = lim P (X ≤ x|y −  < Y ≤ y + )
→0+
P (X ≤ x, y −  < Y ≤ y + )
= lim
→0+ P (y −  < Y ≤ y + )
1
R x R y+
2 −∞ y− fX,Y (s, t)dtds
= lim 1
R y+
2 y− fY (t)dt
→0 +

 
Rx 1
R y+
−∞ lim 2 y− fX,Y (s, t)dt ds
→0+
= 1
R y+ ,
lim 2 y− f Y (t)dt
→0+

y usando el Teorema del Valor Medio para integrales se obtiene la siguiente expresi ón para la
funci ón de distribuci ón acumulada condicional de X dado que Y = y:
Z x
fX,Y (s, y)
FX|Y =y (x|y) = ds. (5.3.4)
−∞ fY (y)

o n 5.3.2 Si X e Y poseen densidad conjunta fX,Y (x, y), se define la densidad condicional
Definici´
de X dado que Y = y mediante
fX,Y (x, y)
fX|Y =y (x|y) = . (5.3.5)
fY (y)

Observe que (5.3.5) se obtiene de (5.3.4) mediante diferenciaci ón. Note que (5.3.5) es una
funci ón densidad. En efecto, ella es siempre no negativa, por ser un cuociente entre funciones no
negativas, y adem ás,
Z ∞ Z ∞
1 fY (y)
fX|Y =y (x|y)dx = fX,Y (x, y)dx = = 1.
−∞ f Y (y) −∞ fY (y)

Aravena, del Pino, Quintana: PROBABILIDADES 186


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Adicionalmente, si se asume que X e Y son independientes, entonces se tiene f X,Y (x, y) =


fX (x)fY (y), de modo que

fX (x)fY (y)
fX|Y =y (x|y) = = fX (x).
fY (y)
Ası́, en el caso de independencia, la densidad condicional de X dado que Y = y se transforma
simplemente en la densidad marginal de X, tal como debı́a esperarse intuitivamente.
Un resultado b ásico relativo a probabilidades condicionales para eventos es el Teorema de Pro-
babilidades Totales. Enunciamos a continuaci ón una generalizaci ón al caso continuo.

Teorema 5.3.1 Sea B un evento, y X una variable aleatoria con densidad f X (x). Entonces
Z ∞
P (B) = P (B|X = x)fX (x)dx. (5.3.6)
−∞

Queda a ún por discutir el caso mixto. Aquı́ lo usual es que la distribuci ón conjunta de las va-
riables involucradas se defina en t érminos de distribuciones condicionales de una variable aleatoria
dada la otra, la que se combina con la distribuci ón marginal de la variable que condiciona. Este
enfoque es ligeramente distinto de lo expuesto hasta el momento, en el que las distribuciones condi-
cionales se definieron a partir de la distribuci ón conjunta. Ası́, por ejemplo, si X|Y = y es discreta,
con distribuci ón dependiente de y, e Y es continua con densidad f Y (y), entonces la funci ón de
probabilidad discreta conjunta est á dada por pX,Y (x, y) = pX|Y =y (x|y)fY (y).
Otra situaci ón que aparece con frecuencia, es una generalizaci ón del Teorema de Bayes visto en
el Capı́tulo 2. Supongamos que se conoce la distribuci ón condicional de X dado que Y = y, y la
distribuci ón marginal de Y . ¿C ómo se calcula la distribuci ón de Y dado que X = x? La interpreta-
ci ón que se suele dar a este proceso es como sigue. Los estados de la naturaleza se describen, antes
de hacer un experimento, mediante los valores de Y . La opini ón que se tiene de esta naturaleza, se
describe desde un punto de vista probabilı́stico mediante la distribuci ón de Y , usualmente llamada
distribuci ón a priori. Suponiendo que el estado de la naturaleza es y, la variable aleatoria X, que
representa el resultado de un cierto experimento a realizar, tiene distribuci ón X|Y = y. Se realiza
dicho experimento, y se observa el valor x de una variable aleatoria X. Como resultado de este
experimento, actualizamos nuestra opini ón de la naturaleza, mediante el c álculo de la distribuci ón
de Y dado que X = x, tambi én llamada distribuci ón a posteriori.
Veremos a continuaci ón la forma de realizar estos c álculos.

1. X e Y son discretas: en este caso el c álculo es


Prelativamente sencillo. Usando el hecho que
pX,Y (x, y) = pX|Y =y (x|y)pY (y), y pX (x) = pX,Y (x, y), se obtiene la f órmula
y

pX|Y =y (x|y)pY (y)


pY |X=x (y|x) = P . (5.3.7)
pX|Y =s (x|s)pY (s)
s∈Y

2. X e Y son continuas: en este caso es posible probar que (X, Y ) tiene densidad conjunta dada
por fX,Y (x, y) = fX|Y =y (x|y)fY (y). La densidad marginal de X se obtiene de fX (x) =

Aravena, del Pino, Quintana: PROBABILIDADES 187


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

R∞
−∞ fX,Y (x, y)dy, de modo que se tiene la expresi ón

fX|Y =y (x|y)fY (y)


fY |X=x (y|x) = R ∞ . (5.3.8)
−∞ fX|Y =s (x|s)fY (s)ds

3. X es discreta
R ∞ e Y es continua: la distribuci ón marginal de X se obtiene mediante la f órmula
pX (x) = −∞ pX|Y =y (x|y)fY (y)dy, expresi ón que se obtiene del Teorema 5.3.1, por lo que

pX|Y =y (x|y)fY (y)


fY |X=x (y|x) = R ∞ . (5.3.9)
−∞ pX|Y =s (x|s)fY (s)ds

4. X es continua e Y es discreta: mediante c álculos análogos a los mostrados, se obtiene que

fX|Y =y (x|y)pY (y)


pY |X=x (y|x) = P . (5.3.10)
fX|Y =s (x|s)pY (s)
s∈S

Por último, la generalizaci ón de los conceptos vistos al caso de m ás variables es directa. Veamos
a continuaci ón algunos ejemplos.

Ejemplo 5.3.1 Sean X e Y variables aleatorias independientes con X ∼ Exp(λ) e


Y ∼ Exp(µ), donde λ, µ > 0. Calcule P (X > Y ).

R ∞ la densidad de W = X − Y ,
Una forma de resolver este problema consiste en calcular
con lo que la probabilidad pedida es simplemente 0 fW (w)dw. Sin embargo, por el
Teorema 5.3.1 se tiene
Z ∞
P (X > Y ) = P (X > Y |Y = y)fY (y)dy.
0

El paso crucial del argumento consiste en calcular P (X > Y |Y = y). Una vez que
se condiciona en Y = y, se puede substituir dicho valor en el evento al lado izquier-
do de la probabilidad condicional, lo que se conoce como Principio de Substituci ón.
Ası́, P (X > Y |Y = y) = P (X > y|Y = y). Pero una vez que se ha hecho esta
substituci ón, el evento de inter és {X > y} en la probabilidad condicional, ya no de-
pende de la variable aleatoria Y , esto es, depende s ólo de X, y puesto que X e Y son
independientes, se concluye que P (X > y|Y = y) = P (X > y) = e −y/λ . Luego,

e−y/µ 1
Z
P (X > Y ) = e−y/λ =  
0 µ µ λ + µ1
1

λ
= .
λ+µ
Se propone como ejercicio obtener este resultado mediante el c álculo de la densidad de
W =X −Y.

Aravena, del Pino, Quintana: PROBABILIDADES 188


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Ejemplo 5.3.2 Considere el par (X, Y ) del Ejemplo 4.2.4, y calcule la densidad con-
dicional de X dado que Y = y. Puesto que ambos fX,Y y fY se tienen de lo hecho en
el Ejemplo 4.2.4, lo pedido se obtiene directamente de (5.3.5):
3
4 (|x| + |y|) |x| + |y|
fX|Y =y (x|y) = 3 = ,
2
4 (1 − y )
1 − y2

para −(1 − |y|) ≤ x ≤ 1 − |y|.

Ejemplo 5.3.3 Suponga que X|Y = y ∼ Poisson(y), e Y ∼ Γ(α, λ), con α > 0 y
λ > 0. Calcule la densidad de Y dado que X = x.
Se tiene que para x ∈ {0, 1, 2, . . . , }
Z ∞ x −y α−1 −y/λ Z ∞
y e y e 1
pX (x) = dy = y α+x−1 e−y(1+1/λ) dy
0 x! Γ(α)λα x!Γ(α)λα 0
Γ(α + x)
= α+x
x!Γ(α)λα 1 + λ1
Luego, por (5.3.9), y despu és de simplificar las expresiones se obtiene que

y β−1 e−y/µ
fY |X=x (y|x) = , , y > 0,
Γ(β)µβ
en donde β = α + x y µ = λ/(1 + λ), y se concluye que Y |X = x ∼ Γ(β, µ).

Ejemplo 5.3.4 Considere un vector aleatorio X ∼ Nn (µ, Σ), con


     
X1 µ1 Σ11 Σ12
X= , µ= , y Σ= ,
X2 µ2 Σ21 Σ22
en donde X 1 y X 2 tienen dimensiones respectivas k y l, con k + l = n. Calculemos
la distribuci ón condicional de X 1 dado que X 2 = x2 .
Para ello, considere el vector W = X 1 − Σ12 Σ−1 22 X 2 . Se tiene que, por las propie-
dades de las matrices de covarianza, y recordando que puesto que Σ 22 es simétrica, su
inversa también lo es:

Cov(X 2 , W ) = Cov(X 2 , X 1 ) − Cov(X 2 , X 2 )Σ−1


22 Σ21
= Σ21 − Σ22 Σ−1
22 Σ21
= 0.

Ası́, usando la Proposici ón 4.7.3(i) con

−Σ12 Σ−1
 
Ik 22
A= ,
0 Il
se tiene que el vector  
W
X2

Aravena, del Pino, Quintana: PROBABILIDADES 189


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

tiene distribuci ón conjunta normal multivariada, por lo que X 2 y W son vectores ale-
atorios independientes (recuerde que en el caso de la distribuci ón normal multivariada,
independencia es equivalente a la no correlaci ón). Ası́, la distribuci ón condicional de
W dado que X 2 = x2 es simplemente la distribuci ón marginal (no condicional) de
W . Un cálculo directo, muestra que W ∼ Nk (µ1 −Σ12 Σ−1 −1
22 µ2 , Σ11 −Σ12 Σ22 Σ21 ).
−1
Pero puesto que W = X 1 − Σ12 Σ22 X 2 , por el principio de substituci ón introducido
en el Ejemplo 5.3.1, la distribuci ón condicional de W dado que X 2 = x2 coincide con
aquella de X 1 − Σ12 Σ−1 22 x2 dado que X 2 = x2 . Puesto que despu és de condicionar
en X 2 = x2 la cantidad −Σ12 Σ−1 22 x2 es simplemente una constante, el resultado final
se obtiene de restar dicha constante a la distribuci ón condicional de W , para obtener

X 1 |X 2 = x2 ∼ Nk (µ1 − Σ12 Σ−1 −1


22 (µ2 − x2 ), Σ11 − Σ12 Σ22 Σ21 ).

Para el caso particular en que k = l = 1 (esto es, n = 2), y con

σ12
 
ρσ1 σ2
Σ= ,
ρσ1 σ2 σ22

se obtiene  
ρσ1 2 2
X1 |X2 = x2 ∼ N µ1 − (µ2 − x2 ), σ1 (1 − ρ ) .
σ2

i.i.d.
Ejemplo 5.3.5 Sean X1 , . . . , Xn ∼ Exp(λ), donde λ > 0. Considere las variables
aleatorias definidas mediante

Y1 = X(1) ,


 (X2 − X1 , . . . , Xn − X1 ) si X(1) = X1
 (X1 − X2 , X3 − X2 , ..., Xn − X2 ) si X(1) = X2

(Y2 , ..., Yn ) = ..


 .
(X1 − Xn , . . . , Xn−1 − Xn ) si X(1) = Xn

Observe que la definici ón de Y2 , . . . , Yn consiste en las variables X1 − X(1) , . . . , Xn −


X(1) , después de eliminar aquella que es id énticamente 0. Obtengamos la distribuci ón
conjunta de Y1 , . . . , Yn . Para ello, defina los eventos

A = {Y1 > y1 , . . . , Yn > yn }


Bi = {X(1) = Xi }, i = 1, . . . , n,

donde y1 , . . . , yn > 0. Se tiene entonces que


n
X
P (Y1 > y1 , . . . , Yn ≤ yn ) = P (A ∩ Bi ).
i=1

Ahora, por el Teorema 5.3.1 se tiene


Z ∞
P (A ∩ Bi ) = P (A ∩ Bi |Xi = xi )fXi (xi )dxi .
0

Aravena, del Pino, Quintana: PROBABILIDADES 190


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Por otra parte,


{A ∩ Bi } = {Xi > y1 , X1 − Xi > y2 , . . . , Xi−1 − Xi > yi ,
Xi+1 − Xi > yi+1 , . . . , Xn − Xi > yn , X1 > Xi ,
. . . , Xi−1 > Xi , Xi+1 > Xi , . . . Xn > Xi }
= {Xi > y1 , X1 > y2 + Xi , . . . , Xi−1 > yi + Xi ,
. . . , Xi+1 > yi+1 + Xi , . . . , Xn > yn + Xi },
por lo que, usando el principio de substituci ón y el hecho que X1 , . . . , Xn son i.i.d.
Exp(λ), se tiene que
Z ∞
P (A ∩ Bi ) = P (Xi > y1 , X1 > y2 + Xi , ..., Xi−1 > yi + Xi ,
0
e−xi /λ
..., Xi+1 > yi+1 + Xi , ..., Xn > yn + Xi |Xi = xi ) dxi
Z ∞ λ
= P (xi > y1 , X1 > y2 + xi , ..., Xi−1 > yi + xi ,
0
e−xi /λ
..., Xi+1 > yi+1 + xi , ..., Xn > yn + xi |Xi = xi ) dxi
Z ∞ λ
= P (xi > y1 , X1 > y2 + xi , ..., Xi−1 > yi + xi ,
0
e−xi /λ
..., Xi+1 > yi+1 + xi , ..., Xn > yn + xi ) dxi
Z ∞ λ
= P (X1 > y2 + xi , ..., Xi−1 > yi + xi , ...,
y1
e−xi /λ
Xi+1 > yi+1 + xi , ..., Xn > yn + xi ) dxi
λ
i−1
∞Y n
e−xi /λ
Z Y
= P (Xj > yj+1 + xi ) P (Xj > yj + xi ) dxi
y1 j=1 λ
j=i+1
i−1
∞Y n
e−xi /λ
Z Y
= e−(yj+1 +xi )/λ e−(yj +xi )/λ dxi
y1 j=1 λ
j=i+1
n

P
− yj /λ
Z
= e j=2
e−nxi /λ dxi
y1
n
P
1 − j=2 yj /λ −ny1 /λ
= e e
n
Luego,
n n
n P P
X 1 − j=2 yj /λ −ny1 /λ − yj /λ
P (A) = e e = e j=2 e−ny1 /λ ,
n
i=1
y se concluye que Y1 , . . . , Yn son independientes, con Y1 ∼ Exp(λ/n), e Yj ∼ Exp(λ)
para j = 2, . . . , n. En particular, se deduce el siguiente resultado, que es útil en

Aravena, del Pino, Quintana: PROBABILIDADES 191


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

n
P n
P
Inferencia Estadı́stica: X(1) ∼ Exp(λ/n) y (Xi − X(1) ) = Yj ∼ Γ(n − 1, λ)
i=1 j=2
son independientes.

5.4 Esperanza Condicional

Pasamos a definir ahora el concepto de esperanza condicional, y a estudiar algunas de sus propie-
dades básicas. En forma intuitiva, la esperanza condicional es simplemente la esperanza de una
distribuci ón condicional.

o n 5.4.1 Sean X e Y variables aleatorias. Se define la esperanza condicional de X dado


Definici´
que Y = y mediante
( P
xpX|Y =y (x|y) si X es discreta
E(X|Y = y) = Rx∞ (5.4.1)
−∞ xfX|Y =y (x|y)dx si X es continua,

si la suma o integral correspondiente converge absolutamente, lo que se tiene si E(|X|) < ∞.

La esperanza condicional ası́ definida, tiene todas las propiedades que posee la esperanza E(·)
definida en el Capı́tulo 3. Por ejemplo, si las expresiones involucradas existen, entonces dadas
constantes a y b se tiene E(aX + bZ|Y = y) = aE(X|Y = y) + bE(Z|Y = y). La raz ón de
esto es que la esperanza condicional de X dado que Y = y se puede ver simplemente como el valor
esperado correspondiente a una cierta variable aleatoria W cuya distribuci ón coincide con la de
X|Y = y. De este modo, todas las propiedades para E(·) se cumplen para E(·|Y = y), incluyendo
la correspondiente versi ón del Teorema 3.8.1:
Z ∞
E(g(X)|Y = y) = g(x)fX|Y =y (x|y)dx,
−∞

si X es continua, o bien reemplazando la integral por una suma si X es discreta. Este resultado
permite definir momentos de la distribuci ón condicional, y en particular la varianza condicional, en
forma análoga a las versiones no condicionales correspondientes.

Definici´o n 5.4.2 Sean X e Y variables aleatorias. En la medida que las expresiones involucradas
existan, se define:

(a) El momento condicional de orden k de X dado que Y = y mediante

µk (X|Y = y) = E(X k |Y = y). (5.4.2)

(b) La varianza condicional de X dado que Y = y mediante

V ar(X|Y = y) = E(X 2 |Y = y) − (E(X|Y = y))2 . (5.4.3)

Aravena, del Pino, Quintana: PROBABILIDADES 192


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Algunas propiedades de la esperanza condicional son consecuencia del Principio de Substitu-


ci ón. Ası́, para una funci ón de dos variables g, se tiene que

E(g(X, Y )|Y = y) = E(g(X, y)|Y = y),

y en particular,

E(g(X)h(Y )|Y = y) = E(g(X)h(y)|Y = y) = h(y)E(g(X)|Y = y),

siempre y cuando las expresiones involucradas existan.

λ
Ejemplo 5.4.1 En el Ejemplo 5.2.1 se tiene que X|Z = z ∼ Bin(z, λ+µ ), de modo

que E(X|Z = z) = λ+µ .

Ejemplo 5.4.2 Si X|Y = y ∼ Bin(n, y) e Y ∼ Beta(a, b) con a, b > 0, calcule


E(Y |X = x).
De acuerdo a la Definici ón 5.4.1, necesitamos previamente obtener la distribuci ón de
Y dado que X = x. Por el Teorema 5.3.1, y para x ∈ {0, 1, 2, . . . , n}:
Z 1 
n x y a−1 (1 − y)b−1
pX (x) = y (1 − y)n−x dy
0 x B(a, b)
n
 Z 1
= x
y a+x−1 (1 − y)b+n−x−1 dy
B(a, b) 0
n

x B(a + x, b + n − x)
=
B(a, b)
Luego, por (5.3.9), y despu és de simplificar términos, se obtiene que

y a+x−1 (1 − y)b+n−x−1
fY |X=x (y|x) = ,
B(a + x, b + n − x)
de modo que Y |X = x ∼ Beta(a + x, b + n − x). Por consiguiente, E(Y |X = x) =
a+x
a+b+n (ver Ejemplo 3.8.3).

Ejemplo 5.4.3 En el Ejemplo 5.3.4 tenemos E(X 1 |X 2 = x2 ) = µ1 −Σ12 Σ−1


22 (µ2 −
x2 ).

En todos estos ejemplos, se tiene que la esperanza condicional de una variable o vector aleatorio
dado el valor de otra variable o vector aleatorio, se expresa como una funci ón del valor de la variable

que condiciona. Ası́, en el Ejemplo 5.4.1, E(X|Z = z) = λ+µ , que es una funci ón de z. Esto
motiva la siguiente definici ón.

o n 5.4.3 Sean X e Y variables aleatorias con E(|X|) < ∞. La esperanza condicional de


Definici´
X dado Y es una variable aleatoria que se denota por E(X|Y ), y definida como ϕ(Y ), donde

ϕ(y) = E(X|Y = y). (5.4.4)

Aravena, del Pino, Quintana: PROBABILIDADES 193


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

λz
Ası́, en el Ejemplo 5.4.1 se tiene que ϕ(z) = E(X|Z = z) = λ+µ , de modo que
 
λ
E(X|Z) = ϕ(Z) = Z.
λ+µ

A modo de receta, para calcular E(X|Y ), basta reemplazar “y” por “Y ”, una vez calculado el valor
de E(X|Y = y).
En el mismo Ejemplo 5.4.1, note que puesto que Z ∼ Poisson(λ + µ), entonces E(Z) = λ + µ,
y se tiene que
  
λ λ
E(E(X|Z)) = E Z = E(Z) = λ = E(X).
λ+µ λ+µ
Lejos de ser una coincidencia, esto es resultado de una de las propiedades b ásicas de esperanzas
condicionales.

Teorema 5.4.1 Sean X e Y variables aleatorias con E(|X|) < ∞. Entonces

E(X) = E(E(X|Y )). (5.4.5)

Aunque no daremos una demostraci ón del Teorema 5.4.1 en el caso general, es ilustrativo con-
siderar lo que sucede en el caso que X e Y poseen densidad conjunta f X,Y (x, y). Puesto que
Z ∞ Z ∞
xfX,Y (x, y)
ϕ(y) = E(X|Y = y) = xfX|Y =y (x|y)dx = dx,
−∞ −∞ fY (y)
entonces
Z ∞
E(E(X|Y )) = E(ϕ(Y )) = ϕ(y)fY (y)dy
−∞
Z ∞ Z ∞ 
xfX,Y (x, y)
= dx fY (y)dy
−∞ −∞ fY (y)
Z ∞Z ∞
= xfX,Y (x, y)dxdy
−∞ −∞
= E(X).

El tratamiento del caso general requiere conceptos de Teorı́a de la Medida, que van m ás allá de los
objetivos de este texto.
Veamos ahora otras dos propiedades útiles de la esperanza condicional, que son consecuencias
del Teorema 5.4.1.

Proposici o´n 5.4.1 Sean X, Y y Z variables aleatorias.

(a) Si E(X 2 ) < ∞, entonces

V ar(X) = E(V ar(X|Y )) + V ar(E(X|Y )) (5.4.6)

Aravena, del Pino, Quintana: PROBABILIDADES 194


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

(b) Si E(X 2 ) y E(Y 2 ) son ambas finitas, entonces

Cov(X, Y ) = E(Cov((X, Y )|Z)) + Cov(E(X|Z), E(Y |Z)), (5.4.7)

en donde la covarianza condicional entre X e Y dado Z se define como Cov((X, Y )|Z) =


E(XY |Z) − E(X|Z)E(Y |Z).

Demostraci o´n:

(a) Se tiene que

E(V ar(X|Y )) = E{E(X 2 |Y ) − (E(X|Y ))2 } = E(E(X 2 |Y )) − E{(E(X|Y ))2 }


= E(X 2 ) − E{(E(X|Y ))2 }.

y por otra parte,

V ar(E(X|Y )) = E{(E(X|Y ))2 } − {E(E(X|Y ))}2


= E{(E(X|Y ))2 } − (E(X))2 ,

y el resultado se obtiene de sumar estas expresiones.

(b) El procedimiento para este caso es similar al de (a). En efecto,

E(Cov((X, Y )|Z)) = E(E(XY |Z) − E(X|Z)E(Y |Z))


= E(XY ) − E(E(X|Z)E(Y |Z)),

y además

Cov(E(X|Z), E(Y |Z)) = E(E(X|Z)E(Y |Z)) − E(E(X|Z))E(E(Y |Z))


= E(E(X|Z)E(Y |Z)) − E(X)E(Y ),

y el resultado se obtiene de sumar las expresiones obtenidas. 

Ejemplo 5.4.4 En el Ejemplo 5.2.2, suponga que s ólo nos interesa calcular el valor
esperado y varianza del n úmero total de monedas que dan cara al final de las dos rondas
del experimento. Con la notaci ón usada en su momento, dicho n úmero es Z = X + Y ,
donde X ∼ Bin(n, p), e Y |X = x ∼ Bin(n − x, p). Se tiene que

E(Z|X = x) = E(X + Y |X = x) = E(x + Y |X = x)


= x + E(Y |X = x) = x + (n − x)p
= np + (1 − p)x,

de modo que E(Z|X) = np + (1 − p)X, y ası́

E(Z) = E(E(Z|X)) = E(np + (1 − p)X) = np + (1 − p)E(X)


= np + (1 − p)np = np(2 − p).

Aravena, del Pino, Quintana: PROBABILIDADES 195


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Por otra parte,

V ar(Z|X = x) = V ar(X + Y |X = x) = V ar(x + Y |X = x)


= V ar(Y |X = x) = (n − x)p(1 − p),

de donde, V ar(Z|X) = p(1 − p)(n − X), y

E(V ar(Z|X)) = E(p(1 − p)(n − X)) = p(1 − p)E(n − X)


= p(1 − p)(n − E(X)) = p(1 − p)(n − np)
= np(1 − p)2 .

Además,

V ar(E(Z|X)) = V ar(np + (1 − p)X) = V ar((1 − p)X)


= (1 − p)2 V ar(X) = (1 − p)2 np(1 − p)
= np(1 − p)3 .

Ası́, por (5.4.6),

V ar(Z) = np(1 − p)2 + np(1 − p)3 = np(1 − p)2 (1 + 1 − p)


= np(1 − p)2 (2 − p).

Ejemplo 5.4.5 Sean W , X e Y variables aleatorias con densidad conjunta



c(1 + wxy) si 0 ≤ w, x, y ≤ 1
fW,X,Y (w, x, y) =
0 si no.

Obtengamos primero el valor de c. Se debe tener


ZZZ
1 = c (1 + wxy)dwdxdy
[0,1]3
ZZZ ZZZ
= c 1 dwdxdy + c wxy dwdxdy
[0,1]3 [0,1]3
 
1 9c
= c 1+ = ,
8 8

de modo que c = 89 . Calculemos ahora la distribuci ón condicional de (W, X) dado que
Y = y. Para ello, se necesita la densidad fY (y), la que se calcula mediante

8 1 1 8 1 xy  8 y
Z Z Z
fY (y) = (1 + wxy) dwdx = 1+ dx = 1+
9 0 0 9 0 2 9 4
8 + 2y
= , 0 ≤ y ≤ 1.
9

Aravena, del Pino, Quintana: PROBABILIDADES 196


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Ası́, se obtiene
fW,X,Y (w, x, y) 4(1 + wxy)
fW,X|Y =y (w, x|y) = = .
fY (y) 4+y
Verifiquemos ahora que (5.4.7) se cumple:
Z 1Z 1
4 9 + 4y
E(W X|Y = y) = wx(1 + wxy)dxdw = ,
4+y 0 0 36 + 9y
y luego,
9 + 4Y
E(W X|Y ) = .
36 + 9Y
Además
1Z 1
4 6 + 2y
Z
E(W |Y = y) = w(1 + wxy)dxdw = ,
4+y 0 0 12 + 3y
y por la simetrı́a del problema se obtienen las esperanzas condicionales
6 + 2Y 6 + 2Y
E(W |Y ) = y E(X|Y ) = .
12 + 3Y 12 + 3Y
Luego,
Y
Cov((W, X)|Y ) = E(W X|Y ) − E(W |Y )E(X|Y ) = ,
9(4 + Y )2
de donde se obtiene
1 
y 8 + 2y
Z
E(Cov((W, X)|Y )) = 2
× dy
0 9(4 + y) 9
2 − 8 log(5) + 16 log(2)
= .
81
Por otra parte,
 
6 + 2Y 6 + 2Y
Cov(E(W |Y ), E(X|Y )) = Cov ,
12 + 3Y 12 + 3Y
 
6 + 2Y
= V ar .
12 + 3Y
Ahora,   1 
6 + 2Y 6 + 2y 8 + 2y 14
Z
E = × dy = ,
12 + 3Y 0 12 + 3y 9 27
y además
( 2 ) 1
(6 + 2y)2 8 + 2y

6 + 2Y
Z
E = dy
12 + 3Y 0 (12 + 3y)2 9
20 + 8 log(5) − 16 log(2)
=
81

Aravena, del Pino, Quintana: PROBABILIDADES 197


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

por lo que

20 + 8 log(5) − 16 log(2) 142


 
6 + 2Y
V ar = − 2
12 + 3Y 81 27
8 log(5) − 16 log(2) 16
= − .
81 729
Finalmente, sumando E(Cov((W, X)|Y )) y Cov(E(X|Y ), E(W |Y )), se obtiene

2 − 8 log(5) + 16 log(2) 8 log(5) − 16 log(2) 16 2


+ − = .
81 81 729 729
Calculemos ahora Cov(W, X) directamente de la distribuci ón conjunta inicial. Se
tiene
8 1 1 22
Z Z
E(W X) = wx(1 + wxy)dxdwdy = ,
9 0 0 81
y
8 1 1 14
Z Z
E(W ) = w(1 + wxy)dxdwdy = ,
9 0 0 27
donde, por simetrı́a, E(W ) = E(X). Se obtiene ası́

22 142
Cov(W, X) = E(W X) − E(W )E(X) = −
81 272
2
= ,
729
lo que coincide con lo que se obtuvo anteriormente. C álculos semejantes permiten
121 4
concluir que V ar(W ) = V ar(X) = 1458 , por lo que ρ(W, X) = 121 ≈ 0.033.

Ejemplo 5.4.6 Consideremos la situaci ón del Ejemplo 4.5.4, la cual generalizamos
suponiendo que X1 , X2 , . . . son i.i.d. con media µ y varianza σ 2 , y consideramos N
una variable aleatoria con soporte incluido en {1, 2, . . .}, con media ν y varianza τ 2 .
N
P
Ası́, definimos SN = Xi , esto es, X1 + · · · + Xn si N = n, con n ≥ 1. Se asume
i=1
además que N es independiente de X1 , X2 , . . .. Calculemos ahora E(SN ) y V ar(SN ).
Se tiene que
n
X n
X
E(SN |N = n) = E( Xi |N = n) = E(Xi |N = n).
i=1 i=1

Pero como N es independiente de cada Xi , se tiene que E(Xi |N = n) = E(Xi ) = µ.


Luego,
X n
E(SN |N = n) = µ = nµ,
i=1

de donde E(SN |N ) = N µ, y

E(SN ) = E(E(SN |N )) = E(N µ) = µE(N ) = µν.

Aravena, del Pino, Quintana: PROBABILIDADES 198


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Por otra parte,

V ar(E(SN |N )) = V ar(N µ) = µ2 V ar(N ) = µ2 τ 2 ,

y usando la independencia de los X’s,


n
X n
X
V ar(SN |N = n) = V ar( Xi |N = n) = V ar(Xi |N = n)
i=1 i=1
n
X
= V ar(Xi ) = nσ 2 .
i=1

Luego, V ar(SN |N ) = N σ 2 , por lo que E(V ar(SN |N )) = νσ 2 , de modo que por


(5.4.6)
V ar(SN ) = µ2 τ 2 + νσ 2 .

Ejemplo 5.4.7 Considere X, Y y Z variables aleatorias independientes con X, Y ∼


N (0, 1), y Z tiene densidad fZ . Calcule la distribuci ón de

X + ZY
W =√ ,
1 + Z2
y obtenga una expresi ón para ρ(X, W ) y ρ(Y, W ) en t érminos de la distribuci ón de Z.
Eval úe estas correlaciones para el caso en Z ∼ U (0, 1).
En este ejemplo queda de manifiesto la utilidad de los argumentos basados en condi-
cionamiento. Puesto que Z tiene la distribuci ón más “complicada”, condicionemos en
un valor de Z. Entonces, dado que Z = z, W se transforma en, por el principio de
substituci ón,
X + zY
√ .
1 + z2
Pero ahora z es simplemente una constante, de modo que la distribuci ón condicional
de W dado que Z = z corresponde a una combinaci ón lineal de las variables X e Y
(condicionadas en z). Pero tanto X como Y son independientes de Z, de modo que
X|Z = z ∼ N (0, 1) e Y |Z = z ∼ N (0, 1). M ás a ún, dado que Z = z, X e Y
siguen siendo independientes (¿por qu é?) por lo que se concluye que la distribuci ón
condicional mencionada es tambi én normal (ver Ejemplo 4.6.2). Se tiene que
1 z
E(W |Z = z) = √ E(X|Z = z) + √ E(Y |Z = z) = 0,
1+z 2 1 + z2
y
V ar(X|Z = z) z 2 V ar(Y |z = z) 1 + z2
V ar(W |Z = z) = + = = 1,
1 + z2 1 + z2 1 + z2
y entonces
W |Z = z ∼ N (0, 1).

Aravena, del Pino, Quintana: PROBABILIDADES 199


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Pero puesto que esta distribuci ón condicional no depende de z, ella es tambi én no
condicional, y ası́, W ∼ N (0, 1). Ahora bien,

Cov((X, X + zY )|Z = z)
Cov((X, W )|Z = z) = √
1 + z2
Cov((X, X)|Z = z) zCov((X, Y )|Z = z)
= √ + √
1 + z2 1 + z2
V ar(X|Z = z) 1
= √ =√ ,
1+z 2 1 + z2

de modo que Cov((X, W )|Z) = √ 1 . Por otra parte, E(X|Z) = E(X) = 0, y de


1+z 2
(5.4.7) se tiene  
1
Cov(X, W ) = E √ ,
1 + Z2
lo cual coincide con ρ(X, W ), pues V ar(X) = V ar(W ) = 1. An álogamente se
obtiene  
Z
ρ(Y, W ) = E √ .
1 + Z2
√ el caso que Z ∼ U (0, 1), se obtiene ρ(X, W ) = arcsinh(1) ≈ 0.8813 y ρ(Y, W ) =
En
2 − 1. Los detalles de estos últimos cálculos se proponen como ejercicio.

5.5 El Mejor Predictor

En esta secci ón retomamos el tema de predecir el valor de una variable o vector aleatorio, dado el
valor de otra variable o vector aleatoria. En la Secci ón 4.8 abordamos este problema restringi éndo-
nos a predictores lineales. Predicci ón lineal es atractiva por su simplicidad, pero muchas veces es
posible encontrar mejores predictores, si uno no se limita solamente a aquellos que tienen forma
lineal.
Consideremos el caso de dos vectores aleatorios X ∈ Rk e Y ∈ Rl , y encontremos el mejor
predictor (MP) de X dado Y , es decir, hallar alguna funci ón g(Y ) que minimice el error cuadr áti-
co medio de predicci ón
E{(X − g(Y ))0 (X − g(Y ))}. (5.5.1)
Para ello, usaremos el siguiente resultado preliminar.

Proposici o´n 5.5.1 Sea X ∈ Rk un vector aleatorio tal que V (X) existe. Entonces, la soluci ón del
problema
min E{(X − c)0 (X − c)} (5.5.2)
c∈Rk

es c = E(X).

Demostraci o´n: Sea h(c) = E{(X − c)0 (X − c)}. Entonces

h(c) = E(X 0 X − 2c0 X + c0 c) = E(X 0 X) − 2c0 E(X) + c0 c.

Aravena, del Pino, Quintana: PROBABILIDADES 200


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

Suponiendo c = (c1 , . . . , ck )0 , y diferenciando h(c) con respecto a cj e igualando a 0 se obtiene


−2E(Xj ) + 2cj = 0, de donde cj = E(Xj ) para j = 1, . . . , k. Puesto que la matriz Hessiana
de h(c) es 2I k , que es definida positiva, se concluye que c = E(X) es efectivamente el mı́nimo
buscado. 
Observe que el resultado de la Proposici ón 5.5.1 resuelve una versi ón restringida del problema
que motiva esta secci ón, cual es la de hallar el mejor vector de constantes, predictor de X, en el
sentido de resolver el problema 5.5.2. El error de predicci ón es, con c = E(X),

E(X 0 X) − 2E(X)0 E(X) + E(X 0 E(X)) = E(X 0 X) − E(X)0 E(X)


k
X k
X
= E( Xi2 ) − E(Xj )2
j=1 j=1
k
X
= V ar(Xj ).
j=1

Volviendo al problema original, consideremos la cantidad a minimizar, dada por (5.5.2), entre
todas las posibles funciones g : Rk → Rl . Observe que por el Teorema 5.4.1

E{(X − g(Y ))0 (X − g(Y ))} = E(E{(X − g(Y ))0 (X − g(Y ))|Y }).

Ahora, para minimizar


def
h(y) = E{(X − g(Y ))0 (X − g(Y ))|Y = y}
= E{(X − g(y))0 (X − g(y))|Y = y},

la Proposici ón 5.5.1 establece que la funci ón g elegida debe estar definida por g ? (y) = E(X|Y =
y), y por lo tanto, el MP es g ? (Y ) = E(X|Y ). En efecto, puesto que para cualquier funci ón g, y
para cualquier y se tiene

E{(X − E(X|Y = y))0 (X − E(X|Y = y))|Y = y} ≤ h(y),

entonces
E{(X − E(X|Y ))0 (X − E(X|Y ))|Y } ≤ h(Y ),
y tomando valor esperado a cada lado de esta última desigualdad se obtiene

E{(X − E(X|Y ))0 (X − E(X|Y ))} ≤ E{(X − g(Y ))0 (X − g(Y ))},

cualquiera que se g.
Ası́, hemos deducido que el mejor predictor de X dado Y , es simplemente

M P = E(X|Y ). (5.5.3)

Por otra parte, por (5.4.6) aplicado a cada elemento de las matrices en cuesti ón, se tiene que

V (M P ) = V (X) − E(V (X|Y )), (5.5.4)

Aravena, del Pino, Quintana: PROBABILIDADES 201


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

que es una matriz al menos semi-definida positiva. M ás a ún, para cualquier vector de constantes
d = (d1 , . . . , dk ) se cumple que
V ar(d0 E(X|Y )) ≤ V ar(d0 X).
lo que en particular muestra que cada coordenada E(X j |Y ) del MP tiene siempre varianza inferior
o igual a V ar(Xj ), que corresponde al error de predecir Xj mediante la constante E(Xj ). Además,
el error de predicci ón (5.5.1) est á dado por
k
X
E{(X − E(X|Y ))0 (X − E(X|Y ))} = {V ar(Xi ) − V ar(E(Xi |Y ))}, (5.5.5)
j=1

resultado cuya demostraci ón se propone como ejercicio.


En algunos casos, como en los Ejemplos 5.2.1 y 5.4.3 el MP tiene forma lineal en la variable pre-
dictora. No es difı́cil convencerse que en este caso el MP y el MPL deben necesariamente coincidir.
Sin embargo, esto no es la regla, puesto que el MPL usa s ólo E((X, Y )0 ) y V ((X, Y )0 ), mientras
que el MP hace uso de la distribuci ón condicional de X dado Y , la cual, salvo excepciones, no
queda siempre determinada por dichas cantidades.
Por último, en el caso que X e Y son independientes, se verifica la igualdad E(X|Y ) =
E(X), y el MP se reduce simplemente a E(X).

Ejemplo 5.5.1 Suponga que X|Y = y ∼ N (y, τ 2 ), y que Y ∼ N (µ, σ 2 ), donde µ,


τ 2 y σ 2 son conocidos. Calcule el MP de Y dado X, y obtenga la varianza y error de
predicci ón correspondientes.
Por las condiciones del problema, se tiene que
(x − y)2 (y − µ)2
 
1
fX,Y (x, y) = √ exp − − .
2π τ 2 σ 2 2τ 2 2σ 2
Note que el argumento de la funci ón exponencial en esta densidad conjunta es una
forma cuadrática, de modo que la distribuci ón conjunta de (X, Y ) es normal bivaria-
da. Los parámetros de esta distribuci ón se pueden obtener en forma similar a la del
Ejemplo 4.7.2. Otra alternativa consiste simplemente en calcularlos directamente, co-
mo haremos a continuaci ón. En primer lugar, se tiene que E(Y ) = µ, y V ar(Y ) = σ 2 .
Por otra parte,
E(X) = E(E(X|Y )) = E(Y ) = µ,
V ar(X) = V ar(E(X|Y )) + E(V ar(X|Y )) = V ar(Y ) + E(τ 2 ) = σ 2 + τ 2 ,
y
E(XY ) = E(E(XY |Y )) = E(Y E(X|Y )) = E(Y 2 )
= V ar(Y ) + E(Y )2 = σ 2 + µ2 ,
q
σ2
de modo que Cov(X, Y ) = σ 2 + µ2 − µ2 = σ 2 , y por lo tanto ρ(X, Y ) = σ 2 +τ 2
.
Ası́, por lo hecho en los Ejemplos 5.3.4 y 5.4.3 el MP es
σ2 σ2X + τ 2µ
 
E(Y |X) = µ − (µ − X) = .
σ2 + τ 2 σ2 + τ 2

Aravena, del Pino, Quintana: PROBABILIDADES 202


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

La varianza del MP es σ 4 /(σ 2 + τ 2 ), y el error de predicci ón es

σ4 σ2τ 2
V ar(Y ) − V ar(E(Y |X)) = σ 2 − = 2 .
σ2 +τ 2 σ + τ2
Los detalles se proponen como ejercicio.

Ejemplo 5.5.2 Suponga que la vida útil T de una ampolleta es una variable aleatoria
con distribuci ón exponencial de media λ > 0. En el instante t = 0 la ampolleta
se enciende. En un instante posterior s > 0 se constata que la ampolleta se habı́a
quemado. Calcule el MP del instante en que la ampolleta se quem ó.
Necesitamos calcular E(T |T < s), para lo cual se requiere la distribuci ón condicional
de T dado que T < s. Se tiene

P (T ≤ t, T < s) P (T ≤ min{t, s})


P (T ≤ t|T < s) = =
P (T < s) P (T < s)
1 − e− min{t,s}/λ
= ,
1 − e−s/λ
de donde, mediante diferenciaci ón se obtiene
( −t/λ e
λ(1−e−s/λ )
si 0 < t < s
fT |T <s (t) =
0 si no.

Ası́, el MP buscado es
s
te−t/λ e−s/λ
Z
E(T |T < s) = dt = λ − .
0 λ(1 − e−s/λ ) 1 − e−s/λ

Ejemplo 5.5.3 Suponga que dos ampolletas, cuyos tiempos de vida son independien-
tes, con distribuci ón exponencial de medias λ > 0 y µ > 0 respectivamente, se ponen
en funcionamiento simult áneamente. Se observa que la primera de ellas se quema en
un instante t > 0. Calcule el MP de la vida útil de la otra ampolleta.
Si X e Y representan los tiempos de vida de estas ampolletas, se sabe que X ∼
Exp(λ) e Y ∼ Exp(µ), y que X e Y son independientes. Lo que se observa es
U = min{X, Y }, y se quiere predecir V = max{X, Y }, de modo que se necesita
E(V |U = t). Usando una modificaci ón del argumento que lleva a concluir (4.4.9), se
tiene para u < v:

P (U > u, V ≤ v) = P (u < X ≤ v, u < Y ≤ v)


= P (u < X ≤ v)P (u < Y ≤ v)
= (e−u/λ − e−v/λ )(e−u/µ − e−v/µ ).

Por otra parte,

FV (v) = P (X ≤ v)P (Y ≤ v) = (1 − e−v/λ )(1 − e−v/µ ),

Aravena, del Pino, Quintana: PROBABILIDADES 203


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

de modo que

FU,V (u, v) = FV (v) − P (U > u, V ≤ v)


= (1 − e−v/λ )(1 − e−v/µ ) − (e−u/λ − e−v/λ )(e−u/µ − e−v/µ ).

Derivando parcialmente esta expresi ón con respecto a u y v, se obtiene la densidad


conjunta
e−v/µ e−u/λ + e−u/µ e−v/λ
fU,V (u, v) = ,
λµ
definida en la regi ón 0 < u < v < ∞. Por otra parte,

(e−v/µ e−u/λ + e−u/µ e−v/λ
Z
fU (u) = du
u λµ
 
1 1
= + e−u(1/λ+1/µ) ,
λ µ

para u > 0. Note que U ∼ Exp((λ−1 + µ−1 )−1 ). Luego, la densidad condicional de
V dado que U = u es, despu és de simplificar,

fU,V (u, v) e−(v−u)/λ + e−(v−u)/λ


fV |U =u (v|u) = = ,
fU (u) λ+µ

para v > u, de donde



λ2 + µ 2
Z
E(V |U = u) = vfV |U =u (v|u)dv = u + ,
u λ+µ

de modo que el MP buscado es s + (λ2 + µ2 )/(λ + µ).

Aravena, del Pino, Quintana: PROBABILIDADES 204


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

5.6 Problemas

1. Sea X una variable aleatoria con distribuci ón de Bernoulli con par ámetro p. Si E(Y |X =
0) = 1 y E(Y |X = 1) = 2, encuentre E(Y ).

2. Sea N una variable aleatoria discreta positiva de media µ, y suponga que X 1 , X2 , ... es una
sucesi ón de variables aleatorias independientes e id énticamente distribuidas con E(X1 ) =
m. Si N es independiente de las variables aleatorias Xi , pruebe que:

E(X1 + X2 + .... + XN ) = µ.

3. Suponga que el n úmero de personas que entran a un supermercado el dı́a Lunes es una varia-
ble aleatoria de media 50. Suponga adem ás que los montos de dinero gastado por los clientes
en el supermercado son variables aleatorias independientes de media com ún 8. Si dichos
montos son independientes del n úmero total de clientes que entran al supermercado, ¿cu ál es
el monto esperado de dinero gastado en la tienda ese dı́a?.

4. Un dado insesgado es sucesivamente arrojado. Sean X e Y variables aleatorias que denotan


el n úmero de lanzamientos necesarios para obtener un 6 y un 5 respectivamente. Encontrar

a.- E(X).
b.- E(X|Y = 1).
c.- E(X|Y = 5).

5. Una poblaci ón de individuos da lugar a una nueva poblaci ón. Suponga que la probabilidad
que un individuo de lugar a k individuos (descendientes) es p k , k = 0, 1, . . . , y el n úmero
de individuos que se obtienen a partir de individuos diferentes son variables aleatorias in-
dependientes. La poblaci ón nueva forma la nueva generaci ón, que a su vez, da lugar a la
segunda generaci ón, y ası́ sucesivamente. Para n = 0, 1, . . . sea Xn el tama ño de la n-ésima
generaci ón. N ótese que:
Xn+1 = Z1 (n) + · · · + ZXn (n),
donde Zj (n) es el n úmero de individuos de la generaci ón (n + 1)-ésima que proceden del
individuo j-ésimo de la generaci ón n-ésima. Suponga que el n úmero de descendientes de un
individuo tiene media finita µ. Pruebe que:

Mn = E(Xn |X0 = 1) = µn .

6. Una urna contiene 4 bolas blancas y 6 bolas negras. Se sacan, en forma consecutiva y sin
reemplazo, dos muestras aleatorias, de tama ños 3 y 5 respectivamente. Sean X e Y variables
aleatorias que denotan el n úmero de bolas blancas en las dos muestras. Calcule E(X|Y = i)
para i = 1, 2, 3, 4.

7. Sean X1 , X2 variables aleatorias independientes e id énticamente distribuidas N (0, 1). Sea


U independiente de X1 y X2 , y suponga que U distribuye uniforme en [0, 1]. Definamos
Z = U X1 + (1 − U )X2 .

a.- Encuentre la distribuci ón condicional de Z dado que U = u.

Aravena, del Pino, Quintana: PROBABILIDADES 205


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

b.- Encuentre E(Z) y V ar(Z).


c.- Encontrar la distribuci ón de Z.

8. La siguiente tabla nos da la distribuci ón conjunta de X e Y:

x/ y 1 2 3
1 1 1
1 4 8 8

1 1
2 0 4 12

1
3 0 0 6

a.- Encontrar Fx , Fy , Fy|x , Fx|y .


b.- Encontrar E(Y |X), E(X|Y ), Cov(X, Y ).

9. La densidad conjunta entre X e Y esta dada por :


−x
y e−y
e
fX,Y (x, y) = , 0 ≤ x ≤ ∞, 0 ≤ y ≤ ∞
y

Encuentre E(X 2 |Y = y).

10. Sea (X, Y ) con distribuci ón uniforme entre las rectas x + y = 1, y = 0, y la curva y = x2 .
Determine fX (x), fY (y), fX|Y (x|y), fY |X (y|x), y verifique que son densidades.

11. Suponga que X|Y = y ∼ N (y, 1) e Y ∼ N (0, 1).

a.- Calcule E(X) y V ar(X).


b.- Calcule ρ(X, Y )

12. Sean X e Y independientes con X ∼ Geom(p), Y ∼ Poisson(λ), y Z = X + Y . Calcule


E(X|Y ) y E(Y |Z).

13. Sean V |T = t ∼ U (0, t) y T con densidad

fT (t) = (r − 1)t−r 0 < t < 1; r ≤ 1.

a.- Determine fV (v).


b.- Determine fT |V =v (t|v).
c.- Determine E(T |V = v).

14. Sea X ∼ N (0, 1) e Y |X = x ∼ N (αx, 1 − α2 ), para 0 < α < 1. Encontrar E(Y ).



15. Sean X e Y i.i.d. con distribuci ón N (0, σ 2 ), y sea Z = X 2 + Y 2 . Obtenga las distribu-
ciones condicionales X|Z = z e Y |Z = z, y pruebe que E(X|Z) = E(Y |Z) = 0.

Aravena, del Pino, Quintana: PROBABILIDADES 206


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

16. Si (X, Y ) tiene funci ón densidad dada por:

e−y
fX,Y (x, y) = 0 ≤ x ≤ y, 0 ≤ y ≤ ∞,
y

determine E(X 3 |Y = y).

17. Una cierta l ámpara tiene una vida útil en horas cuya distribuci ón es exponencial de media
1. Una persona enciende dicha l ámpara y comienza a lanzar un dado equilibrado cada 15
segundos, continuando de esta manera mientras la l ámpara esté encendida. Obtenga el valor
esperado y la varianza del n úmero de ases que se obtiene antes que la l ámpara se apague.

18. Se tiene dos l ámparas cuyas vidas útiles son variables aleatorias i.i.d. con distribuci ón ex-
ponencial de media λ > 0. Suponiendo que ambas l ámparas se encienden simult áneamente,
denote por X el tiempo que transcurre hasta que la primera l ámpara se apague, e Y el tiempo
transcurrido hasta que la segunda l ámpara se apague (note que X ≤ Y ).

(a) Obtenga las distribuciones condicionales de Y dado que X = x, y de X dado que


Y = y.
(b) Calcule la esperanza y varianza condicional de cada una de las distribuciones en (a).

19. Suponga que el n úmero esperado de accidentes por semana en una planta industrial es 5.
Suponga tambi én que el n úmero de trabajadores heridos en cada accidente son variables
aleatorias independientes con media com ún de 2.5. Si el n úmero de trabajadores heridos en
cada accidente es independiente del n úmero de accidentes que ocurren, calcule el n úmero
esperado de trabajadores heridos.
Resp : 12, 5

20. Se dispone de dos urnas A y B, la primera contiene tres bolas rojas y dos bolas negras, la
segunda contiene tres bolas negras y dos bolas rojas. Se realiza el siguiente experimento :

(a) Se escoge al azar un n úmero entre 1 y 5, se saca igual cantidad de bolas de A y se


introducen en B.
(b) Si en (a) se transfirieron x bolas, entonces se escoge al azar un n úmero entre x y 5 + x,
y se saca igual cantidad de bolas de B, las que se introducen en A. Sean X e Y los
n úmeros respectivos de bolas transferidas en (a) y (b).

Calcule E(X), E(Y ), ρ(X, Y ). ¿Cu ál es la probabilidad que la configuraci ón de bolas al
terminar el experimento coincida con la inicial?

21. Sean X1 , X2 , . . . , Xn variables aleatorias i.i.d. con funci ón de distribuci ón continua F . Sea
X = max{X1 , . . . , Xn }.

(a) Demuestre que para todo k = 1, 2, . . . , n se tiene que


(
(n−1)F (x)
nF (t) si x < t
P (Xk ≤ x|X = t) =
1 si x ≥ t

Aravena, del Pino, Quintana: PROBABILIDADES 207


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

(b) Suponga que F es diferenciable. ¿Existe densidad condicional en (a)? ¿Por qu é?
(c) En el caso que F es la distribuci ón U (0, 1), calcule E(Xk |X) para k = 1, 2, . . . , n.

22. Sean X1 , X2 , X3 tres puntos escogidos en forma independiente y al azar en el intervalo


[0, 1]. Obtenga E(X(1) |X(2) , X(3) ), E(X(2) |X(1) , X(3) ) y E(X(3) |X(1) , X(2) ), en donde
X(1) , X(2) , X(3) son los estadı́sticos de orden correspondientes.

23. Suponga que X1 y X2 tienen distribuci ón conjunta normal bivariada tal que E(X1 |X2 ) =
3.7 − 0.15X2 , E(X2 |X1 ) = 0.4 − 0.6X1 y V ar(X2 |X1 ) = 3.64. Determine la media y la
varianza de X1 , la media y la varianza de X2 , y la correlaci ón entre X1 y X2 .

24. Sean X, Y con distribuci ón conjunta normal bivariada, y con

Q(x, y) = x2 + 2y 2 − xy − 3x − 2y + 4

a.- Escriba la densidad conjunta de X e Y .


b.- Obtenga E(Z) y V (Z) si Z = (X, Y )0 .
c.- Determine las densidades marginales de X e Y .
d.- Obtenga P (X < 3|Y = 2), y determine adem ás E(X|Y = y) y V ar(X|Y = y).

25. Si el mejor predictor de X dado Y coincide con E(X), ¿es necesariamente cierto que X e Y
son independientes?
Hint : Considere (X, Y ) con distribuci ón uniforme en el cı́rculo {(x, y) : x2 + y 2 ≤ 1}.

26. Pruebe que si X e Y son independientes y X posee densidad f X (x) entonces


Z ∞
P (X < Y ) = (1 − FY (x))fX (x)dx.
−∞

Aplique lo anterior al caso en que X tiene distribuci ón exponencial con par ámetro λ e Y ∼
U (0, λ), donde λ > 0.

27. Sean X e Y i.i.d. U (0, 1), y defina U = min{X, Y } y V = max{X, Y }.

(a) Obtenga la densidad condicional de U dado que V = v, y la densidad condicional de V


dado que U = u.
(b) Calcule E(U |V ) y E(V |U ).

28. Si X e Y son no correlacionadas, ¿es necesariamente cierto que el MP coincide con E(X)?
Hint : Considere Y ∼ U (−1, 1) y X = Y 2 .

29. Suponga que X|Z = z ∼ Poisson(z) y que Z ∼ Γ(α, 1), con densidad
(
1 α−1 e−z
Γ(α) z si z > 0
fZ (z) =
0 si no,

y en donde α > 0.

Aravena, del Pino, Quintana: PROBABILIDADES 208


´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON

(a) Demuestre que para k = 0, 1, 2, . . . se tiene


 k+α
Γ(k + α) 1
P (X = k) = .
Γ(a)Γ(k + 1) 2

(b) Usando métodos probabilı́sticos muestre que


∞  
X k+n−1 1
= 2n para n = 1, 2, . . .
n 2k
k=1

(Indicaci ón: Calcule E(X) de dos maneras distintas.)

30. Se escoge al azar un n úmero en el intervalo [0, 1]. Si el resultado es x, se procede a lanzar
n veces y en forma independiente una moneda cuya probabilidad de dar cara es x. Sea
Y la variable aleatoria que representa el n úmero de caras que se obtuvo al cabo de los n
lanzamientos.

(a) Calcule E(Y ) y V ar(Y ) sin calcular previamente la distribuci ón de Y .


(b) Repita (a) usando ahora la distribuci ón de Y .

Aravena, del Pino, Quintana: PROBABILIDADES 209


Cap´
ıtulo 6

Nociones de Convergencia y sus


Aplicaciones

6.1 Motivaci ón

Supongamos una moneda honesta se lanza repetidamente y en forma independiente. De acuerdo a


la interpretaci ón frecuentista de la probabilidad introducida en el Capı́tulo 1, la frecuencia relativa
del n úmero de caras (esto es, la proporci ón de veces que se obtuvo cara), debe oscilar en torno a
1/2, y de hecho, converge a este valor. Es decir, si

N úmero de caras en los primeros n ensayos


fn = ,
n
entonces lim fn = 1/2. Sin embargo, no hemos precisado en qu é sentido dicha convergencia ha
n→∞
de entenderse. De partida, note que fn se puede reescribir de la siguiente manera:
n
X1 + · · · + X n 1X
fn = = Xi ,
n n
i=1

donde Xi = 1 si se obtuvo cara en el i- ésimo lanzamiento, y 0 si no. Ası́, fn es una variable


aleatoria, de modo que se debe definir alguna noci ón de convergencia para variables aleatorias.
Surgen varias alternativas que iremos revisando en este Capı́tulo. Por ejemplo, y recordando que las
variables aleatorias son funciones a valores reales definidas en un cierto espacio muestral, es posible
considerar nociones de convergencia para una sucesi ón de funciones. Por otra parte, es tambi én
posible apelar al aspecto probabilı́stico de dichas variables, y ası́ definir nociones de convergencia
que utilicen su distribuci ón.
El aspecto formal del tratamiento de las nociones que definiremos involucra usualmente un alto
nivel de sofisticaci ón te órica que no ser á cubierta en este texto, de modo que nos centraremos m ás
en las aplicaciones.

210
´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

6.2 Definici ón de Nociones de Convergencia

Sea X1 , X2 , . . . una sucesi ón de variables aleatorias, definidas en un espacio muestral Ω com ún.
La sucesi ón se denotar á usualmente por {Xn }. Se definen a continuaci ón 4 tipos distintos de
convergencia.

Definici´
o n 6.2.1

(a) Se dice que {Xn } converge en distribuci ón a una variable aleatoria X, lo que se denota
D
Xn −→ X, si
lim FXn (x) = FX (x), (6.2.1)
n→∞
para todo x ∈ R tal que x es un punto de continuidad de F X .

(b) Se dice que {Xn } converge en probabilidad a una variable aleatoria X, lo que se denota
P
Xn −→ X, si
∀ > 0, lim P (|Xn − X| > ) = 0. (6.2.2)
n→∞

(c) Se dice que {Xn } converge en media cuadr ática a una variable aleatoria X, lo que se denota
m.c.
Xn −→ X, si
lim E{(Xn − X)2 } = 0. (6.2.3)
n→∞

(d) Se dice que {Xn } converge casi seguramente a una variable aleatoria X, lo que se denota
c.s.
Xn −→ X, si
P ({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1. (6.2.4)
n→∞

Estos tipos de convergencia se refieren a comportamiento asint ótico de la sucesi ón {Xn }, pero
en aspectos esencialmente diferentes. Ası́, la convergencia en distribuci ón (6.2.1) usa solamente la
funci ón de distribuci ón de las variables aleatorias. Puesto que no existe una identificaci ón entre una
variable aleatoria y su distribuci ón (por ejemplo, si X ∼ N (0, 1) entonces −X ∼ N (0, 1), pero
X 6= −X), este tipo de convergencia no usa los valores de las variables en cuesti ón, si no que las
probabilidades asociadas. El hecho que la convergencia de F Xn a FX se requiera s ólo para aquellos
puntos en que FX es continua, obedece a razones t écnicas.
En el otro extremo, la convergencia casi segura (6.2.4), tambi én llamada convergencia con
probabilidad 1, trata las variables aleatorias como funciones, y requiere que exista convergencia
puntual en un conjunto de puntos del espacio muestral cuya probabilidad es 1. En otras palabras,
la convergencia puntual no se cumple en un conjunto que, desde el punto de vista probabilı́stico, se
puede despreciar.
La convergencia en probabilidad (6.2.2) y en media cuadr ática (6.2.3) representan situaciones
intermedias, en que ambas, las variables aleatorias y su distribuci ón se combinan. La convergencia
en probabilidad requiere que la probabilidad que un elemento gen érico de la sucesi ón difiera del
lı́mite en una cantidad arbitrariamente peque ña converja a 0. Por otra parte, la convergencia en me-
dia cuadrática requiere que el error cuadr ático medio de predecir la variable lı́mite por un elemento
de la sucesi ón, sea asint óticamente 0.

Aravena, del Pino, Quintana: PROBABILIDADES 211


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Veremos ahora un resultado fundamental concerniente a las relaciones que existen entre estos
modos de convergencia.

Teorema 6.2.1 (Relaci o´n entre los Modos de Convergencia) Sean X, X1 , X2 , . . . variables ale-
atorias.
P D
(a) Si Xn −→ X, entonces Xn −→ X.
m.c. P
(b) Si Xn −→ X, entonces Xn −→ X.
c.s. P
(c) Si Xn −→ X, entonces Xn −→ X.

La demostraci ón de este resultado ser á omitida, por ser de caracter esencialmente t écnico. Sin
embargo, y como veremos en los ejemplos que siguen, las recı́procas de estos resultados son, en
general, falsas. Por otra parte, la convergencia en distribuci ón suele recibir el nombre alternativo de
convergencia d ébil, pues es implicada por todos los otros tipos de convergencia. En forma an áloga,
la convergencia casi segura, suele tambi én recibir el nombre de convergencia fuerte.

Ejemplo 6.2.1 Sea Xn ∼ Exp(λn ), donde {λn } es una sucesi ón de n úmeros positivos
tales que lim λn = 0. Observe que E(Xn ) = λn , de modo que se intuye que el
n→∞
lı́mite, en caso de existir, debe ser 0. Veamos en qu é sentido se produce esta potencial
convergencia a 0.
Note que FXn (x) = 1 − e−x/λn si x > 0, y 0 si no, de modo que para x > 0 se tiene
lim FXn (x) = lim (1 − e−x/λn ) = 1,
n→∞ n→∞

y lim FXn (x) = 0, si x < 0. Si X = 0, se tiene entonces que lim FXn (x) = FX (x),
n→∞ n→∞
para x 6= 0. El caso x = 0 es irrelevante, pues es precisamente el único punto de
D
discontinuidad de FX . Luego, Xn −→ X. Por otra parte, observe que para  > 0 se
tiene
P (|Xn − X| > ) = P (Xn > ) = e−/λn → 0,
P
si n → ∞, de modo que se concluye tambi én que Xn −→ X. En estricto rigor, este
último resultado implica la convergencia en distribuci ón, pero es ilustrativo, ocasio-
nalmente, mostrar algunas propiedades en forma directa. Pero eso no es todo. Note
que
E{(Xn − X)2 } = E(Xn2 ) = 2λ2n → 0,
m.c.
si n → ∞, ası́ que además se cumple que Xn −→ 0.
i.i.d.
Ejemplo 6.2.2 Sean X, X1 , X2 , . . . ∼ N (0, 1/2). Entonces, dado que FXn (x) =
D
FX (x) para cualquier x, se cumple en forma trivial que Xn −→ X. Sin embargo, note
que Xn − X ∼ N (0, 1), de modo que
P (|Xn − X| > ) = 2(1 − Φ()), n ≥ 1,
por lo que no hay convergencia en probabilidad, y en virtud del Teorema 6.2.1, tampoco
puede haber convergencia en media cuadr ática o casi segura.

Aravena, del Pino, Quintana: PROBABILIDADES 212


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Ejemplo 6.2.3 Sea Y ∼ U (0, 1), y defina para m = 0, 1, 2, . . . e i = 0, 1, . . . , 2 m − 1


los intervalos I2m +i = [i/2m , (i + 1)/2m ], y las variables aleatorias X1 , X2 , . . .

1 si Y ∈ In
Xn =
0 si no

Ası́, los intervalos In van en forma cı́clica cubriendo el intervalo [0, 1]. Es claro que
para cualquier ω ∈ Ω, hay una infinidad de valores de n tales que X n (ω) = 1, de
modo que puntualmente, Xn (ω) no converge a valor alguno. Sin embargo, si X = 0,
y 0 <  ≤ 1, entonces

P (|Xn − X| > ) = P (Xn > ) = P (Y ∈ In ) = largo de In ,


P
que converge a 0 cuando n → ∞, de modo que Xn −→ X. En forma similar, se
prueba que E(Xn2 ) → 0 cuando n → ∞, de modo que hay convergencia en media
cuadrática (y en probabilidad), pero no casi segura.

Ejemplo 6.2.4 Sea X con densidad

2x−3

si x > 1
fX (x) =
0 si no,

y sea In = [1, n + 1], para n ≥ 1. Defina Xn (ω) = X(ω) si X(ω) ∈ In , y Xn (ω) = 0


si no. Es claro que para cualquier ω ∈ Ω se cumple lim Xn (ω) = X(ω), de modo
n→∞
c.s. P
que Xn −→ X, y en particular, Xn −→ X. Por otra parte, note que

0 si 1 < X ≤ n + 1
Xn − X =
X si no,

de modo que
∞ ∞
2x2 2
Z Z
E{(Xn − X)2 } = dx = dx = ∞,
n+1 x3 n+1 x

y entonces no existe convergencia en media cuadr ática.

A pesar de lo evidenciado en estos ejemplos, hay un caso particular en que convergencia en


distribuci ón implica convergencia en probabilidad, como lo muestra el siguiente resultado.

D
Proposici o´n 6.2.1 Si {Xn } es una sucesi ón de variables aleatorias tales que Xn −→ c, una varia-
P
ble aleatoria constante, entonces Xn −→ c.

D
Demostraci o´n: Puesto que Xn −→ c, se tiene entonces que para x 6= c se cumple

1 si x > c
lim FXn (x) =
n→∞ 0 si x < c.

Aravena, del Pino, Quintana: PROBABILIDADES 213


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Por otra parte, dado  > 0 se tiene

P (|Xn − c| ≤ ) = P (c −  ≤ Xn ≤ c + ) ≥ P (c −  < Xn ≤ c + )
= FXn (c + ) − FXn (c − ) → 1 − 0 = 1,

cuando n → ∞, de donde se concluye que

P (|Xn − c| > ) = 1 − P (|Xn − c| ≤ ) → 0,


P
cuando n → ∞, y entonces Xn −→ X. 
En el caso particular de variables aleatorias discretas, se tiene la siguiente caracterizaci ón de la
convergencia en distribuci ón.

Proposici o´n 6.2.2 Sean X, X1 , X2 , . . . variables aleatorias discretas con valores en 0, 1, 2, . . .. En-
D
tonces Xn −→ X si y s ólo si lim pXn (k) = pX (k) para todo k = 0, 1, 2, . . ..
n→∞

Demostraci o´n: Se propone como ejercicio. 

Ejemplo 6.2.5 Si Xn ∼ Bin(n, pn ), donde lim npn = λ > 0, y lim pn = 0,


n→∞ n→∞
D
entonces el desarrollo que conduce a (3.10.12) muestra que X n −→ X, donde X ∼
Poisson(λ).

Como ya hemos visto en capı́tulos anteriores, se puede construir nuevas variables aleatorias
mediante transformaciones de aquellas disponibles. Esto es, si X es una variable aleatoria, y si
g : R −→ R es una funci ón continua, entonces g(X) es una variable aleatoria. Surge entonces la
siguiente pregunta. Si {Xn } converge a X en alg ún sentido, ¿es cierto que {g(Xn )} converge a
g(X) en ese (u otro) sentido? La respuesta est á dada por el siguiente resultado.

Proposici o´n 6.2.3 Sean X, X1 , X2 , . . . variables aleatorias, y sea g : R −→ R una funci ón conti-
nua.
D D
(a) Si Xn −→ X entonces g(Xn ) −→ g(X).
P P
(b) Si Xn −→ X entonces g(Xn ) −→ g(X).
c.s. c.s.
(c) Si Xn −→ X entonces g(Xn ) −→ g(X).

Observe que de acuerdo al resultado de la Proposici ón 6.2.3, la convergencia de sucesiones


de variables aleatorias no se altera debido a transformaciones continuas, excepto en el caso de la
convergencia en media cuadr ática. La raz ón que esto no funcione en dicho caso es f ácil de ver
mediante el siguiente contraejemplo, que es una ligera variaci ón del Ejemplo 6.2.4.

Aravena, del Pino, Quintana: PROBABILIDADES 214


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Ejemplo 6.2.6 Considere

3x−4

si x > 1
fX (x) =
0 si no,

y sea In = [1, n + 1], para n ≥ 1. Defina Xn (ω) = X(ω) si X(ω) ∈ In , y Xn (ω) = 0


c.s.
si no. El mismo tipo de razonamiento del Ejemplo 6.2.4 permite concluir que X n −→
X, de modo que si g(x) = x2 , que es una funci ón continua, entonces se obtiene que
c.s.
Xn2 −→ X 2 . Por otra parte, observe que
Z ∞
3x2 3
E{(Xn − X)2 } = 4
dx = →0
n+1 x n+1
m.c.
si n → ∞, de donde Xn −→ X. Sin embargo se puede comprobar que E({(Xn2 −
X 2 )2 }) = ∞ para cualquier n, por lo que no existe convergencia en media cuadr ática
para g(Xn ).

Ejemplo 6.2.7 Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón com ún
U (0, 1), y sea Yn = min{X1 , . . . , Xn }. Por (4.4.7), se tiene que

fYn (y) = n(1 − y)n−1 , 0 < y < 1.

Ası́, Yn ∼ Beta(1, n), por lo que E(Yn ) = 1/(n + 1), de modo que se sospecha que
en caso de existir el lı́mite de Yn , éste debiera ser 0. Dado 0 <  < 1, se tiene que
Z 1
P (Yn > ) = n(1 − y)n−1 dy = (1 − )n ,


y tomando lı́mite cuando n → ∞ se concluye que lim P (Yn > ) = 0. Puesto que si
n→∞
P
 > 1 se tiene P (Yn > ) = 0, hemos mostrado que Yn −→ 0. Consideremos ahora
Zn = nYn . Ya no es cierto que exista la misma convergencia anterior, pues ahora
E(Zn ) = n/(n + 1) → 1 si n → ∞. Veremos que Zn converge en distribuci ón a una
variable aleatoria Z ∼ Exp(1). Para ello, consideremos F Zn (z). Se tiene, para z > 0:

FZn (z) = P (Zn ≤ z) = P (nYn ≤ z) = P (Yn ≤ z/n)


= 1 − (1 − z/n)n −→ 1 − e−z
D
cuando n → ∞, de modo que Zn −→ Z ∼ Exp(1).

Veamos a continuaci ón c ómo se extienden estas nociones de convergencia al caso de vec-
tores aleatorios. Para ello, recordamos la definici ón de la norma euclidiana de un vector v =
(v1 , . . . , vk ) ∈ Rk : q
||v|| = v12 + v22 + · · · + vk2 .

o n 6.2.2 Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk , donde X n = (Xn1 , . . . , Xnk ) y


Definici´
X = (X1 , . . . , Xk ).

Aravena, del Pino, Quintana: PROBABILIDADES 215


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

P
(a) Se dice que X n converge en probabilidad a X si ||X n −X|| −→ 0, es decir, si para cualquier
 > 0 se cumple
lim P (||X n − X|| > ) = 0. (6.2.5)
n→∞

m.c.
(b) Se dice que X n converge en media cuadr ática a X si ||X n − X|| −→ 0, es decir, si

lim E{||X n − X||2 } = 0. (6.2.6)


n→∞

(c) Se dice que X n converge casi seguramente a X si

P ({ω ∈ Ω : lim Xni (ω) = Xi (ω), i = 1, . . . , k}) = 1. (6.2.7)


n→∞

Observaci o´n: Hemos diferido la discusi ón de la noci ón de convergencia en distribu-
ci ón de vectores aleatorios para una secci ón posterior, debido a varias complicaciones
técnicas que van m ás allá del ámbito de este libro. La Secci ón 6.4 discute este tema,
dando una caracterizaci ón muy útil y que permite evitar dichos problemas.

El siguiente resultado es útil para chequear convergencia en probabilidad, media cuadr ática y
casi segura de vectores aleatorios.

Proposici o´n 6.2.4 Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk , donde X n = (Xn1 , . . . , Xnk )


y con X = (X1 , . . . , Xk ). Entonces

P P
(a) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
m.c. m.c.
(b) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
c.s. c.s.
(c) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.

La Proposici ón 6.2.4 establece que para verificar los tipos de convergencia de vectores aleato-
rios, basta con mostrar que cada coordenada (que es una variable aleatoria), converge a la corres-
pondiente coordenada del vector lı́mite, y de acuerdo al tipo de convergencia adecuado.
La pr óxima secci ón retoma la idea planteada al comienzo de este capı́tulo, esta vez d ándole un
sentido formal.

6.3 Leyes de Grandes N úmeros

En términos intuitivos, las leyes de grandes n úmeros (LGN) establecen que si X1 , X2 , . . . constitu-
yen una muestra aleatoria de una cierta distribuci ón F (esto es, X1 , X2 , . . . son i.i.d. con distribu-
ci ón com ún F ), y si dicha distribuci ón posee valor esperado µ, entonces
n
1X
Xn = Xi −→ µ,
n
i=1

Aravena, del Pino, Quintana: PROBABILIDADES 216


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

en un sentido a especificar. Ası́, la LGN establece que la secuencia de medias aritm éticas de las
primeras n variables converge a la esperanza de la distribuci ón, que ciertamente coincide con la
esperanza de cualquiera de las variables en cuesti ón.
Hay dos tipos de LGN que estudiaremos aquı́: la ley débil (LDGN), y la ley fuerte (LFGN), que
establecen resultados de convergencia en probabilidad y casi segura, respectivamente. Comenzamos
esta discusi ón con el primer caso. Para ello, necesitamos un resultado previo.

Proposici o´n 6.3.1 (Desigualdad de Tchebyshev) Considere un real α > 0, y una variable aleato-
ria X.

(a) Si X es no negativa (esto es, P (X ≥ 0) = 1), y si E(X) es finita, entonces

E(X)
P (X ≥ α) ≤ . (6.3.1)
α

(b) Si Var(X) es finita, entonces

Var(X)
P (|X − E(X)| ≥ α) ≤ . (6.3.2)
α2

Demostraci o´n:

(a) Observe que


αI{X ≥ α} ≤ XI{X ≥ α} ≤ X,
y tomando valor esperado a cada lado de la desigualdad se obtiene

αP (X ≥ α) ≤ E(XI{X ≥ α}) ≤ E(X),

de donde αP (X ≥ α) ≤ E(X), lo que prueba el resultado.

(b) Note que


P (|X − E(X)| ≥ α) = P ((X − E(X))2 ≥ α2 ),
y el resultado se obtiene de aplicar (a) al lado derecho de esta última igualdad. 

La aplicaci ón fundamental de la Proposici ón 6.3.1 es el siguiente resultado.

Proposici o´n 6.3.2 (Ley d e´bil de Tchebyshev) Sean X1 , X2 , . . . variables aleatorias no correla-
cionadas (lo que significa Cov(Xi , Xj ) = 0 si i 6= j), con varianzas finitas y tales que existe
Pn
un n úmero M > 0 tal que Var(Xn ) ≤ M para todo n ≥ 1. Si Sn = Xi , entonces se cumple
i=1
que
Sn − E(Sn ) P
−→ 0.
n

Aravena, del Pino, Quintana: PROBABILIDADES 217


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Demostraci o´n: Puesto que las variables son no correlacionadas, se tiene que
n
X
Var(Sn ) = Var(Xi ) ≤ nM.
i=1

Luego, por la desigualdad de Tchebyshev (6.3.2) se tiene que para cualquier  > 0:
Var(Sn ) M
P (|Sn − E(Sn )| ≥ n) ≤ 2 2
≤ 2 −→ 0,
n  n
lo que prueba el resultado. 

Ejemplo 6.3.1 (Ley de Grandes N umeros´ de Bernoulli)


Considere un proceso de Bernoulli X1 , X2 , . . ., con probabilidad de éxito p. Se tiene
que Sn ∼ Bin(n, p), de modo que E(Sn ) = np. Además, Var(Xn ) = p(1 − p), de
modo que tomando M = p(1−p), y considerando que las variables son independientes
(en particular, no correlacionadas), las hip ótesis de la LDGN se cumplen, y se concluye
que
Sn − np P
−→ 0,
n
o equivalentemente,
Sn P
−→ p.
n
Aun cuando este resultado es una aplicaci ón directa de la Proposici ón 6.3.2, lo intere-
sante es que fue probado por Bernoulli en 1713, muchos a ños antes que Tchebyshev
publicara su resultado.

Veremos a continuaci ón la LFGN, resultado que se enuncia sin demostraci ón.

Proposici o´n 6.3.3 (Ley Fuerte de Kolmogorov)


Sean X1 , X2 , . . . variables aleatorias independientes e id énticamente distribuidas con E(|Xn |) <
∞, y E(Xn ) = µ. Entonces
Sn c.s.
−→ µ.
n

Observe que la LFGN, en contraste con la LDGN, no requiere existencia de la varianza de las
variables aleatorias, aun cuando el supuesto que éstas sean i.i.d. es fundamental

Ejemplo 6.3.2 En el Ejemplo 6.3.1, la convergencia en probabilidad de S n /n, es en


realidad casi segura. Esto es una consecuencia directa de la LFGN de Kolmogorov.

Ejemplo 6.3.3 (Funci o´n de distribuci o´n emp´ ı rica)


Considere una muestra aleatoria X1 , X2 , . . . de una cierta funci ón de distribuci ón F .
La funci ón de distribuci ón empı́rica de esta muestra se define mediante
N úmero de Xi que son ≤ x
F̂n (x) = .
n

Aravena, del Pino, Quintana: PROBABILIDADES 218


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Esta funci ón se puede interpretar como una aproximaci ón a la verdadera funci ón de
c.s.
distribuci ón F (x) = P (X ≤ x). Veamos que F̂n (x) −→ F (x). Para ello, defina las
variables Y1 , Y2 , . . .: 
1 si Xi ≤ x
Yi =
0 si no.
Se tiene que Y1 , Y2 , . . . es un proceso de Bernoulli, con probabilidad de éxito

p = P (Y1 = 1) = P (X1 ≤ x) = F (x).


n
P
Además, note que si Sn = Yi , entonces
i=1

Sn c.s.
F̂n (x) = −→ p = F (x),
n
de donde se tiene el resultado. En otras palabras, la funci ón de distribuci ón empı́rica
converge a la funci ón de distribuci ón F . Este resultado es útil para identificar la distri-
buci ón F cuando se dispone de una muestra de F , y F no se conoce. Esta situaci ón es
com ún en problemas de Estadı́stica.

Ejemplo 6.3.4 (Aproximaci o´n de una integral)


Considere una funci ón f (x) a valores reales, continua, definida en un intervalo [a, b],
Rb
y suponga que interesa calcular I = a f (x)dx. Para ello utilizaremos el siguiente
procedimiento. Supongamos en primer instancia que f (x) ≥ 0 para a ≤ x ≤ b. Sea
M > 0 un n úmero real tal que f (x) ≤ M para todo x ∈ [a, b]. Tal n úmero existe,
pues cualquier funci ón continua es acotada sobre intervalos cerrados. Ası́, el gráfico
de la funci ón queda comprendido en el rect ángulo [a, b] × [0, M ] (ver Figura 6.3.1).
Sean (U11 , U12 ), (U21 , U22 ), . . . vectores aleatorios i.i.d. con distribuci ón uniforme en
el rectángulo [a, b] × [0, M ] (note que ello implica que Ui1 es independiente de Ui2
para todo i ≥ 1), y defina las variables aleatorias X1 , X2 , . . . mediante

1 si f (Ui1 ) > Ui2
Xi =
0 si no.

Ası́, la variable Xi toma el valor 1 si el punto U i = (Ui1 , Ui2 ) está por debajo del gr áfi-
co de la curva y = f (x), y toma el valor 0 si no. Puesto que los vectores U 1 , U 2 , . . .
son i.i.d., X1 , X2 , . . . es un proceso de Bernoulli con probabilidad de éxito p dada por
p = P (X1 = 1). Para calcular dicha probabilidad, notemos que la densidad conjunta
de U 1 es
1
fU11 ,U12 (u11 , u12 ) = , si (u11 , u12 ) ∈ [a, b] × [0, M ].
M (b − a)

Luego,
Z bZ f (u11 ) b
1 1 I
Z
p= du12 du11 = f (u11 )du11 = .
a 0 M (b − a) M (b − a) a M (b − a)

Aravena, del Pino, Quintana: PROBABILIDADES 219


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

f(x)

0
a b x

Figura 6.3.1: Aproximaci ón de una integral, correspondiente al área bajo la curva y = f (x), entre
a y b.

Luego, de la LFGN se deduce que


X1 + X2 + · · · + Xn c.s. I
−→ ,
n M (b − a)
o equivalentemente,
M (b − a)(X1 + X2 + · · · + Xn ) c.s.
−→ I.
n
Este resultado sugiere el siguiente m étodo para aproximar una integral del tipo de I:

• Generar una gran cantidad de puntos al azar en el rect ángulo [a, b] × [0, M ].
• Calcular la fracci ón de puntos que cae bajo el gr áfico de la curva y = f (x).
• Dicha fracci ón coincide con (X1 + · · · + Xn )/n, y multiplicada por M (b − a),
es una aproximaci ón a I

La calidad de dicha aproximaci ón ciertamente depender á de la cantidad de puntos que


se utilice, y adem ás de cuan cerca est é M de la cantidad max f (x). Volveremos a
a≤x≤b
este punto en la Secci ón 6.5.
Puesto que virtualmente todos los paquetes estadı́sticos, y muchos lenguajes de pro-
gramaci ón poseen rutinas para generar n úmeros aleatorios, el m étodo se puede imple-
mentar fácilmente.
Por último, si la funci ón f (x) no es positiva, entonces consideramos la funci ón g(x) =
Rb
f (x) − m, donde m = min{f (x) : a ≤ x ≤ b}. Ası́, I = m(b − a) + a g(x)dx, y
el método se aplica a g(x).

Aravena, del Pino, Quintana: PROBABILIDADES 220


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Ejemplo 6.3.5 Sean X1 , X2 , . . . i.i.d. con distribuci ón com ún uniforme en el intervalo
[0, 1], y considere la sucesi ón Y1 , Y2 , . . ., con

n
!1
Y n

Yn = Xi .
i=1

Yn recibe el nombre de media geom étrica de X1 , . . . , Xn . Calculemos el lı́mite casi se-


guro de {Yn }. Note que Yn no tiene la forma de un promedio de variables aleatorias, de
modo que la LFGN no se puede aplicar directamente. Sin embargo, si Z n = log(Yn ),
entonces
log(X1 ) + log(X2 ) + · · · + log(Xn )
Zn = ,
n
la que tiene la forma apropiada. Adem ás, por lo hecho en el Ejemplo 3.9.3, se tiene que
− log(X1 ) ∼ Exp(1), de donde se sigue que E(log(X1 )) = −1. Por otra parte, las
variables aleatorias log(X1 ), log(X2 ), . . . son i.i.d., y la LFGN permite concluir que
c.s.
Zn −→ E(log(X1 )) = −1.
c.s.
Pero Yn = exp(Zn ), y por la Proposici ón 6.2.3(c) se obtiene Yn −→ e−1 .

6.4 Funci ón Caracterı́stica y Convergencia en Distribuci ón

Retomamos aquı́ el estudio de la noci ón de convergencia en distribuci ón. En la Secci ón 3.8.3
vimos que existe una correspondencia uno a uno entre la distribuci ón de una variable aleatoria X y
su funci ón caracterı́stica ϕX (t). Tomando este hecho en consideraci ón, es intuitivo pensar que debe
existir alguna relaci ón entre la convergencia en distribuci ón de la sucesi ón {Xn }, y la sucesi ón de
funciones caracterı́sticas {ϕXn (t)}. Similares argumentos se pueden aplicar al caso de vectores
aleatorios.
La respuesta a esta inquietud est á dada por el siguiente resultado.

D
Teorema 6.4.1 Sean X, X1 , X2 variables aleatorias. Entonces, Xn −→ X si y s ólo si se cumple
que lim ϕXn (t) = ϕX (t) para todo t ∈ R.
n→∞

Este resultado es en realidad una caracterizaci ón de la convergencia en distribuci ón. De hecho,
lo utilizaremos como una definici ón de convergencia para el caso de vectores aleatorios.

Definici´o n 6.4.1 Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk . Diremos que {X n } converge en


distribuci ón a X si para cualquier t ∈ Rk se tiene que lim ϕX n (t) = ϕX (t).
n→∞

Existe una caracterizaci ón alternativa de convergencia en distribuci ón de vectores aleatorios,
que damos a continuaci ón.

Aravena, del Pino, Quintana: PROBABILIDADES 221


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Teorema 6.4.2 (Cram e´r-Wold)


D
Sean X n = (Xn1 , . . . , Xnk ) y X = (X1 , . . . , Xk ) vectores aleatorios en Rk . Entonces X n −→ X
si y s ólo si para cualquier t = (t1 , . . . , tk ) ∈ Rk se cumple
D
t1 Xn1 + · · · + tk Xnk −→ t1 X1 + · · · + tk Xk ,

cuando n → ∞.

Este resultado hace uso del hecho que la distribuci ón de un vector aleatorio queda determinada
por la distribuci ón de todas las combinaciones lineales posibles de sus coordenadas.
La siguiente variaci ón del Teorema 6.4.1 resulta ser muy útil para establecer convergencia en
distribuci ón de una sucesi ón de vectores aleatorios.

Teorema 6.4.3 (Paul L e´vy)


Sean X 1 , X 2 , . . . vectores aleatorios definidos en Rk , con funciones caracterı́sticas respectivas
ϕX 1 (t), ϕX 2 (t), . . .. Si ϕX n (t) converge puntualmente a un lı́mite ϕ(t), y si ϕ(t) es continua en
t = 0, entonces

D
(a) Existe un vector aleatorio X tal que X n −→ X, y

(b) ϕ(t) es la funci ón caracterı́stica de X.

El Teorema 6.4.3 tambi én vale para el caso particular k = 1, es decir, para variables aleatorias.
Veamos a continuaci ón algunas aplicaciones de estos resultados.

Ejemplo 6.4.1 Si Xn ∼ N (µn , σn2 ), donde {µn } y {σn2 } son sucesiones convergentes
D
a µ y σ 2 > 0 respectivamente, entonces Xn −→ X ∼ N (µ, σ 2 ). En efecto, tenemos
que ϕXn (t) = exp(iµn t − t2 σn2 /2), y tomando lı́mite, se encuentra que ϕXn (t) con-
verge a ϕ(t) = exp(iµt − t2 σ 2 /2). Puesto que este lı́mite es claramente una funci ón
continua en t = 0 (m ás aun, es continua en todo t ∈ R), el Teorema 6.4.3 asegura la
D
existencia de una variable aleatoria X tal que Xn −→ X. Pero puesto que el mismo
Teorema garantiza que ϕX (t) = ϕ(t), y ϕ(t) es la funci ón caracterı́stica de una va-
riable aleatoria con distribuci ón N (µ, σ 2 ), el resultado se tiene por la correspondencia
uno a uno entre la distribuci ón de una variable aleatoria y su funci ón caracterı́stica.

Ejemplo 6.4.2 El resultado del Ejemplo 6.4.1 se puede generalizar a vectores aleato-
rios. Si X n ∼ Nk (µn , Σn ), con lim µn = µ y lim Σn = Σ, donde Σ es semi-
n→∞ n→∞
D
definida positiva, entonces X n −→ X ∼ Nk (µ, Σ). Los detalles son muy parecidos
a los del Ejemplo 6.4.1, y se proponen como ejercicio.

Ejemplo 6.4.3 Sean X1 , X2 , . . . i.i.d. con P (Xk = 1) = P (Xk = −1) = 1/2.


n
Xk /2k es una variable
P
Vamos a probar que el lı́mite en distribuci ón de Yn =
k=1

Aravena, del Pino, Quintana: PROBABILIDADES 222


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

aleatoria Y ∼ U (−1, 1). Para ello, note que

eit + e−it
ϕXk (t) = E(eitXk ) =
2
cos(t) + i sin(t) + cos(−t) + i sin(−t) 2 cos(t)
= =
2 2
= cos(t).

Ası́, se tiene que


n
Y n
Y
ϕYn (t) = ϕXk /2k (t) = cos(t/2k ).
k=1 k=1

Por otra parte, notemos que de la identidad sin(2t) = 2 sin(t) cos(t) se concluye que

sin(t/2k−1 )
cos(t/2k ) = ,
2 sin(t/2k )

para k = 1, 2, . . .. Luego,
n
Y sin(t/2k−1 ) sin(t)
ϕYn (t) = k
= n ,
2 sin(t/2 ) 2 sin(t/2n )
k=1

y recordando que lim sin(x)/x = 1, vemos que


x→0

sin(t)
lim ϕYn (t) = .
n→∞ t
Notemos que este lı́mite se puede definir como 1 para t = 0, caso en el que la funci ón
resultante es continua en 0 (recuerde que cualquier funci ón caracterı́stica evaluada en
t = 0 vale 1). Sea ahora Y ∼ U (−1, 1), y calculemos su funci ón caracterı́stica. Se
tiene
Z 1 Z 1
1 1 1 1
Z
ϕY (t) = cos(tx) dx + i sin(tx) dx = cos(tx)dx
−1 2 −1 2 2 −1
sin(t) − sin(−t) sin(t)
= = ,
2t t
que coincide con el lı́mite de ϕYn (t). En virtud del Teorema 6.4.3, hemos mostrado
D
que Yn −→ Y ∼ U (−1, 1).

Para terminar esta secci ón, veremos dos resultados adicionales de convergencia en distribuci ón,
los que resultan ser muy útiles en una variedad de aplicaciones.

Teorema 6.4.4 (Scheff e´)


Sean X, X 1 , X 2 , . . . vectores aleatorios en Rk , con densidades respectivas f (x), f1 (x), f2 (x), . . ..
D
Si para todo x ∈ Rk se cumple lim fn (x) = f (x), entonces X n −→ X.
n→∞

Aravena, del Pino, Quintana: PROBABILIDADES 223


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

En otras palabras, el Teorema 6.4.4 establece que si la sucesi ón de densidades converge pun-
tualmente a una cierta densidad, entonces existe convergencia en distribuci ón. Por otra parte, no es
necesario que la convergencia ocurra para absolutamente todos los puntos x ∈ R k , pudiendo ésta
no verificarse en un conjunto numerable de puntos en R k .

Ejemplo 6.4.4 En el Ejemplo 6.2.7 se mostr ó que Zn = n min{X1 , . . . , Xn } con-


verge en distribuci ón a una cierta variable aleatoria Z con distribuci ón exponencial
de media 1, usando la Definici ón 6.2.1(a). Veamos ahora lo mismo usando el Teore-
ma 6.4.4. Puesto que FZn (z) = 1 − (1 − z/n)n , entonces

fZn (z) = (1 − z/n)n−1 , 0 < z/n < 1,

de donde se tiene que

lim fZn (z) = e−z , z > 0,


n→∞

que corresponde a la densidad de Z.


Definamos ahora Wn = n(1 − max{X1 , . . . , Xn }). Por (4.4.8), y usando la transfor-
maci ón g(x) = n(1 − x), se tiene que

fWn (w) = (1 − w/n)n−1 , 0 < w/n < 1,


D
y por el argumento anterior, se concluye que Wn −→ W ∼ Exp(1). Veamos ahora
qué sucede con la distribuci ón conjunta de (Zn , Wn ). Por lo hecho en el Ejemplo 4.4.8,
y usando el cambio de variables g(x, y) = (nx, n(1 − y)), se tiene que
(
n(n−1)
n2
(1 − nz − w
n)
n−2 si 0 ≤ z < 1 − w < 1
n n
fZn ,Wn (z, w) =
0 si no.

Tomando lı́mite, se tiene que esta densidad conjunta converge a

fZ,W (z, w) = e−z−w , z, w > 0,


D
y se concluye que (Zn , Wn ) −→ (Z, W ), donde Z y W son i.i.d. con distribuci ón
exponencial de media 1.

Teorema 6.4.5 (Slutsky)


D P
Sean X, X1 , X2 , . . . e Y1 , Y2 , . . . variables aleatorias tales que Xn −→ X e Yn −→ c, donde c es
una constante. Entonces:
D
(a) Xn + Yn −→ X + c.
D
(b) Xn − Yn −→ X − c.
D
(c) Yn Xn −→ cX.

Aravena, del Pino, Quintana: PROBABILIDADES 224


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

(d) Si c 6= 0 y P (Yn 6= 0) = 1,
Xn D X
−→ .
Yn c

El Teorema 6.4.5 se usa fundamentalmente para construir nuevas sucesiones de variables ale-
atorias que convergen en distribuci ón a partir de casos en que se conozca dicha convergencia pre-
viamente. Este resultado se usa habitualmente en combinaci ón con el Teorema Central del Lı́mite,
tema de nuestra pr óxima secci ón.

6.5 El Teorema Central del Lı́mite

Hemos dejado para esta última secci ón uno de los resultados fundamentales de la Teorı́a de Pro-
babilidades. Hasta ahora hemos visto en la Secci ón 6.3 que promedios de variables aleatorias i.i.d.
con valor esperado finito µ, convergen a µ. Este resultado permite justificar una interpretaci ón de
probabilidad desde un punto de vista frecuentista, es decir, las probabilidades se pueden concebir
como lı́mites de frecuencias relativas de eventos, si el experimento en cuesti ón se repite indefinida-
mente en forma independiente y siempre bajo las mismas condiciones. Sin embargo, las Leyes de
Grandes N úmeros no establecen cuan cerca est á – en términos de probabilidades – este promedio
de variables aleatorias del valor µ al que converge. En otras palabras, serı́a deseable saber cu ál es
la probabilidad que este promedio difiera de µ en menos que una cantidad prefijada δ > 0.
Establecemos a continuaci ón el resultado b ásico que nos permite calcular (al menos aproxi-
madamente) probabilidades como las descritas en el p árrafo anterior, del que veremos primero la
versi ón univariada.

Teorema 6.5.1 (Teorema Central del L´ ı mite (TCL))


Sean X1 , X2 , . . . variables aleatorias i.i.d., con E(X1 ) = µ y Var(X1 ) = σ 2 > 0. Entonces se
tiene que √
n(X n − µ) D
Zn = −→ Z ∼ N (0, 1). (6.5.1)
σ

Demostraci o´n: Supondremos en primer lugar que µ = 0 y σ = 1. En este caso, Z n = nX n ,
y debemos probar que Zn converge en distribuci ón a una variable aleatoria Z con distribuci ón
N (0, 1). Para ello, usaremos el Teorema 6.4.3, en virtud del que basta probar que la sucesi ón
2
n
de funciones caracterı́sticas {ϕZn (t)} converge para todo t a e−t /2 . Si Sn =
P
Xj , entonces
j=1
X n = Sn /n. Por la independencia de X1 , X2 , . . . se tiene
n
Y
ϕSn (t) = ϕXj (t) = ϕ(t)n ,
j=1

donde ϕ(t) = ϕX1 (t). Luego,


√ n
ϕZn (t) = ϕSn /√n (t) = ϕ(t/ n) .

Aravena, del Pino, Quintana: PROBABILIDADES 225


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Puesto que E(X12 ) < ∞, es posible probar (no lo haremos) que su funci ón caracterı́stica (que
hemos denotado ϕ(t)), posee dos derivadas continuas. Luego, podemos hacer un desarrollo en serie
de Taylor de orden 2, para obtener

t2
ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (θ(t)) · ,
2
donde |θ(t)| ≤ |t|. Luego,

t2 t2
ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (0) · + e(t),
2 2
donde e(t) = ϕ00 (θ(t)) − ϕ00 (0), y e(t) → 0 cuando t → 0. Por otra parte, y usando propiedades
de funciones caracterı́sticas, se tiene que ϕ(0) = 1, ϕ0 (0) = iµ = 0 y ϕ00 (0) = i2 E(X12 ) =
−E(X12 ) = −1. Por lo tanto,
t2 t2 e(t)
ϕ(t) = 1 − + ,
2 2
de donde se deduce que
√ n  n
t2 t2 e(t/ n) t2  √

ϕZn (t) = 1 − + = 1− 1 − e(t/ n) .
2n 2n 2n

El resultado se obtiene directamente, una vez que se prueba que si {c n } es una sucesi ón de n úmeros
complejos tales que cn → c cuando n → ∞ entonces
 cn  n
1+ → ec ,
n
lo cual se propone como ejercicio. Finalmente, para el caso general µ ∈ R y σ 2 > 0, defina
Xn − µ
Yn = ,
σ

de modo que Zn = nY n , y lo hecho recientemente se aplica a las variables aleatorias (i.i.d.)
Y1 , Y2 , . . .. 
Uno de los aspectos m ás interesantes del Teorema 6.5.1 es que la convergencia vale cualquiera
que sea la distribuci ón original de las variables aleatorias involucradas. Por ejemplo, no hace falta
que las variables sean continuas, la convergencia tambi én vale para variables aleatorias discretas,
aun cuando es necesario tener cierto cuidado en aproximar distribuciones discretas por una normal.
Veamos algunas aplicaciones del TCL.

Ejemplo 6.5.1 Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón N (µ, σ 2 ).
El TCL establece entonces que

n(X n − µ) D
Zn = −→ Z ∼ N (0, 1).
σ
Sin embargo, en este caso particular, dicha convergencia es trivial, pues se tiene que la
distribuci ón exacta de Zn es N (0, 1).

Aravena, del Pino, Quintana: PROBABILIDADES 226


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Supongamos ahora que µ = 0. La LFGN establece que

X12 + · · · + Xn2 c.s.


−→ E(X12 ) = σ 2 .
n
n
1
Además, Var(X1 ) = 2σ 4 (ver Ejemplo 3.8.9), de modo que si Y n =
P
n Xk , el
k=1
TCL implica que √
n(Y n − σ 2 ) D
√ −→ Z ∼ N (0, 1).
2σ 2
Además, usando el Teorema 6.4.5, es f ácil ver que

n(Y n − σ 2 ) D
√ −→ Z ∼ N (0, 1).
Yn 2
Luego, si δ > 0 se tiene que
 √ √
n(Y n − σ 2 )

2 nδ
P (|Y n − σ | < δ) = P √ < √
Yn 2 Yn 2
 √ 

≈ P |Z| < √
Yn 2
 √ 

= 2Φ √ − 1,
Yn 2

de modo que dado el valor de δ > 0, y conocido el valor de Y n (a partir de una muestra
de tama ño n) el valor de P (|Y n − σ 2 | < δ) se puede aproximar. Por ejemplo, si
n = 100, δ = 1 e Y n = 2.7, la probabilidad se aproxima por 0.991179. Note que para
realizar este cálculo, no se requiere conocer el valor de σ 2 .

Ejemplo 6.5.2 Supongamos que X1 , X2 , . . . , X100 son i.i.d. con distribuci ón expo-
nencial de media 5, y calculemos aproximadamente P (S 100 > 600), donde S100 =
100
P
Xk . Tenemos que E(X1 ) = 5, Var(X1 ) = 25, de modo que la variable Z100 en
k=1
(6.5.1) se transforma en

10(X 100 − 5)
Z100 = = 2(X 100 − 5),
5
la que tiene distribuci ón aproximadamente N (0, 1). Ahora,

P (S100 > 600) = P (X 100 > 6) = P (2(X 100 − 5) > 2 ∗ (6 − 5))


≈ P (Z > 2),

donde Z ∼ N (0, 1), y usando las tablas adecuadas, se puede obtener que

P (S100 > 600) ≈ P (Z > 2) = 0.0228.

Aravena, del Pino, Quintana: PROBABILIDADES 227


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Por otra parte, y recordando que S100 ∼ Γ(100, 5), la probabilidad exacta se expresa
mediante Z ∞ 99 −x/5
x e
100
dx,
600 99! 5
y mediante integraci ón numérica se obtiene que este valor es 0.0279, de modo que la
aproximaci ón es razonablemente buena.

Es claro que la calidad de aproximaciones basadas en el Teorema 6.5.1 dependen del valor de
n. Para tener una mejor idea al respecto, el siguiente resultado es útil.

Teorema 6.5.2 (Berry-Ess e´en)


Bajo las hip ótesis del Teorema 6.5.1, y si Gn (t) = P (Zn ≤ t), donde Zn fue definida en (6.5.1),
entonces se tiene la siguiente cota:

33 E(|X1 − µ|3 )
sup |Gn (t) − Φ(t)| ≤ √ , ∀n. (6.5.2)
t∈R 4 σ3 n

En la práctica, esta cota resulta ser casi siempre muy difı́cil de calcular. No obstante, lo inte-
resante del resultado es que el m áximo posible error cometido en las aproximaciones es del orden
de n−1/2 . Para visualizar un poco mejor esta aproximaci ón, note que el Teorema 6.5.1 implica que
para n grande, la distribuci ón de X n es aproximadamente N (µ, σ 2 /n). A este efecto, se generaron
en un computador 1000 muestras de tama ño n = 100 cada una, de la distribuci ón exponencial con
media 5, tal como en el Ejemplo 6.5.2. Por cada muestra se obtuvo el promedio de los valores ge-
1 1000
nerados en dicha muestra, los que designamos por X , . . . , X , y cuya distribuci ón aproximada
es N (5, 1/4). Estos valores se usaron para construir un histograma, y la funci ón de distribuci ón
empı́rica (ver Ejemplo 6.3.3), los que se muestran en la Figura 6.5.2. El histograma se construy ó de
modo que la suma de las área de las distintas barras sea igual a 1, de modo que la figura que se
obtiene es una aproximaci ón a la densidad N (5, 1/4), que aparece representada en lı́nea continua.
Por otra parte, la funci ón de distribuci ón empı́rica (lı́nea punteada) es una aproximaci ón a FY (y),
donde Y ∼ N (5, 1/4) (lı́nea continua). Se aprecia que la aproximaci ón es, en términos generales,
bastante buena.

Ejemplo 6.5.3 (Aproximando la distribuci o´n Binomial)


En el Ejemplo 6.2.5 se mostr ó que si X ∼ Bin(n, pn ) con npn → λ > 0, entonces
la distribuci ón de X se puede aproximar por la distribuci ón de Poisson con par ámetro
λ, provisto que n es grande. Consideremos ahora el siguiente enfoque alternativo.
Sean Y1 , Y2 , . . . , Yn i.i.d. con distribuci ón Bernoulli de par ámetro pn . Entonces la
Pn
distribuci ón de Y = Yk coincide con la de X. Puesto que E(Y1 ) = pn y Var(Y1 ) =
k=1
pn (1 − pn ), el Teorema Central del Lı́mite implica que la distribuci ón de Y es tambi én
aproximadamente N (npn , npn (1 − pn )). Puesto que npn ≈ λ, se deduce que Y tiene
distribuci ón N (λ, λ), aproximadamente, donde hemos despreciado el t érmino np2n .
Ahora bien, en el momento de aproximar probabilidades binomiales (m ás generalmen-
te, aquellas provenientes de distribuciones discretas) mediante la distribuci ón normal,

Aravena, del Pino, Quintana: PROBABILIDADES 228


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Funcion de Distribucion Empirica y Acumulada


0.8 1.0

0.8
Histograma y Densidad

0.6

0.6
0.4
0.4

0.2
0.2

0.0 0.0

3 4 5 6 7 3 4 5 6 7

Valores Simulados Valore Simulados

Figura 6.5.2: Distribuci ón del promedio de 100 variables aleatorias i.i.d. con distribuci ón exponen-
cial de media 5, y aproximaci ón normal mediante Teorema Central del Lı́mite.

es necesario tener el siguiente cuidado. Si X ∼ Bin(n, pn ), entonces P (X = 2) es


una cantidad positiva (aun cuando su valor puede ser despreciable en ciertos casos).
Puesto que X tiene distribuci ón aproximadamente igual a la de Y ∼ N (λ, λ), al usar
esta aproximaci ón nos encontramos con que P (Y = 2) = 0, pues Y es continua, y
esto sucede para cualquier otro valor particular de inter és. Para corregir este problema
se usa la llamada correcci ón de continuidad, que consiste en aproximar P (X = k)
mediante P (k − 12 < Y < k + 12 ), es decir,
! !
k + 12 − λ k − 12 − λ
P (X = k) ≈ Φ √ −Φ √ . (6.5.3)
λ λ

En otras palabras, se asume que el punto k representa el intervalo [k − 12 , k + 12 ] para


la distribuci ón normal, al momento de usar la aproximaci ón.
A modo de ejemplo, consideremos el caso n = 100, p n = 0.05, con lo que λ = npn =

Aravena, del Pino, Quintana: PROBABILIDADES 229


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES
Probabilidades Binomiales; Aproximacion Poisson y Normal

Binomial
Poisson
0.15
Normal

0.10

0.05

0.0

0 5 10 15

Figura 6.5.3: Aproximaciones Poisson(5) y N (5, 5) a la distribuci ón Bin(100, 0.05).

5. La Figura 6.5.3 muestra las probabilidades exactas correspondientes a dicha distribu-


ci ón, ası́ como las aproximaciones derivadas de la distribuci ón de Poisson y Normal,
como se detall ó anteriormente. Es claro que la aproximaci ón Poisson es superior a
la Normal para este caso. Sin embargo, la aproximaci ón Normal es usualmente m ás
simple de calcular, y su precisi ón aumenta a medida que n crece.

Veamos ahora la extensi ón multivariada del Teorema 6.5.1.

Teorema 6.5.3 (Teorema Central del L´ ı mite Multivariado)


Sean X 1 , X 2 , . . . vectores aleatorios i.i.d. en Rk , con E(X 1 ) = µ y V (X 1 ) = Σ, donde µ ∈ Rk
y Σ es una matriz definida positiva. Entonces
√ D
Zn = n(X n − µ) −→ Z ∼ Nk (0, Σ), (6.5.4)
n
1 P
donde X n = n X k , y la suma se interpreta coordenada a coordenada.
k=1

Aravena, del Pino, Quintana: PROBABILIDADES 230


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Ejemplo 6.5.4 Sean Y1 , Y2 , . . . variables aleatorias i.i.d. con distribuci ón N (µ, σ 2 ),
donde µ ∈ R y σ 2 > 0. Defina los vectores X 1 , X 2 , . . . en R2 mediante
 
Yk
Xk = .
Yk2

Se tiene que E(Yk ) = µ, E(Yk2 ) = Var(Yk ) + (E(Yk ))2 , de modo que


 
µ
E(Y k ) = .
σ 2 + µ2

Por otra parte, se tiene que E(Yk3 ) = µ3 + 3µσ 2 y además E(Yk4 ) = 3σ 4 + 6σ 2 µ2 + µ4


(verificar esto como ejercicio). Luego,

Cov(Yk , Yk2 ) = E(Yk3 ) − E(Yk )E(Yk2 ) = µ3 + 3µσ 2 − µ(µ2 + σ 2 ) = 2µσ 2 ,

y además

Var(Yk2 ) = E(Yk4 ) − (E(Yk2 ))2 = 3σ 4 + 6σ 2 µ2 + µ4 − (µ2 + σ 2 )2 = 2σ 4 + 4µ2 σ 2 ,

y por lo tanto se tiene que

σ2 2µσ 2
 
Σ = V (X k ) = .
2µσ 2σ + 4µ2 σ 2
2 4

Luego, el Teorema 6.5.4 asegura que


n
  
1 P
 Y 
√  n k=1 k 
   
µ

D
n  n
 − 2 + σ2 −→ N2 (0, Σ).


 1 P
Yk2
 µ 

 n 
k=1

Para finalizar esta secci ón, veamos otro resultado muy útil para verificar convergencia en distri-
buci ón de funciones de promedios de variables o vectores aleatorios.

Teorema 6.5.4 (M e´todo Delta)


Sea {X n } una sucesi ón de vectores aleatorios en Rk tales que
√ D
n(X n − µ) −→ Nk (0, Σ),

y sea g : Rk → R una funci ón continuamente diferenciable en x = µ. Entonces


√ D
n(g(X n ) − g(µ)) −→ N (0, ∇g(µ)0 Σ∇g(µ)),

donde ∇g(x) es el vector (columna) de derivadas parciales de primer orden (o gradiente) de g


evaluado en x = µ.

Nota: Si k = 1, esto es, en el caso univariado, entonces la varianza de la distribuci ón lı́mite normal
es σ 2 (g 0 (µ))2 .

Aravena, del Pino, Quintana: PROBABILIDADES 231


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

Ejemplo 6.5.5 Sean X1 , X2 , . . . i.i.d. con distribuci ón de Poisson con par ámetro λ >
0. Por el Teorema 6.5.1 se tiene que
√ D
n(X n − λ) −→ N (0, λ).

Sea g(x) = x, la que es continuamente diferenciable en x = λ. Puesto que g 0 (λ) =
λ−1/2 , se concluye en virtud del Teorema 6.5.4, con k = 1,

q √ D
n( X n − λ) −→ N (0, 1/4),

y observe que la distribuci ón lı́mite no depende de λ.

Ejemplo 6.5.6 En el Ejemplo 6.5.4, defina


n
1X
σ̂n2 = (Yk − Y n )2 .
n
k=1

Es sencillo verificar que


n
1X 2
σ̂n2 = Yk − (Y n )2 ,
n
k=1

de modo que por la LFGN se tiene que


c.s.
σ̂n2 −→ µ2 + σ 2 − (µ)2 = σ 2 .

Para obtener la distribuci ón lı́mite (asint ótica) de σ̂n2 considere la funci ón g(x, y) =
n n
y − x2 . Note que g(µ, µ2 + σ 2 ) = σ 2 . Además, se tiene que g( n1 Yk , n1 Yk2 ) =
P P
k=1 k=1
σ̂n2 , y  
−2x
∇g(x, y) = ,
1
por lo que es fácil verificar que

∇g(µ, µ2 + σ 2 )0 Σ∇g(µ, µ2 + σ 2 ) = 2σ 4 ,

y por lo tanto hemos mostrado que


√ D
n(σ̂n2 − σ 2 ) −→ N (0, 2σ 4 ).

Aravena, del Pino, Quintana: PROBABILIDADES 232


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

6.6 Problemas

1. En este problema se le pide verificar directamente el Teorema Central del Lı́mite en algunos
casos particulares, utilizando la convergencia de la f.g.m. a la de la distribuci ón N (0, 1).
Sean X1 , . . . , Xn iid con funci ón generadora de momentos M (t) y Xi ∼ F con media µ y
varianza σ 2 . Para cada uno de los siguientes casos: (i) F = N (a, b2 ) (ii) F = Exp(λ) (iii)
F ∼ Poisson(λ) (iv) F ∼ Bin(n, p):
n
P
a.- Encuentre la f.g.m. de Sn = Xi y de X n .
i=1
S√
n −nµ
√ X n −µ
b.- Encuentre la f.g.m. Mn (t) de Zn = = n( σ ).
nσ 2
t2
c.- Verifique que Mn (t) tiende a e 2 , cuando n → ∞.

2. Una máquina empaquetadora de detergentes ha sido observada durante un largo tiempo, a


través del cual se determin ó que la varianza del peso de llenado es σ 2 = 10 gramos. Por otra
parte el peso medio de llenado µ, depende del ajuste hecho a la m áquina por cada operador.

a.- Si mientras labora un mismo operador se realizan 25 observaciones, calcule aproxima-


damente la probabilidad que el peso medio observado se aleje en menos de 1 gramo de
la media real de la m áquina.
b.- ¿Cuántas observaciones deben realizarse para asegurar que la probabilidad que lo mis-
mo ocurra sea al menos 0.95?.
Resp : a)0.88 b)39

3. Suponga que dos dados se lanzan 600 veces. Sea X el n úmero de veces en que se obtiene
una suma de 7. Use el teorema central del lı́mite para aproximar P (90 < X < 110).
Resp. : 0.726.

4. Si X1 , . . . , X20 son variables aleatorias iid Poisson con media 1, use el teorema central del
20
P
lı́mite para aproximar P ( Xi > 15).
i=1

5. Sean X1 , X2 , . . . variables aleatorias i.i.d. con E(X1 ) = 0 y V ar(X1 ) = σ 2 , donde 0 <


σ 2 < ∞. Sean Y1 , Y2 , . . . variables aleatorias i.i.d. tales que E(Y1 ) = µ, donde µ es un
n úmero real. Si Un = X1 +···+X
n
n
y Vn = Y1 +···+Y
n
n
, pruebe que

Un + nVn −→ N (µ, σ 2 )

en distribuci ón cuando n → ∞.

6. Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón Poisson(λ). Encuentre el lı́mite
en probabilidad de
X 2 + · · · Xn2
Yn = 1 .
n
¿Existe convergencia casi segura?

Aravena, del Pino, Quintana: PROBABILIDADES 233


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

7. Sean X1 , X2 , . . . variables aleatorias tales que E(Xn ) → α y V ar(Xn ) → 0. Pruebe que


P
Xn −→ α.

8. Sean X1 , X2 , . . . variables aleatorias independientes con X1 = 0, y tales que para j ≥ 2 se


tiene  −3
j si k = ±1, ±2, . . . , ±j
P (Xj = k) = −2
1 − 2j si k = 0.
Demuestre que si α > 1/2
n
1 X P
Xj −→ 0

j=1

j
k 2 = 16 j(j + 1)(2j + 1).)
P
cuando n −→ ∞. (Indicaci ón: Use el hecho que
k=1

9. Sean X1 , X2 , . . . independientes con distribuci ón com ún N (0, 1). Calcule el lı́mite casi
seguro de
X12 + · · · Xn2
.
(X1 − 1)2 + · · · + (Xn − 1)2

10. Sean X1 , X2 , . . . variables aleatorias i.i.d. con X1 ∼ U (0, θ) donde θ > 0. Demuestre que
√ n
D
Yn = 3n{log(2n−1
P
Xi ) − log(θ)} −→ Y , con Y ∼ N (0, 1).
i=1

11. Sean X1 , X2 , . . . variables aleatorias i.i.d. con E(X1 ) = 0 y E(X12 ) = 2. Encuentre el lı́mite
en distribuci ón de las siguientes secuencias:

(a) Y1 , Y2 , . . . donde √
n(X1 + · · · Xn )
Yn = .
X12 + · · · Xn2
(b) Z1 , Z2 , . . . donde
X1 + · · · X n
Zn = p 2 .
X1 + · · · Xn2
D D
12. (a) Suponga que Xn −→ N (0, 1), Yn −→ N (0, 1) y que, para todo n, Xn sea indepen-
D
diente de Yn . Muestre que Xn + Yn −→ N (0, 2).
D D
(b) Generalice el resultado de (a), probando que si Xn −→ F , Yn −→ G, con Xn indepen-
D
diente de Yn para todo n, entonces Xn + Yn −→ Z, donde la distribuci ón de Z coincide
con la de X + Y tales que X e Y sean independientes y verificando X ∼ F e Y ∼ G.
Indicaci ón: Use funciones caracterı́sticas.

13. Sean X1 , X2 , . . . e Y1 , Y2 , . . . dos secuencias de variables aleatorias i.i.d. y tales que los X j
son independientes de los Yk . Suponga que E(X1 ) = µX , V ar(X1 ) = σX 2 , E(Y ) = µ y
1 Y
2
V ar(Y1 ) = σY . Sea

 
Yn µY
Zn = n − ,
X n µX

Aravena, del Pino, Quintana: PROBABILIDADES 234


´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES

donde
X1 + · · · + X n Y1 + · · · + Y n
Xn = e Yn = .
n n
(a) Encuentre el lı́mite en distribuci ón de Zn , usando el Teorema Central del Lı́mite biva-
riado aplicado a (X1 , Y1 ), (X2 , Y2 ), . . ., y el método delta.
(b) Repita (a) usando ahora el hecho que


 
µX Y n − µ Y X n
Zn = n ,
µX X n
y el resultado del ejercicio anterior.

14. Sean X, X1 , X2 , . . . e Y1 , Y2 , . . . variables aleatorias verificando P (Xn = 0) = 0 = P (X =


D P
0), Xn −→ X e Yn −→ c, donde c es una constante. Demuestre que

Yn D c
−→ .
Xn X

15. En el Ejemplo 6.5.6, determine la distribuci ón asint ótica de



 
σ̂n σ
n − ,
Yn µ
suponiendo que µ 6= 0.

Aravena, del Pino, Quintana: PROBABILIDADES 235


Pontificia Universidad Católica de Chile
Facultad de Matemáticas
Departamento de Estadística

Cálculo Combinatorial

Guido del Pino M.

1 Introducción

El propósito de este apéndice es entregar algunas elementos de cálculo combinatorial. Las pregun-
tas básicas son extremadamente sencillas de plantear: ¿De cuántas maneras se puede obtener un
resultado?, o ¿Cuántas configuraciones de cierto tipo hay? Si bien en términos abstractos esto se
reduce a determinar la cardinalidad de un conjunto, esta tarea puede ser virtualmente imposible
de realizar, aún con la ayuda de un computador. En casos sencillos la solución descansa en la
construcción de una lista exhaustiva y sin repeticiones. La dificultad reside en que la naturaleza
de los elementos del conjunto no están claramente definidos y que el conjunto se describe de una
manera indirecta.

Recordemos que la cardinalidad de un conjunto no cambia al aplicar una transformación uno a


uno. De hecho, el principio básico para encontrar la cardinalidad de un conjunto es encontrar una
correspondencia biunı́voca entre él y otro conjunto, cuya cardinalidad sea más fácil de determinar.
En el cálculo combinatorial aparece una multiplicidad aplastante de fórmulas. Ellas se deducen a
partir de ciertos modelos concretos, aplicando algunos principios sencillos. En particular, esto da
fundamento a la resolución de problemas por analogı́a con estos modelos concretos.

2 Un ejemplo numérico

Para fijar las ideas es muy útil desarrollar en detalle un ejemplo sencillo, en que sea posible con-
feccionar listados exhaustivos. De hecho, la organización mental que requiere confeccionar la lista
arroja pistas para resolver el problema.

Consideramos una urna con 6 fichas, rotuladas por las letras a,b,c,d,e,f. Se extraen 3 fichas de esta
urna e interesa (a) Hacer un listado de los resultados posibles (b) Determinar cuantos resultados
posibles hay.

Una primera opción consiste en escribir un resultado como una sucesión de 3 letras adyacentes,
por ejemplo, bca. El Cuadro 1 entrega un listado completo, que debe leerse columna por columna,
el que cuenta con 216 elementos. Si se impone la condición de que la muestra sea sin reposición,
las letras no pueden repetirse. Una manera de ordenar los resultados es borrar del Cuadro 1 los
resultados con letras repetidas. Esto se muestra en el Cuadro 2, la que tiene 120 entradas. Por

1
otra parte, puede que no queramos tomar en cuenta el orden en que aparecen los elementos en
la muestra. Nuevamente podemos lograr esto borrando las entradas redundantes de las tablas
anteriores, luego de recorrer las tablas en orden. Se obtienen ası́ los Cuadros 3 y 4, que tienen 56
y 20 resultados respectivamente.

Claramente esta estrategia no es factible si la urna tiene 20 fichas y se hacen 10 extracciones. Sin
embargo, las tablas sugieren lo siguiente:

• Conviene ordenar los elementos de la urna – en este caso las letras – y luego ordenar las ternas
lexicográficamente. En el Cuadro 1 se hace variar más rápidamente la tercera componente y
más lentamente la primera. Si las letras a ... f se reemplazan por los dı́gitos del 0 al 5, el
orden lexicográfico coincide con el orden natural de los números.

• Cada entrada en el Cuadro 3 corresponde a un conjunto de entradas en el Cuadro 1. Los


tamaños de estos conjuntos pueden ser 1, 3 o 6, de acuerdo con el número de letras repetidas.
Por ejemplo, aaa 7→ {aaa}, aab 7→ {aab, aba, baa}, abc 7→ {abc, acb, bac, bca, cab, cba}.

• Cada entrada en el Cuadro 4 corresponde a un conjunto de entradas en el Cuadro 2. El


tamaño de estos conjuntos es constante e igual a 6, lo que permite relacionar los tamaños 120
y 20 de las listas respectivas.

• La relación de diferir sólo en el orden es una relación de equivalencia. Ella establece una
partición, cuyos elementos son los conjuntos de entradas mencionados en los puntos anteriores.
El uso de uno de los elementos de la clase de equivalencia para representar a la clase es un
procedimiento estándar, que es justamente el empleado para construir las tablas 3 y 4.

Anticipamos los resultados generales para entregar fórmulas que explican como obtener los números
216, 120, 56 y 20, sin necesidad de efectuar un recuento. Es inmediato adivinar cómo las fórmulas
se extienden a un número arbitrario de fichas y extracciones.

Caso Número de muestras


Ordenada con reposición 6 × 6 × 6 = 216
Ordenada sin reposición 6 × 5 × 4 = 120
6×7×8
No ordenada con reposición 3×2×1 = 56
6×5×4
No ordenada sin reposición 3×2×1 = 20

2
aaa baa caa daa eaa faa
aab bab cab dab eab fab
aac bac cac dac eac fac
aad bad cad dad ead fad
aae bae cae dae eae fae
aaf baf caf daf eaf faf
aba abb cba dba eba fba
abb bbb cbb dbb ebb fbb
abc bbc cbc dbc ebc fbc
abd bbd cbd dbd ebd fbd
abe bbe cbe dbe ebe fbe
abf bbf cbf dbf ebf fbf
aca bca cca dca eca fca
acb bcb ccb dcb ecb fcb
acc bcc ccc dcc ecc fcc
acd bcd ccd dcd ecd fcd
ace bce cce dce ece fce
acf bcf ccf dcf ecf fcf
ada bda cda dda eda fda
adb bdb cdb ddb edb fdb
adc bdc cdc ddc edc fdc
add bdd cdd ddd edd fdd
ade bde cde dde ede fde
adf bdf cdf ddf edf fdf
aea bea cea dea eea fea
aeb beb ceb deb eeb feb
aec bec cec dec eec fec
aed bed ced ded eed fed
aee bee cee dee eee fee
aef bef cef def eef fef
afa bfa cfa dfa efa ffa
afb bfb cfb dfb efb ffb
afc bfc cfc dfc efc ffc
afd bfd cfd dfd efd ffd
afe bfe cfe dfe efe ffe
aff bff cff dff eff fff
36 36 36 36 36 36

Tabla 1: 216 muestras ordenadas con reposición

3
cab dab eab fab
bac dac eac fac
bad cad ead fad
bae cae dae fae
baf caf daf eaf
cba dba eba fba

abc dbc ebc fbc


abd cbd ebd fbd
abe cbe dbe fbe
abf cbf dbf ebf
bca dca eca fca
acb dcb ecb fcb

acd bcd ecd fcd


ace bce dce fce
acf bcf dcf ecf

bda cda eda fda


adb cdb edb fdb
adc bdc edc fdc

ade bde cde fde


adf bdf cdf edf
bea cea dea fea
aeb ceb deb feb
aec bec dec fec
aed bed ced fed

aef bef cef def


bfa cfa dfa efa
afb cfb dfb efb
afc bfc dfc efc
afd bfd cfd efd
afe bfe cfe dfe
20 20 20 20 20 20

Tabla 2: 120 Muestras ordenadas sin reposición

4
aaa
aab
aac
aad
aae
aaf

abb bbb
abc bbc
abd bbd
abe bbe
abf bbf

acc bcc ccc


acd bcd ccd
ace bce cce
acf bcf ccf

add bdd cdd ddd


ade bde cde dde
adf bdf cdf ddf

aee bee cee dee eee


aef bef cef def eef

aff bff cff dff eff fff


21 15 10 6 3 1

Tabla 3: 56 muestras no ordenadas con reposición

5
abc
abd
abe
abf

acd bcd
ace bce
acf bcf

ade bde cde


adf bdf cdf

aef bef cef def

10 6 3 1 0 0

Tabla 4: 20 Muestras no ordenadas sin reposición

6
Supongamos ahora que la urna contiene las 5 letras a,b,c,d,e y que se extraen 5 fichas sin reposición.
Por enumeración exhaustiva se obtienen 120 muestras ordenadas de tamaño 5, las que aparecen
en el Cuadro 5. El orden de cada columna es lexicográfico. Los arreglos de las últimas cuatro
columnas se obtienen permutando cı́clicamente las letras de los 24 arreglos de la primera columna,
todos los cuales empiezan con la letra a. Ellos están en correspondencia uno a uno con los arreglos
formados al eliminar esta primera letra común, por ejemplo, bcde y bced para las primeras dos
filas. Una lista de estos 24 arreglos aparece en el Cuadro 6

abcde bcdea cdeab deabc eabcd


abced bceda cedab edabc dabce
abdce bdcea dceab ceabd eabdc
abdec bdeca decab ecabd cabde
abecd becda ecdab cdabe dabec
abedc bedca edcab dcabe cabed
acbde cbdea bdeac deacb eacbd
acdbe cdbea dbeac beacd eacdb
acdeb cdeba debac ebacd bacde
acebd cebda ebdac bdace bdace
acedb cedba edbac dbace baced
adbce dbcea bcead eadbc eadbc
adbec dbeca becad ecadb cadbe
adcbe dcbea cbead beadc eadcb
adceb dceba cebad ebadc badce
adebc debca ebcadad bcade cadeb
adecb decba ecbad cbade badec
aebcd ebcda bcdae cdaeb daebc
aebdc ebdca bdcae dcaeb caebd
aecbd ecbda cbdae bdaec daecb
aecdb ecdba cdbae dbaec baecd
aedbc edbca dbcae bcaed caedb
aedcb edcba dcbae cbaed baedc
24 24 24 24 24

Tabla 5: 120 permutaciones de 5 elementos

bcde bced bdce bdec becd bedc 6


cbde cbed cdbe cdeb cebd cedb 6
dbce dbec dcbe dceb adebc decb 6
ebcd ebdc ecbd ecdb edbc edcb 6

Tabla 6: 6 Permutaciones de 4 elementos

7
ordenado no ordenado
m×(m+1)×···×(m+k−1)
m × m × · · · × m = mk = m+k−1

con reposición 1×2×···×k k

m×(m−1)×···×(m−k+1) m
m×(m−1)×· · ·×(m−k+1)=m[k]

sin reposición 1×2×···×k = k

Tabla 7: Fórmulas para modelo de urna

3 Modelos de urnas y de casilleros

3.1 Modelo de Urna

Supongamos se extraen k fichas de una urna que contiene m fichas. Si miramos esto como un
experimento, una pregunta natural es cuántos resultados posibles hay. Decimos que el resultado es
una muestra de tamaño k, de una población de tamaño m. El proceso de selección de la muestra
se denomina muestreo.

No se puede decir cuantas muestras posibles hay sin información adicional, la que se solicita a partir
de dos preguntas:

• ¿Se distingue entre dos muestras que sólo difieran en el orden? Por ejemplo, si las fichas
extraidas consecutivamente son b, c y a, necesitamos saber si este resultado se considera
distinto de aquel en que se obtienen a, b y c, en ese orden. Si la respuesta a la pregunta
general es positiva decimos que las muestras son ordenadas.
• ¿Puede una ficha extraida de la urna aparecer en futuras extracciones? En este caso decimos
que el muestreo es con reposición, aunque es frecuente utilizar palabras alternativas como
devolución, restitución, o reemplazo.

Cabe hacer notar que en el muestreo sin reposición la muestra obtenida se puede describir como la
respuesta a las dos preguntas siguientes (i) ¿Qué fichas aparecen en la muestra? (ii) ¿En qué orden
aparecen estas k fichas? En el caso especial k = m la respuesta a (i) es única, de modo que el
número de muestras ordenadas coincide con el número de maneras de ordenar o permutar las n
fichas de la urna. Obviamente este número coincide con el número de permutaciones de n objetos.

El Cuadro 7 entrega fórmulas explı́citas para cada uno de los cuatro casos. Como corolario, el
número de permutaciones de m objetos es m!.

3.2 Modelo de Bola en Casilleros

Supongamos nos interesa saber de cuántas maneras se pueden distribuir k bolas en m casilleros. La
respuesta es la misma que si nos interesan las maneras en que k bolas pueden ocupar m casilleros.
Esta última interpretación da a problemas de este tipo el nombre de problemas de ocupación. En
Fı́sica las bolas representan partı́culas atómicas y los casilleros los diferentes estados en que estas
partı́culas pueden estar.

8
Al igual que en el caso de la urna, no es posible responder la pregunta sin plantear dos preguntas
previas:

• ¿Se distinguen las bolas entre sı́? Si la respuesta es positiva, se dice que las bolas son dis-
tinguibles. Fı́sicamente esto puede hacerse suponiendo que las bolas son de distinto color,
están numeradas, o tienen asignada una etiqueta. En este caso el resultado debe determi-
nar explı́citamente cuales bolas son ubicadas (caen) en cada casillero. Cuando las bolas son
indistinguibles, sólo interesa saber cuantas caen en cada casillero.

• ¿Se permiten múltiples bolas en algún casillero? De la Fı́sica proviene el uso del término
exclusión. Si la presencia de una bola en un casillero impide que otra bola lo ocupe, decimos
que la distribución de bolas es con exclusión, dado que la presencia de una bola excluye la
posibilidad que otra bola lo ocupe. El nombre viene del Principio de Exclusión de Pauli, que
se usa en Fı́sica Atómica. Permitir múltiples bolas equivale a una distribución sin exclusión.
Hacemos notar que si k > m, entonces es necesario aceptar múltiples bolas. Por otra parte,
k < m garantiza que hayan casilleros vacı́os.

Para k = m, una asignación que no admita múltiples bolas por casillero asigna exactamente una
bola a cada uno. Si las bolas tienen etiquetas numeradas de 1 a m, por ejemplo, esto equivale a una
permutación de las etiquetas, lo que se puede hacer de m! maneras. El Cuadro 8 entrega fórmulas
explı́citas para cada uno de los cuatro casos.

bolas distinguibles bolas indistinguibles


m×(m+1)×···×(m+k−1)
= m+k−1

a lo más una bola m × m × · · · × m = mk 1×2×···×k k
por casillero

m×(m−1)×···×(m−k+1)
= m

sin restricción m×(m−1)×· · ·×(m−k+1)=m[k] 1×2×···×k k

Tabla 8: Fórmulas para modelo de bolas en casilleros

4 Arreglos y combinaciones

4.1 Definiciones

A k elementos puestos en sucesión se lo denomina un arreglo de largo k. Formalmente escribimos


esto como una k-tupla ordenada x = (x1 , . . . , xk ). Decimos que el elemento xi aparece en la posición
i. Nos interesa acá el caso particular cuando los xi pertenecen a un conjunto arbitrario A = (aj , j =
1, 2, . . . , m) de cardinalidad m. Asignaremos también etiquetas distintas a cada posición, denotando
por bi aquella asignada a la i-ésima posición. De esta forma el arreglo se puede identificar como
una función de B = {bi , i = 1, . . . , m} en A. Para k = m un arreglo sin repetición se llama también
permutación.

Cuando i 6= j ⇒ xi 6= xj se dice que x es un arreglo sin repetición. Por simetrı́a se denomina a


un arreglo cualquiera arreglo con repetición, en el entendido que las repeticiones sean forzosas. Los

9
arreglos sin repetición se pueden identificar con las funciones uno a uno de B en A. El término
combinación, por sı́ sólo, significa habitualmente combinación sin repetición.

Mirando al arreglo como una lista, es natural discutir si dos listas que sólo difieren en el orden de sus
elementos se consideran distintas o no (para efecto de contarlas). Cuando la respuesta es negativa,
lo que se cuenta no son los arreglos, sino ciertas clases de arreglos denominados combinaciones,
heredándose el calificativo de sin repetición o con repetición. Formalmente las combinaciones se
identifican con clases de equivalencia formada por arreglos. Por comodidad se suele usar uno de los
elementos de esta clase para representar la combinación, como se ilustra en las tablas 3 y 4. Dos
arreglos son equivalentes si se puede obtener uno a partir del otro permutando las posiciones.

Si decimos que estos arreglos son equivalentes, las combinaciones coinciden entonces con las clases
de equivalencia inducida por esta relación, las que constituyen una partición de un conjunto de
arreglos. Por ejemplo, la permutación 123456 7→ 415362 transforma (a, a, b, c, c, c) en (c, a, c, b, c, a),
de modo que estos arreglos son equivalentes, correspondiendo a una misma combinación.

La admisión o no de repeticiones, ası́ como el uso o no del orden, está asociado con el enunciado
del problema. Por ejemplo, si los objetos son palabras de largo k escritas con m letras el orden es
claramente fundamental. La posibilidad de usar una letra más de una vez corresponde al concepto
de repetición.

Si se lanza k veces un dado o se lanzan k dados simultáneamente, los resultados posibles son
equivalentes siempre que los dados sean distinguibles. Por ejemplo, si hay k = 3 dados de colores
rojo, azul y blanco, basta enumerar los colores, por ejemplo, rojo=1, azul= 2 y blanco =3, el arreglo
(2, 5, 3) se asocia a que el dado rojo muestre 2, el azul muestre 5 y el blanco muestre 3. Si se lanza
un dado tres veces, el arreglo representa los resultados consecutivos. Es claro que se debe admitir
repeticiones.

Es importante señalar que la distinguibilidad de los dados es, en general, un problema conceptual
más que un problema fı́sico. Por ejemplo, si en un juego de Póquer se lanzan 5 dados de distintos
colores, el efecto práctico de estos colores es nulo. Por otra parte, en problemas probabilı́sticos es
difı́cil pensar que pintar a los dados de colores distintos pueda afectar la probabilidad de un suceso
determinado, como obtener un par y un trı́o. Se demuestra en teorı́a de la probabilidad que lo
apropiado es considerar que los arreglos de largo k son los equiprobables. El problema se reduce a
encontrar la cardinalidad de un subconjunto de arreglos definido por ciertas condiciones.

Es útil en combinatoria pensar en un dado virtual de m caras. Por ejemplo, una moneda corresponde
a m = 2 y una ruleta estándar a m = 38. Para m cualquiera, este dado virtual se puede realizar a
través de extracciones sucesivas, con reposición, de una urna con m fichas.

4.2 Caracterización por números de repeticiones

Una caracterización más cómoda es asumir que dos arreglos son equivalentes si contienen los mismos
elementos, y cada uno de estos elementos aparece repetido el mismo número de veces en cada
arreglo. Sea (a1 , a2 , . . . , am ) una enumeración de A, sea Ej = {i/xi = aj } el conjunto de posiciones
que ocupa aj en el arreglo x y sea nj su cardinalidad. Notemos que Ej puede ser vacı́o, en cuyo
caso nj = 0. Dos arreglos son equivalentes si comparten el vector n = (n1 , n2 , . . . , nm ). Esto
quiere decir que n representa la clase de equivalencia a la que pertenece un arreglo, es decir la

10
combinación correspondiente. Por lo tanto, el conjunto de combinaciones de k entre m elementos
está en correspondencia biunı́voca con
m
X
N CREP = {n/ni ≥ 0, i = 1, . . . , m, ni = k} (4.1)
i=1

cuando ellas admiten repeticiones, y con


m
X
N SREP = {n/ni ∈ {0, 1}, i = 1, . . . , m, ni = k} (4.2)
i=1

cuando ellos son sin repetición. En consecuencia, el número de combinaciones es card N CREP
cuando ellas son con repetición y card N SREP cuando ellas son sin repetición.

4.3 Caracterización por productos

Una manera general de eliminar el orden automáticamente y, al mismo tiempo, determinar n es


m
Q
representar a x por xi . Esto se debe simplemente a que el orden de los factores no altera el
i=1
producto. Pero
m m
n
Y Y
xi = aj j
i=1 j=1

Por ejemplo, si el conjunto de elementos es {a, b, c, d}, el arreglo cacbca genera a2 bc3 = a2 b1 c3 d0 , y
los exponentes 2, 1, 3, 0 son los ni .

4.4 Combinaciones sin repetición y subconjuntos

En el caso de un arreglo sin repetición, n está en correspondencia uno a uno con el conjunto
{x1 , . . . , xk }, de modo que una combinación está determinada por el conjunto {x1 , . . . , xk }. Por lo
tanto, el número de estas combinaciones es igual al número de subconjuntos de tamaño k de un
conjunto de tamaño m.

4.5 Notaciones

La siguiente tabla ilustra la correspondencia entre las diversas notaciones.

Conjunto Tipo de Descripción Descripción


objeto usual alternativa
{a, b, c, d} arreglo aabccc ({1, 2}, {3}, {4, 5, 6}, φ)
{a, b, c, d} arreglo cacbca ({2, 6}, {4}, {1, 3, 5}, φ)
{a, b, c, d, e, f } arreglo cea ({3}, φ, {1}, φ, {3}, φ)
{a, b, c, d} combinación aabccc = a2 bc3 (2, 1, 3, 0)
{a, b, c, d, e, f } combinación {a, c, e} (1, 0, 1, 0, 1, 0)

11
4.6 Reduciendo combinaciones con repetición a combinaciones sin repetición

Las combinaciones con repetición se pueden reducir a combinaciones sin repetición mediante un
truco sencillo pero ingenioso. Este consiste en asociar con el vector n de la combinación con
repetición un vector binario N , de acuerdo a la regla que se describe a continuación.

Supongamos se desea saber cuántas combinaciones sin orden y con repetición como an1 1 · · · anmm
existen. Ası́, de los m posibles elementos, se desea una muestra de tamaño k = n1 + · · · + nm .
Para ello, consideramos inicialmente un arreglo con m ceros. A continuación, intercalamos ni
unos antes del i-ésimo cero, y finalmente eliminamos el último elemento de este arreglo, que es
siempre 0. Por ejemplo, a n = (2, 1, 3, 0), que corresponde a la combinación con repetición a2 bc3 ,
se le asocia (1, 1, 0, 1, 0, 1, 1, 1, 0), a ac2 d3 se le asocia N = (1, 0, 0, 1, 1, 0, 1, 1, 1), mientras que
N = (0, 1, 1, 1, 1, 0, 1, 1, 0) proviene de n = (0, 4, 2, 0), el que a su vez corresponde a la combinación
con repetición b4 c2 . Para simplificar la escritura se puede omitir las comas y los paréntesis. Ası́, a
a2 bc3 , ac2 d3 y b4 c2 , le asociamos 110101110, 100110111 y 011110110, respectivamente.

De este modo, N se puede interpretar como el vector correspondiente a una combinación sin
repetición de k unos de un conjunto de m + k − 1 ceros y unos. Las fórmulas correspondientes se
muestran en el Cuadro 9.

arreglos combinaciones
m×(m+1)×···×(m+k−1) m+k−1
m × m × · · · × m = mk

con repetición 1×2×···×k = k

m×(m−1)×···×(m−k+1)
m×(m−1)×· · ·×(m−k+1)=m[k] = m

sin repetición 1×2×···×k k

Tabla 9: Fórmulas para arreglos y combinaciones

5 Equivalencia de los modelos

Sea (aj , j = 1, . . . , m) una enumeración de A, sea bi , i = 1, . . . , k la etiqueta asociada a la i-ésima


posición, y sea B = {bi , i = 1, . . . , k}. Un arreglo de largo k es x ∈ Ak , o bien la función de B en
A que a bi le asigna ai .

Se establece una correspondencia entre el problema de contar arreglos y combinaciones con el de


contar muestras o distribuciones de bolas. Esto explica que las tablas construidas para cada una
de estas situaciones son idénticas, excepto por los encabezamientos de las filas y columnas, como
se muestra en el Cuadro 10

6 Principios Básicos

La acción de contar es tan básica que es difı́cil a veces detectar cual es la lógica subyacente. La
suma y la multiplicación (que es una suma repetida) de números naturales son las operaciones

12
Muestras de una población
m Tamaño de la población.
k Tamaño de la muestra.
a1 , a2 , . . . , am Elementos de la población.
bi Etiqueta de i-ésima extracción.
xi Resultado de la i-ésima extracción.
nj Número de veces que aparece aj en la muestra.
Sin repetición Sin reposición.
Arreglo Muestra ordenada.
Combinación Muestra no ordenada.
Bolas en casilleros
m Número de casilleros.
k Número de bolas.
a1 , a2 , . . . , am Etiquetas de casilleros.
bi Etiqueta de la i-ésima bola.
xi Casillero que ocupa la bola bi .
nj Número de bolas en casillero aj .
Sin repetición A lo más 1 bola por casillero.
Arreglo Distribución de bolas distinguibles en casilleros.

Tabla 10: Equivalencia de modelos

fundamentales. La aplicación de ellas a problemas de combinatoria da origen a las llamadas reglas


aditiva y multiplicativa.

6.1 Regla Aditiva

r
P
La notación A = Ai significa que (A1 , . . . , Ar ) es una partición ordenada de A, es decir, los
i=1
conjuntos Ai son disjuntos y su unión es igual a A. Con esta notación podemos enunciar:
r
X r
X
card Ai = card Ai . (6.1)
i=1 i=1

6.2 Representación por árboles y regla multiplicativa

Sea x = (x1 , . . . , xk ) ∈ S1 × S2 × · · · × Sk . Cualquier subconjunto Ω de S1 × S2 × · · · × Sk se


puede definir recursivamente, indicando que valores puede tomar xi para valores dados de las
componentes previas. Denotamos a este conjunto por Si (x1 , . . . , xi−1 ), para i = 2, . . . , k. Sin
pérdida de generalidad podemos suponer que el conjunto de valores posibles para x1 es S1 (en caso
contrario redefinimos S1 ). Esta definición recursiva permite asociar con cada x ∈ Ω la rama de un
árbol, de modo que la cardinalidad de Ω puede encontrarse contando las ramas del árbol asociado
con Ω.

Todas las ramas parten de un origen O. La rama que corresponde a x pasa sucesivamente por k

13
nodos. El i-ésimo nodo (o nodo de orden i) está en correspondencia con el único camino que lo
conecta con el origen, de modo que representa (x1 , . . . , xi ). Sin embargo, se le pone al nodo el rótulo
xi , los demás valores pudiendo leerse en los nodos previos del camino que llega a él. Los nodos de
orden 1 (primarios) corresponden a x1 ∈ S1 . Los nodos de orden i que están conectados con el nodo
de orden i − 1 asociado con (x1 , . . . , xi−1 ), están en correspondencia biunı́voca con Si (x1 , . . . , xi−1 ).
Por ejemplo, los nodos secundarios que están conectados con el nodo primario asociado con x1
representan al conjunto S2 (x1 ).

Se dice que un árbol es regular si el número de arcos que sale de un nodo depende sólo del orden
del nodo. Consideremos un árbol regular con ramas de largo k y sea ni el número de arcos que sale
de un nodo de orden (i − 1) (donde el origen es el nodo de orden 0). Entonces el número de ramas
es n1 × n2 × · · · × nk .

La regla multiplicativa se puede escribir más formalmente como sigue:


r
Y
card Si (x1 , . . . , xi−1 ) = ni , i = 1, . . . , k ⇒ card Ω = ni (6.2)
i=1

Tomando S1 = A1 y Si (x1 , . . . , xi−1 ) = Ai , i = 2, . . . , k se obtiene


r
Y r
Y
card Ai = card Ai .
i=1 i=1 (6.3)

Regla Multiplicativa Básica


r
Y
donde Ai = A1 × · · · × Ar , o sea el producto cartesiano de A1 , A2 , . . . , Ar .
i=1

6.3 Relaciones de equivalencia:

Dado un conjunto de N elementos y una relación de equivalencia, interesa contar el número t de


clases de equivalencia. Esto es, en general, muy difı́cil de realizar, excepto cuando todas las clases
de equivalencia tengan un mismo tamaño p, en cuyo caso hay
N
t= (6.4)
p
clases de equivalencia. Esto puede verse como consecuencia de la regla multiplicativa si construimos
un árbol regular en que el nodo primario es la clase de equivalencia y los nodos secundarios corres-
ponden a los elementos de esta clase. En efecto, es inmediato ver que en este caso (6.2) implica
tp = N.

7 Demostraciones

Los arreglos con repetición de largo k son elementos de S k , con card S = m. Basta aplicar (6.3)
con Si = S, y card S = m, de modo que ni = m. Esto demuestra que hay mk arreglos de largo k.

14
Para los arreglos sin repetición aplicamos (6.2), con Si (x1 , . . . , xi−1 ) = S \ {x1 , . . . , xi−1 }. Se tiene
entonces que ni = m − i + 1 y por tanto hay m × (m − 1) × · · · × (m − k + 1) = m[k] arreglos de
largo k sin repetición. En particular el número de permutaciones de m elementos es m!.

Consideremos ahora las combinaciones sin repetición. Partamos por el caso de una combinación
que contiene los elementos a, b y d. Ella se identifica con la clase de equivalencia formada por los
arreglos abd, adb, bad, bda, dab y dba, que consta de 6 elementos. Es claro que todas las clases
de equivalencia correspondientes a combinaciones de 3 elementos tienen la misma cardinalidad.
En general, para una combinación de largo k, la clase de equivalencia está formada por todos los
arreglos de largo k basados en k elementos, es decir, por k!. Usando (6.2) con N = m[k] y p = k!,
se obtiene que el número de clases de equivalencia es

m[k]
 
m! m
= = .
k! k!(m − k)! k

8 Permutaciones

Las permutaciones son mucho más que un simple caso particular de un arreglo sin repetición. Ellas
pueden ser consideradas como conceptos básicos en la teorı́a combinatoria. Desde el punto de vista
abstracto, una permutación sobre un conjunto A se puede identificar con una transformación uno
a uno, digamos f, de A sobre sı́ mismo. Si (a1 , . . . , am ) es una enumeración de A, la función f
está determinada por el arreglo (f (a1 ), . . . , f (am )) ∈ Am . Recı́procamente, un arreglo x ∈ Am
determina f mediante f (ai ) = xi , i = 1, . . . , m. Esto justifica el uso del término permutación en
el contexto de arreglos sin repetición. Imaginando los elementos de A como bolas que ocupan los
casilleros bj , j = 1, 2, . . . , m, podemos determinar un arreglo de dos maneras

• Para cada posición b = bi indicar el elemento xi = aj de A que se encuentra en ella.

• Para cada elemento a = aj de A indicar la posición bi que él ocupa, es decir, el número i que
satisface xi = aj .

La naturaleza de los elementos de A o de las posiciones, es irrelevante desde el punto de vista


combinatorial. La correspondencia bi 7→ aj se transforma en una función de m̄ = {1, 2, . . . , m}
sobre sı́ mismo, definida por f (i) = j. Las dos descripciones corresponden a especificar f y f −1 ,
respectivamente.

8.1 Barajando un naipe

La acción de barajar un naipe inglés (sin comodines) equivale a aplicar sucesivas permutaciones
a un conjunto de 52 elementos. Ordenemos las pintas como ♠: Pique (P), ♥: Corazón (C), ♦:
Diamante (D), y ♣: Trébol (T). Escribamos además los números del 1 al 13, identificando J, Q y
K con 11, 12 y 13, respectivamente. El orden lexicográfico es
Pique 1–13 1P 2P 3P 4P 5P 6P 7P 8P 9P 10P JP QP KP
Corazón 14–26 1C 2C 3C 4C 5C 6C 7C 8C 9C 10C JC QC KC
Diamante 27–39 1D 2D 3D 4D 5D 6D 7D 8D 9D 10D JD QD KD
Trébol 40–52 1T 2T 3T 4T 5T 6T 7T 8T 9T 10T JT QT KT

15
Si el as de diamantes pasa a ocupar la posición en que originalmente estaba el as de corazón,
podemos escribir esto como f (27) = 14. Procediendo análogamente con todas las cartas, se define
una función f del conjunto {1, 2, . . . , m} sobre sı́ mismo, donde m = 52, la cual representa el efecto
de barajar el naipe.

Si se etiquetan las m fichas de una urna, la extracción secuencial de las m fichas define una de las
m! permutaciones. Si la extracción se realiza al azar, este esquema permite barajar un naipe al
azar sin ser experto en el arte de barajar.

La interpretación de una permutación como una transformación presenta importantes ventajas


matemáticas. Por ejemplo, la composición de funciones induce una operación sobre el conjunto de
permutaciones, lo que no es natural cuando se la representa como un arreglo. El conjunto de las
m! permutaciones es, de hecho, un grupo con respecto a esta operación y varios subgrupos son de
interés. En la resolución de problemas uno suele utilizar la equivalencia entre las representaciones
por arreglos y funciones.

Digamos que dos arreglos x e y en Am son equivalentes, lo que denotamos por x ∼ y, si y sólo
si xi = yi , i = 1, . . . , k. Cada clase de equivalencia está asociada con el arreglo (x1 , . . . , xk ). Por
lo tanto, el número de arreglos sin repetición es igual al número de clases de equivalencia. Ahora
bien, dado un arreglo x, todos los y ∼ x se obtienen permutando las últimas n − k componentes
de x. Por ejemplo, si m = 7 y k = 4, los arreglos equivalentes con 2361745 son 2361745, 2361754,
2361475, 2361457, 2361574 y 2361547. Ellos están en correspondencia con 745, 754, 475, 457, 574
y 547, respectivamente, que son las 3! = 6 permutaciones de {4, 5, 7}. En general, los 7! = 5040
arreglos de largo 7 se agrupan en clases de tamaño 6, de modo que hay 5040 6 = 840 tales clases.

Usando (6.2) con N = m! y p = (n − k)!, se obtiene


m!
t= = m[k] ,
(n − k)!
lo que entrega una demostración alternativa de la fórmula para el número de arreglos sin repetición
de largo k.

9 Coeficientes multinomiales

9.1 Naipes

En muchos juegos de naipe, las 52 cartas del naipe se dividen por partes iguales entre 4 jugadores
y es irrelevante el orden en que le lleguen las cartas a un jugador. La pregunta natural es cuántas
reparticiones distintas hay. Es conveniente pensar que el naipe se baraja y luego se ponen las
52 cartas en sucesión para formar un arreglo x. Las primera 13 cartas, es decir, x1 , x2 , . . . , x13 le
corresponden al primer jugador, las segundas 13, esto es, x14 , x15 , . . . , x26 le corresponden al segundo
jugador, y ası́ sucesivamente. Como el orden de las cartas de cada jugador no interesa, todos los
arreglos equivalentes con x se obtienen permutando separadamente las cartas de cada jugador. Por
la regla multiplicativa, las clases de equivalencia tienen cardinalidad 13! × 13! × 13! × 13!. Como
hay un total de 52! arreglos posibles, el número de distribuciones distintas es
52!
.
13! × 13! × 13! × 13!

16
Notemos que el no considerar el orden para un jugador es equivalente a considerar el conjunto de
cartas que le corresponde.

9.2 Generalización

La generalización es inmediata. Se dividen los n elementos de un conjunto A en r grupos (A1 , A2 , . . . , Ak ),


bajo la condición que el i-ésimo grupo contenga ni elementos, donde n1 + n2 + · · · + nk = n. El
número de distribuciones posibles es
 
n n!
= . (9.1)
n1 n2 · · · nk n1 ! × n2 ! × · · · × nk !

Cuando n = 2, A1 y A2 son complementarios, de modo que especificar una partición es equivalente


a especificar A1 o A2 . El número de particiones coincide ası́ con el número de combinaciones de
tamaños n1 o n2 de un conjunto de tamaño n1 + n2 . Esto proporciona una demostración alternativa
para la fórmula de las combinaciones, y da una interpretación interesante a la identidad
     
n1 + n2 n1 + n2 n1 + n2
= =
n1 n2 n1 n2

9.3 Urnas, casilleros, dados

1. En un modelo de urna, se subdivide el conjunto de elementos en la urna en r grupos Bj ,j =


1, . . . , r, donde el subı́ndice j de Bj puede identificarse mediante uno de r colores. Al extraer
sucesivamente los n elementos de la urna, los ni elementos del grupo Bi se obtendrán en un
cierto conjunto de extracciones, lo que define un subconjunto Ai de {1, 2, . . . , n}. Claramente,
(A1 , . . . , Ar ) es una partición de {1, 2, . . . , n}, de modo que (9.1) indica el número de tales
particiones.

2. En un modelo de n bolas distinguibles que se distribuyen, con exclusión, en n casilleros, queda


exactamente una bola en cada casillero. El conjunto Bi corresponde ahora a un conjunto
prefijado de casilleros ( por ejemplo, los primeros n1 casilleros forman A1 , los siguientes n2
casilleros forman A2 , y ası́ sucesivamente). El conjunto Ai está conformado por aquellas
bolas que caen en alguno de los casilleros en Bi . Por lo tanto (9.1) coincide con el número
de maneras de distribuir n bolas distinguibles en r grupos, donde el número de bolas en el
r-ésimo grupo es fijo e igual a ni .

3. Consideremos finalmente n lanzamientos de un dado. Para m = 12 un resultado posible es


(2, 1, 4, 2, 2, 3, 5, 4, 2, 4). Un as aparece en el lanzamiento 2, un dos en los lanzamientos 1, 4, 5
y 9, el seis no aparece nunca, etc. Esto corresponde a la partición

({2}, {1, 4, 5, 9}, {6}, {3, 8, 10}, {7}, φ),

cuyas cardinalidades respectivas son n1 = 1, n2 = 4, n3 = 1, n4 = 3, n5 = 1 y n6 = 0, lo que


denotamos por n = (1, 4, 1, 3, 1, 0). El número de resultados de los 10 lanzamientos del dado
tales que se obtiene este valor de n coincide ası́ con
 
10
= 25200.
141310

17
Para un dado de r caras, cada resultado es un arreglo x de largo n. El número de arreglos
que cumplen con la condición que la i-ésima cara aparezca ni veces está también dado por
(9.1).

9.4 Teorema del multinomio

Los resultados anteriores se pueden aplicar para demostrar el Teorema del Multinomio, es decir la
expansión  n
r r
n
X X Y
 xi  = c(n) xj j . (9.2)
j=1 n j=1

donde n = (n1 , n2, . . . , nr ). Interesa encontrar una fórmula para el coeficiente c(n1 , . . . , nr ) y para
el número de términos en la expansión.

Para fijar ideas, consideremos primero la expansión en un caso particular: (x1 + x2 + x3 + x4 )5 . Se


tiene

(x1 +x2 +x3 +x4 )5 = (x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )
×(x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )

La expansión se obtiene llevando a cabo los siguientes pasos

• Elegir un término de cada paréntesis (4 opciones).


• Multiplicarlos.
• Simplificar el monomio resultante.
• Repetir para las 45 elecciones posibles.
• Escribir la suma de los 45 términos como una combinación lineal de los distintos monomios.
• Determinar el coeficiente de un monomio dado.

Sea r = (r1 , r2 , r3 , r4 , r5 ) donde ri es el subíndice de x seleccionado en el i-ésimo paréntesis. Por


ejemplo, r = (2, 1, 2, 3, 3) corresponde a la selección (x2 , x1 , x2 , x3 , x3 ), que da origen al monomio
x1 x22 x23 . El problema es determinar cuántos arreglos r dan origen a un n dado.

Una manera más abstracta de presentar el procedimiento es como sigue:

• Seleccionar el conjunto Aj de paréntesis, imponiendo la condición card Aj = nj , donde Aj


indica en cuales paréntesis se elige xj .
• El número de particiones ordenadas (A1 , . . . , Ak ) está dado por (9.1).

Si partimos de los arreglos r, declaramos que dos arreglos son equivalentes si dan origen al mismo
monomio, es decir al mismo n. De esta forma, el coeficiente de x1 x22 x23 es
 
5 120
= = 30.
12200 1×2×2×1×1

18
Por (4.1), el número de términos distintos en la expansión del multinomio coincide con el número
de combinaciones con repetición de largo n de un conjunto de k elementos, es decir,
 
n+k−1
.
k−1

El Teorema del multinomio se expresa, entonces, como


 n
k X  k
Y
X n n
 xi  = xj j (9.3)
n ,...,n
n 1 n 2 · · · n k
j=1 1 k j=1

Para k = 2, con a = x1 , x2 = b, n1 = i y n2 = j y m = n se obtiene el Teorema del Binomio:

X n n  
n i j
X n i n−i
(a + b) = ab = ab (9.4)
ij i
i+j=n i=1

Tomando los términos xi , a y b iguales a 1 se obtienen las importantes identidades

X  n

= kn , (9.5)
n1 ,...,nk
n1 n2 · · · nk
y
n  
X n
= 2n . (9.6)
i
i=0

19

También podría gustarte