Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROBABILIDADES
Versi ón Preliminar 2002.2
Ricardo Aravena
Guido del Pino
Fernando Quintana
Agosto, 2002
Cap´
ıtulo 1
Introduccio´n
La Teorı́a de Probabilidad es una rama de las Matem áticas que permite estudiar todo tipo de
fen ómenos en que aparecen conceptos como indeterminismo, incertidumbre, impredecible, hete-
rogeneidad, variabilidad, errores de medici ón, imprecisi ón y azar. En esta secci ón desarrollamos
algunas de estas ideas para motivar el estudio de dicha teorı́a.
La imposibilidad pr áctica de conocer los valores de todas las variables que influyen sobre el com-
portamiento de un sistema hace que los modelos determinı́sticos tengan un ámbito de aplicaci ón
limitado. En estos modelos, el cumplimiento de ciertas condiciones garantiza la ocurrencia de un
hecho dado. El paradigma cl ásico es la Mecánica de Newton, donde se puede predecir exactamente
la trayectoria de un objeto, una vez especificadas la posici ón inicial, la velocidad inicial y todas
las fuerzas que act úan sobre él. Desde un punto de vista filos ófico, la idea es que si tuvi éramos
toda la informaci ón y contáramos con un modelo adecuado, podrı́amos determinar completamente
todos los acontecimientos relacionados. A ún dentro del ámbito de la Fı́sica, tal idea est á en abierta
contradicci ón con las teorı́as más modernas, como la Mec ánica Cuántica.
Si somos tan afortunados como para disponer de un modelo te órico perfecto que vincula los
valores de ciertas variables con los de otras, su aplicaci ón se ve entrabada por la imposibilidad de
conocer estos valores con absoluta precisi ón, es decir, cuando hay errores de medici ón. Los modelos
probabilı́sticos constituyen una alternativa atractiva a los modelos determinı́sticos en situaciones de
este tipo.
Por otra parte, muchas de las leyes que rigen los fen ómenos fı́sicos y quı́micos han sido descu-
biertos experimentalmente. Este es el caso de la ley de Boyle: P V = κT , que relaciona la presi ón
P , el volumen V , y la temperatura T de un gas. Los errores de medici ón hacen que las f órmulas
matemáticas no se verifiquen de manera exacta con datos experimentales. C ómo ajustar modelos
te óricos a datos experimentales o c ómo rechazar teorı́as a partir de estos datos es un problema
importante que se ataca utilizando m étodos estadı́sticos, para los cuales la Teorı́a de Probabilidad
1
´
CAP ITULO ´
1. INTRODUCCI ON
sirve de base. Cabe hacer notar, adem ás, que leyes experimentales como la ley de Boyle rigen s ólo
aproximadamente y para ciertos rangos de valores de las variables.
Los fen ómenos ca óticos son aquellos en que una peque ñı́sima perturbaci ón de las condiciones
iniciales de un sistema genera grandes cambios en el estado final del mismo. El matem ático Henri
Poincaré estudi ó este tipo de fen ómenos a principios de siglo y utiliz ó el carácter impredecible de
estos fen ómenos como un modelo fı́sico para la probabilidad. El lanzamiento de una moneda, el
lanzamiento de un dado, o el hacer girar la ruleta, son ejemplos familiares en que el resultado se
puede interpretar como el estado final de un sistema cuya evoluci ón es ca ótica.
Denotemos por ω a un resultado posible del experimento y supongamos que éste se repite
n veces. Denotemos por Nn (ω) al n úmero de veces que ocurre el resultado ω, por Nn (A) al
n úmero de veces que ocurre el suceso representado por el subconjunto A, y por p n (ω) = Nnn(ω) y
Pn (A) = Nnn(A) a las proporciones respectivas. Si los lı́mites existen, las probabilidades que ocurra
el resultado ω y el suceso representado por A se definen por
def
p(ω) = lim pn (ω) probabilidad que ocurra ω.
n→∞
def
P (A) = lim Pn (A) probabilidad que ocurra A.
n→∞
La funci ón P que asigna a cada suceso A su probabilidad se denomina distribuci ón de probabilidad.
La funci ón p(·) se denomina funci ón de probabilidad y se expresa normalmente como una tabla o
como una f órmula matem ática. Cuando los elementos de ω son los valores de una variable aleatoria
X, la funci ón P se denomina tambi én distribuci ón de probabilidad de X y se suele denotar por PX .
P
Claramente Nn (A) = Nn (ω). Dividiendo por el n úmero de repeticiones y tomando el
ω∈A
lı́mite cuando n → ∞, la definici ón frecuentista de la probabilidad implica que ella es no negativa
y satisface, adem ás, las importantes igualdades
P (Ω) = 1. (1.2.1)
X
P (A) = p(ω). (1.2.2)
ω∈A
La igualdad (1.2.2) se traduce en la siguiente regla, v álida por ahora s ólo para la interpretaci ón
frecuentista:
Para un espacio muestral finito la probabilidad que un suceso ocurra es la suma de las
probabilidades de los resultados favorables.
Las propiedades
P (∅) = 0, (1.2.3)
X
p(ω) = 1, (1.2.4)
ω∈Ω
pueden obtenerse de la misma forma, pero tambi én se desprenden l ógicamente a partir de (1.2.1)
y (1.2.2). Por (1.2.2), la funci ón de probabilidad permite calcular las probabilidades de todos los
sucesos asociados con el experimento. La afirmaci ón recı́proca es trivialmente cierta. Por lo tanto:
lo que se generaliza a una uni ón disjunta de un n úmero finito de sucesos. Cuando convenga, P es-
cribiremos una uni ón de conjuntos disjuntos reemplazando el sı́mbolo ∪ por el suma (+ o ), i.e.
Pn n
S
A + B en vez de A ∪ B y Ai en vez de Ai . Con esta convenci ón notacional, la propiedad de
i=1 i=1
aditividad puede escribirse de manera sugerente como
k k
!
X X
P Ai = P (Ai ). (1.2.8)
i=1 i=1
A nivel intuitivo, si la ocurrencia del suceso A implica la del suceso B, debi éramos tener un
mayor grado de certeza en B que en A. Identificando los sucesos con conjuntos, la afirmaci ón
anterior corresponde a
A ⊆ B ⇒ P (A) ≤ P (B).
Esta propiedad de monotonicidad parece un supuesto mı́nimo cuando lo que interesa es decidir cu ál
de dos sucesos es m ás probable. En la interpretaci ón frecuentista las probabilidades se comportan
como proporciones y satisfacen un supuesto de aditividad P (C ∪ D) = P (C) + P (D). El or-
den relativo entre dos probabilidades se preserva si aplicamos una transformaci ón g estrictamente
creciente definida sobre [0, 1]. En otras palabras,
P (A) ≤ P (B) ⇒ g(P (A)) ≤ g(P (B)).
Si denotamos por p a la probabilidad de un suceso, una transformaci ón útil y que tiene importancia
p
hist órica es g(p) = 1−p . En inglés se le llama a g(p) odds y no existe una traducci ón universalmente
aceptada. En algunos libros se usa el t érmino momios. Aunque sea un anglicismo usaremos la
palabra chances, dado su uso en apuestas, como carreras de caballos o concursos de belleza. Ası́, si
uno cree algo 3 a 2, lo que significa es
p 3
= ,
1−p 2
3
lo que implica p = 3+2 = 0.6. Una apuesta 1 a 1 corresponde a p = 0.5. A diferencia de la
probabilidad, las chances no son aditivas.
Hay situaciones muy especiales en las que se puede argumentar que todos los resultados posibles
son equiprobables, es decir, tienen la misma probabilidad. Este argumento se justifica habitualmente
apelando a un argumento de simetrı́a y puede interpretarse de manera frecuentista o subjetiva. Por
ejemplo, las caracterı́sticas geométricas y fı́sicas de una moneda permiten sospechar que el supuesto
de equiprobabilidad se cumple aproximadamente. En t érminos frecuentistas, esto significa que
para un n úmero grande de lanzamientos, la proporci ón de caras sea muy parecida a la de sellos,
aunque los n úmeros de caras y de sellos sean muy distintos. Desde el punto de vista subjetivo, la
equiprobabilidad indica que nos es indiferente apostar a que sale sello o que sale cara, lo que puede
sustentarse tanto en consideraciones fı́sicas como en la experiencia empı́rica previa que tengamos.
Por cierto, no podemos esperar que la equiprobabilidad se cumpla exactamente con monedas reales,
sino de manera aproximada. Matem áticamente hablando, una moneda ideal o moneda equilibrada
arroja resultados equiprobables por definici ón. Algo parecido pasa con un dado ideal, donde las 6
caras son equiprobables.
Desde el punto de vista frecuentista la equiprobabilidad significa que la funci ón de probabilidad
es constante. Por (1.2.4) su valor es el recı́proco de la cardinalidad del espacio muestral y aplicando
(1.2.2) se llega a la famosa regla, atribuida a Laplace:
donde la palabra casos se usa como sin ónimo de resultado. En libros antiguos de Algebra, esta regla
suele aparecer como definici ón de probabilidad. Esto es muy peligroso, ya que se puede f ácilmente
caer en contradicci ón con la interpretaci ón frecuentista.
Un modelo fı́sico para la generaci ón de resultados equiprobables es el de una urna de N fichas, de
las cuales se extrae una al azar. Cada ficha tiene probabilidad N1 de ser elegida. Si se extraen al
azar y de manera independiente n fichas de la urna, el resultado es representable por un arreglo o
muestra ordenada y = (y1 , y2 , . . . , yn ). El elemento yi es la ficha o cualquier identificador. Sin
pérdida de generalidad, podemos enumerar las fichas de la urna de 1 hasta N y usar este n úmero
como yi . Los arreglos de largo n son equiprobables, tanto si el muestreo se hace sin reposici ón (se
restituye a la urna la ficha seleccionada) o con reposici ón (cuando se la restituye). El n úmero de
tales arreglos es N n y N (N − 1) × · · · × (N − n + 1), respectivamente. Cuando el suceso de inter és
se refiere s ólo al n úmero de fichas de cada color en la muestra, el orden en que aparecen los colores
es irrelevante. Sin embargo, la equiprobabilidad de las muestras no ordenadas s ólo ocurre para
muestreo sin reposici ón. En este caso, cada una de estas muestras corresponde a n! arreglos y, por
lo que su probabilidad es
n! N
= .
N (N − 1) × · · · × (N − n + 1) n
Ejemplo 1.2.1 Calcular la probabilidad de obtener una suma de k al lanzar dos dados,
donde 1 < k < 6.
Como los 36 pares (x, y) son equiprobables, basta con contar aquellos que son favora-
bles. Pero un tal par satisface x + y = k, de modo que toma la forma (x, k − x). Por
ejemplo, para k = 4, los resultados favorables son (1, 3), (2, 2) y (3, 1) y la probabili-
4
dad es 36 = 91 . El resultado general es
k−1
P (Suma = k) = .
36
Ejemplo 1.2.2 Calcular la probabilidad de obtener una suma de 6 al lanzar tres dados.
Sea xi el resultado del i- ésimo dado y sea x = (x1 , x2 , x3 ). El espacio muestral consta
de 63 = 216 resultados equiprobables. Sea B = {x/x1 + x2 + x3 = 6} y sea Aj el
suceso sale j en el primer dado y la suma es 6. Si x1 = j, x es favorable si y s ólo si
x2 + x3 = 6 − j. Entonces, B = B1 + B2 + B3 + B4 . Pero card (Bi ) = 5 − i, de
10
modo que card (B) = 4 + 3 + 2 + 1 = 10. La probabilidad buscada es P (B) = 216 .
Ejemplo 1.2.3 Se baraja al azar un naipe de 4 cartas, asign ándole a cada una las letras
a, b, c y d. A continuaci ón mostramos un listado exhaustivo de las 24 permutaciones
de estas letras.
bcde bced bdce bdec becd bedc 6
cbde cbed cdbe cdeb cebd cedb 6
dbce dbec dcbe dceb adebc decb 6
ebcd ebdc ecbd ecdb edbc edcb 6
• Por inspecci ón, hay 6 resultados en que la primera letra es b, de modo que la
6
probabilidad que esto ocurra es 24 = 14 . Análogamente, la probabilidad que la
1
segunda letra sea c es tambi én 4 . La probabilidad que alguno de estos dos sucesos
ocurra no es 12 , debido a que estos sucesos no son mutuamente excluyentes. En
efecto, abcd y abdc son los dos casos en que ambos sucesos ocurren. Por lo tanto,
hay 6 + 6 − 2 = 10 resultados favorables y la probabilidad buscada es 10 24 .
12 1
• La probabilidad que la letra b aparezca antes de la c es 24 = 2 , lo que es evidente
por simetrı́a.
• La probabilidad que ninguna de las letras caiga en su ubicaci ón natural, i.e. 1
9
para b, 2 para c, 3 para d y 4 para e, es 24 , lo que se obtiene marcando estos casos
en el listado y contando cuantos hay.
• Se deja al lector con paciencia repetir esto para las 120 permutaciones de 5 ele-
mentos, que aparecen en la siguiente tabla.
abcde abced abdce abdec abecd abedc acbde acbed acdbe acdeb
acebd acedb adbce adbec adcbe adceb adebc adecb aebcd aebdc
aecbd aecdb aedbc aedcb bacde baced badce badec baecd baedc
bcade bcaed bcdae bcdea bcead bceda bdace bdaec bdcae bdcea
bdeac bdeca beacd beadc becad becda bedac bedca cabde cabed
cadbe cadeb caebd caedb cbade cbaed cbdae cbdea cbead cbeda
cdabe cdaeb cdbae cdbea cdeab cdeba ceabd ceadb cebad cebda
cedab cedba dabce dabec dacbe daceb daebc daecb dbace dbaec
dbcae dbcea dbeac dbeca dcabe dcaeb dcbae dcbea dceab dceba
deabc deacb debac debca decab decba eabcd eabdc eacbd eacdb
eadbc eadcb ebacd ebadc ebcad ebcda ebdac ebdca ecabd ecadb
ecbad ecbda ecdab ecdba edabc edacb edbac edbca edcab edcba
12 12 12 12 12 12 12 12 12 12
44
Contrario a la intuici ón de la mayorı́a, el n úmero obtenido es 120 , que es leve-
9
mente inferior a 24 .
Definici o´n 1.3.1 Sea Ω un espacio muestral finito. Sea p(·) una funci ón no negativa con dominio
Ω que satisface las condiciones:
X
p(ω) = 1, p(ω) ≥ 0. (1.3.1)
ω∈Ω
La distribuci ón de probabilidad generada por p(·) es la funci ón P (·) que asigna a todo A ⊂ Ω el
valor
X
P (A) = p(ω). (1.3.2)
ω∈A
Todas las ecuaciones (1.2.1)–(1.2.8) rigen por definici ón o como consecuencia l ógica. En particular,
la probabilidad de un suceso es la suma de las probabilidades de los resultados favorables.
se puede usar como la funci ón de probabilidad de cierta distribuci ón. De hecho, ella
corresponde a la famosa distribuci ón Binomial, que estudiaremos posteriormente.
Cuando la funci ón de probabilidad se entrega como un listado de resultados y de las probabi-
√
lidades correspondientes, basta marcar los resultados favorables, por ejemplo, con , y sumar las
probabilidades respectivas para obtener la probabilidad de un suceso. Cuanto se desea automatizar
el procedimiento computacionalmente, conviene generar una columna (o fila) adicional, en que los
√
se reemplazan por 1 y los blancos por 0, la que se interpreta como la funci ón indicatriz del suceso.
Ejemplo 1.3.2 Un equipo tiene dos componentes (a) y (b) e interesa si ellas est án
operativas o no. Definamos
x1 = 1 si (a) funciona, x1 = 0 en caso contrario.
x2 = 1 si (b) funciona, x2 = 0 en caso contrario.
El estado del equipo est á determinado por el par (x1 , x2 ), al cual podemos considera
como el resultado del experimento. Los resultados se pueden enumerar como indica la
tabla. Las probabilidades asignadas en la última columna son positivas y suman 1, de
modo que tal asignaci ón es válida.
Resultado x1 x2 Probabilidad
ω1 1 1 0.6
ω2 1 0 0.2
ω3 0 1 0.1
ω4 0 0 0.1
La tabla siguiente muestra c ómo representar estos sucesos usando las variables como
subconjuntos.
La tabla siguiente muestra c ómo representar esta misma informaci ón de una manera
más c ómoda:
Resultado x1 x2 S1 : S2 : S3 : S4 :
x1 = 1 x 2 = 1 x 1 + x 2 = 1 x 1 + x 2 ≥ 1
√ √ √
ω1 1 1
√ √ √
ω2 1 0
√ √ √
ω3 0 1
ω4 0 0
√
Reemplazando en la columna correspondiente a Si el sı́mbolo por 1 y un blanco por
0, se obtiene una nueva columna. Multiplic ándola término a término por la colum-
na de probabilidades se obtiene la probabilidad de Si . La siguiente tabla ilustra este
procedimiento.
Resultado
x1 x2 pi y1 p i y1 y2 p i y2 y3 p i y3 y4 p i y4
1 1 0.6 1 0.6 1 0.6 0 0 1 0.6
1 0 0.2 1 0.2 0 0 1 0.2 1 0.2
0 1 0.1 0 0 1 0.1 1 0.1 1 0.1
0 0 0.1 0 0 0 0 0 0 0 0
1.0 P (S1 ) = 0.8 P (S2 ) = 0.7 P (S3 ) = 0.3 P (S4 ) = 0.9
Cuando para un suceso dado todos los resultados favorables son equiprobables, es decir,
Cada resultado favorable tiene probabilidad p2 (1−p)3 , de modo que son equiprobables.
Para desarrollar nuestra intuici ón, escribamos dos resultados favorables, por ejemplo,
(1, 0, 0, 1, 0) y (0, 1, 1, 0, 0). Cada resultado favorable queda determinado por la posi-
ci ón de los unos (o de los ceros). Como hay 10 maneras de elegir 2 elementos de un
conjunto de 5, la probabilidad buscada es 10p2 q 3 .
supuesto, todos los casos favorables para el suceso S n = s son equiprobables. Ellos
están en correspondencia uno a uno con los ns conjuntos {i/xi = 1} de cardinalidad
s. Por (1.3.4),
n
P (Sn = s) = g(s).
s
El valor de g(s) se puede calcular tomando cualquier resultado favorable, por ejemplo,
una sucesi ón de s unos seguida de n − s ceros.
Ejemplo 1.3.5 Una situaci ón práctica que queda cubierta por el resultado anterior es
el de una poblaci ón de tama ño N , m de cuyos integrantes poseen un atributo dado,
por ejemplo, ser mujer, tener un ingreso superior a un monto dado, haber padecido
cierta enfermedad, etc. Definiendo xi = 1 si la i-ésima persona en la muestra posee el
atributo y xi = 0 en caso contrario, Sn (x) = s es el n úmero de personas en la muestra
que poseen el atributo.
Se deja al lector verificar que
M s (N − M )n−s
g(s) = para muestreo con reposici ón,
Nn
y
M [s] (N − M )[n−s]
g(s) = para muestreo sin reposici ón,
N [ n]
donde a[r] = a × (a − 1) × · · · × (a − r + 1). De aquı́ se obtiene
s
M n−s
n M
P (Sn = s) = 1−
s N N
para muestreo con reposici ón, y
[s]
n M (N − M )[n−s]
P (Sn = s) =
s N [ n]
n!M !(NM )!(N − n)!
=
s!(n − s)!(M − s)!(N − M − n + s)!N !
M N −M
s n−s
= N
n
1.3.3 Simulaci o´n del caso finito a partir del caso equiprobable
Si sabemos generar N resultados equiprobables, es posible generar resultados aleatorios para cual-
quier espacio muestral finito, bajo la condici ón que las probabilidades de los resultados tengan la
forma Nr . Si las probabilidades est án dadas por fracciones, basta elegir N como el m áximo com ún
denominador, o un m últiplo de éste. Si ellas están expresadas de modo decimal, con r cifras, se
puede tomar N = 10s con s ≥ r.
Para demostrar este hecho, introducimos algo de notaci ón. El espacio muestral natural es el conjun-
to Ω de las N fichas en la urna. Denotemos por t a un color (valor de la variable) y por x al color
de la ficha extraida (el valor que toma la variable para aquel elemento de la poblaci ón asignado a
la ficha extraida). Sea Ω(t) el conjunto de fichas de ese color en la urna, y N (t) su n úmero. Si se
realizan muchas extracciones con reposici ón, la proporci ón de fichas de color x se aproxima a la
probabilidad p(x) que el color de la ficha extraida sea x. Pero p(x) es la probabilidad que la ficha
seleccionada pertenezca a Ω(x). Por equiprobabilidad se obtiene
Ejemplo 1.3.6 Se desea simular, a partir de una urna con mil fichas, un dado de 6 caras
con probabilidades dadas en la segunda columna de la siguiente tabla:
1 0.3 1–300
2 0.2 301–500
3 0.15 501–650
4 0.10 651–750
5 0.14 751–890
6 0.11 891–1000
Como las probabilidades tienen dos decimales bastarı́a con 100 fichas, pero 1000 es
m últiplo de 100, de modo que lo pedido es factible. Enumerando las fichas de 1 a
1000, podemos tomar Ω = {1, 2, . . . , 1000} y subdividirlo en 6 conjuntos Ω(x) de
cardinalidad 1000p(x), donde p(x) es la probabilidad de la cara con el n úmero x. La
tercera columna de la tabla muestra una de las muchas subdivisiones posibles.
Cuando s ólo interesa el color de las fichas, lo natural es tomar como resultado al arreglo ordenado
x = (x1 , x2 , . . . , xn ), donde xi es el color de la ficha obtenida en la i– ésima extracci ón (no con-
fundir con la i- ésima ficha en la urna). Si m es el n úmero de colores, hay mn arreglos x cuando el
muestreo es con reposici ón.
El caso de extracciones sucesivas al azar y con reposici ón nos da un modelo fı́sico concreto para
entender la repetici ón de experimentos en la interpretaci ón frecuentista. La ausencia de asociaci ón
entre las distintas extracciones se denomina independencia o independencia estadı́stica y se tra-
tará en el pr óximo capı́tulo. Los lanzamientos repetidos de un dado o una moneda es otro modelo
simple de repeticiones independientes de un experimento. Si X i representa al resultado incierto de
la i-ésima extracci ón, tenemos una sucesi ón de variables aleatorias independientes, cada una de las
cuales tiene a p(x) como funci ón de probabilidad.
Con m = 2 y m = 6 podemos simular n lanzamientos de una moneda o un dado no equilibra-
dos. En el caso equilibrado basta poner un mismo n úmero de fichas de cada color en la urna (una
ficha de cada color basta).
Ejemplo 1.3.7 Una urna contiene 2 fichas blancas y una negra. Se extraen, en forma
consecutiva, dos fichas de esta urna. Interesa listar los resultados cuando el muestreo
es con o sin reposici ón. Enumeremos las fichas, de modo que las dos primeras sean
blancas y la última sea negra.
Si el muestreo es con reposici ón, de los cuatro espacios muestrales
Ω1 = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}
Ω2 = {(b, b), (b, n), (n, b), (n, n)}
Ω3 = {11, 22, 33, 12, 13, 23}
Ω4 = {bb, bn, nn}
s ólo Ω1 tiene elementos equiprobables, de modo que la probabilidad de cada resultado
es 19 . Si el muestreo es sin reposici ón, de los cuatro espacios muestrales
Ω5 = {(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)}
Ω6 = {(b, n), (n, b), (b, b)}
Ω7 = {12, 13, 23}
Ω8 = {bn, bb}
Ω5 y Ω7 tienen elementos equiprobables, con probabilidades 16 y 31 , respectivamente. A
partir de estos espacios con elementos equiprobables se puede deducir las probabilida-
des de los resultados en otros espacios. Por ejemplo, a 11 y 12 en Ω 3 se le asocian los
subconjuntos {(1, 1)} y {(1, 2), (2, 1)} en Ω1 , lo que implica que sus probabilidades
respectivas son 91 y 29 . La equiprobabilidad de los elementos de Ω7 proviene del hecho
que todos ellos est án asociados con subconjuntos de cardinalidad 2 en Ω 1 .
En la interpretaci ón frecuentista se considera un experimento repetible, que tiene ciertos resultados
posibles, y se identifica un suceso con el conjunto de resultados para los cuales él ocurre, es decir,
los resultados favorables. La incerteza que tenemos sobre un suceso determinado deriva de la incer-
teza sobre el resultado del experimento. Es importante distinguir entre el resultado obtenido en una
realizaci ón del experimento, que es único, y un resultado potencial. Antes de realizar el experimen-
to, se tiene un conjunto de resultados potenciales y existe incerteza sobre cual ser á el resultado que
se obtenga. Una vez realizado el experimento, el resultado se conoce y la incerteza desaparece.
En la formulaci ón general de la teorı́a de probabilidad, que incluye la interpretaci ón subjetiva,
la palabra experimento se utiliza en un sentido muy amplio. Si bien en algunas ocasiones se realiza
efectivamente un experimento de laboratorio y se miden los valores de diversas variables, esta es la
excepci ón más bien que la regla. Situaciones tales como elegir al azar una persona de una poblaci ón
y hacerla llenar un cuestionario, o lanzar dados o monedas, o incluso anotar los tiempos de llegada
de los autom óviles a una intersecci ón durante un cierto perı́odo, serı́an difı́cilmente denominados
experimentos en el lenguaje usual. En situaciones donde las probabilidades son interpretables sub-
jetivamente, como la probabilidad que un empleado reci én contratado tenga un buen desempe ño en
su trabajo, no es f ácil visualizar cu ál puede ser el experimento correspondiente.
Matemáticamente, el experimento es un concepto no definido, es decir, se elude definirlo pa-
ra evitarse problemas y ampliar el campo de aplicaci ón de la teorı́a. Para eludir la definici ón, la
estrategia consiste en centrar la atenci ón en la colecci ón Ω de resultados potenciales, a la que se
denomina espacio muestral, por razones hist óricas que discutiremos m ás adelante. Podemos inter-
pretar al experimento como un mecanismo abstracto o caja negra que genera resultados inciertos.
Esta incerteza se transfiere a todo suceso cuya ocurrencia dependa del resultado del experimento.
El conjunto de resultados favorables representa matem áticamente al suceso. Por analogı́a con el
caso frecuentista, debi éramos esperar que la probabilidad de un suceso coincida con la suma de las
probabilidades de los resultados (casos) favorables.
Toda situaci ón admite m últiples descripciones y el resultado de un experimento no es la excep-
ci ón. Esto implica que el espacio muestral Ω admite diversas especificaciones. El punto de partida
de la teorı́a moderna de la probabilidad, creada por el matem ático ruso Kolmogorov en 1933, es
considerar a Ω como especificado externamente, es decir, la teorı́a no indica en absoluto c ómo ele-
girlo. No obstante esto, la especificaci ón de los resultados, y por tanto de Ω, es esencial para la
aplicaci ón de modelos probabilı́sticos a situaciones reales.
La elecci ón de lo que consideraremos resultado debe evitar que dos resultados distintos corres-
pondan al mismo acontecimiento. A su vez, el listado de resultados potenciales debe ser exhaustivo,
de modo que se cubran todas las eventualidades. Una manera m ás sintética de expresar esto es que
exactamente un resultado ocurra en cualquier realizaci ón del experimento.
Ejemplo 1.4.1 En el caso de un dado es posible describir su trayectoria, su posici ón fi-
nal sobre la mesa, la cara que queda hacia arriba, el n úmero que est á escrito en tal cara,
etc. Cualquiera de estas cosas puede considerarse como resultado del experimento.
Ejemplo 1.4.2 Se lanzan dos monedas al aire. Si distinguimos las monedas (por ejem-
plo pintándolas de distintos colores), es natural distinguir 4 resultados: (cara, cara),
(cara, sello), (sello, cara), y (sello, sello)). Si no se distinguen, lo único que sabemos
es el n úmero de caras, lo que da tres resultados posibles. Sin embargo, en probabilidad
los resultados de un experimento no requieren ser observables, lo que contrasta con el
uso habitual en los experimentos reales. M ás adelante veremos numerosos ejemplos
en que los elementos del espacio muestral m ás conveniente son no observables.
Dada una familia A de sucesos de inter és y un espacio muestral Ω, la idea es identificar a cada
suceso A ∈ A con el subconjunto de Ω formado por los resultados favorables. La dificultad surge
cuando no es claro si cierto resultado ω ∈ Ω es favorable o no, pues el subconjunto queda indefinido.
Diremos que Ω est á adaptado a A cuando la dificultad mencionada no se presenta para ning ún par
(ω, A), con ω ∈ Ω, A ∈ A. En otras palabras, Ω est á adaptado a A si para cualquier resultado que
se produzca, y dado un único suceso de inter és A, siempre existe un espacio muestral Ω adaptado
a él, o sea, a {A}. Basta tomar Ω = {ω1 , ω2 } e identificar ω1 con la ocurrencia de A. Autom ática-
mente, el resultado ω2 indica que A no ocurri ó. La elecci ón can ónica es ω1 = 1 y ω2 = 0, lo que
equivale a escribir 1 y 0 para indicar la ocurrencia o no ocurrencia de A, respectivamente.
La elecci ón (v) tiene la ventaja de estar adaptada a cualquier suceso cuya ocurrencia
dependa exclusivamente del n úmero que se obtiene al lanzar el dado, e.g. Sale un
n úmero par o El n úmero excede 4.
Si se lanzan dos dados y consideramos como resultados posibles a Sale un 6 en el pri-
mer dado, Sale un 6 en el segundo dado y Otros casos, esta asignaci ón es inadmisible
ya que si sale un seis en ambos dados, los dos primeros resultados ocurren simult áne-
amente.
El modelo probabilı́stico es un modelo matem ático que se representa por la terna (Ω, A, P ),
donde Ω es el espacio muestral, A es una familia de subconjuntos de Ω (que contiene a la familia
de sucesos de inter és), y P es una regla que asigna a cada A ∈ A un n úmero real entre 0 y 1, a la
que llamaremos distribuci ón de probabilidad.
1.4.3 Variables
Frecuentemente las preguntas que dan origen a los sucesos de inter és se pueden reformular en
términos de los valores que toman algunas variables. En tal caso, la ocurrencia del suceso est á en-
teramente determinada por los valores de las variables, y la incerteza sobre ellas se transmite a estos
sucesos. A cada variable se le puede asociar una serie de proposiciones o sucesos, por ejemplo, la
temperatura supera los 15 grados, la temperatura es inferior a 5 grados, la temperatura est á entre 6
y 14 grados, sale un n úmero par al lanzar el dado, gana un candidato particular, etc. Por otra parte,
un suceso puede depender de varias variables simult áneamente. Por ejemplo el suceso: el paciente
es obeso depende del peso, de la talla y de otras variables; el suceso la suma de los n úmeros ob-
tenidos en tres lanzamientos de un dado es mayor que 14 depende de los valores de tres variables,
correspondiendo cada una al n úmero que se obtiene en un lanzamiento determinado.
Cuando hay una única variable de inter és, el espacio muestral m ás natural es simplemente un
listado de los posibles valores de esta variable.
Consideremos una poblaci ón finita de individuos, cada de los cuales tiene definidos los valores
de k variables, a las que denotamos por X1 , X2 , . . . , Xk . Los términos “individuo” y “poblaci ón”
se utilizan para tener una percepci ón más concreta, pero matem áticamente los individuos de una
poblaci ón son simplemente los elementos de un conjunto arbitrario. Si se enumeran los individuos
de la poblaci ón de 1 a N , todos los valores se pueden organizar como un arreglo rectangular, en que
cada fila corresponde a un individuo y cada columna a una variable. Si denotamos por x ij al valor
de la variable Xj para el i-ésimo individuo, la i- ésima fila de este arreglo es (xi1 , x21 , . . . , xik ).
Para ilustrar las ideas, consideramos la Tabla 1.4.1, que muestra las 10 primeras lı́neas de un
archivo computacional de 500 lı́neas. Cada una de ellas indica la comuna de residencia, el nivel
socio-econ ómico (mayor n úmero indica mayor ingreso), el n úmero de integrantes del grupo fa-
miliar, el n úmero de consultas m édicas efectuadas a lo largo de un a ño, el sexo y el peso para el
individuo correspondiente.
Ası́, el primer individuo es un hombre de 74.8 kg, que vive en la comuna A, de nivel socio-
econ ómico bajo. Su familia consta de tres personas y realiz ó tres visitas al médico el a ño pasado.
Las variables en nuestro ejemplo ilustran la diversidad que encontramos en la vida real. Ellas se
clasifican primariamente de acuerdo al conjunto E de valores posibles, pero tambi én se toma en
cuenta las estructuras adicionales definidas sobre E.
Denotemos a la variable por X y por E a su conjunto de valores posibles. Decimos que X es
finita si card (E) < ∞. Cuando card (E) = 2 decimos que la variable es binaria o dicot ómica.
Si los valores x ∈ E son no num éricos, se les denomina categorı́as y se dice que X es categ órica o
cualitativa. El sexo, el color, el nivel socio econ ómico, la preferencia por un candidato y la regi ón
de residencia son algunos ejemplos. A veces las categorı́as se codifican como n úmeros para efectos
computacionales, e.g hombre =1, mujer =2, pero carece de sentido efectuar operaciones aritm éticas
con estos c ódigos. Cuando las categorı́as poseen un orden natural y queremos enfatizar este aspecto,
decimos que la variable es ordinal. Ejemplos de variables ordinales son el nivel socioecon ómico, el
• La elecci ón de escala afecta este n úmero (por ejemplo, 0 grados Celsius, 32 gra-
dos Farenheit y 273 grados Kelvin corresponden a una misma temperatura).
• Si tomamos en consideraci ón el hecho que el instrumento de medici ón tiene una
precisi ón finita, el resultado se puede describir m ás fielmente como un intervalo
en R. Por ejemplo, si la precisi ón es de un decimal, un valor de 36.7 grados
corresponde realmente al suceso que la verdadera temperatura est á en el intervalo
[36.65, 36.75).
• Se puede considerar un experimento ideal en que el resultado sea la temperatura
exacta, pero claramente ella no es observable.
Cuando no se desea imponer una cota superior o inferior a priori, basta tomar b = ∞ o a = −∞
respectivamente. Mediante un cambio lineal de variable, o sea, una transformaci ón lineal afı́n, se
reduce el estudio de estas variables a E = R, E = R+ y E = [0, 1]. La clasificaci ón de las variables
en la Tabla 1.4.1 es:
Con un espacio muestral finito Ω, hay asociadas dos familias especiales de subconjuntos de Ω :
La primera clase constituye la partici ón más fina de Ω, mientras que todo suceso en (ii) es una
uni ón disjunta de algunos sucesos elementales. Cuando el resultado puede identificarse con el valor
de una variable finita, los sucesos elementales corresponden a la obtenci ón de un valor determinado
de la variable, mientras que los sucesos en (ii) son aquellos cuya ocurrencia o no, est á determinada
por el valor que se obtenga para la variable.
Una familia (A1 , . . . , Ak ) de subconjuntos b ásicos del espacio muestral Ω induce una partici ón
de Ω que consta de 2k términos. Cada t érmino es la intersecci ón de k subconjuntos, coincidiendo
el i-ésimo subconjunto en esta intersecci ón con Ai o su complemento A0i . Las uniones finitas de
los elementos de la partici ón inducida constituyen la familia de sucesos generada por A 1 , . . . , Ak ,
k
cuya cardinalidad es 22 . De esta forma, dos sucesos inducen una partici ón del espacio muestral
en 4 sucesos y la familia generada consta de 16 sucesos. Para tres sucesos, la partici ón inducida
y la familia generada constan de 8 y 256 sucesos respectivamente. La partici ón inducida por los
sucesos A y B es (A ∩ B, A ∩ B 0 , A0 ∩ B, A0 ∩ B 0 ). Para tres o más sucesos resulta tedioso detallar
los sucesos que forman la partici ón inducida por estos sucesos, sin contar con una notaci ón más
conveniente.
Con esta motivaci ón, consideramos la variable indicatriz de Ai , que toma el valor xi = 1 si Ai
y el valor 0 en caso contrario. El vector binario x = (x1 , . . . , xk ) determina cu áles sucesos b ásicos
ocurren y cu áles no lo hacen, siendo tambi én verdadera la afirmaci ón recı́proca. El conjunto for-
mado por los 2k arreglos x constituye un espacio muestral alternativo, que denotamos por X . Cada
elemento de X est á en correspondencia uno a uno con un suceso de la partici ón generada por los
Ai , al cual denotamos por Ex y los subconjuntos de X est án en correspondencia uno a uno con la
familia de sucesos generada por los Ai . Con esta notaci ón y tomando A1 = A y A2 = B, tenemos
E11 = A ∩ B, E10 = A ∩ B 0 , E01 = A0 ∩ B y E00 = A0 ∩ B 0 . A continuaci ón mostramos como
escribir algunos sucesos generados por A y B como uniones de los E x y en términos de condiciones
que satisfacen los valores x1 y x2 .
Ocurre B E11 ∪E10 : x2 = 1
Ocurre exactamente uno de los dos sucesos E10 ∪E01 : x1 + x 2 = 1
Ocurre al menos uno de los dos sucesos E11 ∪E10 ∪E01 : x1 + x 2 > 0
No ocurre ninguno de los dos sucesos E00 : x1 + x 2 = 0
Ocurren ambos sucesos E11 : x1 = 1, x2 = 1
Para tres sucesos A1 , A2 , A3 , la ocurrencia de dos o m ás de ellos corresponde al nuevo suceso
{(x1 , x2 , x3 )/x1 + x2 + x3 ≥ 2} de X , que a su vez corresponde al subconjunto [(A 1 ∩ A2 ) ∪ (A1 ∩
A3 ) ∪ (A2 ∩ A3 )] \ (A1 ∩ A2 ∩ A3 ) de Ω.
Como card (X ) tiene 2k elementos y la suma de sus probabilidades es igual a 1, basta especi-
ficar 2k − 1 n úmeros no negativos cuya suma no exceda 1 para determinar las probabilidades de los
k
22 sucesos generados por A1 , A2 , . . . , Ak . Ası́, para k = 3, 7 n úmeros determinan 256 probabili-
dades, mientras que para k = 4, 15 n úmeros determinan 65536 probabilidades. Las probabilidades
de los sucesos generados pueden tambi én calcularse a partir de aquellas asociadas a 2k − 1 sucesos
adecuadamente seleccionados. Los sucesos Ai y todas sus intersecciones, de a 2, de a 3, . . ., de a k,
sirven para este fin, aun cuando esto dista de ser obvio.
1.5 Axiomas
La teorı́a de probabilidad, considerada como rama de las matem áticas, descansa en una serie de
axiomas y de t érminos que no se definen. Dentro de la teorı́a, no se hace uso alguno del significado
o la interpretaci ón del n úmero real que representa la probabilidad. El c álculo de probabilidades
es el conjunto de reglas de operaci ón que permite determinar la probabilidad de ciertos sucesos, a
partir de los valores de las probabilidades de otros. Los axiomas son reglas b ásicas, a partir de las
cuales se deducen las reglas de operaci ón.
Las interpretaciones frecuentista y subjetiva son radicalmente diferentes, por lo que es una grata
sorpresa que exista una teorı́a unificada. Esto es posible porque el enfoque matem ático consiste en
imponer ciertos axiomas y obtener luego conclusiones mediante un razonamiento l ógico. La utili-
dad de este enfoque requiere que no haya contradicci ón entre los axiomas elegidos y las nociones
intuitivas. Con la interpretaci ón frecuentista las probabilidades son proporciones lı́mites, lo que
sugiere que las reglas de operaci ón con probabilidades sean an álogas a las referentes a operaciones
con proporciones.
Una propiedad clave que satisfacen las proporciones es la aditividad. Para escribir esto riguro-
samente, consideremos una partici ón finita (A1 , . . . , Ak ) de A ⊆ Ω, donde Ω es un conjunto finito.
La aditividad significa que la proporci ón de elementos de Ω que est án contenidos en A es la suma
de las proporciones correspondientes a los conjuntos A i .
Muchos conceptos geom étricos y fı́sicos, tales como longitud, área, volumen, peso y carga
eléctrica, se pueden representar como una funci ón aditiva definida sobre una clase de conjuntos.
Por ejemplo, si cortamos un hilo en k pedazos y medimos la longitud de cada uno, la suma de estos
n úmeros coincide con la longitud original del hilo; si cortamos un pedazo de carne en k pedazos, los
pesamos por separado y sumamos los pesos, se recupera el peso original. Si bien los valores de la
longitud, el área, el volumen y el peso son todos positivos, ellos pueden ser positivos o negativos en
el caso de la carga el éctrica. Un caso semejante es el de una empresa con k sucursales. La ganancia
total de la empresa ser á la suma de las ganancias de cada sucursal (aditividad), pero algunas de estas
ganancias podrı́an ser eventualmente negativas (p érdidas).
En el caso de proporciones no tiene inter és considerar particiones infinitas, pero no ocurre lo
mismo con los ejemplos geom étricos y fı́sicos. Por ejemplo, un cı́rculo no es una uni ón finita
de rectángulos, pero se puede escribir como una uni ón numerable. Una medida es una funci ón m
definida sobre una clase de subconjuntos A de un conjunto Ω, que cumple el axioma de σ-aditividad,
también denominada aditividad numerable:
∞ ∞
!
X X
m Ai = m(Ai ). (1.5.1)
i=1 i=1
La longitud, el área, el volumen, el peso, la carga el éctrica, el n úmero de elementos y la proporci ón,
son todos ejemplos de medidas. A nivel de estas notas no enfatizaremos la aditividad numerable.
Decimos que una medida m es positiva si m(A) ≥ 0 para todo A ∈ A. En el caso del área de
una figura (o sea un subconjunto del plano) existen subconjuntos de inter és cuya área es infinita. Si
todos los subconjuntos de inter és están contenidos en una regi ón acotada Ω, el área de Ω es finita y
lo propio acontece con todos sus subconjuntos. Cuando la medida m satisface m(Ω) < ∞ se dice
que ella es finita. Si m(Ω) = 1 se dice que ella es normalizada.
La operaci ón de contar est á relacionada con una medida positiva, donde a cada subconjunto de
un conjunto finito Ω se le asocia su cardinalidad, i.e. el n úmero de elementos que contiene. La
aditividad de la cardinalidad es obvia; por ejemplo el n úmero de alumnos de un colegio se puede
obtener sumando los tama ños de todos los cursos. Matem áticamente,
k k
!
X X
card Ai = card (Ai ). (1.5.2)
i=1 i=1
La condici ón que los subconjuntos Ai sean disjuntos es ac á necesaria para evitar contar dos veces
el mismo elemento. La proporci ón m(A) de elementos contenidos en A, dada por
card (A)
m(A) = ,
card (Ω)
es también una medida normalizada. En general, toda medida positiva finita se puede normalizar,
dividiéndola por la medida de Ω. En el caso de la longitud, el área, el volumen y el peso, la
normalizaci ón se puede alcanzar con un simple cambio de unidades.
Con la formulaci ón conjuntista, la distribuci ón de probabilidad es una funci ón con valores reales,
definida sobre una familia A de conjuntos del espacio muestral Ω. En el caso finito A est á consti-
tuida por todos los subconjuntos de Ω. Con estas definiciones,
En el Capı́tulo 2 se demostrar á que P (Cn ) = pn , cuyo valor lı́mite es 0. Por otra parte
∞
T
Cn es una sucesi ón decreciente y, en consecuencia, C = lim Cn = Cn . El suceso
n=1
C ocurre si nunca sale cara. El axioma de σ-aditividad implica que la probabilidad de
este conjunto es 0.
La σ-aditividad es esencial para estudiar problemas donde una variable aleatoria toma valores
enteros no negativos, pero hay una cota superior natural. La σ-aditividad garantiza que la suma de
las probabilidades de todos los resultados coincide con la probabilidad que ocurra alguno de ellos y
por tanto es igual a 1. Por cierto la suma es realmente el valor de una serie.
A partir de los axiomas se puede obtener muchas propiedades útiles. Algunas valen para toda me-
dida, otras para toda medida positiva y otras para toda medida positiva normalizada. El tratamiento
axiomático nos entrega una herramienta poderosa para intuir las propiedades probabilı́sticas bási-
cas. Simplemente usamos un modelo concreto para el cual comprendemos bien alguna medida
positiva normalizada, evitando utilizar caracterı́sticas muy especiales de esa medida. Por ejemplo,
si una figura está contenida dentro de otra, el área de la primera no puede exceder el área de la
otra. Esta propiedad intuitiva vale para cualquier medida positiva y se denomina monotonicidad.
Formalmente, la funci ón de conjunto m es mon ótona si
para toda medida positiva m. Por inducci ón se reduce la demostraci ón al caso k = 2. Para
obtener una idea intuitiva es útil construir diagramas de Venn para k = 2 y k = 3 y tomar a
m como el área.
Considerando un conjunto finito Ω y tomando m como la cardinalidad, la desigualdad se
produce al contar algunos elementos m ás de una vez. Si identificamos los elementos de Ω
con nombres de personas y Ai como una lista de algunos de estos nombres, la desigualdad nos
dice que el total de nombres puede ser mayor que la suma de los n úmeros de cada lista. Por
cierto, si no hay nombres repetidos, la desigualdad se transforma en igualdad. La ausencia
de repeticiones es equivalente a la intersecci ón vacı́a de los conjuntos en esta familia de
conjuntos.
• Concepto probabilı́stico: F órmula para la probabilidad que ocurra alg ún conjunto de una
familia dada.
Problema general: F órmula para la medida de una uni ón de conjuntos.
– Caso k = 2 :
m(A1 ∪ A2 ) = m(A1 ) + m(A2 ) − m(A1 ∩ A2 )
La demostraci ón es sencilla, siendo lo esencial considerar la partici ón (A1 \ A2 ) ∪
(A2 \ A1 ) ∪ (A1 ∩ A2 ). La desigualdad (1.5.13) para k = 2 se obtiene como corolario.
Notamos, adem ás, que m(A1 ∪ A2 ) = m(A1 ) + m(A2 ) si y s ólo si m(A1 ∩ A2 ) = 0.
Usando la analogı́a con área, si se corta un rect ángulo en dos pedazos, el área del borde
entre ellos es nula, de modo que se puede incorporar el borde a cada uno de los pedazos
sin alterar el área total.
– Caso general
k
[ k
X
m( Ai ) = (−1)j−1 αj , (1.5.8)
i=1 j=1
Para facilitar las referencias posteriores entregamos una lista de las f órmulas probabilı́sticas que
hemos demostrado en un marco m ás general.
k k
!
X X
P Ai = P (Ai ) (1.5.9)
i=1 i=1
P (φ) = 0, (1.5.10)
C ⊆ D ⇒ P (C) ≤ P (D) (1.5.11)
∞ ∞
!
X X
P Ai = P (Ai ), (1.5.12)
i=1 i=1
k k
!
[ X
P Ai ≤ P (Ai ) (1.5.13)
i=1 i=1
k
[ k
X
P( Ai ) = (−1)j−1 αj , (1.5.15)
i=1 j=1
donde αj es la suma de la probabilidades que ocurran j sucesos simult áneamente, al tomar exacta-
mente j sucesos a la vez.
1.5.4 Ejemplos
111 112 113 114 115 116 121 122 123 124 125 126
131 132 133 134 135 136 141 142 143 144 145 146
151 152 153 154 155 156 161 162 163 164 165 166
211 212 213 214 215 216 221 222 223 224 225 226
231 232 233 234 235 236 241 242 243 244 245 246
251 252 253 254 255 256 261 262 263 264 265 266
311 312 313 314 315 316 321 322 323 324 325 326
331 332 333 334 335 336 341 342 343 344 345 346
351 352 353 354 355 356 361 362 363 364 365 366
411 412 413 414 415 416 421 422 423 424 425 426
431 432 433 434 435 436 441 442 443 444 445 446
451 452 453 454 455 456 461 462 463 464 465 466
511 512 513 514 515 516 521 522 523 524 525 526
531 532 533 534 535 536 541 542 543 544 545 546
551 552 553 554 555 556 561 562 563 564 565 566
611 612 613 614 615 616 621 622 623 624 625 626
631 632 633 634 635 636 641 642 643 644 645 646
651 652 653 654 655 656 661 662 663 664 665 666
18 18 18 18 18 18 18 18 18 18 18 18
6
P
y un n úmero j. Entonces, A = Ai , y por simetrı́a P (A) = 6P (A1 ). A su vez
i=1
5
P
A1 = A1j y la simetrı́a implica P (A1 ) = 5P (A12 ). Ası́ P (A) = 30P (A12 ). En
i=2
términos del conjunto Ω de los 216 arreglos, el suceso A 12 , que corresponde a 2 ases
y 1 dos, se identifica con el conjunto {211, 121, 112}, de modo que él corresponde a 3
resultados favorables. Esto muestra que
3 1 5
P (A12 ) = , P (A) = 90 × = .
216 216 12
Ejemplo 1.5.3 (Probabilidad geom e´trica) La elecci ón de un punto al azar en una
regi ón acotada de un plano se obtiene normalizando el área, es decir, la probabilidad
de un subconjunto es la raz ón entre su área y el área total del plano. Por ejemplo,
la probabilidad que un punto elegido al azar en un cuadrado caiga dentro del cı́rculo
inscrito es π4 . Si se puede realizar repetidamente este experimento, la proporci ón de
veces que el punto cae dentro del cı́rculo, multiplicada por 4, permite aproximar el
valor de π experimentalmente.
Un cálculo similar muestra que si se elige un punto al azar en un disco, la probabilidad
que la distancia al origen sea inferior a la mitad del radio es 14 . Por otra parte, el disco
se puede escribir como
R1 1
Por ejemplo, si M = 1 y h(x) = x2 (1 − x), 0 h(x)dx = 12 y
F (0) = p(0)
F (1) = p(0) + p(1)
F (2) = p(0) + p(1) + p(2)
..
.
F (x) = p(0) + p(1) + · · · + p(x)
..
.
F (99) = p(0) + p(1) + · · · + p(99),
Sea Ω numerable y sea P una distribuci ón de probabilidad dada. Se define la funci ón de probabili-
dad por p(ω) = P ({ω}), ω ∈ Ω.
Los sucesos básicos {ω} constituyen una partici ón numerable de Ω y todo A ⊂ Ω es una uni ón
numerable de los sucesos b ásicos {ω, ω ∈ A}. Por σ-aditividad,
X
P (A) = p({ω}). (1.6.1)
ω∈A
Esto indica que la probabilidad de un suceso sigue siendo la suma de las probabilidades de los
resultados favorables.
Aplicando (1.6.1), con A = Ω, se tiene
X
p(ω) = 1, p(ω) ≥ 0. (1.6.2)
ω∈Ω
Todas las ecuaciones (1.2.1) – (1.2.8) rigen por definici ón o como consecuencia l ógica.
Si se enumeran los t érminos de A, la suma en (1.6.1) es el valor de una serie. La no negatividad
de los términos garantiza que este valor no depende de la enumeraci ón elegida. Adem ás, (1.6.2)
garantiza la convergencia. El caso finito sale como corolario, donde no se requiere la σ-aditividad,
sino la aditividad finita.
Si el resultado del experimento es un n úmero entero no negativo k, para el cual no queremos impo-
ner una cota superior, lo habitual es elegir Ω como el conjunto de enteros no negativos {0, 1, 2, . . .}.
Esta situaci ón ocurre frecuentemente cuando la variable es un recuento, e.g. n úmero de accidentes,
de llamadas telef ónicas, de llegadas a una intersecci ón, de clientes en una cola, etc. Las igualdades
(1.6.2) y (1.6.1) se transforman en
X∞
p(k) = 1,
k=0
y X
P (A) = p(k),
k∈A
define una funci ón de probabilidad v álida, basta verificar que los valores son no negativos y calcular
la suma. Si el experimento consiste en extraer artı́culos de un lote hasta que aparezca el primer
defectuoso y k es el n úmero total de artı́culos que se extrae, P (X > 3) coincide con la probabilidad
que las primeras tres extracciones entreguen artı́culos no defectuosos. Un c álculo directo da
∞
X
P (X ≥ 3) = p(k) (1.6.3)
k=4
∞
X
3
= 0.7 × 0.3 0.3k−4 (1.6.4)
k=4
X∞
= 0.7 × 0.33 0.3j (1.6.5)
j=0
= 0.33 (1.6.6)
= 0.027 (1.6.7)
Si la serie converge pero la suma es c 6= 1, basta normalizar la funci ón dividiendo cada t érmino de
la serie por c. Basta, entonces, indicar el valor de la funci ón de probabilidad salvo por una constante
de proporcionalidad y determinarla usando (1.6.2). Por ejemplo, de la serie de Taylor de la funci ón
∞
X 1 k
exponencial se deduce que c = λ = eλ , de modo que
k!
k=0
e−λ k
p(k) = λ , λ > 0, k ≥ 0
k!
es una legı́tima funci ón de probabilidad. La distribuci ón de probabilidad correspondiente se deno-
mina distribuci ón de Poisson y est á determinada por el par ámetro ajustable λ.
Es muy excepcional conocer los valores exactos de la funci ón de probabilidad. Lo habitual es que
exista informaci ón empı́rica previa sobre las frecuencias relativas de los distintos valores posibles de
una variable aleatoria. Para que el modelo probabilı́stico tenga relevancia pr áctica se procura elegir
la forma de funci ón de probabilidad p de tal modo que se asemeje a la funci ón de probabilidad
empı́rica (donde las proporciones empı́ricas reemplazan a las probabilidades). El uso de familias
paramétricas, como la de Poisson, permite ajustar la funci ón de probabilidad a los datos mediante
la elecci ón de uno o m ás n úmeros reales, que se denominan par ámetros.
Muchas familias param étricas se pueden deducir a partir de series de potencia conocidas. Sea
∞
X
G(z) = ck z k , |z| < r, (1.6.8)
k=0
una serie de potencias con radio de convergencia r. El caso especial, en que todos los coeficientes
ck son nulos excepto un n úmero finito de ellos, da origen a un polinomio, para el cual r = ∞.
Si ck ≥ 0 para todo k, la funci ón p(·, θ) definida por
ck θ k
p(k, θ) = , θ < r, k ≥ 0, (1.6.9)
G(θ)
Ejemplo 1.6.1 Una aplicaci ón de (1.6.8) y (1.6.9) a las conocidas expansiones
∞
X 1 k
ez = z , |z| < ∞,
k!
k=0
∞
X
z(1 − z)−1 = z k , |z| < 1
k=1
λk e−λ
p(k, λ) = , λ > 0.
k!
y
p(k, θ) = (1 − θ)θ k−1 , k > 0, 0 < θ < 1.
La primera genera la distribuci ón de Poisson, y la segunda recibe el nombre de ge-
ométrica. Para θ = 0.3 se obtiene la funci ón de probabilidad en el ejemplo de los
artı́culos defectuosos.
1.7 Problemas
1. Sean tres sucesos E, F y G. Encuentre expresiones para los siguientes sucesos en lenguaje de
conjuntos.
3. Demuestre que la probabilidad que ocurra exactamente uno de los sucesos E o F es igual a:
P (E) + P (F ) − 2P (E ∩ F ).
4. Demostrar que si P y Q son dos medidas de probabilidad definidas sobre un mismo espacio,
entonces aP +bQ es tambi én una medida de probabilidad para algunos n úmeros no negativos
a y b tales que a + b = 1. Dar un ejemplo encontrando valores a y b que cumplan las
condiciones.
5. Una caja contiene una ficha roja, una verde y una azul. Considere el siguiente experimento:
se saca una ficha de la caja, ésta es devuelta y se extrae una segunda ficha. Describir un
espacio muestral apropiado. Repetir lo anterior si la ficha se extrae sin reposici ón.
6. Se lanza un dado hasta que aparece un seis. ¿Cu ál es el espacio muestral de este experimen-
to?. Si En denota el suceso que son necesarios n lanzamientos para completar el experimento,
∞
¿qué elementos del espacio muestral est án contenidos en En ?. ¿Qué es ( En )c ?
S
i=1
7. Formular un modelo matem ático para los siguientes experimentos, describiendo el espacio
muestral e indicando las probabilidades asociadas a cada uno de sus elementos.
a.- Si dos hombres compran una camisa cada uno, ¿cu ántas posibilidades de compra hay?
b.- Si dos camisas son vendidas, ¿cu ántas posibilidades de venta hay?
9. Se seleccionan dos cartas al azar en un juego de naipes. ¿Cu ál es la probabilidad que una de
ella sea un as y la otra no est é entre 1 y 7?
10. Cinco fichas son aleatoriamente distribuidas en tres cajas A, B y C. Evaluar la probabilidad
de los siguientes sucesos:
11. Repetir el ejercicio anterior con n fichas y tres cajas. Verificar la expresi ón general para el
ejercicio anterior.
12. Se ordena un grupo de 30 personas al azar y se les va preguntando de uno a uno el dı́a de
su nacimiento. Calcule la probabilidad que no haya dos personas con el mismo cumplea ños
entre las primeras (i) 10 (ii) 20 personas.
14. Suponga que 4 tarjetas marcadas 1, 2, 3, 4 se mezclan y luego se colocan al azar en 4 posicio-
nes fijas. Sea X el n úmero de coincidencias, i.e, el n úmero de veces que una tarjeta marcada
i queda en la posici ón i. Demuestre por enumeraci ón directa de los 24 resultados posibles
que P (X = x) es la siguiente:
k 0 1 2 3 4
9 8 6 1
P (X = k) 24 24 24 0 24
15. Si un n úmero de 3 dı́gitos (000 a 999) es elegido al azar, encontrar la probabilidad que
exactamente un dı́gito sea mayor que 5.
Resp : 0.432
18. Una caja contiene 2n helados, n de naranja, y n de lim ón. De un grupo de 2n personas, a < n
prefieren naranja, y b < n prefieren lim ón, mientras que las restantes 2n − a − b personas no
tienen preferencias. Demuestre que si los 2n helados se reparten al azar, la probabilidad que
todas las preferencias sean respetadas es
2n−a−b
n−a
2n
.
n
Desafı́os
19. Se lanza un par de dados hasta que la suma de ellos sea cinco o siete. Encuentre la probabili-
dad que la suma cinco aparezca primero.
Hint : Sea En la suma cinco aparece en el n- ésimo lanzamiento y cinco o siete no aparece en
∞
P
el lanzamiento n−1. Calcule P (En ) y argumente que P (En ) es la probabilidad deseada.
n=1
20. (Problema de Banach) El matem ático Banach mantenı́a dos cajas de f ósforos, una en cada
bolsillo y cada caja contenı́a n f ósforos. Cada vez que él necesitaba un f ósforo, seleccionaba
aleatoriamente uno de los bolsillos. Cuando él encontr ó que la caja seleccionada estaba vacı́a,
¿cuál es la distribuci ón del n úmero de f ósforos que quedaban en la otra caja ?
Hint: Divida en dos casos de acuerdo a que el bolsillo derecho e izquierdo est é vacı́o, pero
tenga cuidado con el caso en que ambos est én vacı́os.
21. Generalice el Problema 14 al caso de n tarjetas.
22. Una urna contiene n tarjetas enumeradas de 1 a n. Se sacan al azar las tarjetas una por una
y sin reemplazo. Si la tarjeta con el n úmero r aparece en la r- ésima extracci ón, entonces
diremos que ocurri ó un encuentro. Probar que la probabilidad que al menos un encuentro
ocurra es:
1 1 1 (−1)n−1
1− + − + ··· + → 1 − e−1
2! 3! 4! n!
cuando n → ∞.
Hint : Usar el Problema 13 y P (A1 ∪ A2 ∪ · · · ∪ An ).
Probabilidad Condicional e
Independencia
• La probabilidad de obtener dos caras al lanzar dos veces una moneda equilibrada es 14 . Sin
embargo, si alguien nos comunica que la primera moneda sali ó cara, la probabilidad relevante
es intuitivamente mayor. Dado que s ólo existe incertidumbre sobre el segundo lanzamiento,
el valor 21 parece reflejar mejor la situaci ón.
• La probabilidad que una persona elegida al azar de una poblaci ón posea cierta caracterı́stica
genética coincide con la proporci ón α de personas de la poblaci ón que la poseen. Si la per-
sona se hace un test, que tiene un margen de error, y éste resulta positivo, interesa actualizar
esta probabilidad α para tomar en cuenta esta informaci ón.
El argumento implı́cito en los primeros dos casos es que resultados que eran equiprobables
siguen siéndolo luego de conocida cierta informaci ón. En estos tres ejemplos quedan de manifiesto
los siguientes hechos:
36
´
CAP ITULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
La probabilidad buscada en los tres ejemplos se puede traducir en la probabilidad que ocurra A dado
que ha ocurrido F . Se la denotar á por P (A|F ) y se leer á probabilidad condicional de A dado F .
Si los n puntos de Ω son equiprobables y s ólo sabemos que F ocurre, parece natural usar F como
nuevo espacio muestral y suponer que sus m puntos siguen siendo equiprobables. Notemos que
1
1 n
= m.
m n
Las interpretaciones discutidas en la secci ón anterior sugieren c ómo definir la probabilidad condi-
cional usando un enfoque axiom ático.
P (A ∩ F ) = P (F )P (A|F ). (2.2.2)
En la práctica es más frecuente tener una idea de los valores de P (A|F ) y P (F ), por lo que la
versi ón multiplicativa es la m ás útil.
Nota: Si alguien nos informa de un suceso, cuya ocurrencia era absolutamente segura, ello no de-
biera cambiar nuestras probabilidades. En otras palabras, P (A|F ) debiera coincidir con P (A). Esto
se desprende inmediatamente de la definici ón axiomática, tomando F = Ω, bastando la condici ón
P (F ) = 1.
La utilidad de una definici ón formal se muestra en el pr óximo ejemplo.
Ejemplo 2.2.1 Se dispone de tres cartas: (1) con ambas caras blancas, (2) con ambas
negras y (3) con una cara de cada color. Se elige una carta al azar y luego se pone sobre
una mesa, eligiendo al azar una de sus caras. Si la cara mostrada es negra, calcule la
probabilidad que la otra sea negra.
La intuici ón indica que hay s ólo dos cartas posibles, y por la simetrı́a del problema
ambas son equiprobables, de modo que la probabilidad buscada es 12 . Si el lector tiene
la paciencia de repetir muchas veces el experimento, se dar á cuenta que del conjunto
de repeticiones en que la cara mostrada es negra, mucho m ás de la mitad tiene la otra
cara negra. Esto muestra que la intuici ón no siempre funciona.
Para analizar formalmente el problema, marquemos cada cara de las cartas (con tinta
invisible), con las letras a y b. Hay entonces 6 resultados 1a, 1b, 2a, 2b, 3a, 3b, que
debieran ser equiprobables, por simetrı́a. La informaci ón que la cara visible es negra
se traduce en un suceso B = {2a, 2b, 3b}. La probabilidad que la carta visible sea
negra y que la otra tambi én lo sea es igual a la probabilidad del suceso {2a, 2b}. Por
definici ón de probabilidad condicional la probabilidad buscada es
2
P ({2a, 2b}) 6 2
= 3 = .
P ({2a, 2b, 3b}) 6
3
El concepto de independencia est á intuitivamente asociado con ausencia de efecto o de interacci ón.
Desde el punto de vista probabilı́stico, nos interesa expresar la idea que la ocurrencia o no de un
suceso no afecte la probabilidad que otro ocurra. En el lenguaje de variables, la idea es que el
valor que toma una variable no afecte las probabilidades de los valores de otra variable. Esta idea
aparece implı́citamente en la interpretaci ón frecuentista, pues se supone que lo que ocurra en una
de las repeticiones del experimento no afecta a las otras. Ya hemos mencionado que lanzamientos
sucesivos de una moneda o un dado, ası́ como el muestreo con reposici ón, parecen cumplir con esta
ausencia de interacci ón. El problema es c ómo dar una definici ón formal de este concepto, dentro
del marco axiom ático.
Si queremos expresar que la ocurrencia o no de un suceso F no afecta la probabilidad que otro
suceso A ocurra, parece natural imponer la condici ón
La condici ón P (F ) > 0, P (F 0 ) > 0 es equivalente a 0 < P (F ) < 1, la que se requiere para que
queden bien definidas las probabilidades condicionales. Sin embargo, los casos excluidos corres-
ponden a la ocurrencia de un suceso seguro, lo que no debiera afectar nuestras creencias sobre otros
sucesos. Digamos provisionalmente que A es independiente de F cuando (2.3.1) se cumple. Por
otra parte, los otros casos corresponden a la ocurrencia de algo seguro, lo que no debiera afectar
nuestras creencias sobre la ocurrencia del suceso A. Para evitar imponer esto como condici ón, es
más conveniente reformular (2.3.1) como sigue. Por (2.2.3), P (A) es un promedio ponderado de
P (A|F ) y de P (A|F 0 ), de modo que la igualdad de dos de estas tres cantidades implica que todas
son iguales. Por lo tanto, (2.3.1) equivale a
P (A ∩ F ) = P (A)P (F ), (2.3.3)
donde la restricci ón P (F ) > 0 ha desaparecido. Desde un punto de vista pr áctico, (2.3.1), (2.3.2)
y (2.3.3) son efectivamente equivalentes.
Intercambiando A con F en la última ecuaci ón, se obtiene P (F ∩ A) = P (F )P (A), que es
idéntica con (2.3.3). Por esta raz ón decimos que la condici ón (2.3.3) es sim étrica en A y F . Una
consecuencia inmediata es que (2.3.1) equivale a
P (F |A) = P (F |A0 ).
Ejemplo 2.3.1 Demostrar que dos sucesos son independientes y mutuamente exclu-
yentes s ólo si uno de ellos tiene probabilidad nula.
Si A y B son independientes P (A ∩ B) = P (A)P (B). Si ellos son, adem ás, mutua-
mente excluyentes P (A ∩ B) = 0. El cumplimiento simult áneo de estas condiciones
equivale a P (A ∩ B) = P (A)P (B) = 0. Como A ∩ B ⊆ A, esto se cumple si y s ólo
si P (A)P (B) = 0, lo que, a su vez, equivale a P (A) = 0 o P (B) = 0.
En esta secci ón enunciamos dos teoremas famosos, cuya demostraci ón es notablemente sencilla
dentro del enfoque axiom ático. Aunque el enunciado habla de una familia numerable de conjuntos,
el caso más importante, dentro del presente capı́tulo, es el caso finito. La única diferencia entre
ambos casos es la necesidad del axioma de σ-aditividad.
Teorema 2.4.1 (Ley de probabilidades totales) Considere una familia, posiblemente infinita, de
sucesos (Ai , i = 1, 2, . . . , I). Suponga que P (Ai ) > 0, i = 1, 2, . . . , I, y que exactamente uno
de los sucesos Ai ocurre. Si Ω es el espacio muestral, las condiciones se ñaladas corresponden a la
existencia de una partici ón de Ω con probabilidades positivas para cada elemento de la partici ón.
Entonces, para cualquier suceso B se cumple:
I
X
P (B) = P (Ai )P (B|Ai )
i=1 (2.4.1)
Demostraci o´n: Por definici ón de probabilidad condicional P (Ai )P (Bj |Ai ) = P (Ai ∩ Bj ). Pero
I
X
B= Ai ∩ Bj ,
i=1
Teorema 2.4.2 (Teorema de Bayes) Bajo las mismas condiciones del teorema 2.4.1, se cumple
para cualquier 1 ≤ r ≤ I, y cualquier suceso B con P (B) > 0, que
P (Ar )P (B|Ar )
P (Ar |B) = I
P
P (Ai )P (B|Ai )
i=1 (2.4.2)
Teorema de Bayes
Demostraci o´n: Por (2.4.1) el denominador de (2.4.2) coincide con P (B). Por otra parte, se tiene
que P (Ar )P (B|Ar ) = P (Ar ∩ B), de tal forma que el segundo miembro de (2.4.2) es P (A r ∩B)
P (B) y
el resultado se obtiene por definici ón de la probabilidad condicional.
Nota Importante: Recordar que los Teoremas 2.4.1 y 2.4.2 son v álidos para I finito o
infinito. En el primer caso no se requiere el axioma de σ-aditividad.
La raz ón entre dos probabilidades a posteriori se obtiene multiplicando la raz ón entre las probabi-
lidades a priori correspondientes por el factor
P (B|Ai )
,
P (B|Aj )
Las chances a posteriori se obtienen multiplicando las chances a priori por la raz ón
de verosimilitud.
los sucesos básicos Ai ∩ Bj . La representaci ón gráfica natural de esta construcci ón es una tabla
bidimensional, donde la i- ésima fila corresponde a un Ai y la j-ésima columna a un Bj . La in-
tersecci ón de esta fila y esta columna es la celda (i, j), la cual representa al suceso A i ∩ Bj . Las
probabilidades de los sucesos Ai ∩ Bj se denominan probabilidades conjuntas y generan una ta-
bla, cuyas celdas contienen estas probabilidades. La suma total es 1 y ellas permiten calcular todas
las probabilidades de inter és que sean formulables en t érminos de las dos particiones. En parti-
cular, la suma de las probabilidades de la columna encabezada por B j coincide con P (Bj ), por
ser (Ai ∩ Bj , i = 1, 2, . . . , I) una partici ón de Bj . Análogamente, el total de la fila encabeza-
da por Ai coincide con P (Ai ). Estas probabilidades marginales son representables por dos tablas
unidimensionales. Es c ómodo ubicar las probabilidades marginales P (Ai ) en una columna adicio-
nal, es decir, como margen derecho de la tabla. Del mismo modo, las probabilidades marginales
P (Bj ) se ubican en una fila adicional, es decir, como margen inferior. La definici ón de probabilidad
condicional implica
P (Ai ∩ Bj )
P (Bj |Ai ) =
P (Ai )
P (Ai ∩ Bj )
P (Ai |Bj ) = ,
P (Bj )
o sea,
Las probabilidades P (Ai |Bj ) se representan por tablas separadas para cada j, pero es c ómodo
agruparlas como columnas de una misma tabla. El total de cada columna es ahora igual a 1. An álo-
gamente, las tablas que contienen las probabilidades P (B j |Ai ) se ubican como filas de una tabla
com ún, siendo 1 el total de cada fila.
A continuaci ón mostramos c ómo todo este proceso es, en realidad, m ás difı́cil de explicarlo
que llevarlo a cabo.
B1 B2
A1 A1 ∩ B1 A1 ∩ B2
A2 A2 ∩ B1 A2 ∩ B2
A3 A3 ∩ B1 A3 ∩ B2
B1 B2
A1 0.1 0.3
A2 0.1 0.2
A3 0.2 0.1
Suceso Probabilidad
Suceso Probabilidad
A1 0.4
B1 B2
A2 0.3
0.4 0.6
A3 0.3
que son mejor representadas simult áneamente como m árgenes de la tabla de probabi-
lidades conjuntas:
B1 B2
A1 0.1 0.3 0.4
A2 0.1 0.2 0.3
A3 0.2 0.1 0.3
0.4 0.6 1
Dividiendo cada celda por los n úmero en los m árgenes se obtienen las probabilidades
condicionales:
B1 B2
P (B1 |Ai ) P (B2 |Ai ) Total 1 3
1 3 P (A1 |Bj ) 4 6
A1 4 4 1 1 2
1 2 P (A2 |Bj ) 4 6
A2 3 3 1 2 1
2 1 P (A3 |Bj ) 4 6
A3 3 3 1
Total 1 1
Las probabilidades en las tablas anteriores pueden interpretarse como proporciones. Suponga-
mos, por ejemplo, que i = 1, 2, 3 corresponde a nivel socio econ ómico bajo, medio y alto, y que
j = 2 significa estar a favor de un proyecto de rebaja de aranceles. De una encuesta a 1000 personas
se pueden obtener proporciones que coinciden num éricamente con las probabilidades conjuntas. Se
invita al lector a reinterpretar las dem ás tablas en este nuevo contexto.
En la práctica, las particiones (A1 , . . . , AI ) y (B1 , . . . , BJ ) son inducidas por dos variables dis-
cretas X e Y respectivamente. Cuando la partici ón está formada por un suceso y su negaci ón,
e.g., (F, F 0 ), (B, B 0 ), la variable es binaria. Sea {x1 , . . . , xi , . . . , xI } una enumeraci ón del con-
junto de valores X de X y sea {y1 , . . . , yj , . . . , yJ } una enumeraci ón del conjunto de valores
Y de Y . Definamos los sucesos Ai y Bj por X = xi e Y = yj respectivamente. Entonces
Ai ∩ Bj ⇔ (X = xi , Y = yj ). El espacio muestral m ás c ómodo es el espacio muestral producto
asociado al par de variables (X, Y ), que es el producto cartesiano
X × Y = {(xi , yj ), i = 1, . . . , I; j = 1, . . . , J.}.
Teorema 2.5.1 (Ley de probabilidades totales) Sea X una variable discreta con funci ón de pro-
babilidad positiva. Entonces X
pY (y) = pX (x)pY |X (y|x). (2.5.2)
x∈X
Teorema 2.5.2 (Teorema de Bayes para una variable discreta) Sea X una variable discreta con
funci ón de probabilidad positiva.
pX (x0 )pY |X (y|x0 )
pX|Y (x0 |y) = X . (2.5.3)
pX (x)pY |X (y|x)
x∈X
Se lleva a cabo un experimento E0 obteniéndose un resultado x. De acuerdo a cual sea este resul-
tado, se realiza un segundo experimento, que denotamos por E x . No hay, a priori, ninguna relaci ón
entre los experimentos Ex . Llamamos X al espacio muestral, que suponemos numerable, asocia-
do con el experimento E0 y denotamos por pX a su funci ón de probabilidad. Del mismo modo,
denotaremos por Yx al espacio muestral correspondiente al experimento Ex .
Sea y el resultado de Ex . Si no conocemos x, el conjunto de valores posibles de la variable
correspondiente Y es [
Y= Yx .
x∈X
El resultado del experimento biet ápico es (x, y) ∈ X × Y, pero algunos elementos de este conjunto
pueden ser imposibles. Para no cambiar de espacio muestral, le asignamos probabilidad cero a tales
puntos. Por ejemplo, en muestras sin reposici ón en que x e y identifican completamente cada ficha,
los puntos (x, x) son imposibles.
Ejemplo 2.6.1 Sea E0 el lanzamiento de una moneda. Si sale cara se elige un n úmero
al azar del conjunto {a1 , a2 , a3 }; si sale sello, se elige un n úmero al azar del conjunto
{b1 , b2 }. Codificando cara =1, sello =2, tenemos X = {1, 2}, Y 1 = {a1 , a2 , a3 } e
Y2 = {b1 , b2 }. Si s ólo observáramos el resultado del segundo experimento, el espacio
muestral serı́a Y = {a1 , a2 , a3 , b1 , b2 }.
Ejemplo 2.6.2 Se lanza un dado y luego se lanza una moneda tantas veces como el
n úmero que indica el dado. En este caso X = {1, 2, 3, 4, 5, 6}. Codificando cara =1,
sello =0, tenemos
x Yx
1 {0, 1}
2 {0, 1} × {0, 1}
3 {0, 1} × {0, 1} × {0, 1}
4 {0, 1} × {0, 1} × {0, 1} × {0, 1}
5 {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1}
6 {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1} × {0, 1}
En este caso Y resulta altamente artificial. Si consideramos como resultado del segundo
experimento al n úmero total de caras, esto se simplifica a
x Yx
1 {0, 1}
2 {0, 1, 2}
3 {0, 1, 2, 3}
4 {0, 1, 2, 3, 4}
5 {0, 1, 2, 3, 4, 5}
6 {0, 1, 2, 3, 4, 5, 6}
2.6.2 Identificaci´
o n con probabilidades condicionales y regla multiplicativa
Por comodidad usaremos el lenguaje de variables. El supuesto clave es que tanto el espacio muestral
como las probabilidades asociadas con el experimento E x son conocidos. Denotemos por πx (·) la
funci ón de probabilidad asociada a Ex . Desde un punto de vista frecuentista, la proporci ón de
veces que se observa x tiende a pX (x) = P (X = x) y la proporci ón de veces que se obtiene (x, y)
tiene como lı́mite a pX (x)πx (y). Pero sabemos que este último lı́mite coincide con pX,Y (x, y) =
P (X = x, Y = y). Por definici ón de probabilidad condicional
Ejemplo 2.6.3 Calculemos la probabilidad de obtener dos fichas blancas al extraer dos
fichas, sin reposici ón, de una urna que contiene dos fichas blancas y una negra. Si x e
y son los colores (b o n) de la primera y segunda ficha, X = Y = {b, n}. Por (2.5.1) la
probabilidad buscada es
En el cálculo de pX (b) podemos ignorar el hecho que habr á una segunda extracci ón.
Por equiprobabilidad se obtiene PX (b) = 32 . Por otra parte, dado X = b, se genera
fı́sicamente una nueva urna compuesta por una ficha de cada color. El experimento
Eb consiste en extraer una ficha al azar de esta urna y anotar su color, de modo que
πb (b) = 12 . Por lo tanto P (Y = b|X = b) = 12 . De aquı́ p(b, b) = 23 × 12 = 31 . El lector
debe verificar que el mismo resultado se obtiene considerando el espacio equiprobable
de las 6 muestras ordenadas.
Un árbol es una estructura matem ática formada por nodos y arcos dirigidos. Una variable discreta
X genera un nodo para cada valor x. Previamente existe un nodo origen, rotulado por O, el que se
une a cada uno de estos nodos generando arcos dirigidos que emanan del origen, a los que se denota
por Ox. Al nodo Ox se le asigna la probabilidad pX (x) = P (X = x). La suma de los valores
asignados a todos los arcos emergentes del nodo origen es, por tanto, igual a 1.
Consideremos ahora una segunda variable discreta Y . A partir de cada nodo x se dibujan arcos
emergentes con nodos terminales rotulados por los valores de y, lo que genera un nuevo árbol a
partir de cada nodo rotulado por x. Juntando todos estos árboles con el árbol original, se forma
uno más grande en que aparecen ramas, constituidas por los arcos Ox y xy. Las ramas est á en
correspondencia uno a uno con los pares de valores (x, y) y con los nodos terminales. Hay que
distinguir acá entre nodo y r ótulo del nodo. Pueden haber muchos nodos terminales con el r ótulo
y, pero a cada uno de estos nodos llega un solo arco, que proviene de un nodo primario dado. Cada
rama se puede interpretar como un resultado del experimento biet ápico. El origen del árbol se
puede asociar con el suceso seguro Ω. El producto de los n úmeros asignados a los arcos de la rama
Oxy es pX (x)pY |X (y|x), que coincide con pX,Y (x, y). La regla multiplicativa corresponde, ası́, a
multiplicar los n úmeros de una rama. Esto es f ácilmente extensible a k variables X1 , . . . , Xk , lo
que veremos en la pr óxima secci ón.
Ejemplo 2.6.5 Sea una urna con 4 fichas negras y 2 blancas. Se extrae una muestra
ordenada de tama ño 2. Considere los colores del par de fichas extraido como resultado
del experimento.
(a) Calcule la probabilidad de cada resultado.
(b) Calcule la probabilidad que la segunda ficha sea negra.
(c) Calcule la probabilidad que la primera ficha sea negra, dado que la segunda tam-
bién lo es.
El diagrama de árbol que se muestra en la figura es una forma razonable de abordar este
problema. De este modo, las probabilidades de cada rama se obtienen de multiplicar
los n úmeros sobre cada arco, las que corresponden a lo pedido en (a).
Configuraci´
o n Inicial
xxx
xhh
4 Q 2
6 Q6
Q
Q
x Ficha 1 h
J J
3 J 2 4 J 1
5 J5 5 J5
J J
x h Ficha 2 x h
Ası́, P (nn) = 64 × 53 = 15 6
, P (nb) = 64 × 25 = 15 4
, P (bn) = 62 × 54 = 15 4
y
2 1 1
P (bb) = 6 × 5 = 15 . La probabilidad pedida en (b) se obtiene simplemente de sumar
6 4
las probabilidades de las ramas que terminan en •, lo que da 15 + 15 = 23 . Finalmente,
lo pedido en (c) es una aplicaci ón del Teorema de Bayes. El resultado es 53 , y los
detalles se dejan al lector como ejercicio.
Hay una correspondencia uno a uno entre el conjunto de ramas, el conjunto de nodos terminales,
el conjunto de sucesos Ai ∩ Bj , y el conjunto X × Y. Esto indica que se puede elegir Ω como el
conjunto de ramas del árbol o como el conjunto de nodos terminales. Si se obtiene la probabili-
dad de cada rama por multiplicaci ón, y se organizan estos productos en la tabla de probabilidades
conjuntas, se puede obtener los m árgenes. El margen inferior entrega las probabilidades buscadas,
mientras que los n úmeros en el margen derecho deben coincidir con los valores P (A i ), que son un
dato del problema.
A partir de la tabla de probabilidades conjuntas, el margen derecho entrega las probabilidades
de los nodos primarios. Dividiendo la probabilidad de cada celda por el n úmero correspondiente en
esta marginal se encuentran las probabilidades de los arcos que conectan un nodo primario con uno
secundario.
Y =n Y =b Total
4
X=n 6 × 35 = 12
30
4
6 × 25 = 30
8 2
3
2
X=b 6 × 45 = 30
8 2
6
1
× 5 = 302 1
3
2 1
Total 3 3 1
1. Identificar las ramas favorables, i.e. aquellas para las cuales el suceso ocurre.
2. Multiplicar los n úmeros de los arcos de estas ramas para obtener la probabilidad de cada rama
favorable.
1. Multiplicar los n úmeros de los arcos de estas ramas para obtener la probabilidad de cada
rama.
Ejemplo 2.6.7 Retomamos ac á el Ejemplo 2.2.1 de las tres cartas. Mostramos que el
problema se puede tambi én resolver aplicando el Teorema de Bayes. Sea X el n úmero
de la carta, y sea Y = b o Y = n seg ún sea blanco o negro el color mostrado. El árbol
con ramas (x, y) tiene 6 ramas, aunque 2 de ellas tienen probabilidad nula.
Ejemplo 2.6.8 Suponga que en el Ejemplo 2.6.2 se han obtenido dos caras. Calcu-
le la funci ón de probabilidad del n úmero que sali ó en el dado, condicional en esta
informaci ón.
x 4 5 6
4 10 15
pX|Y (x|4) 29 29 29
Sea Xi la variable que representa el resultado potencial de la i– ésima etapa, y sea Xi el conjunto
de mi valores posibles de esta variable. Es conveniente escribir el resultado en la forma x =
(x1 , x2 , . . . , xk ) ∈ X = X1 × X2 × · · · × Xk . El n úmero total de resultados,
k
Y
card (S) = m = mi ,
i=1
puede ser muy grande, tornando inviable una asignaci ón directa de la probabilidad para cada x.
Por ejemplo, si se lanza una moneda 100 veces, el n úmero de resultados posibles asciende a la
astron ómica cifra de 2100 . Consideremos la descripci ón secuencial:
Etapa 1. Se realiza experimento E0 , obteniéndose X1 = x1 .
Etapa 2. Se realiza experimento Ex1 , obteniéndose X2 = x2 .
.. ..
. .
Etapa r. Se realiza experimento Ex1 x2 ···xr−1 , obteniéndose Xr = xr .
.. ..
. .
Etapa k. Se realiza experimento Ex1 x2 ···xk−1 , obteniéndose Xk = xk .
Para r > 0 usamos la notaci ón xr = (x1 , x2 , . . . , xr ) y X r = (X1 , X2 , . . . , Xr ), de modo que
P (Xr = xr |Xj = xj , j < r) = P (Xr = xr |X r−1 = xr−1 ). Considerando a xr−1 como el
resultado de una primera macro-etapa, la funci ón de probabilidad sobre el espacio muestral asociado
con Exr−1 coincide con las funci ón probabilidad condicional de (Xr |X r−1 = xr−1 ).
Observaciones:
• Si el resultado x se interpreta como la rama de un árbol que pasa por los nodos x1 , x2 , . . ., la
probabilidad αr = P (Xr = xr |X r−1 = xr−1 ) se asigna al arco que une a xr−1 con xr . Ella
corresponde a la probabilidad del resultado xr en el experimento Exr−1 .
• Si el suceso Xi = xi se reemplaza por un suceso cualquiera Ai , (2.7.1) se satisface con
α1 = β1 = P (A1 ) y
r−1
\ r
\
αr = P (Ar | Ai ), βr = P ( Ai ).
i=1 i=1
P (X1 = x1 , X2 = x2 , X3 = x3 ) = P (X1 = x1 , X2 = x2 )
×P (X3 = x3 |X1 = x1 , X2 = x2 )
P (X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 ) = P (X1 = x1 )
× P (X2 = x2 |X1 = x1 ) × P (X3 = x3 |X1 = x1 , X2 = x2 )
× P (X4 = x4 |X1 = x1 , X2 = x2 , X3 = x3 )
P (X = x, Y = y, Z = z) = pX,Y,Z (x, y, z)
P (X = x, Y = y) = pX,Y (x, y)
P (X = x) = pX (x)
P (Y = y|X = x) = pY |X (y|x)
P (Z = z|X = x, Y = y) = pZ|X,Y (z|x, y)
P (Y = y, Z = z|X = x) = pY,Z|X (y, z|x)
El axioma de aditividad permite establecer relaciones usando sumas con respecto a los
argumentos adecuados en las funciones de probabilidad. Por ejemplo:
pX,Y,Z (+, +, +) = 1
pX,Y (+, +) = 1
pX (+) = 1
pY |X (+|x) = 1
pZ|X,Y (+|x, y) = 1
pY,Z|X (y, +|x) = pY |X (y|x)
pY,Z|X (+, +|x) = 1
Ejemplo 2.7.3 Se extraen 3 fichas sin reemplazo de una urna con 4 fichas blancas y 5
fichas negras. Definamos las variables
• •b •b •n
60 4 3 5
tiene asociada la probabilidad =
504 9 × × 8 7. En términos de funciones de probabi-
lidad, los n úmeros de los arcos son
4 3 5
pX (b) = , pY |X (b|b) = , pZ|X,Y (n|b, b) = .
9 8 7
La definici ón de las probabilidades usando la representaci ón multietápica no representa, en general,
un ahorro en el n úmero de probabilidades independientes que hay que especificar. Para calcular este
n úmero, hay que recordar las igualdades de suma total igual a 1. Denotemos por M r a m1 × · · · ×
mr−1 × mr . Como el n úmero total de arreglos x es Mk , una asignaci ón directa requiere Mk − 1
probabilidades independientes. Utilizando el lenguaje de árboles, hay (m1 − 1) probabilidades
independientes para los m1 arcos que emanan del origen. De cada nodo de orden r − 1, que
representa a xr−1 , emergen mr arcos, lo que requiere especificar mr − 1 probabilidades, para cada
uno de Mr−1 nodos, es decir, Mr−1 (mr − 1) = Mr − Mr−1 . Sumando de r = 1 hasta r = k se
obtiene una suma telesc ópica, que coincide con Mk − 1.
La representaci ón multietápica es particularmente atractiva cuando en el c álculo de las pro-
babilidades αr , no es necesario especificar toda la historia pasada. En esta secci ón describimos
brevemente los casos m ás importantes. El primero se retoma en la pr óxima secci ón desde otro
punto de vista.
• Irrelevancia de toda la historia. En este caso αr depende s ólo de xr , de modo que podemos
escribir αr (xr ). La probabilidad asociada a un arco depende, entonces, s ólo del nodo de
llegada. Se requiere especificar un total de
(m1 − 1) + · · · + (mk − 1)
En la pr óxima secci ón veremos que el supuesto de historia irrelevante coincide con el de
independencia de variables aleatorias. Si X1 , X2 , . . . tienen la misma distribuci ón, basta
especificar m1 − 1 probabilidades.
P (X1=1,X2=3,X3=4,X4=3,X5=2) = α1 (1)α2 (1, 3)α3 (3, 4)α4 (4, 3)α5 (3, 2).
La propiedad descrita ac á es conocida como propiedad markoviana, t érmino que deriva del
apellido de un eminente matem ático ruso. Si se identifica a r como una versi ón discreta del
tiempo y a xr como el estado de un sistema en el tiempo r, las funciones α r determinan el
mecanismo de evoluci ón probabilı́stica del sistema. Lo m ás habitual es que el conjunto Xr
de valores para xr se pueda elegir como el mismo para todo r. Si denotamos por S a este
conjunto com ún, decimos que S es el espacio de estados.
Si card (S) = m, la funci ón α1 está determinada por m − 1 probabilidades, y lo propio
ocurre con cada funci ón αr (xr−1 , ·). En total se requiere especificar (m−1)+(k−1)(m(m−
1)) = (m − 1)(1 + m(k − 1)) n úmeros. Un caso muy importante es el de un proceso
homogéneo, en el sentido que los αr son todos idénticos de r = 2, en adelante. Basta
entonces especificar α1 y α2 , lo que da m2 − 1 constantes en total.
Si las k variables tienen p valores cada una, el n úmero de probabilidades independientes, para varios
casos de interés, se muestra en la siguiente tabla:
Sin restricciones: pk − 1
Caso markoviano: (p − 1) + p(p − 1)(k − 1)
Caso markoviano homog éneo: p2 − 1
Independencia: k(p − 1)
Independencia y homogeneidad: p−1
P (y = (3, 2, 2)) = P (Y1b = 3)P (Y2b = 2|Y1b = 3)P (Y3b = 2|Y2b = 2).
Hay 8 trayectorias posibles y se puede calcular la probabilidad de cada una usando una
regla multiplicativa, al igual que en el caso particular descrito. Se deja el lector dibujar
el árbol correspondiente, asignando las probabilidades a cada arco, y obteniendo las
probabilidades de las ramas por multiplicaci ón.
Si se lanzan 5 dados (equilibrados o no), la intuici ón indica que lo que muestra el tercer dado no
afecta, en absoluto, como se comporta el quinto. Tampoco pareciera que lo que muestran los dos
primeros influirá sobre la suma de los n úmeros de los otros tres. En general, no parece haber
asociaci ón entre los resultados de los cinco dados. Esta propiedad se parece a la de independencia,
pero la definici ón formal (2.3.4) se queda muy corta. Es fundamental generalizarla a m ás de dos
sucesos. El ejemplo de los dados sugiere la idea de independencia de variables. En efecto, el
lanzamiento de 5 dados se puede ver como un experimento con 5 etapas, correspondiendo la i-
ésima al lanzamiento del i- ésimo dado. El resultado natural de esta etapa es el n úmero xi que
muestra el dado, al que consideramos como el valor o realizaci ón de una variable Xi .
Los sucesos que dependen s ólo del resultado del i- ésimo dado son aquellos expresables en
términos de la variable Xi . Aquellos que dependen s ólo de los dados i1 , i2 , . . . , ip son los expresa-
bles en términos de (Xi , i ∈ {i1 , i2 , . . . , ip }). Por ejemplo, el suceso A= obtener el mismo n úmero
en los dados 4 y 5 es X4 = X5 ; el suceso B= La suma de los n úmeros de los dados 3, 4 y 5 es
mayor que 10 se escribe como X3 + X4 + X5 > 10; el suceso C: El n úmero del segundo dado es
mayor que el del primero se escribe como X2 − X1 > 0, etc.
Intuitivamente, los sucesos B y C son independientes, pues dependen de conjuntos disjuntos de
variables, es decir, {X3 , X4 , X5 } ∩ {X1 , X2 } = ∅. El mismo argumento sugiere que X1 + X2 = 6,
X3 par, y X5 > X4 son sucesos independientes, pero a ún no hemos definido la independencia de
tres sucesos.
Los sucesos Xi = j se pueden representar por un subconjunto Aij , los que constituyen una par-
tici ón del espacio muestral Ω (conjunto que a ún no ha sido definido). Aquellos sucesos que depen-
den s ólo de la i-ésima etapa son expresables como uniones de algunos de los (A ij , j = 1, . . . , 6).
Para sucesos cualesquiera que dependan de los n úmeros que aparecen en los lanzamientos, ellos se
Las variables aleatorias en la sucesi ón X1 , X2 , . . . son independientes si para cualquier k finito,
X1 , . . . , Xk son independientes.
Definici´o n 2.8.2 Las particiones generadas por ciertas variables son independientes si estas varia-
bles lo son.
o n 2.8.3 Considere la partici ón generada por el suceso Ai , esto es, (Ai , A0i ) Entonces, los
Definici´
sucesos A1 , . . . , Ak son independientes si las particiones generadas por estos procesos lo son.
El supuesto de independencia es muy fuerte y, a la vez, difı́cil de verificar. Sin embargo, resulta
muy atractivo su uso, al menos inicialmente, o para disminuir la complejidad de los modelos. Por
ejemplo, la independencia de los lanzamientos de tres dados permite especificar 15 probabilidades
en vez de 215. En efecto, si
Cuando x e y tienen dos valores cada uno, digamos 1 y 2, se tiene la situaci ón especial en que
A2 = A01 y B2 = B10 . Escribiendo A1 = A y A2 = B se obtiene que las cuatro condiciones (2.8.4)
son
P (A ∩ B) = P (A)P (B)
P (A ∩ B 0 ) = P (A)P (B 0 )
(2.8.5)
P (A0 ∩ B) = P (A0 )P (B)
P (A0 ∩ B 0 ) = P (A0 )P (B 0 ).
Por la Definici ón 2.3.1, estas condiciones equivalen a
A y B son independientes.
A y B 0 son independientes.
(2.8.6)
A0 y B son independientes.
A0 y B 0 son independientes.
B B0
A P (A ∩ B) P (A ∩ B 0 ) P (A)
A0 P (A0 ∩ B) P (A0 ∩ B 0 ) P (A0 )
P (B) P (B 0 ) 1
En general hay 3 probabilidades conjuntas que se pueden elegir de manera arbitraria, sujeto s ólo a
la positividad y la suma igual a 1. Para m árgenes fijos, cualquier probabilidad conjunta determina
A c a
A0 1−a
b 1−b 1
Si c = ab, un sencillo c álculo algebraico permite completar la tabla, obteniendo la tabla de multi-
plicaci ón
A ab a(1 − b) a
A0 (1 − a)b (1 − a)(1 − b)
b 1−b 1
Esto muestra que la independencia de A y B en (2.8.6) implica la independencia de los otros tres
pares de sucesos. Por simetrı́a, es claro que la independencia de cualquier par implica la de los otros
tres. Este hecho se puede expresar sucintamente como un teorema:
Generalicemos ahora la equivalencia de (2.3.1), (2.3.2) y (2.3.3) a dos particiones o dos varia-
bles.
o si
P (Y = y|X = x) = P (Y = y) para todo x e y. (2.8.8)
Demostraci o´n: La condici ón (2.8.8) es inmediatamente equivalente al Teorema de Factorizaci ón.
Además ella implica (2.8.7). Por el Teorema de Probabilidades Totales, P (Y = y) es un promedio
ponderado de los P (Y = y|X = x). Luego (2.8.7) implica (2.8.8), lo que concluye la demostra-
ci ón.
En términos de árbol, (2.8.7) dice que el n úmero asignado al arco xy depende s ólo del nodo de
llegada.
x 0 1 2 y 0 1
PX (x) 0.5 0.3 0.2 PY (y) 0.4 0.6
x/y 0 1 PX (x)
0 0.20 0.30 0.5
1 0.12 0.18 0.3
2 0.08 0.12 0.2
PY (y) 0.4 0.6 1
Las probabilidades condicionales de inter és se obtienen como cuocientes entre las pro-
babilidades conjuntas y marginales correspondientes. Por ejemplo
0.12
PY |X (1|2) = 0.2 = 0.6
0.12
PX|Y (2|1) = 0.6 = 0.2
0.08
PX|Y (2|0) = 0.4 = 0.2
Teorema 2.8.4 Sean X1 , . . . , Xm , Xm+1 , . . . , Xm+n independientes, y defina las variables aleato-
rias Y, Z mediante
Y = g(X1 , . . . , Xm ),
Z = h(Xm+1 , . . . , Xm+n ),
donde g y h son funciones de m y n argumentos respectivamente. Entonces Y y Z son tambi én
independientes.
Para concluir la secci ón, enunciamos, sin demostraci ón, una caracterizaci ón alternativa de inde-
pendencia de sucesos. Ella es la m ás popular en los textos de probabilidad, pero tiene la desventaja
de no extenderse naturalmente a las variables aleatorias, que es el m ás usado en las aplicaciones
usuales.
Teorema 2.8.5 Sea M = {1, . . . , k}. Los conjuntos (A1 , . . . , Ak ) son independientes, seg ún la
Definici ón 2.8.3, si y s ólo si se cumplen las siguientes igualdades
!
\ Y
P Ai = P (Ai ) , para todo E ⊆ M , con card E > 1. (2.8.9)
i∈E i∈E
Definici´o n 2.9.1 Una variable aleatoria tiene distribuci ón de probabilidad uniforme sobre el con-
junto finito Ω si su funci ón de probabilidad es constante. Se dice tambi én que X se distribuye
uniformemente sobre Ω.
Teorema 2.9.1 Si un experimento secuencial tiene etapas independientes y los resultados de ca-
da etapa son equiprobables, entonces los resultados son equiprobables. En otras palabras, si
Xi tiene distribuci ón uniforme sobre Ωi y X1 , X2 , . . . , Xk son independientes, entonces X =
(X1 , X2 , . . . , Xk ) se distribuye uniformemente sobre Ω1 × Ω2 × · · · × Ωk .
A I3 B
I2
interesa calcular la probabilidad
Este suceso depende del estado de los tres interruptores. Suponiendo independencia
entre los interruptores, basta especificar la probabilidad p i que el interruptor Ii deje
pasar la corriente. El resto es un simple c álculo algebraico. Sea Xi = 1 si el interruptor
Ii deja pasar la corriente y Xi = 0 en caso contrario. El resultado del experimento
puede tomarse como (x1 , x2 , x3 ) y el comportamiento probabilı́stico equivale a lanzar
3 monedas cargadas y anotar 1 o 0 seg ún salga cara o sello. La lista de resultados y sus
√
correspondientes probabilidades se indica a continuaci ón. La presencia del signo en
X1 X2 X3 Probabilidad
0 0 0 q 1 q2 q3
0 0 1 q 1 q2 p3
0 1 0 q 1 p2 q3
√
0 1 1 q 1 p2 p3
1 0 0 p 1 q2 q3
√
1 0 1 p 1 q2 p3
1 1 0 p 1 p2 q3
√
1 1 1 p 1 p2 p3
√
La probabilidad buscada se obtiene sumando todas las filas marcadas por :
π = q1 p2 p3 + p1 q2 p3 + p1 p2 p3 = αp3 ,
´
2.9.3.1 Tablas de n umeros aleatorios
En la Secci ón 1.3.3 vimos c ómo simular cualquier distribuci ón de probabilidad finita. En el lengua-
je de variables aleatorias, se dispone de U con funci ón de probabilidad constante sobre el conjunto
Ω de cardinalidad N . Fı́sicamente, U es representable por la ficha extraida de una urna de N fi-
chas y se genera la variable aleatoria X mediante X = g(U ). La funci ón g se define identificando
{u/g(u) = x} con el conjunto de fichas para las que X = x. El muestreo con reposici ón genera las
sucesiones de variables independientes U1 , U2 , . . . y X1 , X2 , . . .. La variable Xi se obtiene de Ui
por el mismo procedimiento usado para generar X a partir de U , es decir, X i = g(Ui ). La indepen-
dencia de los Ui y el Teorema 2.8.4 implican que X1 , X2 , . . . son independientes. Como Ui y Uj
tienen la misma distribuci ón, lo propio ocurre con Xi y Xj , de modo que las variables X1 , X2 , . . .
son i.i.d.
Hemos demostrado ası́ que se puede simular variables aleatorias finitas i.i.d. a partir de n úmeros
aleatorios o de lanzamientos de una moneda equilibrada.
Ejemplo 2.9.2 Simular una muestra aleatoria de tama ño 200, con reemplazo, de una
poblaci ón subdividida en categorı́as A, B, C, D, E, F , con las proporciones indivi-
duales y acumuladas dadas en la siguiente tabla:
1-6 A
7-18 B
19-33 C
34-61 D
62-81 E
82-99, 00 F
Por ejemplo, si los 10 n úmeros obtenidos de la tabla fueran 72, 75, 28, 93, 64, 02, 15,
08, 54 y 18, se obtienen las letras que se indica:
72 75 28 93 64 02 15 08 54 18
E E C F E A A A D B
Ejemplo 2.9.3 Hoy en dı́a las tablas de n úmeros aleatorios han sido reemplazadas
por programas computacionales, que pueden generar miles de n úmeros al azar en
fracciones de segundo. En vez de n úmeros enteros se generan decimales con un
cierto n úmero de dı́gitos. Si (Ti , i = 1, 2, . . .) son i.i.d. con distribuci ón uni-
forme en {0, 1, . . . , N − 1}, las variables Ui = TNi son uniformes en el conjunto
{0, N1 , . . . , NN−1 }. Si N = 10r , los elementos de este conjunto son los n úmeros re-
ales 0 ≤ ui < 1, redondeados hacia abajo con s ólo r dı́gitos. La variable Ui sa-
tisface la igualdad P (a ≤ U ≤ b) = b − a, con un excelente grado de aproxima-
ci ón. Los computadores y calculadoras cientı́ficas generan una sucesi ón U1 , U2 , . . .
de variables i.i.d. con distribuci ón uniforme en [0, 1], lo que significa que satisfacen
P (a ≤ Ui ≤ b) = b − a. El arte de la simulaci ón consiste en simular sistemas
probabilı́sticos más complejos usando un generador de variables uniformes.
A modo de ejemplo, para simular la muestra aleatoria del Ejemplo 2.9.2 usando un
generador de uniformes, una posible regla es:
Xi = A si 0 ≤ Ui ≤ 0.06
Xi = B si 0.06 < Ui ≤ 0.18
XI = C si 0.18 < Ui ≤ 0.33
Xi = D si 0.33 < Ui ≤ 0.61
Xi = E si 0.61 < Ui ≤ 0.81
Xi = F si 0.81 < Ui ≤ 1.00
2.10 Problemas
1. Un dado se lanza dos veces, independientemente. Dado que los resultados de ambos lanza-
mientos fueron distintos, calcule la probabilidad condicional que
2. En una pregunta con alternativas, la probabilidad que un alumno sepa la respuesta es p. Ha-
biendo m alternativas, si el alumno sabe la respuesta, responde correctamente con probabili-
dad 1; en caso contrario, el alumno escoge una respuesta al azar. Dado que el alumno dio la
respuesta correcta, ¿cu ál es la probabilidad que él haya sabido la respuesta?
3. Suponga que el n úmero de accidentes en un dı́a de semana cualquiera entre Lunes y Jueves
tiene la siguiente funci ón probabilidad: p(0) = 0.7, p(1) = 0.2, p(2) = 0.1. An álogamente,
de Viernes a Domingo estas probabilidades cambian a p(0) = 0.5, p(1) = 0.3, p(2) = 0.2.
Suponga que el n úmero de accidentes en dı́as distintos son independientes.
(a) Describa el espacio muestral adecuado para el problema y utilice la hip ótesis de inde-
pendencia para asignar la probabilidad de cada punto del espacio muestral.
(b) Calcule la probabilidad que el n úmero total de accidentes en una semana sea (i) Igual a
2. (ii) Al menos 2.
4. Un modelo probabilı́stico muy simple para estudiar el tiempo atmosf érico clasifica cada dı́a
como seco o h úmedo. Se supone luego que el tiempo de ma ñana será igual al de hoy con
probabilidad 0.8. Sabiendo que el dı́a 15 de Mayo fue seco:
(a) Asigne las probabilidades a cada uno de los 8 escenarios posibles para el tiempo en los
pr óximos 3 dı́as.
(b) Calcule la probabilidad que el segundo dı́a sea seco.
(c) Calcule la probabilidad que exactamente dos dı́as sean secos.
6. Considere una urna que contiene doce fichas de las cuales ocho son blancas. Una muestra de
cuatro fichas es elegida sin reemplazo.
(a) Calcule la probabilidad que la primera y la tercera ficha extraidas sean blancas.
(b) Calcule la probabilidad que exactamente tres de las fichas sean blancas.
(c) ¿Cuál es la probabilidad condicional que la primera y la tercera ficha extraidas sean
blancas, dado que la muestra contenı́a exactamente tres fichas blancas?.
(d) Repita lo anterior suponiendo que despu és de cada extracci ón la ficha se restituye a la
urna.
7. Tres cajas A, B y C contienen instrumentos nacionales (N) e importados (I). La composici ón
de A, B y C es 2N y 4I, 8N y 4I, y 1N y 3I respectivamente. Se selecciona al azar un
instrumento de una caja elegida al azar.
8. Con las mismas cajas del Problema 7, suponga que se selecciona un instrumento al azar de
cada una de las cajas y que exactamente dos de ellos resultan ser nacionales. ¿Cu ál es la
probabilidad que éste provenga de la caja A?.
9. Una compa ñı́a de seguros clasifica a las personas en una de tres categorı́as : bajo riesgo,
riesgo medio y alto riesgo. Sus registros indican que la probabilidad que las personas tengan
un accidente durante el a ño son 0.05, 0.15, 0.30, respectivamente. Si el 20% de la poblaci ón
es de bajo riesgo, el 50% de riesgo medio, y el 30% de alto riesgo, ¿cu ál es la proporci ón de
personas que tienen accidentes en un a ño fijo?. Si la p óliza tomada por A no tuvo accidentes
en 1992, ¿cu ál es la probabilidad que esta persona haya sido de bajo riesgo en ese a ño?.
10. Suponga que un dado se lanza una vez. Si N es el resultado del lanzamiento, entonces
P (N = i) = pi , i = 1, 2, 3, 4, 5, 6. Si N = i una moneda equilibrada se lanza i veces.
Encontrar la probabilidad condicional que N sea impar dado que se obtuvo al menos una
cara.
1
p + 7 p + 31 p
2 1 8 3 32 5
Resp : 1
p + p + 7 p + 15 p + 31 p + 63 p
3 .
2 1 4 2 8 3 16 4 32 5 64 6
11. Suponga que lanzamos una moneda n veces con probabilidad p de obtener una cara y q
de obtener un sello en cada lanzamiento. Suponga adem ás que todos los lanzamientos son
independientes. Sea Sn la variable aleatoria que cuenta el n úmero de caras obtenidas en los
n lanzamientos. Encuentre P (Sn ≥ 3|Sn ≥ 1).
1−q n −npq n−1 − 21 n(n−1)p2 q n−2
Resp : 1−q n .
12. Suponga que un dado equilibrado se lanza una vez. Si sale un n úmero impar, una moneda
honesta se lanza repetidamente; si sale un n úmero par una moneda sesgada con probabilidad
de obtener cara p 6= 21 se lanza repetidamente (los lanzamientos de la moneda son indepen-
dientes en cada caso). Si los n primeros resultados son caras, ¿cu ál es la probabilidad que
una moneda insesgada haya sido usada?.
1
2n+1
Resp : 1
+ 21 pn
.
2n+1
13. Suponga se tiene una urna con bolitas blancas y negras, sumando un total de n bolitas, y
se extraen bolitas con reemplazo de dicha urna. Si se hacen k extracciones y se observan k
bolitas blancas, ¿cu ál es la probabilidad que la urna tenga s ólo bolitas blancas?
14. La probabilidad que un pan de pascua contenga exactamente k pasas est á dada por pk =
λk e−λ
k! , k = 0, 1, 2, . . .. Suponga que por cada pasa que contiene este pan de pascua, una
moneda con probabilidad de cara p se lanza. Si sale cara, Ud. se come la pasa, y si sale
sello, Ud. la guarda para alg ún amigo. ¿Cu ál es la probabilidad que Ud. coma exactamente
n pasas?. ¿Cu ál es el rango de valores para n?.
15. Sea Qn la probabilidad que en n lanzamientos de una moneda regular no aparezcan corridas
de tres caras sucesivas. Demuestre que:
1 1 1
Qn = Qn−1 + Qn−2 + Qn−3 ,
2 4 8
sabiendo que Q0 = Q1 = Q2 = 1. Encontrar Q8 .
16. Como un modelo simplificado para predecir el tiempo atmosf érico, se supone que el tiempo
(seco o h úmedo) para ma ñana será igual al de hoy con probabilidad p. Si el tiempo atmosf éri-
co el primero de Enero fue seco, demostrar que Pn , la probabilidad que llueva n dı́as después,
satisface la relaci ón
17. Una jaula A contiene cinco aves blancas y siete aves negras. La jaula B contiene tres blancas
y doce negras. Se lanza una moneda al aire. Si el resultado es cara, entonces un ave de
A es seleccionada, mientras que si el resultado es sello, se selecciona un ave de la jaula B.
Suponga que el ave seleccionada es blanca. ¿Cu ál es la probabilidad que la moneda haya
mostrado cara?.
12
Resp : 37
18. Una urna contiene N fichas negras y A fichas azules. Se selecciona una ficha al azar, y se la
devuelve a la urna, junto con C fichas adicionales del mismo color. Se selecciona ahora una
segunda ficha al azar. Demuestre que la probabilidad que la primera ficha era negra, dado que
N
la segunda fue azul es (N +A+C) .
19. Hay tres monedas en una caja. Una de ellas tiene dos caras, la otra es normal, y la tercera
muestra cara con probabilidad 75%. Dado que cuando se elige una de las tres monedas al azar
y se lanza el resultado es cara, calcule la probabilidad que ésta sea la moneda de dos caras.
Resp : 94 .
20. Dos bolas se eligen aleatoriamente desde una urna que contiene ocho blancas, cuatro negras
y dos amarillas. Suponga que ganamos $2 por cada bola negra seleccionada, perdemos $1
por cada bola blanca seleccionada, y que no hay cambios si se selecciona una bola amarilla.
Determine los posibles valores que se pueden obtener, y calcule las probabilidades corres-
pondientes.
k 4 2 1 0 −1 −2
Resp : 6 8 32 1 16 28
P (k) 91 91 91 91 91 91
Desaf´
ı os
22. Una maleta contiene a esferas blancas y b negras. Las esferas se eligen de la maleta de
acuerdo a la siguiente regla:
En otras palabras, las esferas son muestreadas y eliminadas hasta que ocurre un cambio de
color, en tal caso la última esfera es devuelta a la maleta, y el proceso comienza de nuevo.
Denote por Pab la probabilidad que la última esfera en la maleta sea blanca. Demostrar que:
1
Pab =
2
Hint: Use inducci ón sobre k ≡ a + b.
23. Un dado A tiene cuatro caras rojas y dos caras blancas, por otra parte un dado B tiene dos
caras rojas y cuatro caras blancas. Una moneda es lanzada una vez. Si el resultado es cara, el
juego continua con el dado A; si es sello, el dado B es usado.
Resp : b) 35 ; c) 45
24. Sup óngase que los dı́as son clasificados en “Soleados” y “Nublados”, y que las condicio-
nes del clima en ma ñanas sucesivas forman una cadena de Markov con probabilidades de
transici ón estacionarias. Suponiendo que la matriz de transici ón sea:
Soleado Nublado
a.- Si un dı́a esta nublado, ¿cu ál es la probabilidad que est é nublado al dı́a siguiente?.
b.- Si un dı́a es soleado, ¿cu ál es la probabilidad que los dos dı́as que siguen sean soleados?.
c.- Si un dı́a esta nublado, ¿cu ál es la probabilidad que al menos uno de los tres dı́as
siguientes esté soleado?.
Variables Aleatorias
En este capı́tulo desarrollamos con mayor profundidad algunos temas que ya fueron presentados
en los capı́tulos previos. Ası́, en la Secci ón 1.4.3 discutimos el concepto de variable en t érminos
de una poblaci ón finita, distinguiendo tipos de variables. Por otra parte, una muestra al azar de
una poblaci ón finita transforma las probabilidades de los sucesos en proporciones dentro de la
poblaci ón finita. De esta forma, la construcci ón y descripci ón de distribuciones de probabilidad
está ı́ntimamente ligada al estudio de poblaciones en esta poblaci ón; un paso al lı́mite arroja luz
sobre las variables continuas. Un subproducto importante del estudio de poblaciones finitas es que
permite visualizar concretamente a una variable como una funci ón definida para una poblaci ón,
lo que hace m ás natural la definici ón abstracta de variable aleatoria. La primera secci ón trata
la descripci ón de proporciones para variables discretas y continuas, lo que proporciona una base
intuitiva para atacar problemas probabilı́sticos.
Continuamos ac á el estudio iniciado en la Secci ón 1.4.3 sobre el concepto de variable en el contexto
de una poblaci ón finita. Examinamos ahora la descripci ón de poblaciones para distintos tipos de
variables. Para ilustrar las ideas continuamos el ejemplo de dicha secci ón, donde se muestran
las 10 primeras lı́neas de un archivo computacional. Supondremos ahora una poblaci ón de gran
tama ño, digamos cien mil personas, de la cual se ha extraido una muestra al azar de 500 personas.
Dada la peque ña fracci ón de muestreo, hay poca diferencia entre el muestreo sin y con reposici ón.
Adoptando este último supuesto, para cada columna de la tabla de datos, las 500 componentes
pueden ser consideradas como una realizaci ón de 500 variables i.i.d., cuya distribuci ón com ún
coincide con la distribuci ón de proporciones en la poblaci ón. Por razones de espacio, la Tabla 3.1.1
muestra s ólo las 100 primeras lı́neas del archivo de datos, pero algunos resultados se obtienen sobre
la base de la muestra completa de tama ño 500.
Por la manera de generar la informaci ón hay simetrı́a entre los individuos, es decir, una reor-
denaci ón arbitraria de las filas de la tabla no debiera afectar las conclusiones. Por otra parte, el
n úmero de filas de la tabla coincide con el tama ño de la muestra, el que est á sujeto a limitaciones
de tiempo y presupuesto. En consecuencia, conviene caracterizar el comportamiento de las varia-
70
´
CAP ITULO 3. VARIABLES ALEATORIAS
bles prescindiendo del tama ño de la poblaci ón. Los promedios aritm éticos y las proporciones son
res úmenes sencillos que tienen estas caracterı́sticas deseables.
Por descripciones entendemos tanto a n úmeros, tablas num éricas o a los gr áficos correspon-
dientes, los que varı́an seg ún el tipo de variable. Los ejemplos que se exhiben a continuaci ón se
refieren a los datos de la Tabla 3.1.1. La clasificaci ón de variables se aplica tambi én a las variables
aleatorias y las probabilidades se describen de manera an áloga a las proporciones.
Para una variable categ órica, la descripci ón es obvia. Simplemente se indica la proporci ón
o porcentaje para cada categorı́a. Para una variable binaria basta la proporci ón correspondiente
a una de las dos categorı́as. Cuando las categorı́as están ordenadas se pueden calcular, adem ás,
proporciones acumuladas. La representaci ón gráfica depende mucho del ingenio, siendo tradicional
los diagramas de barra o de torta, que frecuentemente aparecen en peri ódicos y revistas.
Una variable discreta se puede tratar como ordinal, siendo tradicional utilizar lı́neas o barras
delgadas, para enfatizar que los valores intermedios carecen de sentido, e.g. 2.5 miembros en una
familia. Los gráficos en la Figura 3.1.1 representan al tama ño de grupo familiar y n úmero de visitas
médicas.
No es conveniente hacer lo mismo con una variable continua X, por la proliferaci ón de barras
y el hecho que si x se expresa con muchos decimales, todas las proporciones ser án muy peque ñas.
De hecho, si el valor x no aparece en la tabla, la proporci ón correspondiente ser á igual a cero.
Esto muestra que los valores individuales no tienen inter és directo, y que lo relevante son las pro-
porciones correspondientes a ciertos intervalos. Para resumir la informaci ón, conviene tomar una
partici ón o una sucesi ón creciente de intervalos. En ambos casos se elige una sucesi ón ordenada
de n úmeros reales: −∞ = t0 < t1 < · · · < tj−1 < tj < · · · < tr−1 < tr = ∞. La partici ón
generada es (A1 , . . . , Ar ), con Aj = (tj−1 , tj ]. La sucesi ón creciente est á formada por los conjun-
tos Bj = (−∞, tj ], j = 1, . . . , r. Denotando por qj y Qj a las proporciones correspondientes a los
intervalos Aj y Bj respectivamente, se tienen las relaciones
j
X
Qj = Qj−1 + qj , qj = Qj − Qj−1 , Qj = qm .
m=1
• Proporciones acumuladas. Se grafican los puntos (tj , Qj ) para j = 1, . . . , r−1 (uni éndolos
opcionalmente por segmentos lineales).
• Histograma. Se construye una funci ón constante dentro de cada Aj , de modo que su gr áfico
tiene forma de escalera. Se elige el valor dj que toma la funci ón dentro de Aj , como
qj
dj = c × ,
tj − tj−1
donde c se calcula de tal forma que la proporci ón qj coincida con el área bajo el pelda ño
correspondiente. El gr áfico de esta funci ón se denomina histograma. Se sugiere al lector
Proporciones
7
6
Proporciones
Figura 3.1.1: Tama ño de grupo familiar y n úmero de visitas m édicas en Tabla 3.1.1.
verificar que el área total bajo la escalera es 1 y que la funci ón cuyo gráfico es el histo-
grama coincide con la derivada de la funci ón, cuyo gr áfico es la poligonal descrita para las
proporciones acumuladas.
La Figura 3.1.2 muestra el histograma de la variable peso, construido a partir de la poblaci ón de
500 individuos, de los cuales la Tabla 3.1.1 muestra a 100 de ellos. Superpuesta al histograma hay
una curva suave, que posteriormente vincularemos a la funci ón densidad de probabilidad. Las áreas
bajo esta curva tambi én aproximan a las proporciones en un intervalo dado. La Figura 3.1.3 repite
lo anterior, separadamente para hombres y mujeres. Invitamos al lector a proponer una explicaci ón
para la forma de estos gr áficos.
Elijamos a los tj como los valores distintos que una variable X alcanza en la tabla de datos,
ordenados de menor a mayor, y supongamos que la tabla tiene muchas filas. Entonces, los valores
consecutivos de la variable estar án muy pr óximos uno de otro y el gr áfico de proporciones acumu-
ladas se aproximar á bien por una curva suave, que crece desde 0 hasta 1, a medida que aumenta el
valor de x de la variable. Tal curva es el gr áfico de cierta funci ón F , y la proporci ón π(a, b) de
0.06
0.05
0.04
0.03
0.02
0.01
0.0
40 50 60 70 80 90
Peso
Procediendo del mismo modo, el histograma se aproximar á bien por el gr áfico de cierta funci ón
no negativa f , tal que áreas bajo la curva aproximen a las proporciones. Las curvas superpuestas
a los histogramas en las Figuras 3.1.2 y 3.1.3 son gr áficos de una funci ón f . Analı́ticamente las
áreas bajo una curva son integrales, de modo que
Z b
π(a, b) = f (x)dx. (3.1.2)
a
Hasta ahora, las variables han aparecido primariamente para ayudar a definir el resultado de un
experimento y, por tanto, en la elecci ón del espacio muestral Ω. Tanto los elementos ω ∈ Ω como
los subconjuntos (sucesos) de inter és suelen describirse en t érminos de los valores x1 , x2 , . . . , xn
de ciertas variables originales, a las que denotamos por las letras may úsculas correspondientes.
90
80
Peso de hombres
70
60
50
40
0.10 0.08 0.06 0.04 0.02 0.0
90
80
Peso de mujeres
70
60
50
40
0.10 0.08 0.06 0.04 0.02 0.0
Figura 3.1.3: Histograma de la variable peso, separado por sexo, en la Tabla 3.1.1.
En el importante caso de la elecci ón de un individuo, al azar, de una poblaci ón finita de tama ño N ,
lo natural es tomar Ω = {1, 2, . . . , N }, donde ω identifica al individuo seleccionado. Por hip ótesis,
cada ω tiene probabilidad N1 y de aquı́ se deduce que P (X = x) coincide con una proporci ón
poblacional. Si imaginamos una tabla de datos para toda la poblaci ón, cada variable se representa
por una columna de esa tabla o por una funci ón que le asigna a ω el valor de la variable para el
individuo con identificador ω.
Cuando las variables de inter és son X1 , X2 , . . . , Xk , es natural elegir ω = (x1 , x2 , . . . , xk ).
Con esta elecci ón, la variable Xi corresponde a la funci ón que asigna a cada arreglo de largo k
su i-ésima componente. Por otra parte, el valor y de cualquier variable de inter és Y debe estar
determinada por ω, es decir, debe existir una funci ón g para la cual y = g(x1 , x2 , . . . , xn ). En este
esquema, denominamos a las Xi variables originales o primarias, mientras que a Y la denominamos
Si se toma a Ω como el conjunto de los arreglos x posibles, la funci ón g tiene dominio Ω.
Motivados por la discusi ón anterior, entregamos una definici ón abstracta de variable aleatoria.
Definici o´n 3.2.1 Una variable aleatoria es una funci ón definida sobre el espacio muestral Ω, con
valores en el conjunto X .
Notaci o´n: Si el valor de la variable aleatoria se denota por una letra min úscula, la variable se denota
por la letra may úscula correspondiente. Normalmente se utilizan las últimas letras del alfabeto. Con
esta convenci ón escribimos x = X(ω). El suceso: “el valor x de X pertenece al conjunto B se
denota por X ∈ B. Cuando B = {x} se simplifica la notaci ón a {X = x} o X = x. Hacemos
notar que utilizamos la misma letra para denotar un valor x incierto (antes de conocer el resultado
del experimento). Una vez conocido el resultado ω, el valor de la variable es x = X(ω), donde
usamos la letra X para representar una funci ón. El suceso correspondiente a que el valor x de la
variable X satisfaga un conjunto de condiciones se escribe reemplazando x por X. Por ejemplo,
P (X 2 − 5X + 6 ≤ 0) es la probabilidad que el valor x de la variable X satisfaga x 2 − 5x + 6 ≤ 0,
o sea, 2 ≤ x ≤ 3. Ası́ P (X 2 − 5X + 6 ≤ 0) = P (2 ≤ X ≤ 3).
Definici o´n 3.2.2 Dada una variable aleatoria X definida sobre Ω, con valores en X , la distribuci ón
de probabilidad inducida por X sobre X se define, para un evento B ⊂ X como:
Se denomina tambi én a PX distribuci ón de probabilidad o distribuci ón de la variable aleatoria X.
Con la convenci ón notacional adoptada PX (B) = P (X ∈ B), es decir, es la probabilidad que
el valor de X esté contenido en B. Conocer la distribuci ón de probabilidad de una variable aleatoria
equivale a conocer la probabilidad que el valor de X est é contenido en B, para todo suceso B. La
relaci ón básica es que el suceso B en el espacio muestral X ocurre si y s ólo si ocurre el suceso
X −1 (B)) en el espacio muestral Ω. Este último corresponde a la ocurrencia de un resultado ω ∈ Ω,
tal que X(ω) ∈ B.
La funci ón pX debe ser no negativa y la suma de sus valores ser igual a 1.
Ejemplo 3.2.1 Considere 10 lanzamientos sucesivos de una moneda (en forma inde-
pendiente). Si esto es todo lo que sabemos, lo m ás natural es escribir el resultado como
la 10-tupla (C, C, S, C, S, S, S, C, C, S) o similar, lo que equivale a elegir como es-
pacio muestral a Ω = {C, S}10 , que contiene 210 = 1024 elementos. El n úmero de
sucesos, es decir, el n úmero de subconjuntos de Ω, asciende a la escalofriante cifra de
21024 . Afortunadamente, la probabilidad de cualquiera de ellos es calculable si conoce-
mos las probabilidades de los 1024 sucesos elementales {ω} y no todos los sucesos son
de interés. Tı́picamente, aquellos de inter és se pueden expresar en t érminos del valor x
de alguna variable. Las preguntas m ás habituales se relacionan con el n úmero de caras
o sellos obtenidos. Por ejemplo: El n úmero de caras es superior al numero de sellos o
El n úmero de sellos es superior a 7 se expresan en t érminos de la variable X : n úmero
total de caras, por X > 5 o X ≤ 2 respectivamente. En estas circunstancias, parece
atractivo utilizar X = {1, 2, . . . , 10} como un espacio muestral alternativo a Ω, dada
su menor complejidad. Sin embargo, resulta poco claro como asignar probabilidades a
los valores x ∈ X , mientras que la probabilidad de cada ω es m ás fácil de obtener.
Como el valor de x est á determinado por el de ω, debe existir una funci ón h, tal
que x = h(ω). Ası́, por ejemplo, tenemos que h(C, C, S, C, S, S, S, C, C, S) = 5,
h(S, S, S, S, S, S, S, S, S, S) = 0, h(S, C, C, C, S, C, S, C, S, S) = 5, etc. La defi-
nici ón abstracta identifica a la variable X con esta funci ón. Un peque ño cambio de
notaci ón simplifica la escritura. Denotemos por xi a la i -ésima componente del arre-
glo ω ∈ Ω y consideremos xi como valor de una variable Xi , que toma el valor C si
aparece cara en el i- ésimo lanzamiento, y S si sale sello. X1 , X2 , . . . , X10 son las va-
riables originales y sus valores determinan ω. De esta forma X = g(X 1 , X2 , . . . , X10 ).
Podemos definir otras variables derivadas:
Supongamos que la moneda tiene probabilidad p de salir cara, y q = 1−p de salir sello.
El supuesto de independencia entre los lanzamientos de la moneda implica p(ω) =
pX (x) = P (X = x)
X
= p(ω)
ω∈Ω/ h(ω)=x
10 x 10−x
= p q ,
x
En los capı́tulos previos, el rol b ásico de las variables es definir el espacio muestral. A menudo,
la descripci ón del problema no aporta informaci ón alguna sobre, ya sea las probabilidades sobre
el espacio muestral Ω, o las probabilidades inducidas sobre X . Una forma de abordar el problema
es, simplemente, desentenderse de Ω, y tomar X como el espacio muestral. En otras palabras, dada
una única variable de inter és X, la elecci ón can ónica del espacio muestral es Ω = X . Se identifica
entonces la distribuci ón P sobre Ω con la distribuci ón inducida PX sobre X . Formalmente, esto es
un caso particular de la definici ón general en que X es la funci ón identidad, pero tal punto de vista
es bastante in útil. Toda variable aleatoria Y se puede representar por g(X), para cierta funci ón g.
Si un estudio previo nos entrega proporciones empı́ricas, podemos adoptar a estas frecuencias
como aproximaciones de las probabilidades sobre X . Una manera de obtener una distribuci ón de
probabilidad consiste en postular una familia param étrica de probabilidades sobre X , y usar los
datos previos para estimar los par ámetros y, por tanto, seleccionar a un miembro de esta familia
como la distribuci ón buscada. Los procedimientos de estimaci ón forman parte de la Inferencia
Estadı́stica (no contenidos en este texto), la que constituye una f értil área de aplicaci ón de la teorı́a
de probabilidad.
Si hay n variables de inter és, la elecci ón can ónica es que Ω sea un conjunto de arreglos
(x1 , . . . , xn ). En este caso, la variable Xi corresponde a la funci ón que asigna a cada arreglo
su i-ésima componente y toda variable aleatoria Y se puede escribir como g(X 1 , . . . , Xn ), para una
funci ón g adecuada. Cuando las variables Xi son discretas, y ω = (x1 , . . . , xn ), lo mismo se aplica
a cualquier variable aleatoria Y , de modo que PY queda determinada por su funci ón de probabilidad
pY . Si Y = g(X1 , . . . , Xn ), pY (y) es la suma de las probabilidades de los (x1 , . . . , xn ) tales que
g(x1 , . . . , xn ) = y.
Ejemplo 3.2.4 Considere un dardo lanzado al azar sobre un tablero circular de radio
unitario. Sea X la posici ón del dardo al hacer impacto con el tablero, como se indica
en la Figura 3.2.4.
(x1,x2)
-1 1
0 x1
-1
Ejemplo 3.2.5 Una ampolleta tiene una probabilidad p de quemarse al instante de ser
encendida. Si la ampolleta no se quema, entonces se sabe que la probabilidad que
sobreviva t > 0 horas est á dada por e−t . ¿Cuál es la probabilidad que la ampolleta
sobreviva 1 hora de funcionamiento?
Si denotamos por X el tiempo de vida de la ampolleta (esto es, el tiempo que tarda
en quemarse), necesitamos calcular P (X > 1). El espacio muestral se puede tomar
como X = [0, ∞). Por las condiciones del problema, sabemos que P (X = 0) = p
(si la ampolleta se quema), y que P (X > t|X > 0) = e−t (cuando la ampolleta no se
quema). Puesto que se quiere saber el valor de P (X > 1), el teorema de probabilidades
totales nos permite obtener que:
La Ley de los Promedios o Ley de los Grandes N úmeros es un resultado clave de la Teorı́a de
Probabilidad. No existe la persona promedio, el alumno promedio o el árbol promedio, sino la altura
promedio, el peso promedio, la renta promedio, el n úmero promedio de accidentes, etc., que son
valores de ciertas variables. Lo que se promedia son n úmeros reales, o bien elementos de un espacio
vectorial (para el cual se puede hablar de combinaciones lineales). Como todo espacio vectorial de
dimensi ón finita es representable por Rn y la suma y multiplicaci ón en Rn se definen componente a
componente, el caso fundamental es el de una variable con valores reales. La Ley de los Promedios,
discutida informalmente en la Secci ón 1.2.1, refleja el hecho empı́rico que, bajo ciertas condiciones,
los promedios exhiben una gran estabilidad. Si el valor de la variable cuantitativa en la i- ésima
repetici ón se denota por yi , lo que hacemos es considerar al n úmero real yi como el valor de una
variable aleatoria. Las condiciones tı́picas bajo las cuales rige la Ley de los Promedios es que las
repeticiones sean independientes y que el experimento se realice bajo condiciones semejantes. Esto
se traduce formalmente en la condici ón
Con esta formulaci ón, la Ley de los Promedios se puede formular como un teorema, que se deno-
mina Ley de los Grandes N úmeros. Esencialmente, este teorema afirma que la distribuci ón de Tn
tiende a concentrase m ás y más en torno a cierto n úmero µ, a medida que n aumenta:
Cuando este valor µ existe, él está determinado por la distribuci ón com ún a todas las variables
Yi . Denotando por Y a una variable aleatoria, cuya distribuci ón PY coincide con la de cada Yi ,
el valor µ se denomina media de la distribuci ón PY o valor esperado o esperanza de la variable
aleatoria Y . Se plantea, entonces, el problema de dar una definici ón alternativa de µ o de E(Y )
que no requiera la repetici ón indefinida de un experimento. Aparte del ahorro de tiempo y energı́a,
esto tiene la ventaja de que el concepto de media o valor esperado no depende de la interpretaci ón
frecuentista.
Para fijar las ideas consideremos el ejemplo pedestre, pero sencillo de llevar a cabo, – instamos
al lector a hacerlo – que consiste en lanzar repetidamente un dado equilibrado. Si y i es el n úmero
que muestra el dado en el i- ésimo lanzamiento, el gr áfico de tn versus n presenta inicialmente una
gran inestabilidad, pero para valores grandes de n todos los puntos est án muy cercanos a una recta
horizontal, a una altura aproximada de 3.50. Si anotamos z i = 1 si sale un seis y zi = 0 en caso
contrario, el promedio de los zi coincide con la proporci ón pn de veces que sale un seis en los
primeros n lanzamientos del dado. Por la interpretaci ón frecuentista, pn tiene como valor lı́mite a
la probabilidad que salga seis al lanzar un dado, de modo que el gr áfico tiende nuevamente a una
recta horizontal, esta vez con una altura igual a la probabilidad que salga seis en un lanzamiento del
dado. Si Z representa una variable aleatoria con distribuci ón igual a la de Zi , tenemos el importante
resultado:
E(Z) = P (Z = 1)
Notemos que Zi = h(Yi ), donde h es la funci ón indicatriz del conjunto {6}. De esta forma, Z tiene
la misma distribuci ón que h(Y ) y, por tanto, el mismo valor esperado. Ası́,
Esta profusi ón de paréntesis motiva la notaci ón simplificada E(Z) = Eh(Y ). Es interesante
resaltar que los promedios tienen perfecto sentido para cualquier funci ón h con valores reales,
sin importar la naturaleza de su dominio. Si el experimento consistiese en el lanzamiento de una
moneda, con resultados ω = C y ω = S, las repeticiones del experimento generarı́an una sucesi ón
de letras que no se pueden promediar. Sin embargo, si para cada repetici ón uno gana $1000 si sale
cara y pierde 500 si sale sello, la ganancia esperada, definida como lı́mite de la ganancia promedio
cuando el n úmero de repeticiones tiende a infinito, es el valor esperado de la variable aleatoria
definida sobre Ω = {C, S} por
W = 1000 si ω = C, y W = −500 si ω = S.
donde
h(ω) = 1000, si ω = C, y h(ω) = −500 si ω = S.
La funci ón h coincide con la variable aleatoria W en la formulaci ón abstracta.
En la interpretaci ón subjetiva de la probabilidad Ω = {ω1 , i = 1, . . . , k} representa el conjunto
de alternativas y h(ω) es la utilidad asociada con la alternativa ω. Esta utilidad no coincide, en
general, con una ganancia monetaria, sino que es un concepto t écnico. Por definici ón, ella es tal
que uno debiera ser indiferente frente a la situaci ón incierta que se presenta (por ejemplo, en un
juego de azar o en una inversi ón financiera), y una utilidad cierta (segura) cuyo valor coincida con
el valor esperado X
p(ω)h(ω).
ω∈Ω
Cuando el espacio muestral Ω es finito, la f órmula para el valor esperado es muy sencilla:
Definici o´n 3.3.1 Sea Ω un espacio muestral numerable y sea X la variable aleatoria con valores
x = h(ω), donde g es real valorada. El valor esperado o esperanza de X se denota por E(X), y
está dado por: X
E(X) = p(ω)h(ω), (3.3.1)
ω∈Ω
donde la suma se interpreta como el valor de una serie cuando Ω es numerable. Si la serie no
converge se dice que E(X) no existe.
Si la variable aleatoria X es discreta, siendo Ω arbitrario tenemos una definici ón alternativa:
Definici o´n 3.3.2 El valor esperado o esperanza de una variable aleatoria X est á dado por:
X
E(X) = xpX (x), (3.3.3)
x∈X
donde la suma se interpreta como el valor de una serie cuando X asume una cantidad numerable
pero no finita de valores. Si la serie no converge se dice que E(X) no existe.
Demostraci o´n: La haremos s ólo en el caso finito. Basta demostrar que las sumas (3.3.1) tienen el
mismo valor. Como X
pX (x) = p(ω),
h(ω)=x
(3.3.2) implica
X X
E(X) = x p(ω)
x∈X h(ω)=x
X X
= xp(ω)
x∈X h(ω)=x
X X
= h(ω)p(ω)
x∈X h(ω)=x
Las f órmulas (3.3.1) y (3.3.2) son ambas promedios ponderados de ciertos n úmeros. Estos
n úmeros corresponden a los valores de una misma variable, pero, en general, (3.3.2) tiene menos
términos (lo que no significa que sea m ás fácil de calcular). Si en vez de promediar valores de X
interesara promediar valores de Y = g(X), se tiene y = v(ω), donde v(ω) = g(h(ω)). Por lo
tanto,
X
E(Y ) = p(ω)v(ω)
ω∈Ω
X
= ypY (y)
y∈Y
Si X hubiera sido elegido como espacio muestral, la variable Y hubiese quedado expresada por la
funci ón g. Por (3.3.1) (con X en vez de Ω) se obtendrı́a
X
E(Y ) = pX (x)g(x),
x∈X
En otras palabras el valor esperado de una funci ón de la variable aleatoria X es un promedio ponde-
rado, donde los n úmeros promediados son los valores de la funci ón y los pesos son las probabilida-
des de los valores de la variable aleatoria. Por cierto, esto es, esencialmente, lo mismo que hicimos
anteriormente, cambiando el par (Ω, X ) por el par (X , Y).
Computacionalmente hablando, es m ás sencillo calcular el valor esperado de Y a partir de la
funci ón de probabilidad pX , que a partir de pY . De hecho, pY (y0 ) = Eg(X), con g la funci ón
indicatriz de y0 .
Cuando no deseamos referirnos al espacio muestral Ω, es m ás conveniente definir directamente
el valor esperado de una funci ón real valorada de una variable aleatoria:
Definici o´n 3.3.3 Sea X una variable aleatoria con valores en un conjunto numerable X . Sea g
una funci ón con dominio X y valores en R. El valor esperado de g(X) est á dado por
X
E(g(X)) = pX (x)g(x). (3.3.4)
x∈X
Demostraci o´n: Idéntica a la del Teorema 3.3.1, salvo por cambios notacionales.
Ejemplo 3.3.1 Suponga que X verifica X = {−2, −1, 0, 1, 2}, con p X (x) = 0.1,
0.2, 0.3, 0.2, 0.2 respectivamente. Considere Y = g(X) = X 2 . Entonces Y =
{0, 1, 4}, y pY (y) = 0.3, 0.4, 0.3 respectivamente. Por otra parte, el valor esperado de
Y , calculado directamente de la definici ón es:
Cuando la funci ón g es biyectiva, los c álculos se simplifican, pues en este caso tenemos que
{x ∈ X : g(x) = y} es simplemente el singleton (o conjunto con s ólo un punto) {g −1 (y)}, y por
lo tanto,
pY (y) = pX (g −1 (y)).
De esta forma (3.3.4) es inmediata.
Ejemplo 3.3.2 Sea X una variable aleatoria con funci ón de probabilidad
n k
p (1 − p)n−k , k = 0, 1, . . . , n.
k
λy exp(−λ)
pY (y) = , y = 0, 1, 2 . . . ,
y!
y t es un n úmero real cualquiera,
∞
X λy exp(−λ)
E(exp(tX)) = exp(ty)
y!
y=0
∞
X (λ exp(t))y
= exp(−λ)
y!
y=0
= exp(−λ) exp(λ exp(t)) = exp(λ(exp(t) − 1)),
3.3.3 Propiedades
A continuaci ón listamos algunas propiedades del valor esperado, que no s ólo son váli-
das para variables discretas. Se invita al lector a demostrarlas en el caso discreto.
Teorema 3.3.3
que, de hecho, vale para variables Yi arbitrarias (que no requieren ser funciones de una
misma variable X). Para variables discretas, basta tomar x = (y 1 , . . . , yk ) y definir
gi (x) como el valor de la i- ésima componente de x. Tomando ci = 1 se obtiene el
caso más importante:
X X
E( Yi ) = E(Yi ), esto es, esperanza de la suma = suma de las esperanzas.
(3.3.8)
siempre que la esperanza exista. En este caso, se define la desviaci ón est ándar de X
como p
σ(X) = V ar(X) (3.3.10)
El Ejemplo 3.3.4 muestra que la varianza es el error cuadr ático medio de la mejor pre-
dicci ón de X. Esto sugiere que a mayor varianza corresponde una mayor variabilidad
de X o una mayor dispersi ón de su distribuci ón. La unidad de medida de x, µ = E(X)
y de σ(X) son id énticas, mientras que las unidades de la varianza son los cuadrados
de las unidades de los valores. El Ejemplo 3.3.4 entrega como subproducto la f órmula
computacional
Definici o´n 3.3.5 El momento de orden α de una variable aleatoria X, se define como
Cuando los sucesos de inter és dependen de una variable real, las preguntas relevantes
se pueden formular, a menudo, en t érminos de intervalos, como por ejemplo: ¿Tendre-
mos ma ñana una temperatura superior a 5 grados? o ¿Ser á la inflaci ón del pr óximo
mes inferior a 1%? o ¿Se mantendr á la variaci ón del ı́ndice Dow-Jones estable entre
-5 y +10 puntos?, etc. En estos casos X ⊆ R y, de hecho, se puede tomar igual a
R, asignando probabilidad nula al complemento de X . Si se asignan probabilidades a
todos los intervalos, el axioma de σ-aditividad permite determinar autom áticamente la
probabilidad de todos los subconjuntos de R que aparecen en la realidad. En otras pala-
bras, la distribuci ón de probabilidad PX queda completamente determinada en cuanto
se conoce el valor de PX para cada intervalo.
A primera vista, lo anterior requerirı́a especificar el tipo de intervalo, e.g. si el intervalo
contiene o no su lı́mite izquierdo a o su lı́mite derecho b, ası́ como si a o b son o no
finitos. Para un tipo dado de intervalo, la probabilidad correspondiente depende natu-
ralmente de a y de b, de modo que ella podrı́a expresarse como GX (a, b) para cierta
funci ón GX con dominio R2 . Afortunadamente, podemos apelar a un procedimiento
que es válido para cualquier medida positiva, que consiste en considerar previamente
ciertas probabilidades acumuladas y deducir a partir de ellas la probabilidad de cual-
quier intervalo. Discutimos este enfoque en la pr óxima secci ón.
3.4.1 Definici´
o n y propiedades generales
P (X > x) = 1 − P (X ≤ x)
P (X ≥ x) = 1 − P (X < x).
Definici o´n 3.4.1 La funci ón de distribuci ón acumulada (f.d.a.), o simplemente, fun-
ci ón de distribuci ón de la variable aleatoria real valorada X, se define como:
Para una funci ón h definida sobre R y con valores en R utilizaremos la siguiente nota-
ci ón para los lı́mites que se indican:
def
h(x+
0) = lim h(x),
x→x+
0
def
h(x−
0) = lim h(x)
x→x−
0
def
h(∞) = lim h(x)
x→∞
def
h(−∞) = lim h(x)
x→−∞
La funci ón FX , para una variable aleatoria real, est á definida en toda la recta real, y
tiene las siguientes propiedades:
La propiedad (a) se cumple por ser F (x) una probabilidad. (b) es consecuencia de la
monotonicidad de la probabilidad, pero se puede deducir directamente de la aditividad
y la positividad como sigue: para x1 < x2 se tiene
FX (x2 ) = P (X ∈] − ∞, x2 ]) = P (X ∈] − ∞, x1 ]∪]x1 , x2 ])
= P (X ∈] − ∞, x1 ) + P (X ∈]x1 , x2 ])
≥ P (X ∈] − ∞, x1 ]) = FX (x1 )
La propiedad (c) se satisface para toda funci ón no decreciente. Las propiedades (d),
(e) y (f) son consecuencia de la σ-aditividad, pero omitimos sus demostraciones. Fi-
nalmente, (g) y (h) son consecuencia de las propiedades anteriores y la aditividad. La
continuidad por la derecha cambiarı́a a continuidad por la izquierda si P (X ≤ x) se
reemplaza por P (X < x).
Cuando X es el instante de falla de un equipo o de una componente, es com ún trabajar
con la funci ón de confiabilidad, definida por S(x) = P (X > x), y que no es otra cosa
que 1 − FX (x).
Un resultado matem ático importante, cuya demostraci ón excede largamente los requi-
sitos matemáticos de estas notas, es que dada cualquier funci ón F que satisface (b), (e)
y (f), ella corresponde a la funci ón de distribuci ón acumulada de alguna variable alea-
toria. Las propiedades (d),(g) y (h) permiten calcular las probabilidad de un intervalo y
de un punto cualquiera.
Cuando existe un intervalo S = [c, d], tal que P (X ∈ S) = P (c < X < d) = 1, los
puntos c y d juegan el rol de −∞ y +∞ respectivamente. En particular, la condici ón
(f) equivale a FX (c) = 0 y FX (d) = 1. Adem ás, FX (x) = 0 para todo x < c
y FX (x) = 1 para todo x ≥ d. Por (g), la funci ón FX es continua si y s ólo si la
probabilidad de cualquier conjunto de un elemento es nula. En este caso, P X ([a, b]) =
PX (]a, b]) = PX ([a, b[) = PX (]a, b[), para todo a, b.
3.4.2 Ejemplos
Ejemplo 3.4.1 Considere la siguiente tabla parcial de valores para F X :
x 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
FX (x) 0.30 0.38 0.45 0.52 0.58 0.62 0.65 0.68 0.70 0.71 0.72
Entonces:
• P (X ≤ 1.4) = 0.58.
• P (X > 1.7) = 0.32.
• P (1.4 < X ≤ 1.7) = 0.68 − 0.58 = 0.10.
Si se sabe que la funci ón F es continua, se puede afirmar que
• P (X < 1.4) = 0.58.
• P (X ≥ 1.7) = 0.32.
• P (1.4 ≤ X ≤ 1.7) = P (1.4 ≤ X < 1.7) = P (1.4 < X ≤ 1.7) =
0.10.
Ejemplo 3.4.3 Verificar que para todo k entero positivo, la funci ón F defi-
nida por
k−1
X xj e−x
F (x) = 1 − , x>0
(k − 1)!
j=0
3.4.3 Funci o´n de distribuci o´n acumulada para una variable aleatoria dis-
creta
Recordemos que una variable aleatoria X se dice discreta si tiene un n úmero finito o
numerable de valores. Este es el caso de las variables en los Ejemplos 3.2.2 y 3.2.3.
El adjetivo discreta se aplica tambi én a su distribuci ón de probabilidad PX . Para una
variable aleatoria discreta, PX queda completamente determinada por su funci ón de
probabilidad pX . Si el conjunto X de valores de X es un subconjunto de R tenemos
la opci ón de elegir a R o a X como espacio muestral inducido por X. Sin p érdida
de generalidad, supondremos que pX (x) > 0 para todo x ∈ X (si no, simplemente
eliminamos tal punto de X ). En este caso X se denomina soporte de X y es el menor
subconjunto de R que cumple la propiedad PX (S) = 1. Se lo puede escribir como
1.0
0.8
0.6
FDA
0.4
0.2
0.0
0 2 4 6 8
x
Probabilidad concentrada en 4 puntos
Figura 3.4.5: Ejemplo de Funci ón de Distribuci ón Acumulada para una variable aleatoria discreta.
que se define sobre una clase de subconjuntos de R3 , que representan un cuerpo o sus
partes, la densidad de masa es una funci ón que asigna un valor real a cada punto de
una regi ón en R3 . Si el cuerpo ocupa una regi ón B en el espacio y la densidad se
denota por ρ(x), la masa del cuerpo es la integral de la funci ón ρ sobre el conjunto
B. Por analogı́a entre la masa de este cuerpo y la probabilidad PX (B), es razonable
estudiar la posibilidad de expresar PX (B) como la integral de una cierta funci ón, que
naturalmente recibe el nombre de densidad de probabilidad. Este segundo enfoque
tiene la ventaja de ser inmediatamente generalizable a R k .
La definici ón formal de la funci ón densidad es la siguiente:
Definici o´n 3.5.1 La variable aleatoria a valores reales X, o su distribuci ón de proba-
bilidad PX , se dirá absolutamente continua, si existe una funci ón fX definida sobre R,
y con valores no negativos tal que para cualquier suceso A ⊂ X
Z
PX (A) = P (X ∈ A) = fX (x)dx. (3.5.1)
A
que liga a la densidad con la distribuci ón acumulada. Por otra parte, a partir de (3.5.3),
es inmediato ver que
FX0 (x) = fX (x), (3.5.4)
bajo ciertas condiciones de regularidad que mencionamos en la secci ón 3.5.2. De
(3.5.4) se tiene que FX es una antiderivada o primitiva G de f . Entonces FX (x) =
G(x) + C y la constante C se determina conociendo el valor de F X (x) en cualquier
punto, incluyendo ∞ y −∞. Por ejemplo, si fX (x) = e−x , x > 0 y fX (x) = 0 en
otro caso, se tiene que G(x) = −e−x es una primitiva y FX (x) = −e−x + C. De
P (X ≤ 0) = 0 se deduce que FX (x) = 0 y, por tanto, C = 1. Lo mismo se obtiene
de 1 = F (∞) = 0 + C.
La definici ón intuitiva de densidad de masa ρ en un punto x0 dado, es que ella aproxima
al cuociente entre la masa de una peque ña parte del cuerpo que contiene a x0 y su
volumen. El producto de ρ(x0 ) y el volumen de la regi ón aproxima entonces la masa
de la regi ón. El mismo argumento sugiere que el producto de fX (x0 ) y la longitud de
un peque ño intervalo que contiene a x0 aproxima la probabilidad que X tome un valor
en dicho intervalo. Si la unidad de medida de x es centı́metros, fX tiene dimensi ón
cm−1 ; si ella es segundos, la unidad de fX es seg−1 . Esto muestra que no tiene sentido
interpretar a fX (x) como una probabilidad, a diferencia de lo que acontece con p X (x)
en el caso discreto. Por ejemplo, si X mide el peso de una persona en kilogramos,
fX (68) × 0.2 aproxima P (67.9 ≤ X ≤ 68.1) = FX (68.1) − FX (67.9).
Es instructivo buscar una interpretaci ón directa de (3.5.4), que no descanse en el teo-
rema fundamental del c álculo. Para ello hacemos la analogı́a con la densidad de masa.
Consideremos un intervalo peque ño (x0 − 2 , x0 + 2 ], centrado en un punto x0 de la
recta real y aproximemos la densidad en x0 por el cuociente entre su probabilidad y el
largo del intervalo. Entonces,
P (x0 − 2 < X ≤ x0 + 2 ]
fX (x0 ) ≈ (3.5.5)
largo((x0 − , x0 + ])
FX (x0 + 2 ) − FX (x0 − 2 )
= (3.5.6)
≈ FX0 (x0 ) (3.5.7)
Ası́ como una funci ón F no decreciente, continua por la derecha y que satisface
F (−∞) = 0 y F (∞) = 1 se puede considerar como la funci ón de distribuci ón acu-
mulada de cierta variable aleatoria, una funci ón f se puede considerar como la funci ón
densidad de probabilidad de cierta variable aleatoria X si ella satisface las condiciones
En efecto, basta definir la funci ón de distribuci ón acumulada FX mediante (3.5.3).
Es más habitual determinar modelos probabilı́sticos especificando la funci ón densidad
de probabilidad que usando la funci ón de distribuci ón acumulada. Por otra parte, suele
ser conveniente definir la densidad salvo por una constante de proporcionalidad. Si
f (x) = cg(x), donde g es una funci ón definida en R, a valores reales no negativos,
y con integral finita, digamos I, (3.5.9) implica cI = 1, o sea f (x) = g(x)I −1 es
efectivamente una densidad. Por ejemplo, sea f definida en [0, 1], como f (x) = cx 3 , y
0 en todo otro punto. ¿Cu ál es el valor de c para que f sea una densidad? Todo lo que
se necesita es que Z ∞ Z 1
c
f (x)dx = c x3 dx = = 1,
−∞ 0 4
por lo que se requiere c = 4.
Por otra parte, aplicando (3.5.2) al lado izquierdo de (3.5.10) se tiene la aproximaci ón:
Z x+dx
fX (t)dt ≈ fX (x)dx; (3.5.12)
x
El error de aproximaci ón es |fX (x∗ )−fX (x)|dx, que se puede acotar por M dx, donde
M es la máxima variaci ón de la densidad en el intervalo. Si fX es continua en este
intervalo, el n úmero M tiende a 0 cuando dx tiende a 0.
Claramente toda distribuci ón absolutamente continua es no at ómica. Por otra parte,
todas las distribuciones de probabilidad continuas que se utilizan en la pr áctica son, de
hecho, absolutamente continuas. Los contraejemplos son algo complicados de cons-
truir y revisten un inter és puramente matem ático. Muchos libros utilizan el t érmino
variable aleatoria continua para referirse a una variable que admite una funci ón densi-
dad. Con nuestra definici ón, ambos conceptos no son equivalentes.
La continuidad absoluta de la distribuci ón, es decir la existencia de una funci ón densi-
dad, equivale esencialmente a cualquier de las dos propiedades equivalentes (la demos-
traci ón de la equivalencia requiere de herramientas matem áticas sofisticadas):
Cuando se cuenta con una distribuci ón de proporciones empı́ricas, es com ún tratar de
mirarlas como una aproximaci ón a una distribuci ón de probabilidad te órica. Se dispo-
ne para ellos de muchos tipos de distribuciones de probabilidad conocidas. Dado un
tipo particular de distribuciones, una distribuci ón especı́fica queda determinada por un
vector de par ámetros, que denotamos por θ. Estos par ámetros ajustables se eligen para
que las proporciones empı́ricas se parezcan lo m ás posible a las probabilidades te óricas
correspondientes. Formalmente, tenemos una familia de distribuciones {P θ , θ ∈ Θ}.
Elegir un miembro de esta familia equivale a elegir un elemento θ ∈ Θ. El único caso
que consideraremos ac á es Θ ⊂ Rk , donde k n úmeros reales determinan la distribu-
ci ón de manera única. Por simplicidad de lenguaje se suele hablar de la distribuci ón
Pθ , aunque θ no est é especificado. Si X sigue la distribuci ón Pθ , lo que escribimos
X ∼ Pθ , la probabilidad que el valor de X pertenezca a A se denota por P θ (A).
Lo más c ómodo es representar a Pθ por su funci ón de probabilidad p(·; θ), o su funci ón
de densidad f (·; θ), seg ún sea la distribuci ón discreta o absolutamente continua. Estas
se obtiene que
ck θ k
p(k, θ) = , 0 < θ < r.
G(θ)
es una legı́tima familia uniparam étrica de funciones de probabilidad, es
decir indexadas por el n úmero real θ.
3.6.2 Taxonom´
ıa
Los libros de probabilidad suelen entregar una peque ña lista de distribuciones de pro-
babilidad, donde se indican algunas de sus principales caracterı́sticas. Este libro no es
una excepci ón; la Secci ón 3.10 entrega tal lista. Cabe se ñalar que libros de referencia,
como la colecci ón escrita por Johnson y Kotz, contiene muchas m ás distribuciones e
informaci ón sobre ellas.
Esencialmente, podemos pensar que disponemos de un diccionario enciclop édico de
distribuciones y precisamos estrategias de b úsqueda. Los principales elementos para
acotar la b úsqueda son
Al igual que en las tablas de integrales, se reduce mucho el espacio necesario si las dis-
tintas expresiones se reducen a un n úmero más peque ño de formas est ándar o can óni-
cas.
Para una distribuci ón continua, es irrelevante si el intervalo contiene o no sus extremos,
pues ellos tienen probabilidad nula. Escribimos el soporte como un conjunto cerrado.
De esta forma, es suficiente estudiar familias de distribuciones cuyo soporte es [0, 1],
[0, ∞[, o R =] − ∞, ∞[.
• Soporte [0, 1] : Distribuci ón Beta [α, β], cuyo caso m ás importante es la distribu-
ci ón uniforme.
• Soporte [0, ∞, [: Exponencial, Gama, Weibull, Log-normal, valor extremo, Ji-
cuadrado, F de Snedecor.
• Soporte R. Normal, Student, Logı́stica, Cauchy
Definici o´n 3.7.1 La distribuci ón de probabilidad que asigna probabilidad p al valor 1
y probabilidad q = 1 = p al valor 0, se denomina Bernoulli con par ámetro p. Un
proceso de Bernoulli de par ámetro p es una sucesi ón de variables aleatorias i.i.d. con
iid
distribuci ón Bern (p), lo que se escribe X1 , X2 , . . . ∼ Bern (p).
La variable Xi representa el resultado del i- ésimo ensayo, interpret ándose Xi = 1
como un éxito y Xi = 0 como un fracaso. El par ámetro p com ún representa la proba-
bilidad de éxito, P (Xi = 1), denotándose la probabilidad de fracaso por q = 1 − p.
Un modelo concreto es la repetici ón indefinida del lanzamiento de una moneda, con
probabilidad p de salir cara y q = 1 − p de salir sello, donde el resultado del i- ésimo
lanzamiento es xi = 1 si sale cara y xi = 0 si sale sello. La proporci ón de éxitos en
los primeros n ensayos es
n
1X
pn = Xi ,
n
i=1
La tabla siguiente ilustra las definiciones para una realizaci ón particular de las variables
X1 , X2 , . . . , X20 .
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
xn 0 1 0 0 1 1 0 1 0 0 0 0 1 0 1 0 0 0 1 1
Nn 0 1 1 1 2 3 3 4 4 4 4 4 5 5 6 6 6 6 7 8
k 1 2 3 4 5 6 7
Tk 2 5 6 8 13 15 19
Zk 2 3 1 2 5 2 4
Wk 1 2 0 1 4 1 3
Hacemos notar que las variables aleatorias Nn , Tk , Zk y Wk han sido definidas sin
especificar su distribuci ón de probabilidad. De cualquiera de las 6 filas anteriores se
pueden deducir las otras 5 mediante un simple c álculo aritmético. Como el modelo
probabilı́stico subyacente a los resultados de la primera fila est á determinado por p,
lo mismo sucede con las distribuciones de probabilidad asociadas a las otras filas. La
siguiente tabla muestra los nombres asignados a las diversas distribuciones. Posterior-
mente deduciremos las funciones de probabilidad correspondientes.
Demostraci o´n: Aplicando (3.7.1) a cada elemento de una partici ón orde-
k
P
nada de S = {1, 2, . . . , n}, con n = nj , se tiene
j=1
k
X
NS = N Aj .
j=1
Claramente NAj e Yj tienen la misma distribuci ón y los NAj son indepen-
k
P
dientes. Adem ás NS ∼ Bin ( nj , p), por definici ón.
j=1
Ejemplo 3.7.2 Demostrar que si X ∼ Bin (n, p), entonces se tiene que
Y = n − X ∼ Bin (n, 1 − p).
Demostraci o´n: Una demostraci ón directa se obtiene a partir de pY (y) =
P (Y = y) = P (n−Y = n−y) = P (X = n−y) = pX (n−y) y aplicando
(3.10.7). Una alternativa m ás interesante consiste en definir Yi = 1 − Xi ,
verificar que Y1 , Y2 , . . . es un proceso
Pn de Bernoulli con par ámetro 1 − p, y
utilizar la representaci ón Y = 1 Yi .
La funci ón de probabilidad de la distribuci ón geométrica está dada por (3.10.8). El
resultado fundamental est á contenido en la siguiente proposici ón.
Proposici o´n 3.7.1 Para un proceso de Bernoulli con probabilidad de éxito p se tiene
que los n úmeros de ensayos entre éxitos sucesivos, W1 , W2 , . . . son variables alea-
torias i.i.d. con distribuci ón com ún geométrica de parámetro p trasladada al origen.
Las distancias entre éxitos consecutivos Z1 , Z2 , . . . son i.i.d. con distribuci ón com ún
geométrica de parámetro p.
La demostraci ón general se deja como ejercicio e ilustramos la idea b ásica mediante
un caso particular. De la Tabla
P (W1 = 1, W2 = 2, W3 = 0, W4 = 1) = P (X1 = 0, X2 = 1, X3 = 0, X4 = 0,
X5 = 1, X6 = 1, X7 = 0, X8 = 1)
= qpqqppqp
= q 1 pq 2 pq 0 pq 1 p
= q w1 pq w2 pq w3 pq w4 p
el instante del primer éxito T1 (que, como sabemos, tiene distribuci ón geométrica de
parámetro p) es posterior al instante actual, digamos, t, esto es, T 1 > t. La pregunta
que surge entonces, es: ¿Cu ál es la probabilidad que tengamos que esperar m ás de s
ensayos para observar el primer éxito? En otras palabras, dado que ya llevamos t en-
sayos esperando el primer éxito, ¿Cuál es la probabilidad que tengamos que esperar al
menos s ensayos m ás? Lo que se requiere calcular es P (T1 > s + t|T1 > t). Ahora,
P (T1 > s + t, T1 > t) P (T1 > s + t)
P (T1 > s + t|T1 > t) = = . (3.7.2)
P (T1 > t) P (T1 > t)
Por otra parte,
∞
X ∞
X
P (T1 > t) = pT1 (k) = p(1 − p)k−1
k=t+1 k=t+1
∞
X
= p(1 − p)t (1 − p)k−t−1
k=t+1
∞
X
= p(1 − p)t (1 − p)j (con j = k − t − 1)
j=0
1
= p(1 − p)t × = (1 − p)t ,
1 − (1 − p)
por lo que usando (3.7.2) se obtiene
(1 − p)s+t
P (T1 > s + t|T1 > t) = = (1 − p)s = P (T1 > s),
(1 − p)t
y llegamos a la m ás bien sorprendente conclusi ón que la probabilidad en cuesti ón no
depende de t. Esta propiedad de la distribuci ón geométrica se llama, precisamente,
falta de memoria.
Vamos ahora a demostrar que la distribuci ón de Tk es BN(k, p), cuya funci ón de
probabilidad est á dada por (3.10.10). Como el k- ésimo éxito no puede obtenerse antes
del instante k, y por otra parte, no es posible acotar el n úmero de ensayos requerido
para obtenerlo, Tk toma valores en {k, k +1, k +2, . . .}. El suceso {Tk = n} equivale a
observar k − 1 éxitos en los n − 1 primeros ensayos (sin especificar en qu é posiciones),
y un éxito en el n-ésimo ensayo. Por lo tanto, la funci ón de probabilidad de Tk ,
evaluada en n ≥ k coincide con P (Nn−1 = k − 1, Xn = 1). La independencia de los
Xi implica que Nn−1 (que depende de las variables X1 , . . . , Xn−1 ) es independiente
de Xn . Entonces:
P (Tk = n) = P ({Nn−1 = k − 1} ∩ {Xn = 1})
= P (Nn−1 = k − 1) × P (Xn = 1)
n − 1 k−1
= p (1 − p)n−k × p.
k−1
Ejercicio: Determine si la distribuci ón binomial negativa posee falta de memoria o no.
La distribuci ón de Poisson es muy importante por si sola, como modelo probabilı́stico
para recuentos. Por otra parte, ella se puede obtener como lı́mite de la distribuci ón
Bin (n, p), para n grande, p peque ño, y producto np moderado. Consideremos una
serie de n ensayos de Bernoulli, donde la probabilidad de éxito varı́a con el n úmero de
ensayos n, y denotando a esta probabilidad por pn , imponemos las condiciones
Un ejemplo de esto es la extracci ón al azar, con reemplazo, de una muestra de tama ño
n, a partir de una poblaci ón de tama ño N . El n úmero de veces X que aparece en la
muestra una ficha predeterminada de la poblaci ón, sigue una distribuci ón Bin (n, N1 ).
n
Interesa la aproximaci ón a P (X = x) cuando N → ∞, con N → λ > 0.
Sea X ∼ Bin(n, pn ), con las caracterı́sticas antes se ñaladas. Entonces:
n k
pX (k) = p (1 − pn )n−k
k n
= (k!)−1 n(n − 1) · · · (n − k + 1)pkn (1 − pn )n−k
k
Y
= (k!)−1 (n − i + 1)pn × (1 − pn )n−k
i=1
Es fácil ver que para cada i = 1, . . . , k, se tiene que lim (n − i + 1)pn = λ, y que
n→∞
lim (1 − pn )n−k = e−λ , de modo que limn→∞ pX (k) = f (k), donde f (y) es la
n→∞
funci ón probabilidad de la distribuci ón de parámetro λ, dada por (3.10.12).
La utilidad de esta aproximaci ón a la distribuci ón Binomial queda de manifiesto si con-
sideramos que para valores grandes de n, el c álculo de probabilidades usando (3.10.7)
es computacionalmente complicado, debido a la inestabilidad num érica de la f órmula.
Ejemplo 3.8.4 Sea X una variable aleatoria con distribuci ón de Cauchy, cuya densi-
dad es
1
fX (x) = , x∈R (3.8.2)
π(1 + x2 )
Entonces
∞
x
Z
E(X) = 2
dx
−∞ π(1 + x )
1 1
= lim log(1 + x2 ) − lim log(1 + y 2 ),
x→∞ 2π y→−∞ 2π
expresi ón que no existe, pues cada lı́mite diverge a +∞. Por lo tanto, X no tiene
esperanza.
Ejemplo
R∞ 3.8.5 SeaRg es una funci ón par, no negativa ( o sea, g(−z) = g(z)) con
∞
0 g(t)dt = 0.5 y 0 tg(t)dt < ∞. Entonces fX (x) = g(x − θ) define una densidad
de probabilidad, la distribuci ón de X es simétrica en torno de θ, y µ = E(X) = θ.
Para verificar la verdad de estas aseveraciones, basta plantear las integrales correspon-
dientes, lo que se deja como ejercicio para el lector.
Un ejemplo importante es el de la distribuci ón normal, para la cual
2 2
e−x /2σ
g(x) = √ .
2πσ 2
Teorema 3.8.1 Sean X e Y variables aleatorias absolutamente continuas, tales que Y = g(X).
Entonces Z ∞ Z ∞
E(Y ) = yfY (y)dy = g(x)fX (x)dx, (3.8.3)
−∞ −∞
siempre que una de las integrales converja absolutamente.
Ejemplo 3.8.7 Si X ∼ N (0, σ 2 ), sabemos del Ejemplo 3.8.5 que E(X) = 0. Calcu-
lemos ahora E(X 2 ). Se tiene que
∞ 2 2
x2 e−x /2σ
Z
E(X 2 ) = √ dx.
−∞ 2πσ 2
2 /2σ 2
Si u = x, y dv/dx = xe−x , entonces usando integraci ón por partes se obtiene:
∞ 2 2
e−x /2σ
Z
2 2
E(X ) = σ √ = σ2.
−∞ 2πσ 2
En el cálculo de los momentos de una distribuci ón, la siguiente funci ón, llamada funci ón genera-
dora de momentos, juega un importante rol.
Definici o´n 3.8.2 La funci ón generadora de momentos de la variable aleatoria X, se define como
Teorema 3.8.2
Es este resultado el que origina el nombre de MX (t). Basta con que MX (t) sea expandible en
serie de potencias infinita en una vecindad de t = 0, para que los momentos de X existan, caso
en el que ellos se obtienen derivando la funci ón y evaluándola en t = 0. La demostraci ón de
este resultado, se basa en desarrollos de Taylor de MX (t). De hecho, (3.8.5) dice que µk (X) es
simplemente el coeficiente del t érmino tk en la expansi ón en serie de Taylor de MX (t) en torno a
t = 0.
Veamos a continuaci ón algunos ejemplos.
Ejemplo 3.8.8 Del Ejemplo 3.3.3 se deduce que la funci ón generadora de momentos
de una variable aleatoria X ∼ Poisson(λ) es
exp(λ(exp(t) − 1)),
la que está definida para cualquier real t, por lo que ella caracteriza la distribuci ón
Poisson(λ). Con un poco de paciencia, se obtiene que
d
MX (t) = λ exp(t) exp (λ(exp(t) − 1))
dt
d2
MX (t) = λ exp(t) exp (λ(exp(t) − 1)) (1 + λ exp(t)) ,
dt2
y aplicando (3.8.5), uno puede obtener que E(X) = λ y E(X 2 ) = λ(1 + λ), por lo
que V ar(X) = λ. Una alternativa es obtener las derivadas en el origen componiendo
2
expansiones de Taylor truncadas. Ası́ exp(z) ≈ 1 + z + z2 implica
2
t2 (t + t2 )2
exp(λ(exp(t) − 1)) ≈ 1 + λ(t + )+λ
2 2
2 t2 2
t 2 (t + 2 )
≈ 1 + λ(t + ) + λ
2 2
t 2
≈ 1 + λt + (λ + λ2 ) .
2
t2
Identificando los coeficientes de t y de 2 se obtiene EX, EX 2 y, de acá, Var X = λ.
d λα
MX (t) = ,
dt (1 − tλ)α+1
d2 λ2 α(1 + α)
M X (t) = ,
dt2 (1 − tλ)α+2
se tiene que E(X) = αλ, y E(X 2 ) = λ2 α(1 + α), de modo que V ar(X) = αλ2 . El
caso en que X ∼ Exp(λ) se obtiene de imponer α = 1, con lo que V ar(X) = λ 2 .
siempre que p exp(t) < 1, esto es, t < − log(p). Por otra parte,
d p exp(t)
MX (t) = ,
dt (1 − (1 − p) exp(t))2
d2 p(exp(t) + (1 − p) exp(2t))
2
= ,
dt (1 − (1 − p) exp(t))3
con lo que E(X) = p−1 , E(X 2 ) = p−2 (2 − p), y, finalmente, V ar(X) = p−2 (1 − p).
Aparte de la funci ón generadora de momentos, existen otras funciones generadoras de inter és.
Definici o´n 3.8.3 Sea X una variable aleatoria. Se define, para el rango de valores en que el valor
esperado correspondiente exista:
GX (z) = E z X
(3.8.6)
lo cual coincide con la funci ón G(z) de la Definici ón 3.8.3. En otras palabras, ambas definiciones
son equivalentes.
La ventaja de la funci ón caracterı́stica de X es que ella est á siempre bien definida, cualquiera
que sea el real t. La raz ón de ello es que |E(exp(itX))| ≤ E| exp(itX)| = 1, para todo t ∈ R, o
bien usando el hecho que las funciones seno y coseno son acotadas. Es f ácil ver que en la medida
que las expresiones involucradas existan, se cumple que
Por último, la funci ón generadora de cumulantes est á definida en el rango de valores para los
que la funci ón generadora de momentos existe. Como veremos a continuaci ón, KX (t) genera los
cumulantes de la distribuci ón de X, definidos justamente como los coeficientes de la expansi ón en
serie de Taylor de KX (t) en torno a t = 0.
(a) Sea X una variable aleatoria discreta con X ⊂ {0, 1, 2, . . .}, y para la cual G X (z) existe en
una vecindad de z = 0. Entonces
1 dk
pX (k) = GX (0) (3.8.11)
k! dtk
(b) Si KX (t) se puede expandir mediante una serie de potencias infinita en una vecindad de
t = 0, entonces todos los cumulantes κk (X) existen y se calculan mediante:
dk
κk (X) = KX (0). (3.8.12)
dtk
En particular,
κ1 (X) = E(X) y κ2 (X) = V ar(X). (3.8.13)
(c) Sean a, b reales cualesquiera. En la medida que las siguientes expresiones existan, se cumple:
1. Si MX (t) = MY (t) para todo a < t < b, entonces FX = FY , esto es, X e Y tienen la
misma distribuci ón.
2. Si GX (z) = GY (t) para todo a < z < b, entonces FX = FY .
3. Si ϕX (t) = ϕY (t) para todo t ∈ R, entonces FX = FY .
Demostraci o´n: La verificaci ón de (a) es inmediata. Para obtener (b), note simplemente que
d M 0 (t)
KX (t) = X ,
dt MX (t)
y que
00 (t)M (t) − (M 0 (t))2
d2 MX X X
K X (t) = ,
dt2 (MX (t))2
de donde el resultado sale de evaluar lo anterior en t = 0. Por otra parte,
y las otras tres propiedades se prueban en forma similar. Finalmente, la prueba de (d) ser á omitida.
FY (y) = P (Y ≤ y) = P (µ + σX ≤ y) = P (X ≤ (x − µ)/σ)
x−µ
= FX ,
σ
(x − µ)2
1
fY (y) = √ exp − ,
2πσ 2 2σ 2
σ 2 t2
KY (t) = log(MY (t)) = µt + ,
2
de donde se deduce que E(Y ) = KY0 (0) = µ, y V ar(Y ) = KY00 (0) = σ 2 . Finalmente,
Es fácil ver que µk (X) debe existir para todo k ≥ 1, pues X tiene un rango de valores
acotado. Ası́, MX (t) también existe para cualquier t, y
Z 1
MX (t) = E(exp(tX)) = exp(tx)(1 − |x|)dx
−1
Z 0 Z 1
= exp(tx)(1 + x)dx + exp(tx)(1 − x)dx
−1 0
exp(t) + exp(−t) − 2
= .
t2
Note que, de acuerdo a la expresi ón obtenida, MX (t) no está definida en t = 0. Sin
embargo, observe que del desarrollo en serie de Taylor de exp(t) y exp(−t) se concluye
que
∞ k ∞
!
X t X (−1) k tk
MX (t) = t−2 + −2
k! k!
k=0 k=0
2
t4 t6 t2k
−2 t
= t 2 + 2 + 2 + ··· + 2 + ···
2! 4! 6! (2k)!
2t2 2t4 2t2k−2
= 1+ + + ··· + + ···
4! 6! (2k)!
por lo que µ2k−1 (X) = 0, y µ2k (X) = 2(2k + 1)−1 (2k + 2)−1 , es decir,
(
0 si k es impar
µk (X) = 2
(k+1)(k+2) si k >= 2 es par
Por otra parte, note que exp(it) = cos(t)+i sin(t), y que exp(−it) = cos(t)−i sin(t),
por lo que
2(cos(t) − 1)
ϕX (t) = ,
t2
y la funci ón caracterı́stica de X es una funci ón a valores reales. No es difı́cil darse
cuenta que este ser á siempre el caso cuando la distribuci ón de la variable aleatoria en
cuesti ón sea simétrica con respecto al origen. En este caso, fX (x) = fX (−x) lo que
implica la simetrı́a. La demostraci ón de este resultado se propone como ejercicio.
El caso discreto es, en general, simple y directo de resolver. Para derivar el resultado en el caso
continuo, observe que si g es mon ótona creciente y diferenciable, entonces, podemos obtener la
densidad de Y = g(X) como sigue. La funci ón de distribuci ón acumulada de Y es, por definici ón,
FY (y) = P (Y ≤ y), y tenemos que:
y entonces
fY (y) = FY0 (y) = FX0 (g −1 (y)) = fX (g −1 (y))(g −1 )0 (y)
1
= fX (g −1 (y)) · 0 −1 ,
g (g (y))
donde Y = g(X ).
Cuando g es mon ótona decreciente, el mismo argumento se puede aplicar, despu és de ligeras
modificaciones. En efecto, el evento {g(X) ≤ y} equivale ahora al evento {X ≥ g −1 (y)}, pues g
es decreciente, y entonces FY (y) = 1 − FX (g −1 (y)). Finalmente, se obtiene que
1
fY (y) = −fX (g −1 (y)) · .
g 0 (g −1 (y))
Observe que g 0 es una funci ón negativa, de modo que el resultado es una funci ón positiva, despu és
de incorporar el signo negativo.
Finalmente, podemos resumir las f órmulas observadas en el siguiente resultado.
Teorema 3.9.1 Sea X una variable aleatoria con densidad f X , y sea Y = g(X), donde g es
mon ótona y diferenciable. Entonces
1
fY (y) = fX (g −1 (y)) · (3.9.1)
|g 0 (g −1 (y))|
Ejemplo 3.9.1 Suponga que X ∼ N (0, 1), y sea Y = µ + σX, con µ ∈ R y σ > 0.
En el Ejemplo 3.8.12 se obtuvo que Y ∼ N (µ, σ 2 ) mediante propiedades de funciones
generadoras. El mismo resultado se obtiene usando el Teorema 3.9.1 con g(x) = µ +
σx, que claramente cumple las hip ótesis de dicho resultado. Ası́, g −1 (y) = (y − µ)/σ,
g 0 (x) = σ, y la densidad de Y se obtiene de (3.9.1):
(x − µ)2
1
fY (y) = √ exp − , y ∈ R. (3.9.2)
2πσ 2 2σ 2
y considere g(x) = 2x. Se tiene que Y = (0, 2), que g es claramente mon ótona
creciente, con g −1 (y) = y/2, y g 0 (x) = 2. Usando (3.9.1) es inmediato obtener que si
0 < y < 2 entonces
(3/8)y 2
si 0 < y < 2
fY (y) =
0 si no
Ejemplo 3.9.3 Suponga que X ∼ U (0, 1), y considere g(x) = − log(x), definida
sobre los reales positivos. Obtengamos fY para Y = − log(X). Se tiene que Y =
(0, ∞), g −1 (y) = exp(−y), g 0 (x) = −x−1 , y g es mon ótona decreciente. Entonces,
usando (3.9.1) se obtiene que, puesto que fX (x) = I(0,1) (x),
fY (y) = exp(−y),
y entonces Y ∼ Exp(1).
Ejemplo 3.9.4 Suponga que X tiene densidad triangular en el intervalo [0, 1], esto es,
fX (x) = c(1 − |1 − 2x|), para alg ún valor adecuado de c. Obtengamos la densidad de
Y = X 2 , con lo que Y = [0, 1]. Primeramente, se debe calcular el valor de c. Note que
Z 1 Z 1/2 Z 1
(1 − |1 − 2x|)dx = 2xdx + 2(1 − x)dx = 1/4 + 1/4 = 1/2,
0 0 1/2
Densidad de X
Densidad de Y
2.0
1.5
1.0
0.5
0.0
de donde
( √ 2
(y 2πσ 2 )−1 exp − (log(y)−µ)
2σ 2 si y > 0
fY (y) =
0 si no
El cálculo de momentos de Y es complicado si se hace por definici ón. Sin embargo,
note que
µk (Y ) = E(Y k ) = E(exp(kX)) = MX (k)
k2 σ2
= exp kµ + .
2
En particular, E(Y ) = exp(µ + σ 2 /2), y E(Y 2 ) = exp(2µ + 2σ 2 ), por lo que
V ar(Y ) = exp(2µ + σ 2 )(exp(σ 2 ) − 1).
Teorema 3.9.2 Sea X es una variable aleatoria definida sobre X , con densidad f X , y sea g : X →
Y biyectiva, diferenciable y tal que (g −1 )0 es no nulo sobre Y. Entonces la densidad de Y = g(X)
está dada por
1
fY (y) = fX (g −1 (y))|(g −1 )0 (y)|Iy∈Y = fX (g −1 (y)) · IY (y) (3.9.4)
|g 0 (g −1 (y))|
Cuando g no es biyectiva, los resultados reci én vistos no tienen validez. Sin embargo, hay veces
en que X se puede particionar de modo que g es biyectiva en cada una de esas porciones. Ası́,
el teorema es v álido en cada elemento de dicha partici ón, y se puede demostrar que la expresi ón
final de la densidad se obtiene de sumar cada una de las densidades restringidas. Este resultado se
enuncia a continuaci ón.
Teorema 3.9.3 Sea X una variable aleatoria con densidad f X definida sobre X , y sea g una funci ón
definida sobre X , verificando la propiedad que existe una partici ón A1 , A2 , . . . de X tal que gi ,
definida como la restricci ón de g a Ai es biyectiva y diferenciable. Entonces, Y = g(X) tiene
densidad fY dada por
∞ ∞
X X fX (gi−1 (y))
fY (y) = fX (gi−1 (y))|(gi−1 )0 (y)|Igi (Ai ) (y) = · Igi (Ai ) (y) (3.9.5)
i=1 i=1
|gi0 (gi−1 (y))|
y el lector podr á deducir que Y ∼ Gama(1/2, 2), quedando s ólo por comprobar el
√
hecho que Γ(1/2) = π, lo cual queda propuesto como un ejercicio.
Ejemplo 3.9.7 Sea X ∼ Exp(λ) con λ > 0, y considere Y = cos(X). Es claro que
Y = [−1, 1]. Por otra parte, la funci ón g(x) = cos(x) es claramente no biyectiva en
(0, ∞). Considere entonces los conjuntos Ak = (kπ, (k + 1)π), para k = 0, 1, 2, . . ..
Para terminar este capı́tulo, entregamos a continuaci ón un listado de algunas de las principales
familias paramétricas de distribuciones. La mayorı́a de ellas se usa en diversas partes de este texto.
f (1) = p, f (0) = q = 1 − p
(3.10.6)
Distribuci ón de Bernoulli Bern (p)
n
py q n−y ,
f (y) = y y = 0, . . . , n
(3.10.7)
Distribuci ón Binomial Bin (n, p)
y−1
k
f (y) = k−1 p (1 − p)y−k para y = k, k + 1, k + 2, . . .
(3.10.10)
Distribuci ón Binomial negativa BN(k, p).
k(k+1)···(k+y−1) k y
f (y) = y! p q , y = 0, 1, 2, . . .
Γ(y+k) k y
= Γ(k)Γ(y+1) p q , y = 0, 1, 2, . . . (3.10.11)
λk e−λ
f (y) = k! , para k = 0, 1, . . ..
(3.10.12)
Distribuci ón de Poisson Poisson(λ)
1
f (y) = b−a ,a < y < b
(3.10.13)
Distribuci ón Uniforme en[a, b]] U [a, b]
Γ(α+β)
f (y) = Γ(α)Γ(β) y α−1 (1 − y)β−1 , 0 < y < 1.
(3.10.14)
Distribuci ón Beta Beta(α, β)
Caso especial: α = β = 1 : Distribuci ón U [0, 1]
1
f (y) = λ(λy)α−1 e−λy Γ(α) , y>0
β
f (y) = λβy β−1 e−λy , y > 0
(3.10.16)
Distribuci ón de Weibull Weib(λ, β)
Caso especial β = 1 : Distribuci ón Expo (λ).
1 1 2
f (y) = √ e− 2σ2 (y−µ) , −∞ < y < ∞
σ 2π
(3.10.17)
Distribuci ón Normal N (µ, σ 2 )
Γ( ν+1 ) x2 −
(ν+1)
f (x) = 2 √
Γ( ν2 )Γ( 21 ) ν
(1 + ν )
2 −∞<x<∞
(3.10.18)
ν1 ν2
ν1 +ν2 ν1 ν1 +ν2
Γ( )ν12 ν22 y 2 −1 (ν1 y+ν2 ) 2
f (y) = 2
ν ν
Γ( 21 )Γ( 22 ) , −∞<y <∞ (3.10.19)
3.11 Problemas
2. Un dado equilibrado se lanza cuatro veces. Sea X el mı́nimo n úmero que se obtiene.
3. Calcule el n úmero esperado de tr éboles que se obtienen en una mano de poker, consistente
en 5 cartas escogidas al azar de un total de 52.
6. Un dado no equilibrado asigna a la cara con el n úmero x probabilidades dadas por p(x) =
c × 0.7x × 0.36−x , x = 1, 2, 3, 4, 5, 6.
(e) De todos los intervalos de la forma [0.5j, 0.5j + 0.5], j = 0, 1, . . . 15, encuentre aqu él
que tiene la máxima probabilidad.
8. La probabilidad que el n úmero de personas en una fila sea k est á dada por el coeficiente de
z k en el desarrollo en serie de Taylor de (q + pz)−2 .
(a) Demuestre que para que este modelo probabilı́stico tenga sentido es necesario que q +
p = 1.
(b) Obtenga la funci ón de distribuci ón acumulada F .
(c) Construya una tabla para p = 12 .
9. La proporci ón de calcio enRun mineral es altamente variable. La probabilidad que esta pro-
b
porci ón esté entre a y b es a f (x)dx, con
y con k = 0, 1, 2.
(a) Encuentre ck .
(b) Calcule la funci ón de distribuci ón acumulada Fk (x).
(c) Eval úe la probabilidad πk que la proporci ón esté entre 0.25 y 0.75.
(d) Conjeture el comportamiento de πk a medida que k crece.
10. Sea X una variable aleatoria continua con funci ón de densidad f > 0. Si F es la funci ón de
distribuci ón de X pruebe que la variable Y = F (X) tiene distribuci ón uniforme en [0,1].
12. Si Y ∼ U (0, 5), ¿cu ál es la probabilidad que las raı́ces de la ecuaci ón 4x2 +4xY +Y +2 = 0
sean ambas reales?.
3
Resp. : 5
13. Si un proyectil se lanza en un ángulo θ ∼ U (0, π4 ) de la tierra con una velocidad v, éste
2
caerá al suelo a una distancia R que puede ser expresada por R = ( vg )(sin 2θ), donde g es
la aceleraci ón de gravedad. Encontrar la funci ón de distribuci ón de R.
v2
Resp. : F (x) = 2
π arcsin gx
v2
para 0 ≤ x ≤ g
15. Se lanza una moneda en que la probabilidad de obtener una cara es p = 12 , y suponga que la
moneda se lanza repetidamente. Sea Xn el n úmero total de caras que han sido obtenidas en
los primeros n lanzamientos y sea Yn = n − Xn . Supongamos que paramos los lanzamientos
16. Considere un elevador que comienza en el subterr áneo de un edificio y viaja hacia arriba.
Sea Ni el n úmero de personas que suben al elevador en el piso i. Suponga que los N i son
independientes y que Ni ∼ Poisson(λi ). Cada persona que sube en i, independiente del resto
sale en j con probabilidad pij . Sea Nij el n úmero de personas que suben al elevador en el
piso i y bajan en el j. Calcule P (Nij = k).
Resp : Nij ∼ Poisson(λi pij ).
18. (a) Sean X1 , . . . , Xn variables aleatorias independientes, y defina las nuevas variables ale-
atorias Y y Z mediante Y = min(X1 , . . . , Xn ), Z = max(X1 , . . . , Xn ). Argumente
que las siguientes relaciones son verdaderas:
(b) Asuma que los tiempos de falla de un sistema de n componentes son T 1 , . . . , Tn , los que
se suponen independientes. Lo que nos interesa calcular es la distribuci ón del tiempo de
falla T del sistema completo en t érminos de las distribuciones de T1 , . . . , Tn . Aplique
la parte (a) a lo siguiente:
(i) Si de 10 componentes cada una tiene probabilidad 0.99 de durar al menos 100
horas, y éstas se encuentran en serie, ¿cu ál es la probabilidad que el sistema no
fallará en 100 horas?.
(ii) ¿Cuál es la probabilidad, si ahora las componentes est án en paralelo?. Resp :
1 − 10−20 .
19. Se lanzan dos dados perfectos. Sea X igual al producto de los valores obtenidos en los dados.
Determine X , y calcule P (X = x) para x ∈ X .
20. Suponga que un dado se lanza dos veces. ¿Cu áles son los posibles valores que pueden tomar
las siguientes variables aleatorias?
21. Calcule el valor esperado y varianza en cada una de las partes del Problema 20.
22. Compare la aproximaci ón de Poisson con la probabilidad Binomial correcta para los siguien-
tes casos:
(a) P (X = 2) cuando n = 8, p = 0.1.
(b) P (X = 9) cuando n = 10, p = 0.95.
(c) P (X = 0) cuando n = 10, p = 0.1.
(d) P (X = 4) cuando n = 9, p = 0.2.
23. El n úmero de suicidios en cierto estado es de 1 por cada 100.000 habitantes en un mes.
(a) Encontrar la probabilidad que en una ciudad de 400.000 habitantes del mismo estado,
se produzcan por lo menos ocho suicidios.
(b) ¿Cuál es la probabilidad que durante dos meses del a ño ocurran ocho o m ás suicidios?.
(c) Contando el presente mes como el mes n úmero uno, ¿cu ál es la probabilidad que en el
mes i ocurran ocho o m ás suicidios?.
¿Que supuestos se deben hacer?.
24. Cada caja de una cierta marca de cereal contiene un animalito de pl ástico en su interior.
Hay un total de N posibles animalitos disponibles, y suponga que es igualmente probable
encontrar uno cualquiera de ellos en una caja dada. Determine el n úmero esperado de cajas
que se debe comprar para obtener la colecci ón completa de animalitos.
25. Una urna contiene n bolas numeradas 1, 2, . . . , n. Una persona extrae al azar una bola de
la urna y la devuelve, saca otra y la devuelve, continuando hasta sacar una misma bola por
segunda vez. Sea X el n úmero de intentos necesarios para obtener dicha repetici ón.
(a) Obtenga la distribuci ón de X. (Indicaci ón: calcule P (X > k))
(b) Demuestre que
n−1
Y
1 1 2 i
E(X) = 2 + 1 − + 1− 1− + ··· 1− .
n n n n
i=1
26. Pruebe que si X es una variable aleatoria cualquiera tal que P (X ∈ [a, b]), entonces a ≤
E(X) ≤ b y V ar(X) ≤ (b − a)2 /4. (Indicaci ón: haga primero el caso a = 0, b = 1).
Encuentre una variable aleatoria que alcance la m áxima varianza.
27. Sea X una variable aleatoria con distribuci ón U (0, 1), y defina Y = min{X, c}, donde
0 < c < 1. Calcule E(Y ) y V ar(Y ).
Nota:
X(ω) si X(ω) ≤ c
Y (ω) =
c si no
28. El tiempo de vida en horas de un tubo fluorescente, es una variable aleatoria que tiene una
densidad de probabilidad dada por:
f (x) = α2 xe−αx x ≥ 0.
Calcule el tiempo de vida esperado del tubo.
λαxα−1 exp(−λxα )
si x > 0
fX (x) =
0 si no.
Se asume que α > 0 y λ > 0. Determine E(X). ¿Cu ál es la distribuci ón de Y = X α ?
31. Encuentre la funci ón generadora de momentos de una variable aleatoria X ∼ U (a, b). Use
este resultado para calcular E(X) y V ar(X).
32. Sea X una variable aleatoria absolutamente continua con valores en los reales positivos, y
defina SX (x) = 1 − FX (x) = P (X > x) para un real positivo x cualquiera.
(b) Aplique lo anterior al caso de la distribuci ón exponencial, y al caso de la distribuci ón
de Weibull.
33. Una urna contiene a bolas blancas y b bolas negras. Si sacamos una bola a la vez hasta obtener
la primera bola blanca, encontrar el n úmero esperado de bolas negras sacadas de la urna.
b
Resp : a+1 .
34. Una caja contiene inicialmente 3 bolitas rojas, 4 azules y 6 verdes, las que se retiran una a
una y sin reemplazo, hasta que todas las bolitas rojas han sido retiradas. Sea X el n úmero de
bolitas que se han retirado hasta ese momento.
(a) Calcule P (X ≤ 9)
(b) Calcule P (X = 9).
(b) Calcule E(X).
35. Sea X una variable aleatoria que sigue una de las siguientes distribuciones.
(a) E(X).
(b) E(X(X − 1)).
(c) E(X 2 ).
(d) V ar(X)
(e) E(z X ), donde z es un n úmero real.
36. Sea X una variable aleatoria con valores en {0, 1, . . . , n}, funci ón de probabilidad f y fun-
ci ón de distribuci ón F . Demuestre que
n
X
EX = (1 − F (x)).
x=0
Muestre que esta relaci ón es también válida para n = ∞. Aplı́quela para calcular la media
de la distribuci ón geométrica.
37. Un equipo tiene 5 componentes, de las cuales 2 son defectuosas. Se inspeccionan las compo-
nentes en un orden aleatorio.
(a) Si X es el n úmero de componentes que deben examinarse antes de encontrar una de-
fectuosa, calcule E(X).
(b) Si Y es el n úmero de componentes que deben examinarse para encontrar las dos defec-
tuosas, calcule E(Y ).
38. Si X es una variable aleatoria con esperanza finita µ y varianza σ 2 , y si g(·) es una funci ón
dos veces diferenciable, demuestre que:
g 00 (µ) 2
E[g(X)] ≈ g(µ) + σ .
2
Hint: usar la expansi ón de Taylor en torno a µ para g(·). Use s ólo los primeros tres t érminos.
39. Se realizan ensayos independientes, donde en el i- ésimo ensayo se obtiene un éxito con pro-
babilidad pi . Encuentre el n úmero esperado y la varianza del n úmero de éxitos que ocurren
en los primeros n ensayos.
40. Un hombre dispara a un blanco. Diez de estos tiros caen a una pulgada del blanco, cinco
entre una y tres pulgadas del blanco, y tres entre tres y cinco pulgadas del blanco. Encontrar
el n úmero esperado de tiros acertados si:
(a) Los tiros del hombre se distribuyen uniformemente en el cı́rculo de radio ocho pulgadas
con el blanco como centro.
(b) Las distancias verticales y horizontales de los tiros del hombre al blanco son (medidas
en pulgadas) variables aleatorias independientes e id énticamente distribuidas N (0, 4).
41. La duraci ón T de cierto tipo de llamada telef ónica satisface la relaci ón:
P (T ≥ t) = ae−λt + (1 − a)e−µt , t ≥ 0,
42. Una variable aleatoria X puede tomar cada uno de los siete valores −3, −2, −1, 0, 1, 2, 3 con
la misma probabilidad. Determinar fY (y), en donde Y = X 2 − X.
43. Suponga que X es una variable aleatoria cuya densidad es f y que Y = aX + b (a 6= 0).
Demuestre que la densidad de Y es la siguiente:
1 y−b
g(y) = f , −∞ ≤ y ≤ ∞.
|a| a
45. Sea X una variable aleatoria continua con funci ón densidad f y funci ón distribuci ón F .
Pruebe que la distribuci ón de Y = F (x) es U (0.1).
46. Supongamos que una calculadora posee cuatro circuitos. Si ésta se envı́a a reparaci ón, las
probabilidades que necesite 1,2,3 o 4 circuitos nuevos son 12 , 14 , 18 , y 81 . La empresa que
realiza las reparaciones mantiene un stock de 18875 circuitos anuales. Si en un a ño recibe
10000 calculadoras para reparar, ¿cu ál es la probabilidad que no se cubra la demanda?.
Resp : 0.117
47. Observando que, en promedio, el 12% de los pasajes reservados no se ocupan, una compa ñı́a
aérea decide aceptar reservas por un 10% m ás de su capacidad en aviones de 450 pasajeros.
Calcular la proporci ón de vuelos en que alg ún pasajero con reserva no tiene cabida.
Resp : 0.02
48. Suponga que X ∼ U (0, 1). Determine los valores de t ∈ R tales que E(X t ) existe.
49. (a) Un dado se lanza hasta obtener un dos. Si X es el n úmero de lanzamientos requeridos,
t
demostrar que la funci ón generadora de momentos de X es 6−5t .
(b) Un dado se lanza hasta obtener un dos o un tres. Demostrar que la funci ón generadora
t
de momentos del n úmero de lanzamientos requeridos es 3−2t .
Vectores Aleatorios
En el capı́tulo anterior hemos estudiado el importante concepto de variable aleatoria, con énfasis en
el caso en que ésta es univariada. Es usual, sin embargo, el caso en que el objeto aleatorio natural
para modelar una situaci ón dada es un vector aleatorio de n componentes, es decir, se observa
X = (X1 , X2 , . . . , Xn ), en que cada Xi es una variable aleatoria unidimensional, ya sea discreta,
absolutamente continua o mixta.
Este es el caso del Ejemplo 3.2.4 del Capı́tulo 3, en que el resultado de escoger un punto al
azar en el cı́rculo unitario se describe por un vector aleatorio bidimensional X = (X 1 , X2 ), y
en donde X = {(x1 , x2 ) | x21 + x22 ≤ 1}. Note que en este mismo ejemplo el resultado puede
también ser descrito en t érminos de coordenadas polares Y = (R, Θ), donde Y = {(r, θ) : 0 ≤
r ≤ 1, −π ≤ θ ≤ π}. Observe, sin embargo, que si este experimento se cambia por escoger un
punto en la circunsferencia unitaria {(x1 , x2 ) | x21 + x22 = 1}, el vector correspondiente es en
realidad un objeto unidimensional, lo que se puede modelar empleando las t écnicas del Capı́tulo 3.
Concretamente, en coordenadas polares, escogemos R = 1 y Θ ∼ U (0, 2π). Se propone como
ejercicio al lector obtener la correspondiente distribuci ón de las coordenadas cartesianas X1 y X2 .
Otra situaci ón es cuando una cierta medici ón se lleva a cabo en varios individuos. Por ejemplo,
suponga que interesa medir la estatura de cada uno de los 6 integrantes de una cierta familia. El
resultado de este experimento se puede representar mediante un vector aleatorio de dimensi ón 6, en
que cada componente representa la estatura de uno de los miembros de esta familia. Esta clase de
ejemplo es muy frecuente en problemas estadı́sticos de la vida real. Sin entrar en mayores detalles
por ahora, es conveniente distinguir el vector aleatorio obtenido de esta forma con aquel que uno
obtendrı́a si se midiera la estatura de uno de los miembros de esta familia 6 veces, y a ún con el caso
en que a este mismo individuo se le miden 6 caracterı́sticas diferentes (por ejemplo, estatura, peso,
etc.). Como veremos m ás adelante estas tres situaciones requieren de modelos probabilı́sticos radi-
calmente distintos, a ún cuando se trata de vectores aleatorios de la misma dimensi ón, y obtenidos
en situaciones “similares”.
131
´
CAP ITULO 4. VECTORES ALEATORIOS
4.2.1 Definiciones
Veremos que muchas de las ideas del caso unidimensional tienen una extensi ón natural al caso
multidimensional. Por esta raz ón, no nos detendremos mayormente en revisar algunos aspectos
cubiertos en el Capı́tulo 3. Más bien, enfatizaremos los cambios especı́ficos que involucra el salto
desde dimensi ón 1 a n.
Definici´ o n 4.2.1 Un vector X = (X1 , . . . , Xn ) se dice vector aleatorio si cada uno de los Xi ,
i = 1, . . . , n es una variable aleatoria, siendo todas ellas definidas sobre un espacio muestral com ún
Ω. La notaci ón X ∈ Rn indicará que X tiene n coordenadas.
o n 4.2.2 La funci ón de distribuci ón conjunta de un vector aleatorio X se define para un
Definici´
vector dado x = (x1 , . . . , xn ) ∈ Rn mediante:
N ótese que en este caso se habla de funci ón de distribuci ón conjunta de X, denotando el hecho
que X posee m ás de una coordenada, estableci éndose ası́ una distinci ón explı́cita con el caso
unidimensional.
Análogamente, los lı́mites por la izquierda en cada coordenada existen (aunque no necesa-
riamente coinciden con los valores de FX en los puntos en cuesti ón).
donde este último lı́mite significa que todas las coordenadas tienden simult áneamente a ∞.
4. Para g : Rn → R sea
Entonces,
∆1(a1 ,b1 ] · · · ∆n(an ,bn ] FX (x1 , . . . , xn ) ≥ 0,
cualesquiera que sean ai < bi , i = 1, . . . , n.
Se puede probar que estas cuatro propiedades caracterizan completamente la funci ón de distri-
buci ón conjunta, en el sentido que una funci ón F satisfaciéndolas coincide con FX para alg ún vec-
tor aleatorio X. Resulta entonces natural asignar el nombre funci ón de distribuci ón n-dimensional
o conjunta a cualquier funci ón F satisfaciendo 1-4 arriba.
La propiedad 4 es quiz ás la más novedosa entre ellas. Para visualizar lo que sucede, considere-
mos el caso n = 2, y el siguiente ejemplo.
Si F fuera la funci ón de distribuci ón de alg ún vector aleatorio (X, Y ), entonces, ano-
tando FX,Y (x, y) = F (x, y) se tiene
Es claro, entonces, que la cuarta propiedad (que simplemente establece que probabilidades cal-
culadas a partir de F deben ser no negativas) resulta relevante, y no puede ser omitida. Dicha propie-
dad se puede visualizar como la extensi ón multivariada de aquella establecida en la Secci ón 3.4.1,
y que se traduce en el hecho que las funciones de distribuci ón univariadas son no decrecientes.
Como en el caso unidimensional, es posible clasificar vectores aleatorios como discretos y con-
tinuos.
• discreto si X toma valores sobre un conjunto finito o infinito numerable. En este caso, si
x ∈ X , la funci ón
pX (x) = P (X1 = x1 , . . . , Xn = xn )
recibe el nombre de funci ón de probabilidad conjunta discreta.
• absolutamente continuo si existe una funci ón fX : Rn → R+ ∪ {0} tal que para cualquier
x ∈ Rn se cumple
Z xn Z x1
FX (x) = ··· fX (t1 , . . . , tn )dt1 · · · dtn .
−∞ −∞
En este caso, fX se llama funci ón densidad del vector aleatorio X, o funci ón densidad
conjunta de las variables aleatorias X1 , . . . , Xn .
Como en el caso unidimensional, FX suele tener poca importancia pr áctica cuando X es dis-
creto, y uno trabaja usualmente con pX . En el caso continuo, la probabilidad que el vector aleatorio
X tome valores en el rect ángulo n-dimensional
Rn = [a1 , b1 ] × · · · × [an , bn ],
Si el vector aleatorio X est á definido en Ω, sobre el cual se ha definido una medida de proba-
bilidad P , el vector X induce una nueva medida de probabilidad, P X , esta vez sobre X , y dada
mediante la f órmula:
Al igual que en el caso univariado, PX recibe el nombre de medida de probabilidad inducida por
X, o distribuci ón de X.
Otras propiedades de las funciones de probabilidad se ver án a continuaci ón:
en donde
S(k + 1, . . . , n) = {(xk+1 , . . . , xn ) : (x1 , . . . , xn ) ∈ X }.
Intuitivamente, al tomar lı́mite a infinito en alguna coordenada, digamos, para fijar ideas, la
última, se reemplaza el evento {Xn ≤ xn } por {Xn ≤ ∞}, el cual tiene probabilidad 1, y
por lo tanto, este evento no altera la probabilidad de los otros eventos que definen F X :
El argumento en el caso del lı́mite de dos o m ás coordenadas en forma simult ánea es esen-
cialmente idéntico.
4.2.3 Ejemplos
Veamos ahora c ómo deducir esta f órmula. Para fijar ideas, supongamos que x consta
de k unos seguidos de n − k ceros. Por la independencia de X 1 , . . . , Xn , es claro que la
probabilidad de tal configuraci ón es pk (1 − p)n−k . Más aun, cualquier configuraci ón
con k unos y n − k ceros tiene exactamente la misma probabilidad. Pero el n úmero de
Pn
unos coincide con Xi , de donde se obtiene el resultado.
i=1
Ejemplo 4.2.3 Sean X e Y variables aleatorias discretas con funci ón de probabilidad
conjunta dada por la siguiente tabla:
y
x 0 1 2
0 0.15 0.15 0.25
1 0.10 0.15 0.20
En este ejemplo, el primer paso consiste en calcular el valor de c > 0 para que efecti-
vamente se tenga una densidad. Se debe cumplir
ZZ
1= c(|x| + |y|)dxdy.
|x|+|y|≤1
Por la simetrı́a de ambos, el dominio de integraci ón y la funci ón en cuesti ón, la integral
sobre cada cuadrante es la misma, y
ZZ Z 1 Z 1−y
1 = 4c (x + y)dxdy = 4c (x + y)dxdy
0 0
{x+y≤1, x≥0, y≥0}
Z 1 Z 1
2
= 4c [(1 − y) /2 + y(1 − y)]dy = 4c [1/2 − y 2 /2]dy
0 0
= 4c(1/2 − 1/6) = 4c/3,
Es necesario ser muy cuidadoso con los lı́mites de integraci ón. En primer lugar, X se
obtiene de proyectar el dominio sobre el eje x, obteni éndose X = [0, 1], de modo que
fX (x) = 0 si x 6∈ [0, 1]. Para x0 ∈ [0, 1] fijo, el rango de posibles valores de y se
obtiene de la desigualdad |x0 | + |y| ≤ 1, de donde se sigue que −(1 − |x0 |) ≤ y ≤
1 − |x0 |, como se muestra en el siguiente diagrama.
y
1
@
@ y ≤ 1 − |x0 |
@
@
@ 1
-1 @
@ 0 x0 x
@
@
@
@
@
-1
3 3 1−|x|
Z
= |x|(1 − |x|) + ydy
2 2 0
3 3 3
= |x|(1 − |x|) + (1 − |x|)2 = (1 − x2 ).
2 4 4
Análogamente, y por la simetrı́a del problema,
3 2
fY (y) = 4 (1 − y ) si y ∈ [−1, 1]
0 si no.
Hay a ún un caso que discutir, y que corresponde a cuando parte de las variables en el vector aleato-
rio X son discretas, y el resto absolutamente continuas, caso en el que hablamos de vector aleatorio
mixto. Para simplificar la exposici ón, supongamos un vector bidimensional (X, Y ), donde X es
discreta, e Y es absolutamente continua, y denotemos por D al conjunto de posibles valores para
este vector. Notemos que la distribuci ón de (X, Y ) asigna probabilidades positivas a algunos sub-
conjuntos de R2 de la forma {x} × [a, b]. Sin p érdida de generalidad, podemos descartar aquellos
subconjuntos tales que P (X = x) = 0 marginalmente. Surge entonces el problema de c ómo defi-
nir una “funci ón densidad” que permita realizar los c álculos como lo hemos estado haciendo hasta
ahora. Es claro que al operar con esta funci ón densidad, se requerir á una combinaci ón de sumas e
Ax = {y ∈ R : (x, y) ∈ A}
= {x ∈ R : (x, y) ∈ A}
Ay
[
A(X) = Ay
y∈Y
[
A(Y ) = Ax .
x∈X
Los conjuntos Ax y Ay reciben el nombre de secciones de A. Ası́, Ax contiene todos los puntos
y ∈ Y para los que el segmento paralelo al eje y y que pasa por x est á contenido en A. Por su
parte, A(X) contiene todos los posibles valores x tal que (x, y) ∈ A para alg ún y ∈ A(Y ). Luego,
A(X) puede verse como la proyecci ón de A sobre el eje x correspondiente a la primera coordenada.
Una interpretaci ón análoga vale para Ay y A(Y ). Observe que, en general, A ⊂ A(X) × A(Y ),
pudiendo la inclusi ón ser estricta. Por otra parte, el soporte de X es simplemente D(X), y el de Y
es D(Y ).
Con esta notaci ón, es posible probar que para un vector aleatorio mixto, existe una funci ón
densidad mixta pX,Y (x, y) tal que
X
Z
Z X
P ((X, Y ) ∈ A) = pX,Y (x, y)dy = pX,Y (x, y) dy. (4.2.8)
x∈A(X) y∈Ax
y∈A(Y ) x∈Ay
Ejemplo 4.2.5 Considere un vector aleatorio de tipo mixto (X, Y ) para el que X =
{0, 1, . . . , n}, e Y = (0, 1), y con
( n
(x) x+a−1
B(a,b) y (1 − y)n−x+b−1 si (x, y) ∈ X × Y
pX,Y (x, y) =
0 si no,
donde a y b son reales positivos, n ≥ 1 es un entero cualquiera, y B(a, b) es la funci ón
Beta, definida por
Γ(a)Γ(b)
B(a, b) = .
Γ(a + b)
para cualquier x1 , . . . , xn .
En otras palabras, si las variables en cuesti ón son independientes, entonces la funci ón de dis-
tribuci ón conjunta de ellas factoriza como el producto de las funciones de distribuci ón univariadas
involucradas. La parte (b) establece un resultado recı́proco, pero esta vez, es necesario verificar que
para i = 1, . . . , n se tiene lim Fi (xi ) = 1. Note que no es necesario verificar que cada Fi es una
xi →∞
funci ón de distribuci ón. Por otro lado, si cada Xi es absolutamente continua (el caso discreto ya
fue anteriormente tratado en la Secci ón 2.8.1), podemos dar una versi ón de este resultado basado
s ólo en densidades.
Ejemplo 4.3.1 Sea (X, Y ) un vector aleatorio con distribuci ón uniforme en el cı́rculo
unitario, esto es, −1
π si x2 + y 2 ≤ 1
fX,Y (x, y) =
0 si no
Tenemos que X = [−1, 1], y para −1 ≤ x ≤ 1 se cumple:
√
∞ 1−x2
1
Z Z
fX (x) = fX,Y (x, y)dy = √ dy
−∞ − 1−x2 π
√
2 1 − x2
= ,
π
y fX (x) = 0 si no. En completa analogı́a, fY (y) = fX (y), pero es claro que
fX,Y (x, y) 6= fX (x)fY (y), por lo que X e Y no son independientes.
Se propone como ejercicio verificar que si (X, Y ) est á distribuido uniformemente en el cuadra-
do unitario [0, 1] × [0, 1], entonces X e Y son independientes, cada una con distribuci ón U(0,1).
En muchos casos la informaci ón obtenida viene en la forma de un vector aleatorio n-dimensional
con distribuci ón conjunta conocida (ya sea mediante consideraciones propias al experimento, o
como parte de un cierto modelo probabilı́stico), pero lo que realmente interesa es determinar pro-
babilidades que digan relaci ón con una variable aleatoria definida como una funci ón del vector
aleatorio en cuesti ón, digamos, Y = g(X1 , . . . , Xn ). Ejemplos tı́picos de esta situaci ón son sumas,
promedios, productos, cambios de unidades de medida, etc étera. Concretamente, ya hemos visto el
caso en que la variable de inter és sea el n úmero de éxitos obtenidos hasta el n- ésimo ensayo en un
proceso de Bernoulli, que simplemente corresponde a sumar X 1 , . . . , Xn .
Note que
FY (y) = P (g(X1 , . . . , Xn ) ≤ y),
de modo que, en teorı́a el problema ya est á resuelto. En la pr áctica, sin embargo, son pocos los
casos en que este c álculo se puede hacer directamente. Veamos un par de ejemplos simples.
Ejemplo 4.4.1 Sea X ∼ N (0, 1), y sea Y = X 2 . Se tiene Y = R+ , de modo que para
y > 0:
√ √
FY (y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y)
Z √y
1 x2 √ √
= √
√ exp(− )dx = FX ( y) − FX (− y).
− y 2π 2
d √ 1 √ 1
fY (y) = FY (y) = fX ( y) √ + fX (− y) √
dy 2 y 2 y
1
exp(− y2 ) y 2 −1 exp(− y2 )
= √ = 1√ ,
2 yπ 22 π
que corresponde a la distribuci ón Gamma( 12 , 2). Esta distribuci ón recibe tambi én el
nombre de Chi-cuadrado con 1 grado de libertad, como se ver á más adelante.
Ejemplo 4.4.2 Sean X1 y X2 i.i.d. con distribuci ón exponencial de par ámetro λ > 0.
Calculemos la densidad de Y = X1 + X2 . Es inmediato ver que Y = R+ , y que
Cuando la transformaci ón involucra funciones m ás complicadas, este m étodo “directo” se torna
difı́cil de emplear. Afortunadamente, es posible recurrir al Teorema del cambio de variables para
obtener el siguiente e importante resultado.
El teorema del cambio de variables es una herramienta bastante útil en el cálculo de distribu-
ciones de transformaciones de vectores aleatorios en el caso absolutamente continuo. Note que si
n = 1, el resultado se reduce a lo ya visto en el Teorema 3.9.1.
Veamos a continuaci ón algunas aplicaciones.
p Sean X e Y variables aleatorias i.i.d. con distribuci ón com ún U(0,1).
Ejemplo 4.4.3
Sean R = 2 log(1/(1 − X)) y Θ = π(2Y − 1). Vamos a probar que Z = R cos(Θ)
y W = R sin(Θ) son independientes e id énticamente distribuidos, con distribuci ón
com ún N(0,1).
Primero, observe que Θ tiene distribuci ón uniforme en [−π, π]. En efecto, si g(y) =
π(2y − 1) entonces g([0, 1]) = [−π, π], y es claro que g es biyectiva y continuamente
diferenciable. Por otra parte,
1 si y ∈ [0, 1]
fY (y) =
0 si no.
sobre {(r, θ) : r > 0, −π < θ < π}. Es claro que (Z, W ) toma valores en todo R 2 ,
−1 −1
√ g es biyectiva y continuamente diferenciable, y que g está dada por g (z, w) =
que
2 2
( z + w , arctan(w/z)). La matriz Jacobiana de la transformaci ón inversa está dada
por !
√ z √ w
Jg −1 (z, w) = z 2 +w2
−w
z 2 +w2
z ,
z 2 +w2 z 2 +w2
√
y de aquı́ |det(Jg −1 (z, w))| = 1/ z 2 + w2 . Por (4.4.1), la densidad conjunta de
(Z, W ) está dada por
1 1 2 2
fZ,W (z, w) = exp − (z + w )
2π 2
2
w2
1 z 1
= √ exp − × √ exp − ,
2π 2 2π 2
que factoriza como el producto de dos funciones densidad N(0,1), y esto es exactamente
lo que querı́amos probar. Por último, note que se puede tomar un único cambio de
variables, que no requiera calcular previamente las densidades de R y Θ. Los detalles
de este procedimiento se proponen como ejercicio.
w w
|det(Jg −1 (z, w))| = ×1 = .
(1 − z)2 (1 − z)2
Ejemplo 4.4.5 Sea (X, Y ) un vector aleatorio con valores en X ⊂ R 2 y densidad con-
junta fX,Y . Sea Z = X + Y . Podemos calcular la densidad de Z mediante aplicaci ón
del cambio de variables (Z, W ) = g(X, Y ) = (X + Y, Y ). Es claro que g cumple las
hip ótesis del Teorema 4.4.1, y que (x, y) = g −1 (z, w) = (z − w, w), por lo que es
fácil obtener que |det(Jg −1 (z, w))| = 1. Se tiene, entonces, que
fX,Y (z − w, w) si (z − w, w) ∈ X
fZ,W (z, w) =
0 si no,
por lo que Z ∞
fZ (z) = fX,Y (z − w, w)dw. (4.4.2)
−∞
En el caso particular que X e Y son independientes, la ecuaci ón (4.4.2) toma la forma
especial de convoluci ón de fX y fY :
Z ∞
fZ (z) = fX ? fY (z) = fX (z − w)fY (w)dw, (4.4.3)
−∞
Consideremos ahora el caso en que la funci ón g no es biyectiva o diferenciable en todo el conjunto
X . En este caso, y al igual que en el caso unidimensional, hay una versi ón del Teorema del cambio
de variables basado en la existencia de subconjuntos X 1 , X 2 , . . . tales que la restricci ón de g a X i
verifique las hip ótesis del Teorema 4.4.1. Este resultado se enuncia a continuaci ón.
Teorema 4.4.2 Sea X un vector aleatorio n-dimensional con valores en X . Suponga que existen
∞
S
subconjuntos de X 1 , X 2 , . . . de X tales que P (X ∈ X i ) = 1. Sea g : X → Y = g(X ) una
i=1
funci ón tal que hi , definida como la restricci ón de g a X i , verifica las hip ótesis del Teorema 4.4.1.
Entonces Y = g(X) tiene densidad conjunta dada por
∞
P f (h−1 (y))|det(Jh−1 (y))| si y ∈ Y
X i i
fY (y) = (4.4.4)
i=1
0 si no.
Ejemplo 4.4.6 Sean X1 y X2 variables aleatorias i.i.d. con distribuci ón com ún N(0,1).
Mostremos que Y1 = X12 + X22 e Y2 = X1 /X2 son independientes. El candidato
natural para funci ón g es en este caso g(x1 , x2 ) = (x21 + x22 , x1 /x2 ). Es claro, sin em-
bargo, que esta funci ón no es biyectiva. Por ejemplo, g(1, 1) = g(−1, −1). Adem ás,
no está definida para (x1 , 0), cualquiera que sea x1 ∈ R. Claramente X = R2 , y
g(X ) = Y = R2 . Consideremos ahora X 1 = {(x1 , x2 ) : x1 < 0}, y X 2 =
{(x1 , x2 ) : x1 > 0}. Puesto que P (X ∈ {(x1 , x2 ) : x1 = 0}) = 0 (X es ab-
solutamente continua) se tiene que P (X ∈ X 1 ∪ X 2 ) = 1. Además, h1 y h2 , las
restricciones de g a X 1 y X 2 respectivamente, son claramente biyectivas y satisfacen
las hip ótesis del Teorema 4.4.2.
Hay otra faceta interesante de este problema, y que consiste en que h −1
i no necesita ser
determinado explı́citamente. Note que
−1
Jh−1 −1
1 (y1 , y2 ) = Jh1 (h1 (y1 , y2 )) ,
de modo que
|det(Jh−1 −1 −1
1 (y1 , y2 ))| = |det(Jh1 (h1 (y1 , y2 )))| .
Además,
2x1 2x2
Jh1 (x1 , x2 ) = ,
1/x2 −x1 /x22
y |det(Jh1 (x1 , x2 ))| = −2(x21 /x22 + 1) y por lo tanto
1
|det(Jh1 (h−1
1 (y1 , y2 )))| = .
2(y22+ 1)
Análogamente,
1
|det(Jh2 (h−1
2 (y1 , y2 )))| = ,
2(y22+ 1)
y la densidad conjunta de (Y1 , Y2 ) se obtiene de aplicar (4.4.4):
fY (y) = fY (h−1 −1 −1 −1
1 (y))|det(Jh1 (y))| + fY (h2 (y))|det(Jh2 (y))|
exp(−y1 /2) exp(−y1 /2) exp(−y1 /2)
= 2 + 2 =
4π(1 + y2 ) 4π(1 + y2 ) 2π(1 + y22 )
exp(−y1 /2) 1
= × ,
2 π(1 + y22 )
y puesto que esta densidad conjunta factoriza como el producto de la densidad exponen-
cial de parámetro 2, y de la densidad de Cauchy – definida en (3.8.2) –, concluimos que
Y1 ∼ Exp(2), e Y2 tiene distribuci ón de Cauchy, siendo ellas adem ás, independientes.
Para finalizar esta secci ón, estudiaremos los estadı́sticos de orden asociados a una secuencia de
variables aleatorias i.i.d. X1 , . . . , Xn , definidas como sigue:
Proposici o´n 4.4.1 Supongamos que X1 , . . . , Xn son variables aleatorias i.i.d. con densidad com ún
fX y funci ón de distribuci ón com ún FX , y con valores en X . Entonces, la densidad conjunta de
los estadı́sticos de orden est á dada por
n
n! Q f (x ) si x < x < · · · < x
X i 1 2 n
fX(1) ,...,X(n) (x1 , . . . , xn ) = i=1 (4.4.5)
0 si no.
donde π = (π1 , . . . , πn ) es una permutaci ón que deja los elementos x1 , . . . , xn ordenados ascen-
dentemente, esto es, xπ1 ≤ xπ2 ≤ · · · ≤ xπn . Note que hay n! permutaciones de x1 , . . . , xn . Por
otra parte, los casos en que xi = xj para alg ún i 6= j pueden descartarse, pues tiene probabilidad
0. Ası́, si P es el conjunto de estas n! permutaciones de {1, 2, . . . , n}, tenemos que a π ∈ P se le
asocia un subconjunto X π tal que si x ∈ X π se cumple xπ1 ≤ · · · ≤ xπn . Se tiene entonces que la
funci ón hπ definida como la restricci ón de g a X π es biyectiva y diferenciable. M ás a ún, la matriz
Jacobiana de hπ es una permutaci ón de las filas de la matriz identidad, y por lo tanto su determi-
nante es ya sea 1 ó -1,Sy se tiene que |det(Jhπ (h−1π (xπ )))| = 1 para todo π ∈ P. Finalmente, se
cumple que P (X ∈ ) = 1, y el resultado se tiene entonces como consecuencia inmediata de
π∈P
(4.4.4).
Veamos ahora algunas consecuencias de este resultado.
3. Una forma alternativa de derivar los resultados del punto anterior es la siguiente.
P (X(n) ≤ x) = P (max{X1 , . . . , Xn } ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x)
n
Y
= P (Xi ≤ x) (por independencia de X1 , . . . , Xn )
i=1
= FX (x)n .
Ası́,
d d
fX(n) (x) = FX(n) (x) = FX (x)n
dx dx
= nFX (x)n−1 fX (x) para x ∈ X .
Por otra parte,
P (X(1) > x) = P (min{X1 , . . . , Xn } > x) = P (X1 > x, . . . , Xn > x)
n
Y
= P (Xi > x) (por independencia de X1 , . . . , Xn )
i=1
= (1 − FX (x))n .
Ası́, FX(1) (x) = 1 − (1 − FX (x))n , y
d d
fX(1) (x) = FX(1) (x) = (1 − (1 − FX (x)))n
dx dx
= n(1 − FX (x))n−1 fX (x) para x ∈ X .
4. La densidad conjunta de X(1) y X(n) se puede obtener de (4.4.5), mediante integrar las
variables x2 , . . . , xn−1 . Alternativamente, considere el siguiente razonamiento. El evento
(X(1) > x1 , X(n) < xn ) equivale a
min{X1 , . . . , Xn } > x1 , max{X1 , . . . , Xn } ≤ xn ,
y por lo tanto
P (X(1) > x1 , X(n) ≤ xn ) = P (x1 < X1 ≤ x1 , . . . , xn < Xn ≤ xn )
n
Y
= P (x1 < Xi ≤ xn )
i=1
= (FX (xn ) − FX (x1 ))n .
Note que
P (X(n) ≤ xn ) = P (X(1) ≤ x1 , X(n) ≤ xn ) + P (X(1) > x1 , X(n) ≤ xn ),
de donde se obtiene que
FX(1) ,X(n) (x1 , xn ) = P (X(1) ≤ x1 , X(n) ≤ xn )
= P (X(n) ≤ xn ) − P (X(1) > x1 , X(n) ≤ xn )
= FX (xn )n − (FX (xn ) − FX (x1 ))n .
Finalmente, la densidad conjunta en cuesti ón se obtiene de derivar parcialmente con respecto
a cada argumento esta última expresi ón:
fX(1) ,X(n) (x1 , xn ) = n(n − 1)(FX (xn ) − FX (x1 ))n−2 fX (x1 )fX (xn ), (4.4.9)
para x1 < xn , y con x1 , xn ∈ X , y es claro que fX(1) ,X(n) (x1 , xn ) vale cero en caso contrario.
Ejemplo 4.4.7 Si X1 , . . . , Xn son i.i.d con distribuci ón exponencial de par ámetro λ >
0, entonces por (4.4.7), y recordando que FX (x) = 1 − exp(−x/λ), la densidad de
X(1) está dada por
n
fX(1) (x) = λ exp(−nx/λ) si x > 0
0 si no,
n(n − 1)xn−2 si 0 ≤ x ≤ y ≤ 1
fX,Y (x, y) =
0 si no,
por lo que
Z 1
fX (x) = n(n − 1)xn−2 dy = n(n − 1)xn−2 (1 − x),
x
4.5.1 Definici´
on
Se tiene entonces que la esperanza del vector aleatorio X es simplemente el vector de los valores
esperados de cada componente.
El caso del valor esperado de una funci ón del vector aleatorio X se trata a continuaci ón.
(b) Si m ≥ 2 entonces
E(g1 (x1 , . . . , xn ))
E(g2 (x1 , . . . , xn ))
E(g(X)) = E(g(X1 , . . . , Xn )) = , (4.5.3)
..
.
E(gm (x1 , . . . , xn ))
Consideremos nuevamente el caso especial m = 1, y donde g est á dada ahora por g(x1 , . . . , xn ) =
n
Q
x1 x2 · · · xn = xi , esto es, el producto de las n coordenadas. Si X1 , . . . , Xn son además inde-
i=1
pendientes, entonces, en el caso absolutamente continuo se tiene:
E(g(X1 , . . . , Xn )) = E(X1 · · · Xn )
Z Z
= · · · x1 · · · xn fX1 (x1 ) · · · fXn (xn )dx1 · · · dxn
Z (Y n
Z )
= ··· xi fXi (xi ) dx1 · · · dxn
i=1
n Z
Y n
Y
= xi fXi (xi )dxi = E(Xi ).
i=1 X i=1
Se puede probar que este resultado vale no s ólo en el caso continuo, y ası́ tenemos:
Proposici o´n 4.5.1 Sean X1 , . . . , Xn variables aleatorias independientes cada una con valor espe-
Qn
rado finito E(Xi ). Entonces E( Xi ) también existe y
i=1
n
Y n
Y
E( Xi ) = E(Xi ). (4.5.5)
i=1 i=1
Nota: Es posible probar que una condici ón suficiente para asegurar la existencia de E(XY ), es que
ambos X e Y posean segundos momentos, esto es, E(X 2 ) < ∞ y E(Y 2 ) < ∞.
Juntando los resultados de (4.5.4) y (4.5.5) podemos establecer lo siguiente:
Proposici o´n 4.5.2 Sean X1 , . . . , Xn variables aleatorias independientes con segundos momentos
finitos. Entonces
n
X Xn
V ar( Xi ) = V ar(Xi ). (4.5.6)
i=1 i=1
Demostraci o´n: Basta probar el caso n = 2, del que el resultado se obtiene por inducci ón sobre n.
Por definici ón se cumple:
V ar(X + Y ) = E(X + Y )2 − (E(X + Y ))2
= E(X 2 + Y 2 + 2XY ) − (E(X) + E(Y ))2
= V ar(X) + V ar(Y ) + 2E(X)E(Y ) − 2E(X)E(Y )
= V ar(X) + V ar(Y ).
A ún cuando esta integral se puede calcular directamente, es conveniente cambiar las
variables de integraci ón a coordenadas polares. Ası́,
Z1 Zπ Z1
−1 −1 2
E(R) = π r · rdrdθ = π · 2π r2 dr = .
3
0 −π 0
Similarmente,
Z1 Zπ Z1
2 −1 2 −1 1
E(R ) = π r · rdrdθ = π · 2π r3 dr = ,
2
0 −π 0
Note que P (Sn = k | N = n) = P (Sn = k), pues, una vez que el n úmero de
variables a sumar se fija, la dependencia en N se elimina. La raz ón es que X1 , X2 , . . .
es independiente de N . Luego,
n
∞ X
X pk (1 − p)n−k λn exp(−λ)
E(SN ) = k·
k!(n − k)!
n=0 k=0
∞ X n
X pk (1 − p)n−k λn exp(−λ)
=
(k − 1)!(n − k)!
n=1 k=1
∞ n−1
X pj (1 − p)n−1−j
X
= p λn exp(−λ) (j = k − 1)
j!(n − 1 − j)!
n=1 j=0
∞ n−1 n−1
X λ exp(−λ) X n−1 j
= pλ p (1 − p)n−1−j
(n − 1)! j
n=1 j=0
∞
X λn−1 exp(−λ)
= pλ
(n − 1)!
n=1
= pλ.
Note que el resultado obtenido coincide con E(X1 )E(N ), lo cual, lejos de ser una
coincidencia, tiene una justificaci ón que se ver á más adelante. Para calcular V ar(SN ),
obtengamos primero E(SN (SN − 1)). Se tiene:
∞ X
n
X pk (1 − p)n−k λn exp(−λ)
E(SN (SN − 1)) = k(k − 1) ·
k!(n − k)!
n=0 k=0
∞ X n
X pk (1 − p)n−k λn exp(−λ)
=
(k − 2)!(n − k)!
n=2 k=2
∞ n−2
2
X
n
X pj (1 − p)n−2−j
= p λ exp(−λ)
j!(n − 2 − j)!
n=2 j=0
(Note el cambio j = k − 2)
∞ n−2
λn exp(−λ) X n − 2
X
= p2 pj (1 − p)n−2−j
(n − 2)! j
n=2 j=0
∞
2 2
X λn−2 exp(−λ)
= p λ
(n − 2)!
n=2
= p 2 λ2 .
Luego,
2
E(SN ) = E(SN (SN − 1)) + E(SN ) = p2 λ2 + pλ,
de donde, finalmente:
2
V ar(SN ) = E(SN ) − E(SN )2 = pλ.
En el caso univariado, vimos que la varianza proporciona una idea de la dispersi ón de la distribuci ón
de la variable aleatoria considerada. Cuando se trabaja con un vector aleatorio X = (X 1 , . . . , Xn ),
la varianza de cada uno de los Xi no proporciona una visi ón completa de la dispersi ón de la dis-
tribuci ón conjunta, ni da una idea del grado de dependencia que pueda haber entre las variables.
Recurrimos entonces a la versi ón multivariada de varianza, llamada matriz de varianza-covarianza
de X.
La matriz de covarianza de X tiene una estructura novedosa. El elemento V (X) i,j con i, j =
1, . . . , n corresponde a
asumiendo que todos estos valores esperados existen. En el caso que i = j, esto se reduce simple-
mente a la varianza de Xi . En el caso i 6= j, nos referiremos a esta cantidad como la covarianza
entre Xi y Xj , de acuerdo a la siguiente definici ón formal.
Definici´
o n 4.5.3
provisto que los valores esperados en cuesti ón existan. Es inmediato ver que en este caso
se tiene Cov(X, Y ) = Cov(Y, X), esto es, la covarianza, vista como una funci ón de dos
variables aleatorias, es sim étrica.
Ası́, Cov(X, Y ) es una matriz de n × m cuyo elemento (i, j) es Cov(Xi , Yj ). Note que
Cov(X, Y ) = Cov(Y , X)0 , y que Cov(X, X) es simplemente la matriz de varianza-covarianza
de X.
Veamos ahora algunas propiedades relacionadas a estos conceptos.
2. Se tiene que para todo a, b, c, d, n úmeros reales, y puesto que E(a + bX) = a + bE(X),
E(c + dY ) = c + dE(Y ), entonces:
y puesto que V ar(a + bX) = b2 V ar(X), y V ar(c + dY ) = d2 V ar(Y ), entonces si adem ás
b 6= 0 y d 6= 0 se cumple:
lo que muestra que la covarianza, visto como una funci ón de dos variables aleatorias es bili-
nieal.
6. Desigualdad de Cauchy-Schwartz:
p p
|Cov(X, Y )| ≤ V ar(X) V ar(Y ).
Es directo ver que estas propiedades tambi én valen en el caso en que A es una matriz cual-
quiera, no necesariamente cuadrada.
n
X m
X n X
X m
Cov( Ais Xs , Bjt Yt ) = Ais Cov(Xs , Yt )Bjt ,
s=1 t=1 s=1 t=1
Note que la segunda ecuaci ón en (4.5.11) se puede obtener como caso particular de (4.5.12).
donde (x, y) ∈ R2 , y en donde −1 < ρ < 1. Esta densidad corresponde a una forma
de la distribuci ón normal bivariada, como ya ha sido mencionado en el Ejemplo 4.3.1.
Calculemos ahora Cov(X, Y ). Puesto que sabemos que marginalmente ambos X e Y
tienen distribuci ón N (0, 1), s ólo necesitamos calcular E(XY ). Se tiene:
Z ∞Z ∞
(x2 − 2ρxy + y 2 )
xy
E(XY ) = exp − dxdy
2(1 − ρ2 )
p
−∞ −∞ 2π 1 − ρ2
Z ∞ y exp − y2 Z ∞
(x − ρy)2
2
= x exp − dx dy
2(1 − ρ2 )
p
−∞ 2π 1 − ρ2 −∞
Z ∞ y exp − y2 √ p
2
= p ρy 2π 1 − ρ2 dy
−∞ 2π 1 − ρ2
Z ∞ 2
ρ 2 y
= √ y exp − dy = ρE(Y 2 )
2π −∞ 2
= ρ.
Es fácil ver que de aquı́ uno puede concluir que Cov(X, Y ) = ρ, y finalmente,
ρ(X, Y ) = ρ.
Por otra parte, en el Ejemplo 4.3.1 habı́amos ya probado que X e Y son independientes
sı́ y s ólo si ρ = 0, lo cual se traduce en que X e Y con distribuci ón normal bivariada
son independientes sı́ y s ólo si ellas son no correlacionadas.
promedio de un n úmero de variables aleatorias i.i.d. A continuaci ón veremos una propiedad muy
simple de las funciones generadoras que dice relaci ón con esta situaci ón.
n
P
Proposici o´n 4.6.1 Sean X1 , X2 , . . . , Xn variables aleatorias independientes, y sea Sn = Xi .
i=1
En la medida que las expresiones siguientes existan, se tiene:
n
Q
1. MSn (t) = MXi (t).
i=1
n
Q
2. ΦSn (t) = ΦXi (t).
i=1
n
Q
3. GSn (t) = GXi (t).
i=1
n
P
4. KSn (t) = KXi (t).
i=1
La demostraci ón de este resultado es muy simple, y est á basada en el hecho que si X e Y son
independientes, entonces E(XY ) = E(X)E(Y ). Queda ésta propuesta como ejercicio.
Un caso particularmente importante es cuando X1 , X2 , . . . , Xn son i.i.d. En este caso, tenemos
que MXi (t) = MX1 (t) para i = 2, 3, . . . , n, y entonces los resultados de la Proposici ón 4.6.1 se
reducen a:
n
P
de donde se sigue que Sn ∼ Poisson( λi ).
i=1
n n
σi2 ). Si definimos X n como el promedio de X1 , . . . , Xn ,
P P
por lo que Sn ∼ N ( µi ,
i=1 i=1
entonces X n = n−1 Sn , y por el resultado de la Proposici ón 3.8.1(c) se tiene que
n n
!
X X
MX n (t) = exp tn−1 µi + (t2 /2)n−2 σi2 ,
i=1 i=1
n n
de donde se sigue que X n ∼ N ( n1 µi , n12 σi2 ). En el caso particular que las
P P
i=1 i=1
variables son i.i.d., entonces µ1 = · · · = µn = µ, y σ12 = · · · = σn2 = σ 2 , y es fácil
2
ver que X n ∼ N (µ, σn ).
i.i.d.
Ejemplo 4.6.3 Sean X1 , . . . , Xn ∼ N (0, 1), y defina la variable aleatoria Y =
n
Xj2 . Entonces, si t < 1/2:
P
j=1
n
Y n
MY (t) = E(etY ) = MX 2 (t) = MX12 (t)
j
j=1
2
!n
∞
e−x (1/2−t)
Z
= √ dx
−∞ 2π
n
1 1
= 1/2
= ,
(1/2 − t) (1/2 − t)n/2
de donde se sigue que Y ∼ Γ(n/2, 2). A pesar de ser un caso particular de distribuci ón
Gama, la distribuci ón de Y recibe tambi én el nombre de distribuci ón chi-cuadrado con
n grados de libertad, lo que se denota Y ∼ χ2 (n), y como se mostr ó en este ejemplo,
corresponde a la suma de los cuadrados de n variables aleatorias i.i.d. con distribuci ón
N (0, 1) (ver Ejemplo 4.4.1). Como consecuencia de las propiedades de la distribuci ón
Gama, se tiene que E(Y ) = n y V ar(Y ) = 2n.
Ejemplo 4.6.4 Sea X ∼ BN(k, p). Por lo visto en la Secci ón 3.7, la distribuci ón
binomial negativa es la distribuci ón de Tk , el instante del k- ésimo éxito en una se-
cuencia de ensayos de Bernoulli. Por otra parte, tambi én se vio que las variables
T1 , T2 − T1 , T3 − T2 , . . . , Tk − Tk−1 , . . . son i.i.d. con distribuci ón geométrica de
parámetro p. Pero
de modo que Tk es simplemente la suma de k variables aleatorias i.i.d. con distribuci ón
Geom(p). Por lo hecho en el Ejemplo 3.8.11, se tiene que
p exp(t)
MT1 (t) = ,
1 − (1 − p) exp(t)
Definici´o n 4.6.1 Sea X ∈ Rn un vector aleatorio. En la medida que las expresiones involucradas
existan, se define:
donde t0 X = t1 X1 + · · · + tn Xn .
1. Al igual que en el caso n = 1, la funci ón caracterı́stica multivariada est á siempre bien
definida, cualquiera que sea t ∈ Rn . No ocurre lo mismo con la funci ón generadora de
momentos multivariada, pues su existencia depende, en general, de t.
2. Si la funci ón generadora de momentos existe en una vecindad de t = 0, entonces para enteros
k1 , . . . , kn no todos nulos se tiene
∂ k1 +···+kn
MX (t) |t=0 = E(X1k1 · · · Xnkn ). (4.6.4)
∂tk11 · · · ∂tknn
∂ k1 +···+kn
ϕX (t) |t=0 = ik1 +···+kn E(X1k1 · · · Xnkn ). (4.6.5)
∂tk11 · · · ∂tknn
3. Teorema de Caracterizaci o´n: Si X e Y son vectores aleatorios tales que ϕX (t) = ϕY (t)
para todo t ∈ Rn , entonces FX y FY coinciden, es decir, tienen la misma distribuci ón.
Puesto que la recı́proca es obviamente cierta, se tiene entonces una relaci ón uno a uno entre
la distribuci ón y la funci ón caracterı́stica de vectores aleatorios.
Esta propiedad establece que independencia de dos vectores aleatorios es equivalente a poder
factorizar la funci ón caracterı́stica conjunta de ambos vectores. El resultado se puede gene-
ralizar a tres o más vectores sin mayor dificultad. En particular, se tiene que las variables
aleatorias X1 , . . . , Xn son independientes si y s ólo si para cualquier t1 , . . . , tn ∈ R se tiene
Ejemplo 4.6.5 Sea X = (X1 , . . . , Xm ) con distribuci ón multinomial, cuya funci ón
de probabilidad est á dada por
n!
pX (X) = px1 px2 · · · pxmm ,
x1 !x2 ! · · · xm ! 1 2
m
P
en donde p1 , . . . , pm son n úmeros reales no negativos con pj = 1, n es un entero
j=1
m
xj = n. Dado t ∈ Rm se
P
positivo, y x1 , . . . , xm son enteros no negativos tales que
j=1
tiene que
0
E(et X ) = E(et1 X1 +···+tm Xm )
X n!
= (p1 et1 )x1 · · · (pm etm )xm
x ,...,x
x 1 ! · · · x m !
1 m
= (p1 e + · · · + pm etm )n ,
t1
lo que nos da una expresi ón para MX (t). Observe que mediante el expediente de tomar
tj = 0 para j 6= k, se obtiene
de modo que
∂2
E(X1 X2 ) = M
∂t1 ∂t2 (X1 ,X2 ) (0,0)
= n(n − 1)p1 p2 ,
p1 p2
r
ρ(X1 , X2 ) = .
(1 − p1 )(1 − p2 )
En forma análoga se obtienen la correlaci ón para otro par dado de componentes de X.
de donde se concluye que (Y1 , Y2 ) tiene componentes i.i.d., cada una con distribuci ón
N (0, 1). En otras palabras, hemos mostrado que
X1 + X 2 X1 − X 2
√ y √
2 2
son i.i.d. con distribuci ón N (0, 1).
Estudiaremos a continuaci ón una distribuci ón que corresponde a la extensi ón a varias dimensiones
de la densidad definida en (3.9.2). Primero daremos una definici ón general, que es conveniente para
ciertos aspectos de manejo te órico, y posteriormente daremos una versi ón un tanto más restringida,
pero de mayor utilidad pr áctica. Es adem ás conveniente utilizar la convenci ón que cualquier vector
en Rn se entiende como un vector columna, o equivalentemente, como una matriz con n filas y
1 columna. Por razones tambi én te óricas, es conveniente introducir el concepto de distribuci ón
normal degenerada. En la f órmula (3.9.2) se requiere que la varianza σ 2 sea positiva, pues en caso
contrario dicha densidad no est á definida. Permitiremos que σ 2 tome el valor 0, caso en el cual se
dice que la distribuci ón normal es degenerada, lo que corresponde a decir que X ∼ N (µ, 0) si X
es constante e igual a µ. Ciertamente, esto corresponde a una variable aleatoria discreta, y no existe
densidad.
Definici´o n 4.7.1 Diremos que el vector X = (X1 , . . . , Xn ) tiene distribuci ón normal multivaria-
n
da, si para cualquier A = (a1 , . . . , an ) ∈ Rn no nulo se tiene A0 X =
P
ai Xi tiene distribuci ón
i=1
normal univariada.
Notemos que esta definici ón no hace referencia a densidad alguna. Sin embargo, si e i es el
i-ésimo vector de la base can ónica de Rn , se tiene e0i X = Xi , y se concluye que si X tiene
distribuci ón normal multivariada, entonces cada una de sus coordenadas tiene distribuci ón normal
univariada. Por lo tanto, y puesto que E(Xi2 ) es finito para cada i = 1, . . . , n, tambi én existe la
matriz de varianza-covarianza (ver Definici ón 4.5.2).
Sea ahora t ∈ Rn . Puesto que t0 X tiene distribuci ón normal univariada, se concluye que
2 (t)/2
ϕX (t) = ϕt0 X (1) = eiµ(t)−σ ,
donde µ(t) = E(t0 X) y σ 2 (t) = V ar(t0 X). Denotando µ = E(X) y Σ = V (X), tenemos que
por (4.5.11), µ(t) = t0 µ y que σ 2 (t) = t0 Σt, de modo que la funci ón caracterı́stica multivariada
de X es
0 0
ϕX (t) = eit µ−t Σt/2 , t ∈ Rn . (4.7.7)
Puesto que la funci ón caracterı́stica de X determina su distribuci ón, vemos que basta con conocer
el vector de medias, y la matriz de varianza-covarianza de X para conocer su distribuci ón. La
notaci ón usual para una vector aleatorio n-dimensional X con distribuci ón normal multivariada y
tal que E(X) = µ y V (X) = Σ es X ∼ Nn (µ, Σ). En el caso univariado n = 1, el subı́ndice n
suele omitirse.
σ12 −2σ12
.
−2σ12 4σ12
Es fácil ver que cualquiera que sea σ12 , esta matriz es no invertible.
El Ejemplo 4.7.1 motiva establecer una distinci ón entre vectores aleatorios con distribuci ón
normal multivariada. En el caso que la matriz de covarianza Σ de X sea no invertible, diremos que
X tiene distribuci ón normal multivariada degenerada, y esto corresponde a la extensi ón a varias
dimensiones del concepto anteriormente introducido para variables con distribuci ón normal univa-
riada. Intuitivamente, esto corresponde al caso en que alguna de las componentes de X se puede
escribir como una combinaci ón lineal de las otras. En otras palabras, cuando el vector aleatorio X
toma valores en un conjunto cuya dimensi ón es inferior a la dimensi ón de X, tal como aconteci ó en
el Ejemplo 4.7.1.
en donde µ ∈ Rn es un vector cualquiera. Observe que los valores de Q son siempre n úmeros
reales, y el hecho que Σ sea invertible garantiza que ésta es además definida positiva, por lo que se
concluye que Q(x) ≥ 0 para cualquier x, y con igualdad s ólo si x = µ.
El siguiente resultado nos da una expresi ón para la densidad de X cuando Σ es invertible.
Proposici o´n 4.7.1 Sea X ∼ Nn (µ, Σ), donde Σ es una matriz invertible. Entonces, X tiene
densidad conjunta dada por
1
e− 2 Q(x)
fX (x) = np (4.7.9)
(2π) 2 det(Σ)
y en donde Q(x) fue definido en (4.7.8).
El lector podrá fácilmente convencerse que para el caso n = 1, (4.7.9) se reduce a (3.9.2).
Consideremos ahora el caso particular en que Σ = σ 2 I n , es decir, cuando la matriz de varianza-
covarianza adopta la forma especial de una matriz diagonal, donde cada elemento no nulo es igual a
σ 2 . Es claro que las componentes de X = (X1 , . . . , Xn ) son no correlacionadas, pues para i 6= j,
Cov(Xi , Xj ) = Σi,j = 0, y además, V ar(Xi ) = σ 2 para i = 1, 2, . . . , n. Por otra parte, observe
que la forma cuadr ática (4.7.8) adopta la forma especial de
n
1 X
Q(x) = 2 (xi − µi )2 ,
σ
i=1
Proposici o´n 4.7.2 Si X = (X1 , . . . , Xn ) ∼ Nn (µ, Σ), en donde Σ es una matriz diagonal, en-
tonces X1 , . . . , Xn son independientes.
Esto muestra una caracterı́stica muy particular de la distribuci ón normal multivariada, cual es
que la no correlaci ón equivale a la independencia. Vale la pena recordar que esto es, en general,
falso, como se mostr ó anteriormente.
Otras propiedades de la distribuci ón normal multivariada se resumen a continuaci ón. Note que
algunas de estas propiedades son v álidas s ólo para el caso en que Σ es invertible, pero algunas otras
valen en general.
Proposici o´n 4.7.3 Sea X ∼ Nn (µ, Σ), donde µ ∈ Rn y Σ es una matriz sim étrica de n × n.
Demostraci o´n: Haremos las demostraciones de estas propiedades, pues el procedimiento utilizado
es de interés por sı́ mismo. Para mostrar (i), consideremos la funci ón caracterı́stica de Y . Por
(4.6.6) tenemos que ϕY (t) = ϕX (A0 t), de modo que
0 0 0 0 0
ϕY (t) = ei(A t) µ−(A t) Σ(A t)/2
0 0 0 0
= eit Aµ−t AΣA t /2 ,
y el resultado es inmediato. La propiedad (ii) es directa de (i), tomando A = R −1 . Para ver (iii),
considere Y = R−1 (X − µ), donde R es la matriz triangular inferior mencionada en (ii). Por (ii),
se tiene que Y ∼ Nn (0, I n ), y además
n
X
0 −1 0
(X − µ) Σ (X − µ) = Y Y = Yj ,
j=1
i.i.d.
donde Y1 , . . . , Yn ∼ N (0, 1). El resultado es entonces una consecuencia de lo hecho en el Ejem-
plo 4.6.3.
Veamos a continuaci ón algunas aplicaciones de estos resultados.
cuya soluci ón es (µ1 , µ2 ) = (3, −1). Para obtener Σ, observe que al igualar las matri-
ces Hessianas se tiene
2 −2
= 2Σ−1 ,
−2 4
de modo que Σ = 2(HQ(x, y))−1 . En nuestro caso:
2 1
Σ= ,
2 1
lo que termina de identificar los par ámetros de la distribuci ón normal bivariada busca-
da.
El método aquı́ empleado se puede extender f ácilmente a más dimensiones.
i.i.d.
Ejemplo 4.7.3 Sean X1 , . . . , Xn ∼ N (µ, σ 2 ) las coordenadas del vector X, y defina
n n
U = n1 (Xj −U )2 . Veamos que U y V son independientes. Considere
P P
Xj y V =
j=1 j=1
el vector
U
X1 − U
Y = ,
..
.
Xn − U
el cual puede interpretarse como una transformaci ón lineal del vector X de la forma
Y = AX, donde A es una matriz de (n + 1) × n. Puesto que X tiene distribuci ón
normal multivariada, Y tambi én. Además
Ejemplo 4.7.4 En el Ejemplo 4.7.3, veamos ahora que V /σ 2 ∼ χ2 (n − 1). Para ello,
considere primero el caso en que µ = 0, σ 2 = 1, y defina las variables aleatorias
X1 + X 2 + · · · + X n
Y1 = √
n
X1 + X2 + · · · + Xj−1 − (j − 1)Xj
Yj = p , j = 2, . . . , n.
j(j − 1)
Sea
√1 ··· ··· ··· ··· √1 √1
n n n
√1 − √12 0 0 ··· 0 0
2
√1 √1 − √26 0 ··· 0 0
Q= ,
6 6
.. .. .. .. .. .. ..
. . . . . . .
√ 1
··· ··· ··· ··· √ 1 √−(n−1)
n(n−1) n(n−1) n(n−1)
= Y12 + V,
de donde V = Y22 + Y32 + · · · + Yn2 , y vemos ası́ que V se escribe como la suma
de n − 1 variables aleatorias i.i.d. con distribuci ón N (0, 1), de donde se sigue que
V ∼ χ2 (n − 1). Se sigue adem ás que U y V son independientes. En el caso general,
def
considere las mismas variables Y1 , . . . , Yn , definidas ahora en t érminos de Zj = (Xj −
µ)/σ ∼ N (0, 1), para j = 1, . . . , n. Por último, observe que E(V /σ 2 ) = n − 1, por
lo que E(V /(n − 1)) = σ 2 , resultado independiente del valor de µ.
Para finalizar este capı́tulo resolveremos el siguiente problema. Suponga X ∈ Rk+l es un vector
aleatorio con E(X) = µ y V (X) = Σ, lo cual anotaremos X ∼ (µ, Σ). Suponga adem ás que X
se puede particionar de la siguiente forma:
W1 Y1
W
X= con W = ... , e Y = ... .
Y
Wk Yl
Si el valor de W es conocido, digamos w, ¿c ómo predecir el valor de Y ? Esta situaci ón se suscita
en casos donde las variables de inter és se observan s ólo en parte, de modo que se requiere “adivinar”
el valor de las variables no observadas, pero asumiendo µ y Σ conocidos.
El problema ası́ planteado es un tanto vago. Para hacerlo m ás preciso, nos centraremos aquı́ en
predictores lineales, esto es, predictores de la forma a + BW , donde a ∈ R l , y B es una matriz de
l × k. Resta a ún por definir un procedimiento para obtener a y B. Para ello, recurrimos al criterio
de minimizar el error cuadr ático medio, es decir, resolveremos el problema de calcular a y B tales
que
E{(Y − a − BW )0 (Y − a − BW )} (4.8.1)
sea mı́nimo.
Introducimos ahora la siguiente notaci ón. Sean µw = E(W ) y µy = E(Y ) los vectores de va-
lores esperados de W e Y respectivamente. Las matrices de varianza-covarianza correspondientes
se denotarán por Σww y Σyy , y finalmente, la matriz de covarianzas entre W e Y se denotar á por
Σwy , de modo que
µw Σww Σwy
µ= y Σ= ,
µy Σyw Σyy
donde Σ es una matriz particionada. Observe que puesto que Σ debe ser sim étrica, se debe cumplir
que Σ0yw = Σwy . Con esta notaci ón, se tiene el siguiente resultado.
Proposici o´n 4.8.1 La soluci ón al problema de minimizaci ón (4.8.1) est á dada por
a = µy − Bµw , (4.8.2)
y
B = Σyw Σ−1
ww . (4.8.3)
Demostraci o´n: Observe que la expresi ón en (4.8.1) se puede reescribir como
Para minimizar, primero diferenciamos esta expresi ón con respecto a ai e igualamos a 0, con lo que
se obtiene
X l
−2E(Yi ) + 2ai + 2 Bij E(Wj ) = 0,
j=1
o equivalentemente,
l
X
ai = E(Yi ) − Bij E(Wj ),
j=1
lo que escrito en forma vectorial resulta a = µy − Bµw , lo que prueba (4.8.2). Para obtener B,
usamos un procedimiento an álogo. Se deriva con respecto a Bij , se iguala a 0, para obtener, despu és
P k
de acomodar t érminos y reemplazar el valor de ai por E(Yi )− Bim E(Wm ) el conjunto de k ×l
m=1
ecuaciones
k
X
Bim Cov(Wm , Wj ) = Cov(Yi , Wj ) ∀ i, j,
m=1
4.9 Problemas
(y + n − 1)! n
pn (y) = θ (1 − θ)y , y = 0, 1, 2, . . .
y!(n − 1)!
Indicaci ón: Demuestre que si Z tiene funci ón probabilidad pm , U tiene funci ón pro-
babilidad p1 y Z y U son independientes, entonces Z + U tiene funci ón probabilidad
pm+1 . Proceda luego por inducci ón.
(c) Calcule la media de Yn en base a la expresi ón obtenida para pn .
(d) Calcule el valor esperado de Yn como la suma de los valores esperados de los Xi .
2. Un lote de tama ño N tiene D elementos defectuosos. Se extrae una muestra aleatoria de
tama ño n y se cuenta el n úmero X de elementos defectuosos en la muestra.
(a) U = X1 + X2 , V = X2
(b) U = X1 X2 , V = X2
X1
(c) U = X2 , V = X2
7. Sean X1 , X2 , . . . , Xn iid con distribuci ón de Rayleigh con par ámetro θ > 0:
−x2
x
f (x) = θ exp( 2θ 2 ) si x > 0
0 si x ≤ 0.
X
8. Sean X e Y iid Exp(α). Muestre que Z = X+Y ∼ U (0, 1).
X2
Encontrar fY1 (y1 ), con Y1 = log(X1 ) y fY2 (y2 ), con Y2 = X1 .
10. Sean X, Y y Z son variables aleatorias independientes que tienen igual funci ón densidad
f (x) = e−x , 0 < x < ∞. Encuentre la distribuci ón conjunta de U = X + Y , V = X + Z,
W = Y + Z.
11. Suponga que X1 , X2 son variables aleatorias independientes con distribuci ón uniforme sobre
X1
el intervalo [0, 1]. Encuentre la distribuci ón conjunta de Y1 = X1 + X2 e Y2 = X 2
.
12. Cuando una corriente I (medida en amp éres) fluye a trav és de una resistencia R (medida
en ohms), la potencia generada est á dada por W = I 2 R (medida en Watts). Si I y R son
variables aleatorias independientes con densidades
fI = 6x(1 − x) 0 ≤ x ≤ 1
fR (x) = 2x 0 ≤ x ≤ 1,
Determine fW .
14. Sean X1 , X2 variables aleatorias independientes cada una con distribuci ón N (0, 1). Si Y1 =
X12 + X2 , Y2 = X2 , encuentre fY1 ,Y 2 y fY1 .
15. Suponga que los tiempos entre ocurrencias de un cierto fen ómeno pueden ser representados
por T1 , . . . , Tn , variables aleatorias independientes cada una con distribuci ón exponencial de
parámetro λ. Si T = T1 + · · · + Tn , encuentre la distribuci ón de T.
16. Si X e Y son las coordenadas de un punto seleccionado al azar del cı́rculo unitario {(x, y) :
x2 + y 2 ≤ 1}, ¿cuál es la distribuci ón de la variable aleatoria Z = X 2 + Y 2 ?.
18. Dados a < b y c < d, X ∼ U [a, b] e Y ∼ U [a, b], con X e Y independientes, calcule
fX ? f Y .
19. Suponga X1 , . . . , Xn son variables aleatorias i.i.d. con distribuci ón U [0, 1]. Pruebe que
1
−2n log(Y ) ∼ Gama(n, ),
2
donde Y es la media geom étrica de las Xi , esto es,
n
Y
Y =( Xi )1/n .
i=1
23. En un circuito se ponen n resistencias en serie. Sup óngase que cada una de las resistencias
está distribuida uniformemente en (0,1), y suponga adem ás que todas las resistencias son
independientes. Sea R la resistencia total.
(a) Encontrar la funci ón generadora de momentos de R.
(b) Usando (a), encontrar E(R) y V ar(R).
24. Suponga que la distribuci ón conjunta de X1 y X2 es normal bivariada. Se definen las varia-
bles aleatorias Y1 = 3X1 + 2X2 + 1 e Y2 = X1 + 5X2 − 4. Demuestre que (Y1 , Y2 ) tiene
también distribuci ón normal bivariada, e identifique sus par ámetros.
25. Si (X1 , X2 )t ∼ N2 (µ, Σ) donde µt = (1,-2) y σ12 = 4, σ12 = −10, σ22 = 25, encuentre
directamente las densidades marginales de X1 y X2 .
26. Sean Y1 , Y2 , . . . , Yn definidos por
Yi = U + Yi−1 + Zi−1 i = 1, . . . , n Z0 = 0, Y0 = 0,
27. Sean Y1 , Y2 , Y3 independientes de media cero y varianza uno, defina las variables aleatorias
X1 , X2 , X3 por:
Y1
X1 = √ , X2 = αX1 + Y2 , X3 = αX2 + Y3
1 − α2
29. Sean X1 y Y2 variables aleatorias independientes con distribuci ón N (0, 1). Sean Y1 = α +
aX1 + bX2 , Y2 = β + cX1 + dX2 .
181
´
CAP ITULO ´ Y ESPERANZA CONDICIONAL
5. DISTRIBUCI ON
En estricto rigor, esta definici ón se reduce simplemente a probabilidades condicionales para
eventos. En efecto, si A es el evento {X = x} y F es el evento {Y = y}, con P (F ) = P (Y =
y) > 0, entonces (5.2.1) no es otra cosa que (2.2.1). Es importante destacar que para que esta
definici ón tenga sentido, debe cumplirse que P (F ) = P (Y = y) > 0. En caso contrario, el
cuociente (5.2.1) se indefine.
Otra caracterı́stica interesante de la definici ón de funci ón de probabilidad condicional, es que
si X e Y son variables aleatorias independientes, entonces
pX,Y (x, y) pX (x)pY (y)
pX|Y =y (x|y) = = = pX (x),
pY (y) pY (y)
y en forma an áloga, pY |X=x (y|x) = pY (y). En otras palabras, cuando hay independencia entre
las variables aleatorias en cuesti ón, informaci ón respecto de una de ellas no altera las probabilida-
des (distribuci ón) de la otra. Esta caracterı́stica es no s ólo deseable, si no que, a nivel intuitivo,
completamente natural.
La definici ón de funci ón de probabilidad condicional se puede extender en forma natural a
vectores aleatorios. Ası́, si X e Y son vectores aleatorios discretos, se define la funci ón de proba-
bilidad discreta conjunta condicional de X dado que Y = y mediante
pX,Y (x, y)
pX|Y =y (x|y) = .
pY (y)
Ejemplo 5.2.2 Se dispone de n monedas, cada una con probabilidad 0 < p < 1 de
dar cara. Considere el siguiente experimento. Se lanza cada moneda, independien-
temente de las dem ás. Posteriormente, aquellas monedas que dieron sello se lanzan
una vez más, independientemente entre sı́ y de los lanzamientos en la etapa anterior.
Obtengamos la distribuci ón del n úmero total de caras al final de este experimento.
Método I: Sean X e Y el n úmero de caras registrados en la primera y segunda ronda de
lanzamientos, respectivamente. Entonces, X ∼ Bin(n, p) e Y |X = x ∼ Bin(n−x, p),
y la variable que nos interesa es Z = X + Y . Luego, para z ∈ Z = {0, 1, . . . , n},
z
X
pZ (z) = P (Z = z) = P (X + Y = z) = P (X = k, Y = z − k)
k=0
z
X
= P (X = k)P (Y = z − k|X = k)
k=0
z
n k n−k n − k
X
= p (1 − p) pz−k (1 − p)n−z
k z−k
k=0
z
n z 2n−z
X z
= p (1 − p) (1 − p)−k
z k
k=0
z
n z 2n−z 1
= p (1 − p) 1+
z 1−p
z
n z 2n−z 2 − p
= p (1 − p)
z 1−p
n n−z
= (p(2 − p))z (1 − p)2 ,
z
y notando que p(2 − p) + (1 − p)2 = 1 para cualquier p ∈ [0, 1], se concluye que
Z ∼ Bin(n, p(2 − p)).
Método II: Consideremos ahora variables aleatorias X1 , . . . , Xn tales que Xi = 1 si la
i-ésima moneda dio cara al final del experimento, 0 en caso contrario. Es decir, X i = 1
cuando la i-ésima moneda da cara despu és de ya sea el primer o segundo lanzamientos.
Se tiene que la cantidad de inter és se obtiene mediante la suma X1 + · · · + Xn , en
donde las variables en esta suma son i.i.d. con distribuci ón Bernoulli. Para calcular
P (Xi = 1), observe que Xi = 0 es equivalente a obtener dos sellos en igual n úmero
de lanzamientos independientes de una moneda con probabilidad 1 − p de dar cara.
Luego, para i = 1, 2, . . . , n se tiene
y se concluye que el n úmero total de caras tiene distribuci ón Binomial, correspondiente
a n ensayos, cada uno con probabilidad de éxito dada por p(2 − p).
Ejemplo 5.2.3 Considere un par (X, Y ) con distribuci ón uniforme en el cı́rculo uni-
tario descrito por {(x, y) : x2 + y 2 ≤ 1}, y calcule P (X > 0.5|Y < 0.25).
x=0.5
y=0.25
√
0.25 Z 1−y 2 0.25
p
1 2 1 − y2
Z Z
P (Y < 0.25) = √ dxdy = dy
−1 − 1−y 2 π −1 π
p 0.25 0.25 √
y 1 − y2 sin−1 (y) 15 sin−1 (0.25) 1
= + = + +
π π −1 16π π 2
−1
≈ 0.6574811787.
Note que aunque el Ejemplo 5.2.3 est á originalmente planteado en t érminos de variables aleato-
rias continuas, la probabilidad condicional calculada corresponde b ásicamente a una discretizaci ón
de dichas variables en t érminos de intervalos. Si la probabilidad pedida fuese P (X > 0.5|Y =
0.25), nuestra actual definici ón de probabilidad condicional no se puede aplicar, pues por ser Y una
variable aleatoria continua, se tiene que P (Y = 0.25) = 0.
Esto requiere entonces una definici ón más general de distribuci ón condicional, lo que se discute
a continuaci ón.
Para motivar la definici ón, consideremos dos variables aleatorias X e Y con densidad conjunta
fX,Y (x, y), definidas en un subconjunto apropiado de R2 . Supongamos se quiere calcular la pro-
babilidad del evento X ∈ A, sabiendo que Y tom ó el valor y. Es necesario hacer la precisi ón que
el hecho que P (Y = y) = 0 no significa que Y no pueda jam ás tomar el valor y. Esta aparente
contradicci ón es s ólo producto del modelo matem ático que hemos adoptado para tratar variables
aleatorias. No obstante lo anterior, cuando se opera con variables aleatorias continuas, los eventos
de interés son usualmente intervalos o uniones de ellos.
Para resolver el problema planteado, consideremos un peque ño intervalo (y − , y + ] para
> 0. Para dar sentido a la expresi ón P (X ∈ A|Y = y), usaremos un argumento basado en
lı́mites.
En particular, la funci ón de distribuci ón acumulada condicional de X dado que Y = y se define
mediante
Veamos algunas consecuencias de la Definici ón 5.3.1. En primer lugar, si X e Y son indepen-
dientes, entonces, para cualquier > 0
de modo que el lı́mite en (5.3.1) se reduce a P (X ∈ A), tal como se espera desde un punto de vista
intuitivo. Note adem ás que este resultado no depende del tipo de variable involucrada.
En segundo lugar, observe que si ambas variables son discretas, la definici ón (5.3.1) tendr á sen-
tido s ólo si y es un valor tal que P (Y = y) > 0. Observe adem ás que puesto que hemos asumido
que el soporte de Y contiene s ólo puntos con probabilidad estrictamente positiva, se concluye que
observar y tal que P (Y = y) = 0 es imposible. Ası́,
P (X ∈ A, y − < Y ≤ y + )
lim P (X ∈ A|y − < Y ≤ y + ) = lim
→0+ →0+ P (y − < Y ≤ y + )
lim P (X ∈ A, y − < Y ≤ y + )
→0+
=
lim P (y − < Y ≤ y + )
→0+
P (X ∈ A, Y = y)
= = P (X ∈ A|Y = y)
P (Y = y)
X
= pX|Y =y (x|y),
x∈A∩X
Rx 1
R y+
−∞ lim 2 y− fX,Y (s, t)dt ds
→0+
= 1
R y+ ,
lim 2 y− f Y (t)dt
→0+
y usando el Teorema del Valor Medio para integrales se obtiene la siguiente expresi ón para la
funci ón de distribuci ón acumulada condicional de X dado que Y = y:
Z x
fX,Y (s, y)
FX|Y =y (x|y) = ds. (5.3.4)
−∞ fY (y)
o n 5.3.2 Si X e Y poseen densidad conjunta fX,Y (x, y), se define la densidad condicional
Definici´
de X dado que Y = y mediante
fX,Y (x, y)
fX|Y =y (x|y) = . (5.3.5)
fY (y)
Observe que (5.3.5) se obtiene de (5.3.4) mediante diferenciaci ón. Note que (5.3.5) es una
funci ón densidad. En efecto, ella es siempre no negativa, por ser un cuociente entre funciones no
negativas, y adem ás,
Z ∞ Z ∞
1 fY (y)
fX|Y =y (x|y)dx = fX,Y (x, y)dx = = 1.
−∞ f Y (y) −∞ fY (y)
fX (x)fY (y)
fX|Y =y (x|y) = = fX (x).
fY (y)
Ası́, en el caso de independencia, la densidad condicional de X dado que Y = y se transforma
simplemente en la densidad marginal de X, tal como debı́a esperarse intuitivamente.
Un resultado b ásico relativo a probabilidades condicionales para eventos es el Teorema de Pro-
babilidades Totales. Enunciamos a continuaci ón una generalizaci ón al caso continuo.
Teorema 5.3.1 Sea B un evento, y X una variable aleatoria con densidad f X (x). Entonces
Z ∞
P (B) = P (B|X = x)fX (x)dx. (5.3.6)
−∞
Queda a ún por discutir el caso mixto. Aquı́ lo usual es que la distribuci ón conjunta de las va-
riables involucradas se defina en t érminos de distribuciones condicionales de una variable aleatoria
dada la otra, la que se combina con la distribuci ón marginal de la variable que condiciona. Este
enfoque es ligeramente distinto de lo expuesto hasta el momento, en el que las distribuciones condi-
cionales se definieron a partir de la distribuci ón conjunta. Ası́, por ejemplo, si X|Y = y es discreta,
con distribuci ón dependiente de y, e Y es continua con densidad f Y (y), entonces la funci ón de
probabilidad discreta conjunta est á dada por pX,Y (x, y) = pX|Y =y (x|y)fY (y).
Otra situaci ón que aparece con frecuencia, es una generalizaci ón del Teorema de Bayes visto en
el Capı́tulo 2. Supongamos que se conoce la distribuci ón condicional de X dado que Y = y, y la
distribuci ón marginal de Y . ¿C ómo se calcula la distribuci ón de Y dado que X = x? La interpreta-
ci ón que se suele dar a este proceso es como sigue. Los estados de la naturaleza se describen, antes
de hacer un experimento, mediante los valores de Y . La opini ón que se tiene de esta naturaleza, se
describe desde un punto de vista probabilı́stico mediante la distribuci ón de Y , usualmente llamada
distribuci ón a priori. Suponiendo que el estado de la naturaleza es y, la variable aleatoria X, que
representa el resultado de un cierto experimento a realizar, tiene distribuci ón X|Y = y. Se realiza
dicho experimento, y se observa el valor x de una variable aleatoria X. Como resultado de este
experimento, actualizamos nuestra opini ón de la naturaleza, mediante el c álculo de la distribuci ón
de Y dado que X = x, tambi én llamada distribuci ón a posteriori.
Veremos a continuaci ón la forma de realizar estos c álculos.
2. X e Y son continuas: en este caso es posible probar que (X, Y ) tiene densidad conjunta dada
por fX,Y (x, y) = fX|Y =y (x|y)fY (y). La densidad marginal de X se obtiene de fX (x) =
R∞
−∞ fX,Y (x, y)dy, de modo que se tiene la expresi ón
3. X es discreta
R ∞ e Y es continua: la distribuci ón marginal de X se obtiene mediante la f órmula
pX (x) = −∞ pX|Y =y (x|y)fY (y)dy, expresi ón que se obtiene del Teorema 5.3.1, por lo que
Por último, la generalizaci ón de los conceptos vistos al caso de m ás variables es directa. Veamos
a continuaci ón algunos ejemplos.
R ∞ la densidad de W = X − Y ,
Una forma de resolver este problema consiste en calcular
con lo que la probabilidad pedida es simplemente 0 fW (w)dw. Sin embargo, por el
Teorema 5.3.1 se tiene
Z ∞
P (X > Y ) = P (X > Y |Y = y)fY (y)dy.
0
El paso crucial del argumento consiste en calcular P (X > Y |Y = y). Una vez que
se condiciona en Y = y, se puede substituir dicho valor en el evento al lado izquier-
do de la probabilidad condicional, lo que se conoce como Principio de Substituci ón.
Ası́, P (X > Y |Y = y) = P (X > y|Y = y). Pero una vez que se ha hecho esta
substituci ón, el evento de inter és {X > y} en la probabilidad condicional, ya no de-
pende de la variable aleatoria Y , esto es, depende s ólo de X, y puesto que X e Y son
independientes, se concluye que P (X > y|Y = y) = P (X > y) = e −y/λ . Luego,
∞
e−y/µ 1
Z
P (X > Y ) = e−y/λ =
0 µ µ λ + µ1
1
λ
= .
λ+µ
Se propone como ejercicio obtener este resultado mediante el c álculo de la densidad de
W =X −Y.
Ejemplo 5.3.2 Considere el par (X, Y ) del Ejemplo 4.2.4, y calcule la densidad con-
dicional de X dado que Y = y. Puesto que ambos fX,Y y fY se tienen de lo hecho en
el Ejemplo 4.2.4, lo pedido se obtiene directamente de (5.3.5):
3
4 (|x| + |y|) |x| + |y|
fX|Y =y (x|y) = 3 = ,
2
4 (1 − y )
1 − y2
Ejemplo 5.3.3 Suponga que X|Y = y ∼ Poisson(y), e Y ∼ Γ(α, λ), con α > 0 y
λ > 0. Calcule la densidad de Y dado que X = x.
Se tiene que para x ∈ {0, 1, 2, . . . , }
Z ∞ x −y α−1 −y/λ Z ∞
y e y e 1
pX (x) = dy = y α+x−1 e−y(1+1/λ) dy
0 x! Γ(α)λα x!Γ(α)λα 0
Γ(α + x)
= α+x
x!Γ(α)λα 1 + λ1
Luego, por (5.3.9), y despu és de simplificar las expresiones se obtiene que
y β−1 e−y/µ
fY |X=x (y|x) = , , y > 0,
Γ(β)µβ
en donde β = α + x y µ = λ/(1 + λ), y se concluye que Y |X = x ∼ Γ(β, µ).
−Σ12 Σ−1
Ik 22
A= ,
0 Il
se tiene que el vector
W
X2
tiene distribuci ón conjunta normal multivariada, por lo que X 2 y W son vectores ale-
atorios independientes (recuerde que en el caso de la distribuci ón normal multivariada,
independencia es equivalente a la no correlaci ón). Ası́, la distribuci ón condicional de
W dado que X 2 = x2 es simplemente la distribuci ón marginal (no condicional) de
W . Un cálculo directo, muestra que W ∼ Nk (µ1 −Σ12 Σ−1 −1
22 µ2 , Σ11 −Σ12 Σ22 Σ21 ).
−1
Pero puesto que W = X 1 − Σ12 Σ22 X 2 , por el principio de substituci ón introducido
en el Ejemplo 5.3.1, la distribuci ón condicional de W dado que X 2 = x2 coincide con
aquella de X 1 − Σ12 Σ−1 22 x2 dado que X 2 = x2 . Puesto que despu és de condicionar
en X 2 = x2 la cantidad −Σ12 Σ−1 22 x2 es simplemente una constante, el resultado final
se obtiene de restar dicha constante a la distribuci ón condicional de W , para obtener
σ12
ρσ1 σ2
Σ= ,
ρσ1 σ2 σ22
se obtiene
ρσ1 2 2
X1 |X2 = x2 ∼ N µ1 − (µ2 − x2 ), σ1 (1 − ρ ) .
σ2
i.i.d.
Ejemplo 5.3.5 Sean X1 , . . . , Xn ∼ Exp(λ), donde λ > 0. Considere las variables
aleatorias definidas mediante
Y1 = X(1) ,
(X2 − X1 , . . . , Xn − X1 ) si X(1) = X1
(X1 − X2 , X3 − X2 , ..., Xn − X2 ) si X(1) = X2
(Y2 , ..., Yn ) = ..
.
(X1 − Xn , . . . , Xn−1 − Xn ) si X(1) = Xn
n
P n
P
Inferencia Estadı́stica: X(1) ∼ Exp(λ/n) y (Xi − X(1) ) = Yj ∼ Γ(n − 1, λ)
i=1 j=2
son independientes.
Pasamos a definir ahora el concepto de esperanza condicional, y a estudiar algunas de sus propie-
dades básicas. En forma intuitiva, la esperanza condicional es simplemente la esperanza de una
distribuci ón condicional.
La esperanza condicional ası́ definida, tiene todas las propiedades que posee la esperanza E(·)
definida en el Capı́tulo 3. Por ejemplo, si las expresiones involucradas existen, entonces dadas
constantes a y b se tiene E(aX + bZ|Y = y) = aE(X|Y = y) + bE(Z|Y = y). La raz ón de
esto es que la esperanza condicional de X dado que Y = y se puede ver simplemente como el valor
esperado correspondiente a una cierta variable aleatoria W cuya distribuci ón coincide con la de
X|Y = y. De este modo, todas las propiedades para E(·) se cumplen para E(·|Y = y), incluyendo
la correspondiente versi ón del Teorema 3.8.1:
Z ∞
E(g(X)|Y = y) = g(x)fX|Y =y (x|y)dx,
−∞
si X es continua, o bien reemplazando la integral por una suma si X es discreta. Este resultado
permite definir momentos de la distribuci ón condicional, y en particular la varianza condicional, en
forma análoga a las versiones no condicionales correspondientes.
Definici´o n 5.4.2 Sean X e Y variables aleatorias. En la medida que las expresiones involucradas
existan, se define:
y en particular,
λ
Ejemplo 5.4.1 En el Ejemplo 5.2.1 se tiene que X|Z = z ∼ Bin(z, λ+µ ), de modo
zλ
que E(X|Z = z) = λ+µ .
y a+x−1 (1 − y)b+n−x−1
fY |X=x (y|x) = ,
B(a + x, b + n − x)
de modo que Y |X = x ∼ Beta(a + x, b + n − x). Por consiguiente, E(Y |X = x) =
a+x
a+b+n (ver Ejemplo 3.8.3).
En todos estos ejemplos, se tiene que la esperanza condicional de una variable o vector aleatorio
dado el valor de otra variable o vector aleatorio, se expresa como una funci ón del valor de la variable
zλ
que condiciona. Ası́, en el Ejemplo 5.4.1, E(X|Z = z) = λ+µ , que es una funci ón de z. Esto
motiva la siguiente definici ón.
λz
Ası́, en el Ejemplo 5.4.1 se tiene que ϕ(z) = E(X|Z = z) = λ+µ , de modo que
λ
E(X|Z) = ϕ(Z) = Z.
λ+µ
A modo de receta, para calcular E(X|Y ), basta reemplazar “y” por “Y ”, una vez calculado el valor
de E(X|Y = y).
En el mismo Ejemplo 5.4.1, note que puesto que Z ∼ Poisson(λ + µ), entonces E(Z) = λ + µ,
y se tiene que
λ λ
E(E(X|Z)) = E Z = E(Z) = λ = E(X).
λ+µ λ+µ
Lejos de ser una coincidencia, esto es resultado de una de las propiedades b ásicas de esperanzas
condicionales.
Aunque no daremos una demostraci ón del Teorema 5.4.1 en el caso general, es ilustrativo con-
siderar lo que sucede en el caso que X e Y poseen densidad conjunta f X,Y (x, y). Puesto que
Z ∞ Z ∞
xfX,Y (x, y)
ϕ(y) = E(X|Y = y) = xfX|Y =y (x|y)dx = dx,
−∞ −∞ fY (y)
entonces
Z ∞
E(E(X|Y )) = E(ϕ(Y )) = ϕ(y)fY (y)dy
−∞
Z ∞ Z ∞
xfX,Y (x, y)
= dx fY (y)dy
−∞ −∞ fY (y)
Z ∞Z ∞
= xfX,Y (x, y)dxdy
−∞ −∞
= E(X).
El tratamiento del caso general requiere conceptos de Teorı́a de la Medida, que van m ás allá de los
objetivos de este texto.
Veamos ahora otras dos propiedades útiles de la esperanza condicional, que son consecuencias
del Teorema 5.4.1.
Demostraci o´n:
y además
Ejemplo 5.4.4 En el Ejemplo 5.2.2, suponga que s ólo nos interesa calcular el valor
esperado y varianza del n úmero total de monedas que dan cara al final de las dos rondas
del experimento. Con la notaci ón usada en su momento, dicho n úmero es Z = X + Y ,
donde X ∼ Bin(n, p), e Y |X = x ∼ Bin(n − x, p). Se tiene que
Además,
de modo que c = 89 . Calculemos ahora la distribuci ón condicional de (W, X) dado que
Y = y. Para ello, se necesita la densidad fY (y), la que se calcula mediante
8 1 1 8 1 xy 8 y
Z Z Z
fY (y) = (1 + wxy) dwdx = 1+ dx = 1+
9 0 0 9 0 2 9 4
8 + 2y
= , 0 ≤ y ≤ 1.
9
Ası́, se obtiene
fW,X,Y (w, x, y) 4(1 + wxy)
fW,X|Y =y (w, x|y) = = .
fY (y) 4+y
Verifiquemos ahora que (5.4.7) se cumple:
Z 1Z 1
4 9 + 4y
E(W X|Y = y) = wx(1 + wxy)dxdw = ,
4+y 0 0 36 + 9y
y luego,
9 + 4Y
E(W X|Y ) = .
36 + 9Y
Además
1Z 1
4 6 + 2y
Z
E(W |Y = y) = w(1 + wxy)dxdw = ,
4+y 0 0 12 + 3y
y por la simetrı́a del problema se obtienen las esperanzas condicionales
6 + 2Y 6 + 2Y
E(W |Y ) = y E(X|Y ) = .
12 + 3Y 12 + 3Y
Luego,
Y
Cov((W, X)|Y ) = E(W X|Y ) − E(W |Y )E(X|Y ) = ,
9(4 + Y )2
de donde se obtiene
1
y 8 + 2y
Z
E(Cov((W, X)|Y )) = 2
× dy
0 9(4 + y) 9
2 − 8 log(5) + 16 log(2)
= .
81
Por otra parte,
6 + 2Y 6 + 2Y
Cov(E(W |Y ), E(X|Y )) = Cov ,
12 + 3Y 12 + 3Y
6 + 2Y
= V ar .
12 + 3Y
Ahora, 1
6 + 2Y 6 + 2y 8 + 2y 14
Z
E = × dy = ,
12 + 3Y 0 12 + 3y 9 27
y además
( 2 ) 1
(6 + 2y)2 8 + 2y
6 + 2Y
Z
E = dy
12 + 3Y 0 (12 + 3y)2 9
20 + 8 log(5) − 16 log(2)
=
81
por lo que
22 142
Cov(W, X) = E(W X) − E(W )E(X) = −
81 272
2
= ,
729
lo que coincide con lo que se obtuvo anteriormente. C álculos semejantes permiten
121 4
concluir que V ar(W ) = V ar(X) = 1458 , por lo que ρ(W, X) = 121 ≈ 0.033.
Ejemplo 5.4.6 Consideremos la situaci ón del Ejemplo 4.5.4, la cual generalizamos
suponiendo que X1 , X2 , . . . son i.i.d. con media µ y varianza σ 2 , y consideramos N
una variable aleatoria con soporte incluido en {1, 2, . . .}, con media ν y varianza τ 2 .
N
P
Ası́, definimos SN = Xi , esto es, X1 + · · · + Xn si N = n, con n ≥ 1. Se asume
i=1
además que N es independiente de X1 , X2 , . . .. Calculemos ahora E(SN ) y V ar(SN ).
Se tiene que
n
X n
X
E(SN |N = n) = E( Xi |N = n) = E(Xi |N = n).
i=1 i=1
de donde E(SN |N ) = N µ, y
X + ZY
W =√ ,
1 + Z2
y obtenga una expresi ón para ρ(X, W ) y ρ(Y, W ) en t érminos de la distribuci ón de Z.
Eval úe estas correlaciones para el caso en Z ∼ U (0, 1).
En este ejemplo queda de manifiesto la utilidad de los argumentos basados en condi-
cionamiento. Puesto que Z tiene la distribuci ón más “complicada”, condicionemos en
un valor de Z. Entonces, dado que Z = z, W se transforma en, por el principio de
substituci ón,
X + zY
√ .
1 + z2
Pero ahora z es simplemente una constante, de modo que la distribuci ón condicional
de W dado que Z = z corresponde a una combinaci ón lineal de las variables X e Y
(condicionadas en z). Pero tanto X como Y son independientes de Z, de modo que
X|Z = z ∼ N (0, 1) e Y |Z = z ∼ N (0, 1). M ás a ún, dado que Z = z, X e Y
siguen siendo independientes (¿por qu é?) por lo que se concluye que la distribuci ón
condicional mencionada es tambi én normal (ver Ejemplo 4.6.2). Se tiene que
1 z
E(W |Z = z) = √ E(X|Z = z) + √ E(Y |Z = z) = 0,
1+z 2 1 + z2
y
V ar(X|Z = z) z 2 V ar(Y |z = z) 1 + z2
V ar(W |Z = z) = + = = 1,
1 + z2 1 + z2 1 + z2
y entonces
W |Z = z ∼ N (0, 1).
Pero puesto que esta distribuci ón condicional no depende de z, ella es tambi én no
condicional, y ası́, W ∼ N (0, 1). Ahora bien,
Cov((X, X + zY )|Z = z)
Cov((X, W )|Z = z) = √
1 + z2
Cov((X, X)|Z = z) zCov((X, Y )|Z = z)
= √ + √
1 + z2 1 + z2
V ar(X|Z = z) 1
= √ =√ ,
1+z 2 1 + z2
En esta secci ón retomamos el tema de predecir el valor de una variable o vector aleatorio, dado el
valor de otra variable o vector aleatoria. En la Secci ón 4.8 abordamos este problema restringi éndo-
nos a predictores lineales. Predicci ón lineal es atractiva por su simplicidad, pero muchas veces es
posible encontrar mejores predictores, si uno no se limita solamente a aquellos que tienen forma
lineal.
Consideremos el caso de dos vectores aleatorios X ∈ Rk e Y ∈ Rl , y encontremos el mejor
predictor (MP) de X dado Y , es decir, hallar alguna funci ón g(Y ) que minimice el error cuadr áti-
co medio de predicci ón
E{(X − g(Y ))0 (X − g(Y ))}. (5.5.1)
Para ello, usaremos el siguiente resultado preliminar.
Proposici o´n 5.5.1 Sea X ∈ Rk un vector aleatorio tal que V (X) existe. Entonces, la soluci ón del
problema
min E{(X − c)0 (X − c)} (5.5.2)
c∈Rk
es c = E(X).
Volviendo al problema original, consideremos la cantidad a minimizar, dada por (5.5.2), entre
todas las posibles funciones g : Rk → Rl . Observe que por el Teorema 5.4.1
E{(X − g(Y ))0 (X − g(Y ))} = E(E{(X − g(Y ))0 (X − g(Y ))|Y }).
la Proposici ón 5.5.1 establece que la funci ón g elegida debe estar definida por g ? (y) = E(X|Y =
y), y por lo tanto, el MP es g ? (Y ) = E(X|Y ). En efecto, puesto que para cualquier funci ón g, y
para cualquier y se tiene
entonces
E{(X − E(X|Y ))0 (X − E(X|Y ))|Y } ≤ h(Y ),
y tomando valor esperado a cada lado de esta última desigualdad se obtiene
E{(X − E(X|Y ))0 (X − E(X|Y ))} ≤ E{(X − g(Y ))0 (X − g(Y ))},
cualquiera que se g.
Ası́, hemos deducido que el mejor predictor de X dado Y , es simplemente
M P = E(X|Y ). (5.5.3)
Por otra parte, por (5.4.6) aplicado a cada elemento de las matrices en cuesti ón, se tiene que
que es una matriz al menos semi-definida positiva. M ás a ún, para cualquier vector de constantes
d = (d1 , . . . , dk ) se cumple que
V ar(d0 E(X|Y )) ≤ V ar(d0 X).
lo que en particular muestra que cada coordenada E(X j |Y ) del MP tiene siempre varianza inferior
o igual a V ar(Xj ), que corresponde al error de predecir Xj mediante la constante E(Xj ). Además,
el error de predicci ón (5.5.1) est á dado por
k
X
E{(X − E(X|Y ))0 (X − E(X|Y ))} = {V ar(Xi ) − V ar(E(Xi |Y ))}, (5.5.5)
j=1
σ4 σ2τ 2
V ar(Y ) − V ar(E(Y |X)) = σ 2 − = 2 .
σ2 +τ 2 σ + τ2
Los detalles se proponen como ejercicio.
Ejemplo 5.5.2 Suponga que la vida útil T de una ampolleta es una variable aleatoria
con distribuci ón exponencial de media λ > 0. En el instante t = 0 la ampolleta
se enciende. En un instante posterior s > 0 se constata que la ampolleta se habı́a
quemado. Calcule el MP del instante en que la ampolleta se quem ó.
Necesitamos calcular E(T |T < s), para lo cual se requiere la distribuci ón condicional
de T dado que T < s. Se tiene
Ası́, el MP buscado es
s
te−t/λ e−s/λ
Z
E(T |T < s) = dt = λ − .
0 λ(1 − e−s/λ ) 1 − e−s/λ
Ejemplo 5.5.3 Suponga que dos ampolletas, cuyos tiempos de vida son independien-
tes, con distribuci ón exponencial de medias λ > 0 y µ > 0 respectivamente, se ponen
en funcionamiento simult áneamente. Se observa que la primera de ellas se quema en
un instante t > 0. Calcule el MP de la vida útil de la otra ampolleta.
Si X e Y representan los tiempos de vida de estas ampolletas, se sabe que X ∼
Exp(λ) e Y ∼ Exp(µ), y que X e Y son independientes. Lo que se observa es
U = min{X, Y }, y se quiere predecir V = max{X, Y }, de modo que se necesita
E(V |U = t). Usando una modificaci ón del argumento que lleva a concluir (4.4.9), se
tiene para u < v:
de modo que
para u > 0. Note que U ∼ Exp((λ−1 + µ−1 )−1 ). Luego, la densidad condicional de
V dado que U = u es, despu és de simplificar,
5.6 Problemas
1. Sea X una variable aleatoria con distribuci ón de Bernoulli con par ámetro p. Si E(Y |X =
0) = 1 y E(Y |X = 1) = 2, encuentre E(Y ).
2. Sea N una variable aleatoria discreta positiva de media µ, y suponga que X 1 , X2 , ... es una
sucesi ón de variables aleatorias independientes e id énticamente distribuidas con E(X1 ) =
m. Si N es independiente de las variables aleatorias Xi , pruebe que:
E(X1 + X2 + .... + XN ) = µ.
3. Suponga que el n úmero de personas que entran a un supermercado el dı́a Lunes es una varia-
ble aleatoria de media 50. Suponga adem ás que los montos de dinero gastado por los clientes
en el supermercado son variables aleatorias independientes de media com ún 8. Si dichos
montos son independientes del n úmero total de clientes que entran al supermercado, ¿cu ál es
el monto esperado de dinero gastado en la tienda ese dı́a?.
a.- E(X).
b.- E(X|Y = 1).
c.- E(X|Y = 5).
5. Una poblaci ón de individuos da lugar a una nueva poblaci ón. Suponga que la probabilidad
que un individuo de lugar a k individuos (descendientes) es p k , k = 0, 1, . . . , y el n úmero
de individuos que se obtienen a partir de individuos diferentes son variables aleatorias in-
dependientes. La poblaci ón nueva forma la nueva generaci ón, que a su vez, da lugar a la
segunda generaci ón, y ası́ sucesivamente. Para n = 0, 1, . . . sea Xn el tama ño de la n-ésima
generaci ón. N ótese que:
Xn+1 = Z1 (n) + · · · + ZXn (n),
donde Zj (n) es el n úmero de individuos de la generaci ón (n + 1)-ésima que proceden del
individuo j-ésimo de la generaci ón n-ésima. Suponga que el n úmero de descendientes de un
individuo tiene media finita µ. Pruebe que:
Mn = E(Xn |X0 = 1) = µn .
6. Una urna contiene 4 bolas blancas y 6 bolas negras. Se sacan, en forma consecutiva y sin
reemplazo, dos muestras aleatorias, de tama ños 3 y 5 respectivamente. Sean X e Y variables
aleatorias que denotan el n úmero de bolas blancas en las dos muestras. Calcule E(X|Y = i)
para i = 1, 2, 3, 4.
x/ y 1 2 3
1 1 1
1 4 8 8
1 1
2 0 4 12
1
3 0 0 6
10. Sea (X, Y ) con distribuci ón uniforme entre las rectas x + y = 1, y = 0, y la curva y = x2 .
Determine fX (x), fY (y), fX|Y (x|y), fY |X (y|x), y verifique que son densidades.
e−y
fX,Y (x, y) = 0 ≤ x ≤ y, 0 ≤ y ≤ ∞,
y
17. Una cierta l ámpara tiene una vida útil en horas cuya distribuci ón es exponencial de media
1. Una persona enciende dicha l ámpara y comienza a lanzar un dado equilibrado cada 15
segundos, continuando de esta manera mientras la l ámpara esté encendida. Obtenga el valor
esperado y la varianza del n úmero de ases que se obtiene antes que la l ámpara se apague.
18. Se tiene dos l ámparas cuyas vidas útiles son variables aleatorias i.i.d. con distribuci ón ex-
ponencial de media λ > 0. Suponiendo que ambas l ámparas se encienden simult áneamente,
denote por X el tiempo que transcurre hasta que la primera l ámpara se apague, e Y el tiempo
transcurrido hasta que la segunda l ámpara se apague (note que X ≤ Y ).
19. Suponga que el n úmero esperado de accidentes por semana en una planta industrial es 5.
Suponga tambi én que el n úmero de trabajadores heridos en cada accidente son variables
aleatorias independientes con media com ún de 2.5. Si el n úmero de trabajadores heridos en
cada accidente es independiente del n úmero de accidentes que ocurren, calcule el n úmero
esperado de trabajadores heridos.
Resp : 12, 5
20. Se dispone de dos urnas A y B, la primera contiene tres bolas rojas y dos bolas negras, la
segunda contiene tres bolas negras y dos bolas rojas. Se realiza el siguiente experimento :
Calcule E(X), E(Y ), ρ(X, Y ). ¿Cu ál es la probabilidad que la configuraci ón de bolas al
terminar el experimento coincida con la inicial?
21. Sean X1 , X2 , . . . , Xn variables aleatorias i.i.d. con funci ón de distribuci ón continua F . Sea
X = max{X1 , . . . , Xn }.
(b) Suponga que F es diferenciable. ¿Existe densidad condicional en (a)? ¿Por qu é?
(c) En el caso que F es la distribuci ón U (0, 1), calcule E(Xk |X) para k = 1, 2, . . . , n.
23. Suponga que X1 y X2 tienen distribuci ón conjunta normal bivariada tal que E(X1 |X2 ) =
3.7 − 0.15X2 , E(X2 |X1 ) = 0.4 − 0.6X1 y V ar(X2 |X1 ) = 3.64. Determine la media y la
varianza de X1 , la media y la varianza de X2 , y la correlaci ón entre X1 y X2 .
Q(x, y) = x2 + 2y 2 − xy − 3x − 2y + 4
25. Si el mejor predictor de X dado Y coincide con E(X), ¿es necesariamente cierto que X e Y
son independientes?
Hint : Considere (X, Y ) con distribuci ón uniforme en el cı́rculo {(x, y) : x2 + y 2 ≤ 1}.
Aplique lo anterior al caso en que X tiene distribuci ón exponencial con par ámetro λ e Y ∼
U (0, λ), donde λ > 0.
28. Si X e Y son no correlacionadas, ¿es necesariamente cierto que el MP coincide con E(X)?
Hint : Considere Y ∼ U (−1, 1) y X = Y 2 .
29. Suponga que X|Z = z ∼ Poisson(z) y que Z ∼ Γ(α, 1), con densidad
(
1 α−1 e−z
Γ(α) z si z > 0
fZ (z) =
0 si no,
y en donde α > 0.
30. Se escoge al azar un n úmero en el intervalo [0, 1]. Si el resultado es x, se procede a lanzar
n veces y en forma independiente una moneda cuya probabilidad de dar cara es x. Sea
Y la variable aleatoria que representa el n úmero de caras que se obtuvo al cabo de los n
lanzamientos.
210
´
CAP ITULO 6. NOCIONES DE CONVERGENCIA Y SUS APLICACIONES
Sea X1 , X2 , . . . una sucesi ón de variables aleatorias, definidas en un espacio muestral Ω com ún.
La sucesi ón se denotar á usualmente por {Xn }. Se definen a continuaci ón 4 tipos distintos de
convergencia.
Definici´
o n 6.2.1
(a) Se dice que {Xn } converge en distribuci ón a una variable aleatoria X, lo que se denota
D
Xn −→ X, si
lim FXn (x) = FX (x), (6.2.1)
n→∞
para todo x ∈ R tal que x es un punto de continuidad de F X .
(b) Se dice que {Xn } converge en probabilidad a una variable aleatoria X, lo que se denota
P
Xn −→ X, si
∀ > 0, lim P (|Xn − X| > ) = 0. (6.2.2)
n→∞
(c) Se dice que {Xn } converge en media cuadr ática a una variable aleatoria X, lo que se denota
m.c.
Xn −→ X, si
lim E{(Xn − X)2 } = 0. (6.2.3)
n→∞
(d) Se dice que {Xn } converge casi seguramente a una variable aleatoria X, lo que se denota
c.s.
Xn −→ X, si
P ({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1. (6.2.4)
n→∞
Estos tipos de convergencia se refieren a comportamiento asint ótico de la sucesi ón {Xn }, pero
en aspectos esencialmente diferentes. Ası́, la convergencia en distribuci ón (6.2.1) usa solamente la
funci ón de distribuci ón de las variables aleatorias. Puesto que no existe una identificaci ón entre una
variable aleatoria y su distribuci ón (por ejemplo, si X ∼ N (0, 1) entonces −X ∼ N (0, 1), pero
X 6= −X), este tipo de convergencia no usa los valores de las variables en cuesti ón, si no que las
probabilidades asociadas. El hecho que la convergencia de F Xn a FX se requiera s ólo para aquellos
puntos en que FX es continua, obedece a razones t écnicas.
En el otro extremo, la convergencia casi segura (6.2.4), tambi én llamada convergencia con
probabilidad 1, trata las variables aleatorias como funciones, y requiere que exista convergencia
puntual en un conjunto de puntos del espacio muestral cuya probabilidad es 1. En otras palabras,
la convergencia puntual no se cumple en un conjunto que, desde el punto de vista probabilı́stico, se
puede despreciar.
La convergencia en probabilidad (6.2.2) y en media cuadr ática (6.2.3) representan situaciones
intermedias, en que ambas, las variables aleatorias y su distribuci ón se combinan. La convergencia
en probabilidad requiere que la probabilidad que un elemento gen érico de la sucesi ón difiera del
lı́mite en una cantidad arbitrariamente peque ña converja a 0. Por otra parte, la convergencia en me-
dia cuadrática requiere que el error cuadr ático medio de predecir la variable lı́mite por un elemento
de la sucesi ón, sea asint óticamente 0.
Veremos ahora un resultado fundamental concerniente a las relaciones que existen entre estos
modos de convergencia.
Teorema 6.2.1 (Relaci o´n entre los Modos de Convergencia) Sean X, X1 , X2 , . . . variables ale-
atorias.
P D
(a) Si Xn −→ X, entonces Xn −→ X.
m.c. P
(b) Si Xn −→ X, entonces Xn −→ X.
c.s. P
(c) Si Xn −→ X, entonces Xn −→ X.
La demostraci ón de este resultado ser á omitida, por ser de caracter esencialmente t écnico. Sin
embargo, y como veremos en los ejemplos que siguen, las recı́procas de estos resultados son, en
general, falsas. Por otra parte, la convergencia en distribuci ón suele recibir el nombre alternativo de
convergencia d ébil, pues es implicada por todos los otros tipos de convergencia. En forma an áloga,
la convergencia casi segura, suele tambi én recibir el nombre de convergencia fuerte.
Ejemplo 6.2.1 Sea Xn ∼ Exp(λn ), donde {λn } es una sucesi ón de n úmeros positivos
tales que lim λn = 0. Observe que E(Xn ) = λn , de modo que se intuye que el
n→∞
lı́mite, en caso de existir, debe ser 0. Veamos en qu é sentido se produce esta potencial
convergencia a 0.
Note que FXn (x) = 1 − e−x/λn si x > 0, y 0 si no, de modo que para x > 0 se tiene
lim FXn (x) = lim (1 − e−x/λn ) = 1,
n→∞ n→∞
y lim FXn (x) = 0, si x < 0. Si X = 0, se tiene entonces que lim FXn (x) = FX (x),
n→∞ n→∞
para x 6= 0. El caso x = 0 es irrelevante, pues es precisamente el único punto de
D
discontinuidad de FX . Luego, Xn −→ X. Por otra parte, observe que para > 0 se
tiene
P (|Xn − X| > ) = P (Xn > ) = e−/λn → 0,
P
si n → ∞, de modo que se concluye tambi én que Xn −→ X. En estricto rigor, este
último resultado implica la convergencia en distribuci ón, pero es ilustrativo, ocasio-
nalmente, mostrar algunas propiedades en forma directa. Pero eso no es todo. Note
que
E{(Xn − X)2 } = E(Xn2 ) = 2λ2n → 0,
m.c.
si n → ∞, ası́ que además se cumple que Xn −→ 0.
i.i.d.
Ejemplo 6.2.2 Sean X, X1 , X2 , . . . ∼ N (0, 1/2). Entonces, dado que FXn (x) =
D
FX (x) para cualquier x, se cumple en forma trivial que Xn −→ X. Sin embargo, note
que Xn − X ∼ N (0, 1), de modo que
P (|Xn − X| > ) = 2(1 − Φ()), n ≥ 1,
por lo que no hay convergencia en probabilidad, y en virtud del Teorema 6.2.1, tampoco
puede haber convergencia en media cuadr ática o casi segura.
Ası́, los intervalos In van en forma cı́clica cubriendo el intervalo [0, 1]. Es claro que
para cualquier ω ∈ Ω, hay una infinidad de valores de n tales que X n (ω) = 1, de
modo que puntualmente, Xn (ω) no converge a valor alguno. Sin embargo, si X = 0,
y 0 < ≤ 1, entonces
2x−3
si x > 1
fX (x) =
0 si no,
de modo que
∞ ∞
2x2 2
Z Z
E{(Xn − X)2 } = dx = dx = ∞,
n+1 x3 n+1 x
D
Proposici o´n 6.2.1 Si {Xn } es una sucesi ón de variables aleatorias tales que Xn −→ c, una varia-
P
ble aleatoria constante, entonces Xn −→ c.
D
Demostraci o´n: Puesto que Xn −→ c, se tiene entonces que para x 6= c se cumple
1 si x > c
lim FXn (x) =
n→∞ 0 si x < c.
P (|Xn − c| ≤ ) = P (c − ≤ Xn ≤ c + ) ≥ P (c − < Xn ≤ c + )
= FXn (c + ) − FXn (c − ) → 1 − 0 = 1,
Proposici o´n 6.2.2 Sean X, X1 , X2 , . . . variables aleatorias discretas con valores en 0, 1, 2, . . .. En-
D
tonces Xn −→ X si y s ólo si lim pXn (k) = pX (k) para todo k = 0, 1, 2, . . ..
n→∞
Como ya hemos visto en capı́tulos anteriores, se puede construir nuevas variables aleatorias
mediante transformaciones de aquellas disponibles. Esto es, si X es una variable aleatoria, y si
g : R −→ R es una funci ón continua, entonces g(X) es una variable aleatoria. Surge entonces la
siguiente pregunta. Si {Xn } converge a X en alg ún sentido, ¿es cierto que {g(Xn )} converge a
g(X) en ese (u otro) sentido? La respuesta est á dada por el siguiente resultado.
Proposici o´n 6.2.3 Sean X, X1 , X2 , . . . variables aleatorias, y sea g : R −→ R una funci ón conti-
nua.
D D
(a) Si Xn −→ X entonces g(Xn ) −→ g(X).
P P
(b) Si Xn −→ X entonces g(Xn ) −→ g(X).
c.s. c.s.
(c) Si Xn −→ X entonces g(Xn ) −→ g(X).
3x−4
si x > 1
fX (x) =
0 si no,
Ejemplo 6.2.7 Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón com ún
U (0, 1), y sea Yn = min{X1 , . . . , Xn }. Por (4.4.7), se tiene que
Ası́, Yn ∼ Beta(1, n), por lo que E(Yn ) = 1/(n + 1), de modo que se sospecha que
en caso de existir el lı́mite de Yn , éste debiera ser 0. Dado 0 < < 1, se tiene que
Z 1
P (Yn > ) = n(1 − y)n−1 dy = (1 − )n ,
y tomando lı́mite cuando n → ∞ se concluye que lim P (Yn > ) = 0. Puesto que si
n→∞
P
> 1 se tiene P (Yn > ) = 0, hemos mostrado que Yn −→ 0. Consideremos ahora
Zn = nYn . Ya no es cierto que exista la misma convergencia anterior, pues ahora
E(Zn ) = n/(n + 1) → 1 si n → ∞. Veremos que Zn converge en distribuci ón a una
variable aleatoria Z ∼ Exp(1). Para ello, consideremos F Zn (z). Se tiene, para z > 0:
Veamos a continuaci ón c ómo se extienden estas nociones de convergencia al caso de vec-
tores aleatorios. Para ello, recordamos la definici ón de la norma euclidiana de un vector v =
(v1 , . . . , vk ) ∈ Rk : q
||v|| = v12 + v22 + · · · + vk2 .
P
(a) Se dice que X n converge en probabilidad a X si ||X n −X|| −→ 0, es decir, si para cualquier
> 0 se cumple
lim P (||X n − X|| > ) = 0. (6.2.5)
n→∞
m.c.
(b) Se dice que X n converge en media cuadr ática a X si ||X n − X|| −→ 0, es decir, si
Observaci o´n: Hemos diferido la discusi ón de la noci ón de convergencia en distribu-
ci ón de vectores aleatorios para una secci ón posterior, debido a varias complicaciones
técnicas que van m ás allá del ámbito de este libro. La Secci ón 6.4 discute este tema,
dando una caracterizaci ón muy útil y que permite evitar dichos problemas.
El siguiente resultado es útil para chequear convergencia en probabilidad, media cuadr ática y
casi segura de vectores aleatorios.
P P
(a) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
m.c. m.c.
(b) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
c.s. c.s.
(c) X n −→ X si y s ólo si Xni −→ Xi para i = 1, . . . , k.
La Proposici ón 6.2.4 establece que para verificar los tipos de convergencia de vectores aleato-
rios, basta con mostrar que cada coordenada (que es una variable aleatoria), converge a la corres-
pondiente coordenada del vector lı́mite, y de acuerdo al tipo de convergencia adecuado.
La pr óxima secci ón retoma la idea planteada al comienzo de este capı́tulo, esta vez d ándole un
sentido formal.
En términos intuitivos, las leyes de grandes n úmeros (LGN) establecen que si X1 , X2 , . . . constitu-
yen una muestra aleatoria de una cierta distribuci ón F (esto es, X1 , X2 , . . . son i.i.d. con distribu-
ci ón com ún F ), y si dicha distribuci ón posee valor esperado µ, entonces
n
1X
Xn = Xi −→ µ,
n
i=1
en un sentido a especificar. Ası́, la LGN establece que la secuencia de medias aritm éticas de las
primeras n variables converge a la esperanza de la distribuci ón, que ciertamente coincide con la
esperanza de cualquiera de las variables en cuesti ón.
Hay dos tipos de LGN que estudiaremos aquı́: la ley débil (LDGN), y la ley fuerte (LFGN), que
establecen resultados de convergencia en probabilidad y casi segura, respectivamente. Comenzamos
esta discusi ón con el primer caso. Para ello, necesitamos un resultado previo.
Proposici o´n 6.3.1 (Desigualdad de Tchebyshev) Considere un real α > 0, y una variable aleato-
ria X.
E(X)
P (X ≥ α) ≤ . (6.3.1)
α
Var(X)
P (|X − E(X)| ≥ α) ≤ . (6.3.2)
α2
Demostraci o´n:
Proposici o´n 6.3.2 (Ley d e´bil de Tchebyshev) Sean X1 , X2 , . . . variables aleatorias no correla-
cionadas (lo que significa Cov(Xi , Xj ) = 0 si i 6= j), con varianzas finitas y tales que existe
Pn
un n úmero M > 0 tal que Var(Xn ) ≤ M para todo n ≥ 1. Si Sn = Xi , entonces se cumple
i=1
que
Sn − E(Sn ) P
−→ 0.
n
Demostraci o´n: Puesto que las variables son no correlacionadas, se tiene que
n
X
Var(Sn ) = Var(Xi ) ≤ nM.
i=1
Luego, por la desigualdad de Tchebyshev (6.3.2) se tiene que para cualquier > 0:
Var(Sn ) M
P (|Sn − E(Sn )| ≥ n) ≤ 2 2
≤ 2 −→ 0,
n n
lo que prueba el resultado.
Veremos a continuaci ón la LFGN, resultado que se enuncia sin demostraci ón.
Observe que la LFGN, en contraste con la LDGN, no requiere existencia de la varianza de las
variables aleatorias, aun cuando el supuesto que éstas sean i.i.d. es fundamental
Esta funci ón se puede interpretar como una aproximaci ón a la verdadera funci ón de
c.s.
distribuci ón F (x) = P (X ≤ x). Veamos que F̂n (x) −→ F (x). Para ello, defina las
variables Y1 , Y2 , . . .:
1 si Xi ≤ x
Yi =
0 si no.
Se tiene que Y1 , Y2 , . . . es un proceso de Bernoulli, con probabilidad de éxito
Sn c.s.
F̂n (x) = −→ p = F (x),
n
de donde se tiene el resultado. En otras palabras, la funci ón de distribuci ón empı́rica
converge a la funci ón de distribuci ón F . Este resultado es útil para identificar la distri-
buci ón F cuando se dispone de una muestra de F , y F no se conoce. Esta situaci ón es
com ún en problemas de Estadı́stica.
Ası́, la variable Xi toma el valor 1 si el punto U i = (Ui1 , Ui2 ) está por debajo del gr áfi-
co de la curva y = f (x), y toma el valor 0 si no. Puesto que los vectores U 1 , U 2 , . . .
son i.i.d., X1 , X2 , . . . es un proceso de Bernoulli con probabilidad de éxito p dada por
p = P (X1 = 1). Para calcular dicha probabilidad, notemos que la densidad conjunta
de U 1 es
1
fU11 ,U12 (u11 , u12 ) = , si (u11 , u12 ) ∈ [a, b] × [0, M ].
M (b − a)
Luego,
Z bZ f (u11 ) b
1 1 I
Z
p= du12 du11 = f (u11 )du11 = .
a 0 M (b − a) M (b − a) a M (b − a)
f(x)
0
a b x
Figura 6.3.1: Aproximaci ón de una integral, correspondiente al área bajo la curva y = f (x), entre
a y b.
• Generar una gran cantidad de puntos al azar en el rect ángulo [a, b] × [0, M ].
• Calcular la fracci ón de puntos que cae bajo el gr áfico de la curva y = f (x).
• Dicha fracci ón coincide con (X1 + · · · + Xn )/n, y multiplicada por M (b − a),
es una aproximaci ón a I
Ejemplo 6.3.5 Sean X1 , X2 , . . . i.i.d. con distribuci ón com ún uniforme en el intervalo
[0, 1], y considere la sucesi ón Y1 , Y2 , . . ., con
n
!1
Y n
Yn = Xi .
i=1
Retomamos aquı́ el estudio de la noci ón de convergencia en distribuci ón. En la Secci ón 3.8.3
vimos que existe una correspondencia uno a uno entre la distribuci ón de una variable aleatoria X y
su funci ón caracterı́stica ϕX (t). Tomando este hecho en consideraci ón, es intuitivo pensar que debe
existir alguna relaci ón entre la convergencia en distribuci ón de la sucesi ón {Xn }, y la sucesi ón de
funciones caracterı́sticas {ϕXn (t)}. Similares argumentos se pueden aplicar al caso de vectores
aleatorios.
La respuesta a esta inquietud est á dada por el siguiente resultado.
D
Teorema 6.4.1 Sean X, X1 , X2 variables aleatorias. Entonces, Xn −→ X si y s ólo si se cumple
que lim ϕXn (t) = ϕX (t) para todo t ∈ R.
n→∞
Este resultado es en realidad una caracterizaci ón de la convergencia en distribuci ón. De hecho,
lo utilizaremos como una definici ón de convergencia para el caso de vectores aleatorios.
Existe una caracterizaci ón alternativa de convergencia en distribuci ón de vectores aleatorios,
que damos a continuaci ón.
cuando n → ∞.
Este resultado hace uso del hecho que la distribuci ón de un vector aleatorio queda determinada
por la distribuci ón de todas las combinaciones lineales posibles de sus coordenadas.
La siguiente variaci ón del Teorema 6.4.1 resulta ser muy útil para establecer convergencia en
distribuci ón de una sucesi ón de vectores aleatorios.
D
(a) Existe un vector aleatorio X tal que X n −→ X, y
El Teorema 6.4.3 tambi én vale para el caso particular k = 1, es decir, para variables aleatorias.
Veamos a continuaci ón algunas aplicaciones de estos resultados.
Ejemplo 6.4.1 Si Xn ∼ N (µn , σn2 ), donde {µn } y {σn2 } son sucesiones convergentes
D
a µ y σ 2 > 0 respectivamente, entonces Xn −→ X ∼ N (µ, σ 2 ). En efecto, tenemos
que ϕXn (t) = exp(iµn t − t2 σn2 /2), y tomando lı́mite, se encuentra que ϕXn (t) con-
verge a ϕ(t) = exp(iµt − t2 σ 2 /2). Puesto que este lı́mite es claramente una funci ón
continua en t = 0 (m ás aun, es continua en todo t ∈ R), el Teorema 6.4.3 asegura la
D
existencia de una variable aleatoria X tal que Xn −→ X. Pero puesto que el mismo
Teorema garantiza que ϕX (t) = ϕ(t), y ϕ(t) es la funci ón caracterı́stica de una va-
riable aleatoria con distribuci ón N (µ, σ 2 ), el resultado se tiene por la correspondencia
uno a uno entre la distribuci ón de una variable aleatoria y su funci ón caracterı́stica.
Ejemplo 6.4.2 El resultado del Ejemplo 6.4.1 se puede generalizar a vectores aleato-
rios. Si X n ∼ Nk (µn , Σn ), con lim µn = µ y lim Σn = Σ, donde Σ es semi-
n→∞ n→∞
D
definida positiva, entonces X n −→ X ∼ Nk (µ, Σ). Los detalles son muy parecidos
a los del Ejemplo 6.4.1, y se proponen como ejercicio.
eit + e−it
ϕXk (t) = E(eitXk ) =
2
cos(t) + i sin(t) + cos(−t) + i sin(−t) 2 cos(t)
= =
2 2
= cos(t).
Por otra parte, notemos que de la identidad sin(2t) = 2 sin(t) cos(t) se concluye que
sin(t/2k−1 )
cos(t/2k ) = ,
2 sin(t/2k )
para k = 1, 2, . . .. Luego,
n
Y sin(t/2k−1 ) sin(t)
ϕYn (t) = k
= n ,
2 sin(t/2 ) 2 sin(t/2n )
k=1
sin(t)
lim ϕYn (t) = .
n→∞ t
Notemos que este lı́mite se puede definir como 1 para t = 0, caso en el que la funci ón
resultante es continua en 0 (recuerde que cualquier funci ón caracterı́stica evaluada en
t = 0 vale 1). Sea ahora Y ∼ U (−1, 1), y calculemos su funci ón caracterı́stica. Se
tiene
Z 1 Z 1
1 1 1 1
Z
ϕY (t) = cos(tx) dx + i sin(tx) dx = cos(tx)dx
−1 2 −1 2 2 −1
sin(t) − sin(−t) sin(t)
= = ,
2t t
que coincide con el lı́mite de ϕYn (t). En virtud del Teorema 6.4.3, hemos mostrado
D
que Yn −→ Y ∼ U (−1, 1).
Para terminar esta secci ón, veremos dos resultados adicionales de convergencia en distribuci ón,
los que resultan ser muy útiles en una variedad de aplicaciones.
En otras palabras, el Teorema 6.4.4 establece que si la sucesi ón de densidades converge pun-
tualmente a una cierta densidad, entonces existe convergencia en distribuci ón. Por otra parte, no es
necesario que la convergencia ocurra para absolutamente todos los puntos x ∈ R k , pudiendo ésta
no verificarse en un conjunto numerable de puntos en R k .
(d) Si c 6= 0 y P (Yn 6= 0) = 1,
Xn D X
−→ .
Yn c
El Teorema 6.4.5 se usa fundamentalmente para construir nuevas sucesiones de variables ale-
atorias que convergen en distribuci ón a partir de casos en que se conozca dicha convergencia pre-
viamente. Este resultado se usa habitualmente en combinaci ón con el Teorema Central del Lı́mite,
tema de nuestra pr óxima secci ón.
Hemos dejado para esta última secci ón uno de los resultados fundamentales de la Teorı́a de Pro-
babilidades. Hasta ahora hemos visto en la Secci ón 6.3 que promedios de variables aleatorias i.i.d.
con valor esperado finito µ, convergen a µ. Este resultado permite justificar una interpretaci ón de
probabilidad desde un punto de vista frecuentista, es decir, las probabilidades se pueden concebir
como lı́mites de frecuencias relativas de eventos, si el experimento en cuesti ón se repite indefinida-
mente en forma independiente y siempre bajo las mismas condiciones. Sin embargo, las Leyes de
Grandes N úmeros no establecen cuan cerca est á – en términos de probabilidades – este promedio
de variables aleatorias del valor µ al que converge. En otras palabras, serı́a deseable saber cu ál es
la probabilidad que este promedio difiera de µ en menos que una cantidad prefijada δ > 0.
Establecemos a continuaci ón el resultado b ásico que nos permite calcular (al menos aproxi-
madamente) probabilidades como las descritas en el p árrafo anterior, del que veremos primero la
versi ón univariada.
Puesto que E(X12 ) < ∞, es posible probar (no lo haremos) que su funci ón caracterı́stica (que
hemos denotado ϕ(t)), posee dos derivadas continuas. Luego, podemos hacer un desarrollo en serie
de Taylor de orden 2, para obtener
t2
ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (θ(t)) · ,
2
donde |θ(t)| ≤ |t|. Luego,
t2 t2
ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (0) · + e(t),
2 2
donde e(t) = ϕ00 (θ(t)) − ϕ00 (0), y e(t) → 0 cuando t → 0. Por otra parte, y usando propiedades
de funciones caracterı́sticas, se tiene que ϕ(0) = 1, ϕ0 (0) = iµ = 0 y ϕ00 (0) = i2 E(X12 ) =
−E(X12 ) = −1. Por lo tanto,
t2 t2 e(t)
ϕ(t) = 1 − + ,
2 2
de donde se deduce que
√ n n
t2 t2 e(t/ n) t2 √
ϕZn (t) = 1 − + = 1− 1 − e(t/ n) .
2n 2n 2n
El resultado se obtiene directamente, una vez que se prueba que si {c n } es una sucesi ón de n úmeros
complejos tales que cn → c cuando n → ∞ entonces
cn n
1+ → ec ,
n
lo cual se propone como ejercicio. Finalmente, para el caso general µ ∈ R y σ 2 > 0, defina
Xn − µ
Yn = ,
σ
√
de modo que Zn = nY n , y lo hecho recientemente se aplica a las variables aleatorias (i.i.d.)
Y1 , Y2 , . . ..
Uno de los aspectos m ás interesantes del Teorema 6.5.1 es que la convergencia vale cualquiera
que sea la distribuci ón original de las variables aleatorias involucradas. Por ejemplo, no hace falta
que las variables sean continuas, la convergencia tambi én vale para variables aleatorias discretas,
aun cuando es necesario tener cierto cuidado en aproximar distribuciones discretas por una normal.
Veamos algunas aplicaciones del TCL.
Ejemplo 6.5.1 Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón N (µ, σ 2 ).
El TCL establece entonces que
√
n(X n − µ) D
Zn = −→ Z ∼ N (0, 1).
σ
Sin embargo, en este caso particular, dicha convergencia es trivial, pues se tiene que la
distribuci ón exacta de Zn es N (0, 1).
de modo que dado el valor de δ > 0, y conocido el valor de Y n (a partir de una muestra
de tama ño n) el valor de P (|Y n − σ 2 | < δ) se puede aproximar. Por ejemplo, si
n = 100, δ = 1 e Y n = 2.7, la probabilidad se aproxima por 0.991179. Note que para
realizar este cálculo, no se requiere conocer el valor de σ 2 .
Ejemplo 6.5.2 Supongamos que X1 , X2 , . . . , X100 son i.i.d. con distribuci ón expo-
nencial de media 5, y calculemos aproximadamente P (S 100 > 600), donde S100 =
100
P
Xk . Tenemos que E(X1 ) = 5, Var(X1 ) = 25, de modo que la variable Z100 en
k=1
(6.5.1) se transforma en
10(X 100 − 5)
Z100 = = 2(X 100 − 5),
5
la que tiene distribuci ón aproximadamente N (0, 1). Ahora,
donde Z ∼ N (0, 1), y usando las tablas adecuadas, se puede obtener que
Por otra parte, y recordando que S100 ∼ Γ(100, 5), la probabilidad exacta se expresa
mediante Z ∞ 99 −x/5
x e
100
dx,
600 99! 5
y mediante integraci ón numérica se obtiene que este valor es 0.0279, de modo que la
aproximaci ón es razonablemente buena.
Es claro que la calidad de aproximaciones basadas en el Teorema 6.5.1 dependen del valor de
n. Para tener una mejor idea al respecto, el siguiente resultado es útil.
33 E(|X1 − µ|3 )
sup |Gn (t) − Φ(t)| ≤ √ , ∀n. (6.5.2)
t∈R 4 σ3 n
En la práctica, esta cota resulta ser casi siempre muy difı́cil de calcular. No obstante, lo inte-
resante del resultado es que el m áximo posible error cometido en las aproximaciones es del orden
de n−1/2 . Para visualizar un poco mejor esta aproximaci ón, note que el Teorema 6.5.1 implica que
para n grande, la distribuci ón de X n es aproximadamente N (µ, σ 2 /n). A este efecto, se generaron
en un computador 1000 muestras de tama ño n = 100 cada una, de la distribuci ón exponencial con
media 5, tal como en el Ejemplo 6.5.2. Por cada muestra se obtuvo el promedio de los valores ge-
1 1000
nerados en dicha muestra, los que designamos por X , . . . , X , y cuya distribuci ón aproximada
es N (5, 1/4). Estos valores se usaron para construir un histograma, y la funci ón de distribuci ón
empı́rica (ver Ejemplo 6.3.3), los que se muestran en la Figura 6.5.2. El histograma se construy ó de
modo que la suma de las área de las distintas barras sea igual a 1, de modo que la figura que se
obtiene es una aproximaci ón a la densidad N (5, 1/4), que aparece representada en lı́nea continua.
Por otra parte, la funci ón de distribuci ón empı́rica (lı́nea punteada) es una aproximaci ón a FY (y),
donde Y ∼ N (5, 1/4) (lı́nea continua). Se aprecia que la aproximaci ón es, en términos generales,
bastante buena.
0.8
Histograma y Densidad
0.6
0.6
0.4
0.4
0.2
0.2
0.0 0.0
3 4 5 6 7 3 4 5 6 7
Figura 6.5.2: Distribuci ón del promedio de 100 variables aleatorias i.i.d. con distribuci ón exponen-
cial de media 5, y aproximaci ón normal mediante Teorema Central del Lı́mite.
Binomial
Poisson
0.15
Normal
0.10
0.05
0.0
0 5 10 15
Ejemplo 6.5.4 Sean Y1 , Y2 , . . . variables aleatorias i.i.d. con distribuci ón N (µ, σ 2 ),
donde µ ∈ R y σ 2 > 0. Defina los vectores X 1 , X 2 , . . . en R2 mediante
Yk
Xk = .
Yk2
y además
σ2 2µσ 2
Σ = V (X k ) = .
2µσ 2σ + 4µ2 σ 2
2 4
Para finalizar esta secci ón, veamos otro resultado muy útil para verificar convergencia en distri-
buci ón de funciones de promedios de variables o vectores aleatorios.
Nota: Si k = 1, esto es, en el caso univariado, entonces la varianza de la distribuci ón lı́mite normal
es σ 2 (g 0 (µ))2 .
Ejemplo 6.5.5 Sean X1 , X2 , . . . i.i.d. con distribuci ón de Poisson con par ámetro λ >
0. Por el Teorema 6.5.1 se tiene que
√ D
n(X n − λ) −→ N (0, λ).
√
Sea g(x) = x, la que es continuamente diferenciable en x = λ. Puesto que g 0 (λ) =
λ−1/2 , se concluye en virtud del Teorema 6.5.4, con k = 1,
√
q √ D
n( X n − λ) −→ N (0, 1/4),
Para obtener la distribuci ón lı́mite (asint ótica) de σ̂n2 considere la funci ón g(x, y) =
n n
y − x2 . Note que g(µ, µ2 + σ 2 ) = σ 2 . Además, se tiene que g( n1 Yk , n1 Yk2 ) =
P P
k=1 k=1
σ̂n2 , y
−2x
∇g(x, y) = ,
1
por lo que es fácil verificar que
∇g(µ, µ2 + σ 2 )0 Σ∇g(µ, µ2 + σ 2 ) = 2σ 4 ,
6.6 Problemas
1. En este problema se le pide verificar directamente el Teorema Central del Lı́mite en algunos
casos particulares, utilizando la convergencia de la f.g.m. a la de la distribuci ón N (0, 1).
Sean X1 , . . . , Xn iid con funci ón generadora de momentos M (t) y Xi ∼ F con media µ y
varianza σ 2 . Para cada uno de los siguientes casos: (i) F = N (a, b2 ) (ii) F = Exp(λ) (iii)
F ∼ Poisson(λ) (iv) F ∼ Bin(n, p):
n
P
a.- Encuentre la f.g.m. de Sn = Xi y de X n .
i=1
S√
n −nµ
√ X n −µ
b.- Encuentre la f.g.m. Mn (t) de Zn = = n( σ ).
nσ 2
t2
c.- Verifique que Mn (t) tiende a e 2 , cuando n → ∞.
3. Suponga que dos dados se lanzan 600 veces. Sea X el n úmero de veces en que se obtiene
una suma de 7. Use el teorema central del lı́mite para aproximar P (90 < X < 110).
Resp. : 0.726.
4. Si X1 , . . . , X20 son variables aleatorias iid Poisson con media 1, use el teorema central del
20
P
lı́mite para aproximar P ( Xi > 15).
i=1
6. Sean X1 , X2 , . . . variables aleatorias i.i.d. con distribuci ón Poisson(λ). Encuentre el lı́mite
en probabilidad de
X 2 + · · · Xn2
Yn = 1 .
n
¿Existe convergencia casi segura?
j
k 2 = 16 j(j + 1)(2j + 1).)
P
cuando n −→ ∞. (Indicaci ón: Use el hecho que
k=1
9. Sean X1 , X2 , . . . independientes con distribuci ón com ún N (0, 1). Calcule el lı́mite casi
seguro de
X12 + · · · Xn2
.
(X1 − 1)2 + · · · + (Xn − 1)2
10. Sean X1 , X2 , . . . variables aleatorias i.i.d. con X1 ∼ U (0, θ) donde θ > 0. Demuestre que
√ n
D
Yn = 3n{log(2n−1
P
Xi ) − log(θ)} −→ Y , con Y ∼ N (0, 1).
i=1
11. Sean X1 , X2 , . . . variables aleatorias i.i.d. con E(X1 ) = 0 y E(X12 ) = 2. Encuentre el lı́mite
en distribuci ón de las siguientes secuencias:
(a) Y1 , Y2 , . . . donde √
n(X1 + · · · Xn )
Yn = .
X12 + · · · Xn2
(b) Z1 , Z2 , . . . donde
X1 + · · · X n
Zn = p 2 .
X1 + · · · Xn2
D D
12. (a) Suponga que Xn −→ N (0, 1), Yn −→ N (0, 1) y que, para todo n, Xn sea indepen-
D
diente de Yn . Muestre que Xn + Yn −→ N (0, 2).
D D
(b) Generalice el resultado de (a), probando que si Xn −→ F , Yn −→ G, con Xn indepen-
D
diente de Yn para todo n, entonces Xn + Yn −→ Z, donde la distribuci ón de Z coincide
con la de X + Y tales que X e Y sean independientes y verificando X ∼ F e Y ∼ G.
Indicaci ón: Use funciones caracterı́sticas.
13. Sean X1 , X2 , . . . e Y1 , Y2 , . . . dos secuencias de variables aleatorias i.i.d. y tales que los X j
son independientes de los Yk . Suponga que E(X1 ) = µX , V ar(X1 ) = σX 2 , E(Y ) = µ y
1 Y
2
V ar(Y1 ) = σY . Sea
√
Yn µY
Zn = n − ,
X n µX
donde
X1 + · · · + X n Y1 + · · · + Y n
Xn = e Yn = .
n n
(a) Encuentre el lı́mite en distribuci ón de Zn , usando el Teorema Central del Lı́mite biva-
riado aplicado a (X1 , Y1 ), (X2 , Y2 ), . . ., y el método delta.
(b) Repita (a) usando ahora el hecho que
√
µX Y n − µ Y X n
Zn = n ,
µX X n
y el resultado del ejercicio anterior.
Yn D c
−→ .
Xn X
Cálculo Combinatorial
1 Introducción
El propósito de este apéndice es entregar algunas elementos de cálculo combinatorial. Las pregun-
tas básicas son extremadamente sencillas de plantear: ¿De cuántas maneras se puede obtener un
resultado?, o ¿Cuántas configuraciones de cierto tipo hay? Si bien en términos abstractos esto se
reduce a determinar la cardinalidad de un conjunto, esta tarea puede ser virtualmente imposible
de realizar, aún con la ayuda de un computador. En casos sencillos la solución descansa en la
construcción de una lista exhaustiva y sin repeticiones. La dificultad reside en que la naturaleza
de los elementos del conjunto no están claramente definidos y que el conjunto se describe de una
manera indirecta.
2 Un ejemplo numérico
Para fijar las ideas es muy útil desarrollar en detalle un ejemplo sencillo, en que sea posible con-
feccionar listados exhaustivos. De hecho, la organización mental que requiere confeccionar la lista
arroja pistas para resolver el problema.
Consideramos una urna con 6 fichas, rotuladas por las letras a,b,c,d,e,f. Se extraen 3 fichas de esta
urna e interesa (a) Hacer un listado de los resultados posibles (b) Determinar cuantos resultados
posibles hay.
Una primera opción consiste en escribir un resultado como una sucesión de 3 letras adyacentes,
por ejemplo, bca. El Cuadro 1 entrega un listado completo, que debe leerse columna por columna,
el que cuenta con 216 elementos. Si se impone la condición de que la muestra sea sin reposición,
las letras no pueden repetirse. Una manera de ordenar los resultados es borrar del Cuadro 1 los
resultados con letras repetidas. Esto se muestra en el Cuadro 2, la que tiene 120 entradas. Por
1
otra parte, puede que no queramos tomar en cuenta el orden en que aparecen los elementos en
la muestra. Nuevamente podemos lograr esto borrando las entradas redundantes de las tablas
anteriores, luego de recorrer las tablas en orden. Se obtienen ası́ los Cuadros 3 y 4, que tienen 56
y 20 resultados respectivamente.
Claramente esta estrategia no es factible si la urna tiene 20 fichas y se hacen 10 extracciones. Sin
embargo, las tablas sugieren lo siguiente:
• Conviene ordenar los elementos de la urna – en este caso las letras – y luego ordenar las ternas
lexicográficamente. En el Cuadro 1 se hace variar más rápidamente la tercera componente y
más lentamente la primera. Si las letras a ... f se reemplazan por los dı́gitos del 0 al 5, el
orden lexicográfico coincide con el orden natural de los números.
• La relación de diferir sólo en el orden es una relación de equivalencia. Ella establece una
partición, cuyos elementos son los conjuntos de entradas mencionados en los puntos anteriores.
El uso de uno de los elementos de la clase de equivalencia para representar a la clase es un
procedimiento estándar, que es justamente el empleado para construir las tablas 3 y 4.
Anticipamos los resultados generales para entregar fórmulas que explican como obtener los números
216, 120, 56 y 20, sin necesidad de efectuar un recuento. Es inmediato adivinar cómo las fórmulas
se extienden a un número arbitrario de fichas y extracciones.
2
aaa baa caa daa eaa faa
aab bab cab dab eab fab
aac bac cac dac eac fac
aad bad cad dad ead fad
aae bae cae dae eae fae
aaf baf caf daf eaf faf
aba abb cba dba eba fba
abb bbb cbb dbb ebb fbb
abc bbc cbc dbc ebc fbc
abd bbd cbd dbd ebd fbd
abe bbe cbe dbe ebe fbe
abf bbf cbf dbf ebf fbf
aca bca cca dca eca fca
acb bcb ccb dcb ecb fcb
acc bcc ccc dcc ecc fcc
acd bcd ccd dcd ecd fcd
ace bce cce dce ece fce
acf bcf ccf dcf ecf fcf
ada bda cda dda eda fda
adb bdb cdb ddb edb fdb
adc bdc cdc ddc edc fdc
add bdd cdd ddd edd fdd
ade bde cde dde ede fde
adf bdf cdf ddf edf fdf
aea bea cea dea eea fea
aeb beb ceb deb eeb feb
aec bec cec dec eec fec
aed bed ced ded eed fed
aee bee cee dee eee fee
aef bef cef def eef fef
afa bfa cfa dfa efa ffa
afb bfb cfb dfb efb ffb
afc bfc cfc dfc efc ffc
afd bfd cfd dfd efd ffd
afe bfe cfe dfe efe ffe
aff bff cff dff eff fff
36 36 36 36 36 36
3
cab dab eab fab
bac dac eac fac
bad cad ead fad
bae cae dae fae
baf caf daf eaf
cba dba eba fba
4
aaa
aab
aac
aad
aae
aaf
abb bbb
abc bbc
abd bbd
abe bbe
abf bbf
5
abc
abd
abe
abf
acd bcd
ace bce
acf bcf
10 6 3 1 0 0
6
Supongamos ahora que la urna contiene las 5 letras a,b,c,d,e y que se extraen 5 fichas sin reposición.
Por enumeración exhaustiva se obtienen 120 muestras ordenadas de tamaño 5, las que aparecen
en el Cuadro 5. El orden de cada columna es lexicográfico. Los arreglos de las últimas cuatro
columnas se obtienen permutando cı́clicamente las letras de los 24 arreglos de la primera columna,
todos los cuales empiezan con la letra a. Ellos están en correspondencia uno a uno con los arreglos
formados al eliminar esta primera letra común, por ejemplo, bcde y bced para las primeras dos
filas. Una lista de estos 24 arreglos aparece en el Cuadro 6
7
ordenado no ordenado
m×(m+1)×···×(m+k−1)
m × m × · · · × m = mk = m+k−1
con reposición 1×2×···×k k
m×(m−1)×···×(m−k+1) m
m×(m−1)×· · ·×(m−k+1)=m[k]
sin reposición 1×2×···×k = k
Supongamos se extraen k fichas de una urna que contiene m fichas. Si miramos esto como un
experimento, una pregunta natural es cuántos resultados posibles hay. Decimos que el resultado es
una muestra de tamaño k, de una población de tamaño m. El proceso de selección de la muestra
se denomina muestreo.
No se puede decir cuantas muestras posibles hay sin información adicional, la que se solicita a partir
de dos preguntas:
• ¿Se distingue entre dos muestras que sólo difieran en el orden? Por ejemplo, si las fichas
extraidas consecutivamente son b, c y a, necesitamos saber si este resultado se considera
distinto de aquel en que se obtienen a, b y c, en ese orden. Si la respuesta a la pregunta
general es positiva decimos que las muestras son ordenadas.
• ¿Puede una ficha extraida de la urna aparecer en futuras extracciones? En este caso decimos
que el muestreo es con reposición, aunque es frecuente utilizar palabras alternativas como
devolución, restitución, o reemplazo.
Cabe hacer notar que en el muestreo sin reposición la muestra obtenida se puede describir como la
respuesta a las dos preguntas siguientes (i) ¿Qué fichas aparecen en la muestra? (ii) ¿En qué orden
aparecen estas k fichas? En el caso especial k = m la respuesta a (i) es única, de modo que el
número de muestras ordenadas coincide con el número de maneras de ordenar o permutar las n
fichas de la urna. Obviamente este número coincide con el número de permutaciones de n objetos.
El Cuadro 7 entrega fórmulas explı́citas para cada uno de los cuatro casos. Como corolario, el
número de permutaciones de m objetos es m!.
Supongamos nos interesa saber de cuántas maneras se pueden distribuir k bolas en m casilleros. La
respuesta es la misma que si nos interesan las maneras en que k bolas pueden ocupar m casilleros.
Esta última interpretación da a problemas de este tipo el nombre de problemas de ocupación. En
Fı́sica las bolas representan partı́culas atómicas y los casilleros los diferentes estados en que estas
partı́culas pueden estar.
8
Al igual que en el caso de la urna, no es posible responder la pregunta sin plantear dos preguntas
previas:
• ¿Se distinguen las bolas entre sı́? Si la respuesta es positiva, se dice que las bolas son dis-
tinguibles. Fı́sicamente esto puede hacerse suponiendo que las bolas son de distinto color,
están numeradas, o tienen asignada una etiqueta. En este caso el resultado debe determi-
nar explı́citamente cuales bolas son ubicadas (caen) en cada casillero. Cuando las bolas son
indistinguibles, sólo interesa saber cuantas caen en cada casillero.
• ¿Se permiten múltiples bolas en algún casillero? De la Fı́sica proviene el uso del término
exclusión. Si la presencia de una bola en un casillero impide que otra bola lo ocupe, decimos
que la distribución de bolas es con exclusión, dado que la presencia de una bola excluye la
posibilidad que otra bola lo ocupe. El nombre viene del Principio de Exclusión de Pauli, que
se usa en Fı́sica Atómica. Permitir múltiples bolas equivale a una distribución sin exclusión.
Hacemos notar que si k > m, entonces es necesario aceptar múltiples bolas. Por otra parte,
k < m garantiza que hayan casilleros vacı́os.
Para k = m, una asignación que no admita múltiples bolas por casillero asigna exactamente una
bola a cada uno. Si las bolas tienen etiquetas numeradas de 1 a m, por ejemplo, esto equivale a una
permutación de las etiquetas, lo que se puede hacer de m! maneras. El Cuadro 8 entrega fórmulas
explı́citas para cada uno de los cuatro casos.
m×(m−1)×···×(m−k+1)
= m
sin restricción m×(m−1)×· · ·×(m−k+1)=m[k] 1×2×···×k k
4 Arreglos y combinaciones
4.1 Definiciones
9
arreglos sin repetición se pueden identificar con las funciones uno a uno de B en A. El término
combinación, por sı́ sólo, significa habitualmente combinación sin repetición.
Mirando al arreglo como una lista, es natural discutir si dos listas que sólo difieren en el orden de sus
elementos se consideran distintas o no (para efecto de contarlas). Cuando la respuesta es negativa,
lo que se cuenta no son los arreglos, sino ciertas clases de arreglos denominados combinaciones,
heredándose el calificativo de sin repetición o con repetición. Formalmente las combinaciones se
identifican con clases de equivalencia formada por arreglos. Por comodidad se suele usar uno de los
elementos de esta clase para representar la combinación, como se ilustra en las tablas 3 y 4. Dos
arreglos son equivalentes si se puede obtener uno a partir del otro permutando las posiciones.
Si decimos que estos arreglos son equivalentes, las combinaciones coinciden entonces con las clases
de equivalencia inducida por esta relación, las que constituyen una partición de un conjunto de
arreglos. Por ejemplo, la permutación 123456 7→ 415362 transforma (a, a, b, c, c, c) en (c, a, c, b, c, a),
de modo que estos arreglos son equivalentes, correspondiendo a una misma combinación.
La admisión o no de repeticiones, ası́ como el uso o no del orden, está asociado con el enunciado
del problema. Por ejemplo, si los objetos son palabras de largo k escritas con m letras el orden es
claramente fundamental. La posibilidad de usar una letra más de una vez corresponde al concepto
de repetición.
Si se lanza k veces un dado o se lanzan k dados simultáneamente, los resultados posibles son
equivalentes siempre que los dados sean distinguibles. Por ejemplo, si hay k = 3 dados de colores
rojo, azul y blanco, basta enumerar los colores, por ejemplo, rojo=1, azul= 2 y blanco =3, el arreglo
(2, 5, 3) se asocia a que el dado rojo muestre 2, el azul muestre 5 y el blanco muestre 3. Si se lanza
un dado tres veces, el arreglo representa los resultados consecutivos. Es claro que se debe admitir
repeticiones.
Es importante señalar que la distinguibilidad de los dados es, en general, un problema conceptual
más que un problema fı́sico. Por ejemplo, si en un juego de Póquer se lanzan 5 dados de distintos
colores, el efecto práctico de estos colores es nulo. Por otra parte, en problemas probabilı́sticos es
difı́cil pensar que pintar a los dados de colores distintos pueda afectar la probabilidad de un suceso
determinado, como obtener un par y un trı́o. Se demuestra en teorı́a de la probabilidad que lo
apropiado es considerar que los arreglos de largo k son los equiprobables. El problema se reduce a
encontrar la cardinalidad de un subconjunto de arreglos definido por ciertas condiciones.
Es útil en combinatoria pensar en un dado virtual de m caras. Por ejemplo, una moneda corresponde
a m = 2 y una ruleta estándar a m = 38. Para m cualquiera, este dado virtual se puede realizar a
través de extracciones sucesivas, con reposición, de una urna con m fichas.
Una caracterización más cómoda es asumir que dos arreglos son equivalentes si contienen los mismos
elementos, y cada uno de estos elementos aparece repetido el mismo número de veces en cada
arreglo. Sea (a1 , a2 , . . . , am ) una enumeración de A, sea Ej = {i/xi = aj } el conjunto de posiciones
que ocupa aj en el arreglo x y sea nj su cardinalidad. Notemos que Ej puede ser vacı́o, en cuyo
caso nj = 0. Dos arreglos son equivalentes si comparten el vector n = (n1 , n2 , . . . , nm ). Esto
quiere decir que n representa la clase de equivalencia a la que pertenece un arreglo, es decir la
10
combinación correspondiente. Por lo tanto, el conjunto de combinaciones de k entre m elementos
está en correspondencia biunı́voca con
m
X
N CREP = {n/ni ≥ 0, i = 1, . . . , m, ni = k} (4.1)
i=1
cuando ellos son sin repetición. En consecuencia, el número de combinaciones es card N CREP
cuando ellas son con repetición y card N SREP cuando ellas son sin repetición.
Por ejemplo, si el conjunto de elementos es {a, b, c, d}, el arreglo cacbca genera a2 bc3 = a2 b1 c3 d0 , y
los exponentes 2, 1, 3, 0 son los ni .
En el caso de un arreglo sin repetición, n está en correspondencia uno a uno con el conjunto
{x1 , . . . , xk }, de modo que una combinación está determinada por el conjunto {x1 , . . . , xk }. Por lo
tanto, el número de estas combinaciones es igual al número de subconjuntos de tamaño k de un
conjunto de tamaño m.
4.5 Notaciones
11
4.6 Reduciendo combinaciones con repetición a combinaciones sin repetición
Las combinaciones con repetición se pueden reducir a combinaciones sin repetición mediante un
truco sencillo pero ingenioso. Este consiste en asociar con el vector n de la combinación con
repetición un vector binario N , de acuerdo a la regla que se describe a continuación.
Supongamos se desea saber cuántas combinaciones sin orden y con repetición como an1 1 · · · anmm
existen. Ası́, de los m posibles elementos, se desea una muestra de tamaño k = n1 + · · · + nm .
Para ello, consideramos inicialmente un arreglo con m ceros. A continuación, intercalamos ni
unos antes del i-ésimo cero, y finalmente eliminamos el último elemento de este arreglo, que es
siempre 0. Por ejemplo, a n = (2, 1, 3, 0), que corresponde a la combinación con repetición a2 bc3 ,
se le asocia (1, 1, 0, 1, 0, 1, 1, 1, 0), a ac2 d3 se le asocia N = (1, 0, 0, 1, 1, 0, 1, 1, 1), mientras que
N = (0, 1, 1, 1, 1, 0, 1, 1, 0) proviene de n = (0, 4, 2, 0), el que a su vez corresponde a la combinación
con repetición b4 c2 . Para simplificar la escritura se puede omitir las comas y los paréntesis. Ası́, a
a2 bc3 , ac2 d3 y b4 c2 , le asociamos 110101110, 100110111 y 011110110, respectivamente.
De este modo, N se puede interpretar como el vector correspondiente a una combinación sin
repetición de k unos de un conjunto de m + k − 1 ceros y unos. Las fórmulas correspondientes se
muestran en el Cuadro 9.
arreglos combinaciones
m×(m+1)×···×(m+k−1) m+k−1
m × m × · · · × m = mk
con repetición 1×2×···×k = k
m×(m−1)×···×(m−k+1)
m×(m−1)×· · ·×(m−k+1)=m[k] = m
sin repetición 1×2×···×k k
6 Principios Básicos
La acción de contar es tan básica que es difı́cil a veces detectar cual es la lógica subyacente. La
suma y la multiplicación (que es una suma repetida) de números naturales son las operaciones
12
Muestras de una población
m Tamaño de la población.
k Tamaño de la muestra.
a1 , a2 , . . . , am Elementos de la población.
bi Etiqueta de i-ésima extracción.
xi Resultado de la i-ésima extracción.
nj Número de veces que aparece aj en la muestra.
Sin repetición Sin reposición.
Arreglo Muestra ordenada.
Combinación Muestra no ordenada.
Bolas en casilleros
m Número de casilleros.
k Número de bolas.
a1 , a2 , . . . , am Etiquetas de casilleros.
bi Etiqueta de la i-ésima bola.
xi Casillero que ocupa la bola bi .
nj Número de bolas en casillero aj .
Sin repetición A lo más 1 bola por casillero.
Arreglo Distribución de bolas distinguibles en casilleros.
r
P
La notación A = Ai significa que (A1 , . . . , Ar ) es una partición ordenada de A, es decir, los
i=1
conjuntos Ai son disjuntos y su unión es igual a A. Con esta notación podemos enunciar:
r
X r
X
card Ai = card Ai . (6.1)
i=1 i=1
Todas las ramas parten de un origen O. La rama que corresponde a x pasa sucesivamente por k
13
nodos. El i-ésimo nodo (o nodo de orden i) está en correspondencia con el único camino que lo
conecta con el origen, de modo que representa (x1 , . . . , xi ). Sin embargo, se le pone al nodo el rótulo
xi , los demás valores pudiendo leerse en los nodos previos del camino que llega a él. Los nodos de
orden 1 (primarios) corresponden a x1 ∈ S1 . Los nodos de orden i que están conectados con el nodo
de orden i − 1 asociado con (x1 , . . . , xi−1 ), están en correspondencia biunı́voca con Si (x1 , . . . , xi−1 ).
Por ejemplo, los nodos secundarios que están conectados con el nodo primario asociado con x1
representan al conjunto S2 (x1 ).
Se dice que un árbol es regular si el número de arcos que sale de un nodo depende sólo del orden
del nodo. Consideremos un árbol regular con ramas de largo k y sea ni el número de arcos que sale
de un nodo de orden (i − 1) (donde el origen es el nodo de orden 0). Entonces el número de ramas
es n1 × n2 × · · · × nk .
7 Demostraciones
Los arreglos con repetición de largo k son elementos de S k , con card S = m. Basta aplicar (6.3)
con Si = S, y card S = m, de modo que ni = m. Esto demuestra que hay mk arreglos de largo k.
14
Para los arreglos sin repetición aplicamos (6.2), con Si (x1 , . . . , xi−1 ) = S \ {x1 , . . . , xi−1 }. Se tiene
entonces que ni = m − i + 1 y por tanto hay m × (m − 1) × · · · × (m − k + 1) = m[k] arreglos de
largo k sin repetición. En particular el número de permutaciones de m elementos es m!.
Consideremos ahora las combinaciones sin repetición. Partamos por el caso de una combinación
que contiene los elementos a, b y d. Ella se identifica con la clase de equivalencia formada por los
arreglos abd, adb, bad, bda, dab y dba, que consta de 6 elementos. Es claro que todas las clases
de equivalencia correspondientes a combinaciones de 3 elementos tienen la misma cardinalidad.
En general, para una combinación de largo k, la clase de equivalencia está formada por todos los
arreglos de largo k basados en k elementos, es decir, por k!. Usando (6.2) con N = m[k] y p = k!,
se obtiene que el número de clases de equivalencia es
m[k]
m! m
= = .
k! k!(m − k)! k
8 Permutaciones
Las permutaciones son mucho más que un simple caso particular de un arreglo sin repetición. Ellas
pueden ser consideradas como conceptos básicos en la teorı́a combinatoria. Desde el punto de vista
abstracto, una permutación sobre un conjunto A se puede identificar con una transformación uno
a uno, digamos f, de A sobre sı́ mismo. Si (a1 , . . . , am ) es una enumeración de A, la función f
está determinada por el arreglo (f (a1 ), . . . , f (am )) ∈ Am . Recı́procamente, un arreglo x ∈ Am
determina f mediante f (ai ) = xi , i = 1, . . . , m. Esto justifica el uso del término permutación en
el contexto de arreglos sin repetición. Imaginando los elementos de A como bolas que ocupan los
casilleros bj , j = 1, 2, . . . , m, podemos determinar un arreglo de dos maneras
• Para cada elemento a = aj de A indicar la posición bi que él ocupa, es decir, el número i que
satisface xi = aj .
La acción de barajar un naipe inglés (sin comodines) equivale a aplicar sucesivas permutaciones
a un conjunto de 52 elementos. Ordenemos las pintas como ♠: Pique (P), ♥: Corazón (C), ♦:
Diamante (D), y ♣: Trébol (T). Escribamos además los números del 1 al 13, identificando J, Q y
K con 11, 12 y 13, respectivamente. El orden lexicográfico es
Pique 1–13 1P 2P 3P 4P 5P 6P 7P 8P 9P 10P JP QP KP
Corazón 14–26 1C 2C 3C 4C 5C 6C 7C 8C 9C 10C JC QC KC
Diamante 27–39 1D 2D 3D 4D 5D 6D 7D 8D 9D 10D JD QD KD
Trébol 40–52 1T 2T 3T 4T 5T 6T 7T 8T 9T 10T JT QT KT
15
Si el as de diamantes pasa a ocupar la posición en que originalmente estaba el as de corazón,
podemos escribir esto como f (27) = 14. Procediendo análogamente con todas las cartas, se define
una función f del conjunto {1, 2, . . . , m} sobre sı́ mismo, donde m = 52, la cual representa el efecto
de barajar el naipe.
Si se etiquetan las m fichas de una urna, la extracción secuencial de las m fichas define una de las
m! permutaciones. Si la extracción se realiza al azar, este esquema permite barajar un naipe al
azar sin ser experto en el arte de barajar.
Digamos que dos arreglos x e y en Am son equivalentes, lo que denotamos por x ∼ y, si y sólo
si xi = yi , i = 1, . . . , k. Cada clase de equivalencia está asociada con el arreglo (x1 , . . . , xk ). Por
lo tanto, el número de arreglos sin repetición es igual al número de clases de equivalencia. Ahora
bien, dado un arreglo x, todos los y ∼ x se obtienen permutando las últimas n − k componentes
de x. Por ejemplo, si m = 7 y k = 4, los arreglos equivalentes con 2361745 son 2361745, 2361754,
2361475, 2361457, 2361574 y 2361547. Ellos están en correspondencia con 745, 754, 475, 457, 574
y 547, respectivamente, que son las 3! = 6 permutaciones de {4, 5, 7}. En general, los 7! = 5040
arreglos de largo 7 se agrupan en clases de tamaño 6, de modo que hay 5040 6 = 840 tales clases.
9 Coeficientes multinomiales
9.1 Naipes
En muchos juegos de naipe, las 52 cartas del naipe se dividen por partes iguales entre 4 jugadores
y es irrelevante el orden en que le lleguen las cartas a un jugador. La pregunta natural es cuántas
reparticiones distintas hay. Es conveniente pensar que el naipe se baraja y luego se ponen las
52 cartas en sucesión para formar un arreglo x. Las primera 13 cartas, es decir, x1 , x2 , . . . , x13 le
corresponden al primer jugador, las segundas 13, esto es, x14 , x15 , . . . , x26 le corresponden al segundo
jugador, y ası́ sucesivamente. Como el orden de las cartas de cada jugador no interesa, todos los
arreglos equivalentes con x se obtienen permutando separadamente las cartas de cada jugador. Por
la regla multiplicativa, las clases de equivalencia tienen cardinalidad 13! × 13! × 13! × 13!. Como
hay un total de 52! arreglos posibles, el número de distribuciones distintas es
52!
.
13! × 13! × 13! × 13!
16
Notemos que el no considerar el orden para un jugador es equivalente a considerar el conjunto de
cartas que le corresponde.
9.2 Generalización
17
Para un dado de r caras, cada resultado es un arreglo x de largo n. El número de arreglos
que cumplen con la condición que la i-ésima cara aparezca ni veces está también dado por
(9.1).
Los resultados anteriores se pueden aplicar para demostrar el Teorema del Multinomio, es decir la
expansión n
r r
n
X X Y
xi = c(n) xj j . (9.2)
j=1 n j=1
donde n = (n1 , n2, . . . , nr ). Interesa encontrar una fórmula para el coeficiente c(n1 , . . . , nr ) y para
el número de términos en la expansión.
(x1 +x2 +x3 +x4 )5 = (x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )
×(x1 +x2 +x3 +x4 )×(x1 +x2 +x3 +x4 )
Si partimos de los arreglos r, declaramos que dos arreglos son equivalentes si dan origen al mismo
monomio, es decir al mismo n. De esta forma, el coeficiente de x1 x22 x23 es
5 120
= = 30.
12200 1×2×2×1×1
18
Por (4.1), el número de términos distintos en la expansión del multinomio coincide con el número
de combinaciones con repetición de largo n de un conjunto de k elementos, es decir,
n+k−1
.
k−1
X n n
n i j
X n i n−i
(a + b) = ab = ab (9.4)
ij i
i+j=n i=1
X n
= kn , (9.5)
n1 ,...,nk
n1 n2 · · · nk
y
n
X n
= 2n . (9.6)
i
i=0
19