Completo PDF

UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág.
Combinatoria
1 Principios básicos
La combinatoria es una disciplina que se ocupa de estudiar técnicas de conteo y enumeración de
conjuntos, en especial cuando la cantidad de elementos que poseen es muy grande (de modo que una
lista extensiva serı́a imposible o impráctica). Aplicada a la teorı́a de probabilidades permite en muchos
casos determinar la cantidad de elementos de un espacio muestral finito y la cantidad de elementos de
algún evento de interés.
Presentamos dos reglas básicas de la combinatoria:
Principio de la multiplicación
Supongamos que un experimento consta de dos etapas. Si como resultado de la primera etapa pueden
darse n resultados posibles y si, independientemente del resultado particular de la primera etapa, la
segunda etapa puede dar lugar a m resultados posibles, entonces la cantidad de posibles resultados
del experimento es n · m
El principio se extiende de manera natural a un experimento en r etapas, donde la i-ésima etapa
tiene una cantidad ni de posibles resultados (independientemente de los resultados particulares
de las etapas anteriores), donde i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del
r
Q
experimento es ni
i=1
Ejemplo: Una caja contiene 5 cartas distintas de una baraja española. Se extraen dos cartas al azar.
Si se realiza la extracción con reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5·
5 = 25 maneras distintas.
Si se realiza la extracción sin reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5 ·
Principio de la adición
Un experimento puede llevarse a cabo de dos formas. Cuando se lo realiza de una forma conduce
a n resultados posibles. Cuando se lo realiza de la otra forma conduce a m resultados posibles.
Entonces eligiendo una u otra forma para realizarlo, el experimento da lugar a n + m resultados
posibles.
El principio de la adición también se generaliza a un experimento que se realiza de una entre r maneras
posibles, siendo ni la cantidad de posibles resultados cuando se lo realiza de la i-ésima forma, donde
Pr
i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del experimento es ni
i=1
Ejemplo: Para viajar de Buenos Aires a San Pablo se puede optar por tres compañı́as aéreas o por
cinco empresas de omnibus ¿ Cuántas maneras diferentes existen para contratar el viaje? Rta: 3 +
2 Variaciones
Se tienen n objetos diferentes y se quiere ordenar k de ellos en fila, siendo k ≤ n. Cada posible
ordenamiento se denomina una variación de los n objetos tomados de a k. Para calcular la cantidad
total de variaciones utilizamos el principio de la multiplicación: Para el primer lugar de la fila hay
n posibles maneras de llenarlo con un objeto. Independientemente de cuál sea el objeto que ocupe
el primero lugar, para llenar el segundo lugar de la fila disponemos ahora de n − 1 objetos dado que
uno de los objetos ya fue utilizado para cubrir el primer lugar. Independientemente de cuáles hayan
sido los objetos que llenan los dos primeros lugares de la fila, para cubrir el tercer lugar disponemos de
n − 2 objetos pues dos ya han sido utilizados. Ası́ sicesivamente de modo que aplicando el principio
Prof.J.Gastón Argeri 1
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 2
de la multiplicación, la cantidad total de posibles variaciones de n tomados de a k resulta ser:

n!
(n)k = n · (n − 1) · (n − 2) · · · · · [n − (k − 1)] =
(n − k)!
Ejemplo: En un club se postulan cinco miembros, digamos A,B,C,D y E, para ocupar las posiciones de
presidente y secretario. Para identificar todas las posibles maneras de elegir entre ellos un presidente
y un secretario, formamos las variaciones de 5 tomadas de a 2. En este caso la ”fila” tiene en primer
lugar al presidente y en segundo lugar al secretario. El listado de las 5 · 4 = 20 variaciones es el
siguiente:
AB AC AD AE
BA BC BD BE
CA CB CD CE
DA DB DC DE
EA EB EC ED
3 Permutaciones
Un caso particular de variaciones de n objetos tomados de a k se presenta cuando k = n. En tal
caso las variaciones reciben el nombre de permutaciones de n objetos y corresponden a las diferentes
maneras de ordenar en fila n objetos diferentes. La cantidad de permutaciones de n objetos resulta
entonces ser:
n · (n − 1) · (n − 2) · · · · · [n − (n − 1)] = n!
Ejemplo: La cantidad de números de cuatro cifras que pueden formarse a partir de los dı́gitos
3, 5, 6, 8 sin repetir ninguno de ellos resulta ser 4! = 24. Damos un listado de dichos números:
3568 5368 5638 5683

3586 5386 5836 5863
3658 6358 6538 6583
3685 6385 6835 6853
3856 8356 8536 8563
3865 8365 8635 8653
4 Combinaciones
Dados n objetos diferentes, cada conjunto formado por k de los n elementos se dice una combinación
de los n elementos tomados de a k. La diferencia entre variaciones y combinaciones reside en el hecho
que las combinaciones no tienen en cuenta el orden relativo entre los elementos (ya no podemos pensar
en un ”fila”). Por ejemplo, si se tienen cuatro objetos A,B,C y D las posibles combinaciones de a 2
son:
AB AC AD
BC BD
CD
Compárese esto con las posibles variaciones de 4 tomados de a 2:
AB BA AC CA AD DA
BC CB BD DB
CD DC
Para determinar la cantidad de combinaciones de n tomados de a k procedemos de modo indirecto del

modo siguiente: Anotemos provisoriamente x a dicha cantidad. Para una dada combinación existen
k! maneras diferentes de ordenar sus elementos en una fila. Además, combinaciones diferentes darán
lugar a filas con diferentes configuraciones, dado que diferirán en al menos uno de los objetos presentes.
De esta manera, tomando todas las posibles combinaciones y ordenando en fila los k objetos en cada
una de ellas, obtendremos la totalidad de posibles ordenamientos en fila de k de los n objetos, es
n!
decir la totalidad de variaciones de n tomados de a k. Por lo tanto: x · k! = (n−k)!
Despejando x resulta que la cantidad de posibles¡n¢ combinaciones de n objetos tomados de a k,
número que representaremos con el sı́mbolo k es:
µ ¶
n n!
=
k k!(n − k)!
Este número se denomina número combinatorio n sobre k.
En
¡4¢ el ejemplo precedente n = 4 , k = 2 de modo que la cantidad de posibles combinaciones es
4! 4!
2
= 2!2!
= 4
= 3! = 6
Propiedad 1 µ ¶ µ ¶
n n
=
k n−k
Dem:
La demostración queda a cargo del lector.
Propiedad 2 µ ¶ µ ¶ µ ¶
n n n+1
+ =
j−1 j j
Dem:
¡ n ¢ ¡n¢ n! n!
j−1
+ j
= (j−1)!(n−j+1)!
+ j!(n−j)!
=
n! n!
= (j−1)!(n−j)!(n−j+1)
+ (j−1)!j(n−j)!
=
³ ´
n! 1 1
= (j−1)!(n−j)! n−j+1
+ j
=
n! j+n−j+1
= (j−1)!(n−j)!
· j(n−j+1)
=
n!(n+1) (n+1)! ¡n+1¢

= (j−1)!j(n−j)!(n+1−j)
= j!(n+1−j)!
= j
¥
5 Binomio de Newton
Dados números a, b ∈ R sabemos que el desarrollo del cuadrado del binomio a + b viene dado por:
(a + b)2 = a2 + 2ab + b2
Podemos reescribir este desarrollo como:

µ ¶ µ ¶ µ ¶ 2 µ ¶
2 2 0 2 2 1 1 2 2 0
X 2
(a + b) = a b + a b + a b = ak b2−k
0 1 2 k=0
k
Análogamente para el desarrollo del cubo de un binomio:
(a + b)3 = a3 + 3a2 b + 3ab2 + b3
que también puede reescribirse como:

µ ¶ µ ¶ µ ¶ µ ¶ 3 µ ¶
3 3 0 3 3 1 2 3 2 1 3 3 0
X 3
(a + b) = a b + a b + a b + a b = ak b3−k
0 1 2 3 k=0
k
La fórmula del binomio de Newton generaliza lo anterior al desarrollo de cualquier potencia natural
de un binomio y se expresa de la siguiente manera.
Teorema 1 (Fórmula del binomio de Newton)

Para cualesquiera números a, b ∈ R y cualquier número n ∈ N se verifica:
n µ ¶
n
X n
(a + b) = ak bn−k
k=0
k
Dem:
Por inducción respecto de n demostraremos que la proposición
n µ ¶
n
X n
p(n) : ∀a, b ∈ R, (a + b) = ak bn−k
k=0
k
es verdadera para todo número natural n.

Paso base: Probemos que p(1) es V.
1 µ ¶
1
X 1
p(1) : ∀a, b ∈ R, (a + b) = ak b1−k
k=0
k
El miembro izquierdo de la igualdad es simplemente a + b. El miembro derecho es:
µ ¶ µ ¶
1 0 1 1
a b + a 1 b0 = b + a
0 1
de modo que p(1) es verdadera.

(HI)Hipótesis inductiva: Supongamos que p(n) es verdadera.
Ahora probaremos que necesariamente p(n + 1) es verdadera, bajo el supuesto (HI). Para ello
procedemos ası́:
n ¡ ¢
P n
(a + b)n+1 = (a + b)(a + b)n = (a + b) k
ak bn−k =
k=0
n ¡ ¢
P n ¡ ¢
P
n n
= a k
ak bn−k + b k
ak bn−k =
k=0 k=0
n ¡ ¢
P n ¡ ¢
P
n n
= k
ak+1 bn−k + k
ak bn−k+1 =
k=0 k=0
n+1 ¡ n ¡ ¢
P n ¢ j n−j+1 P n
= j−1
a b + j
aj bn−j+1 =
j=1 j=0
¡n¢ n ¡ n ¡ ¢
P n ¢ j n−j+1 ¡n¢ P n
= n
an+1 + j−1
a b + 0
bn+1 + j
aj bn−j+1 =
j=1 j=1
( )
¡n¢ n h¡ ¡n¢i
P n ¢ ¡n¢
= 0
bn+1 + j−1
+ j
aj bn−j+1 + n
an+1 =
j=1
¡n¢ n ¡
P n+1¢ ¡n¢
= 0
bn+1 + j
aj bn−j+1 + n
an+1 =
j=1
¡n+1¢ n ¡
P n+1¢ ¡n+1¢
= 0
a0 bn+1 + j
aj bn−j+1 + n+1
an+1 b0 =
j=1
n+1
P ¡n+1¢
= j
aj bn+1−j
j=0
que muestra que p(n + 1) es verdadera. Luego, por inducción completa p(n) es verdadera para
todo n ∈ N ¥
6 Permutaciones con repetición

Supongamos que queremos determinar cuántas palabras de cuatro letras pueden formarse con las le-
tras de la palabra AZAR. Aquı́ entendemos por ”palabra” cualquier secuencia que utilice las cuatro
letras de AZAR, tenga o no significado en algún lenguaje. Para averiguar cuántas pueden formarse,
digamos x (a determinar), consideremos el siguiente razonamiento: Si bien la palabra AZAR posee
sólo tres letras diferentes, a saber A,Z,R, momentáneamente distingamos las dos apariciones de la
letra A, por ejemplo podrı́amos ”pintar” de dos colores diferentes las dos letras A. En tal caso ya
sabemos que la cantidad de posibles ordenamientos de las cuatro letras distintas es 4!. Ahora bien,
cada ordenamiento de los x (que no distinguen entre ambas A) da lugar de manera natural a 2!
ordenamientos (que sı́ distinguen entre ambas A), por simple permutación de las dos letras A entre
4!
sı́. Por lo tanto podemos afirmar que: x · 2! = 4! Se deduce que: x = 2!
El mismo tipo de razonamiento se generaliza cuando hay varias letras (objetos) repetidas. For-
malmente: Si se tienen r objetos diferentes de los cuales se va a repetir el primero n 1 veces,
el segundo n2 veces, · · · , el r-ésimo nr veces, la cantidad total de configuraciones en fila de
n = n1 + · · · + nr objetos con las repeticiones especificadas anteriormente es:
(n1 + n2 + · · · + nr )!
n1 ! n 2 ! · · · n r !
El número anterior se denomina coeficiente multinomial y suele anotarse también como

µ ¶
n (n1 + n2 + · · · + nr )!
=
n1 , n 2 , · · · , n r n1 ! n 2 ! · · · n r !
4!
Por ejemplo, con las letras de la palabra AZAR pueden formarse 2!
= 12 palabras diferentes. Para
convencernos las listamos todas:
AZAR AZRA AAZR
AARZ ARZA ARAZ
ZAAR ZARA ZRAA
RAAZ RAZA RZAA
Teorema 2 (Teorema multinomial) Para cualesquiera números x1 , x2 , · · · , xr ∈ R y cualquier

número n ∈ N se verifica
µ ¶
X n
n
(x1 + x2 + · · · + xr ) = xk11 · · · xkr r
0≤k ,··· ,k r ≤n
k 1 , · · · , k r
1
k1 +···+k r =n
7 Distribución de bolillas en urnas

Diversos problemas de ı́ndole combinatorio pueden representarse mediante problemas ”modelo” basa-
dos en disposiciones de bolillas en urnas.
7.1 Disposiciones de n bolillas distintas en r urnas distintas

7.1.1 Más de una bolilla es admisible por urna
En este caso simplemente se trata de un experimento en n etapas: La primera etapa consiste en
ubicar la primera bolilla en alguna de las r posibles urnas. La segunda etapa consiste en colocar la
segunda bolilla en alguna de las r urnas aún disponibles, etc. De manera que la cantidad de posibles
disposiciones es en total
n
| · r{z· · · r} = r
r
n
7.1.2 A lo sumo una bolilla es admisible por urna

Este caso exige que n ≤ r. Para la primera bolilla hay r posibles urnas donde ubicarla, para la
segunda bolilla hay sólo r − 1 urnas vacı́as para ubicarla, para la tercer bolilla hay sólo r − 2 urnas
vacı́as disponibles, etc. De modo que la cantidad total de posibles disposiciones es r · (r − 1) · (r −
2) · · · [r − (n − 1)] es decir igual al número de variaciones de r tomados de a n.
7.2 Disposiciones de n bolillas idénticas en r urnas distintas

7.2.1 No pueden quedar urnas vacı́as
En este caso debe ser n ≥ r pues de lo contrario necesariamente quedarı́an urnas vacı́as. Podemos
asimilar este problema de combinatoria representando las bolillas indistinguibles por asteriscos ”∗” y
las separaciones entre urnas mediante barras ”|” Ası́ por ejemplo una configuración con tres urnas y
cinco bolillas podrı́a representarse por: ∗ ∗ | ∗ | ∗ ∗ Esto quiere simbolizar de algún modo que en la
primera urna hay exactamente dos bolillas, en la segunda urna exactamente una bolilla y en la tercera
urna exactamente dos bolillas.
Si disponemos las bolillas en una hilera, ubicar las n bolillas idénticas en las r urnas diferentes
equivale a ubicar r − 1 separadores ”|” en los n − 1 espacios entre bolillas consecutivas. Esto
¡n−1¢
puede realizarse de r−1
maneras distintas.
Ejemplo: Distribuir seis bolillas idénticas en tres urnas diferentes, sin permitir urnas vacı́as. Listamos
las posibilidades:
∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗∗ ∗| ∗ ∗ ∗ | ∗ ∗ ∗| ∗ ∗ ∗ ∗|∗ ∗ ∗ | ∗ | ∗ ∗∗
∗ ∗ | ∗ ∗| ∗ ∗ ∗ ∗ | ∗ ∗ ∗ |∗ ∗ ∗ ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗|∗ ∗ ∗ ∗ ∗ | ∗ |∗
Ejemplo: Hallar todas las descomposiciones del número 8 como suma de tres números naturales.
Considerar que el orden relativo de los tres términos en la descomposición es relevante.
Se tendrán las siguientes posibles descomposiciones:
1|1|111111 1|11|11111 1|111|1111 1|1111|111 1|11111|11 1|111111|1 11|1|11111

1+1+6 1+2+5 1+3+4 1+4+3 1+5+2 1+6+1 2+1+5
11|11|1111 11|111|111 11|1111|11 11|11111|1 111|1|1111 111|11|111 111|111|11
2+2+4 2+3+3 2+4+2 2+5+1 3+1+4 3+2+3 3+3+2
111|1111|1 1111|1|111 1111|11|11 1111|111|1 11111|1|11 11111|11|1 111111|1|1
3+4+1 4+1+3 4+2+2 4+3+1 5+1+2 5+2+1 6+1+1
¡8−1¢ ¡ 7¢ 7!
Es decir un total de 3−1
= 2
= 2!5!
= 21 descomposiciones.
7.2.2 Pueden quedar urnas vacı́as

También aquı́ podemos pensar en bolillas ∗ y separadores entre urnas |, pero a diferencia de la
situación previa, en este caso los separadores pueden quedar contiguos, como por ejemplo en la con-
figuración siguiente: ∗ ∗ || ∗ | ∗ ∗ ∗ | que corresponde a n = 6 bolillas idénticas en r = 5 urnas
distintas, donde hay 2 bolillas en la primer urna, la segunda urna está vacı́a, 1 bolilla en la tercer
urna, 3 bolillas en la cuarta urna y la quinta urna está vacı́a.
Se trata pues de disponer en fila n sı́mbolos ∗ y r − 1 sı́mbolos | Es¢ decir
¡n+r−1 en un¢ total de
¡n+r−1
n + r − 1 lugares. Luego, la cantidad de posibles disposiciones es n
= r−1
puesto
que basta con elegir los lugares que serán ocupados por ∗ (o equivalentemente elegir los lugares a ser
ocupados por |).
Ejemplo: Se desea invertir un capital de $20.000 en cuatro posibilidades de inversión (negocios). Se

desea además que las inversión se realice en múltiplos de $1.000
a) Si se quiere invertir la totalidad del capital, ¿ de cuántas formas diferentes puede realizarse?
Si ∗ representa una inversión de $1.000 el problema se asimila al de n = 20 bolillas y
r = 4 urnas y donde pueden quedar urnas vacı́as (negocios en los cuales se decide no invertir
¡ningun
20+4−1¢
monto).
¡23¢Entonces la cantidad total de maneras posibles de invertir el capital de $20.000 es
20
= 20
= 1.771
b) Si se quiere invertir la totalidad o parte del capital, ¿ de cuántas formas diferentes puede realizarse?
El análisis es similar al anterior sólo que ahora no es obligatorio invertir todo el capital disponible.
Podemos entonces pensar que la parte del capital que se decida no invertir es un ”quinto negocio
posible”. De este modo se trata de un problema de disposición
¡ de
¢ n ¡= 20 bolillas en r = 5 urnas y
24¢
donde no pueden quedar urnas vacı́as. Hay un total de 20+5−1 20
= 20
= 10.626 posibles maneras
de invertir el capital (Una de dichas maneras consiste en no invertirlo en absoluto).
Teorı́a axiomática de probabilidades
8 Experimentos aleatorios - Espacio muestral - Eventos

Denominaremos experimento aleatorio a todo proceso (procedimiento, experimento, etc.) que con-
duzca a un resultado que cumpla con las siguientes caracterı́sticas:
• El proceso es repetible en idénticas condiciones una cantidad ilimitada de veces. Cada realización
particular del proceso conduce a un único resultado.
• Se conoce a priori (es decir previamente a cualquier realización particular) todos los posibles
resultados del experimento.
• El resultado del experimento está sujeto al azar. Es decir que es imposible determinar a priori
(es decir previamente a cualquier realización particular) cuál de todos los resultados posibles del
experimento ocurrirá.
Definición 1 Llamaremos espacio muestral asociado a un experimento aleatorio a cualquier conjunto

que caracterice todos los posibles resultados de dicho experimento. El espacio muestral frecuentemente
se anota mediante la letra griega omega mayúscula Ω.
En este contexto caracterizar significa que cada elemento del espacio muestral se corresponde con uno
y sólo un posible resultado del experimento y a todo posible resultado del experimento le corresponde
uno y sólo un elemento del espacio muestral. En este sentido podrı́amos decir que un espacio muestral
es una forma de ”codificar” los posibles resultados del experimento.
Ejemplo:
1) Se arroja un dado una vez y se observa el número que sale. Claramente es un experimento
aleatorio pues cada realización particular conduce a un único número saliente (es imposible que
arrojemos el dado y salgan simultáneamente dos o más números) y además:
• El experimento es reproducible en idénticas condiciones una cantidad arbitraria de veces

(Al menos una versión idealizada del experimento, por ejemplo con un dado imaginario que
nunca se desgasta o deforma).
• Antes de arrojar el dado se sabe de antemano que los posibles resultados son los números
1, 2, 3, 4, 5, 6.
• El resultado del lanzamiento es al azar puesto que es imposible determinar el número que
saldrá, con anterioridad al lanzamiento.
Un espacio muestral asociado a este experimento puede ser Ω = {1, 2, 3, 4, 5, 6}
2) Se arroja un dado dos veces y se anota el puntaje total (suma de los números obtenidos en ambos
lanzamientos). En este caso un espacio muestral es Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
3) Se arroja un dado hasta obtener por primera vez un 1 y se registra la cantidad de lanzamientos
necesarios. En este ejemplo un espacio muestral es Ω = N
4) Desde una distancia de 3 metros se arroja un dardo a un blanco circular de radio 0, 25 metros.
Suponiendo que el dardo da en el blanco, se registra la distancia desde el punto de impacto hasta
el centro del blanco. En este caso un espacio muestral es Ω = [0 ; 0, 25]
Un conjunto infinito A se dice numerable si sus elementos pueden ponerse en correspondencia 1-1
f
con los números naturales, es decir si existe alguna función N → A con las propiedades siguientes:
i) ∀a ∈ A , ∃n ∈ N tal que a = f (n)
ii) ∀m, n ∈ N m 6= n ⇒ f (m) 6= f (n)
En tal caso la función f determina una ”enumeración” de A. Si en lugar de f (n) anotamos

an entonces los elementos de A son precisamente los de la secuencia infinita a1 , a2 , a3 , · · · . Es
decir A = {a1 , a2 , a3 , · · · }. Un conjunto que o bien sea finito o bien sea infinito numerable se dice
un conjuto a lo sumo numerable. Si se omite la condición ii) pero conservando la i), se dice que f es
una función suryectiva o sobre A. Se puede demostrar que A es a lo sumo numerable sii existe alguna
función de N sobre A.
Ejemplo: Mostremos que los siguientes conjuntos infinitos son numerables: N, Z, 2N, Q
f
• Basta considerarla función identidad N → N
f £n¤
• Por ejemplo tomando la función N → Z dada por f (n) = (−1)n 2
f
• Tomando N → 2N dada por f (n) = 2n
• En este caso es más engorroso encontrar una fórmula explı́tica para una fución de N sobre Q.
Es más secillo presentar un gráfico ilustrativo de tal función:
²²
1/1 // 1/2 1/3 // 1/4 1/5 // · · ·
z z << z z << { {
z z z z {
zzz zzz zzz zzz {{{
z z z z {
||zz zz ||zz zz }}{{
2/1 // 2/2 2/3 2/4 2/5 ·== · ·
zz zz<< zz {{{
zz zz zz {{
zzz zzz zzz {{{
||z z ||z {
3/1 oo 3/2 3/3 3/4 3/5 ···
zz<< zz zz<< {{{
zz zz zz {{
zzz zzz zzz {{{
²² z ||z z }}{
4/1 // 4/2 4/3 4/4 4/5 ···
<< {==
zzz zzz zzz {{{
z z z {
zz zz zz {{
||zz zz ||zz {{
5/1 oo 5/2 5/3 5/4 5/5 ···
{{== {{ {{== |||
{ { { ||
{{ {{ {{ ||
²² {{{ {{{ {{{ |
{ { { |
.. // .. { .. }}{ .. { .. ~~|
. . . . .
Vamos a distinguir dos tipos de espacios muestrales de acuerdo a su cardinalidad (es decir su cantidad
de elementos): 
 Finito o infinito numerable
Ω

Infinito no numerable
En los ejemplos 1) y 2) los espacios muestrales considerados son finitos. En el ejemplo 3) el espacio
muestral es infinito numerable. En el ejemplo 4) el espacio muestral es infinito no numerable.
Momentáneamente llamaremos evento o suceso a cualquier subconjunto del espacio muestral Ω. Más
adelante precisaremos este concepto. Dos eventos de particular interés son el evento Ω (denominado
evento seguro o cierto) y el evento ∅ (denominado evento vacı́o o imposible). Los elementos ω ∈ Ω del
espacio muestral dan lugar a los denominados eventos simples, que son los eventos de la forma {ω}.
Todo evento no simple se dice compuesto. Los eventos suelen anotarse empleando las primeras letras
del alfabeto en mayúsculas: A, B, C, D, etc.
Ejemplo:
1) Lanzamiento de un dado. Podemos considerar los siguientes eventos:
A = ”sale número par” = {2, 4, 6}

B = ”sale múltiplo de tres” = {3, 6}
C = ”sale 3” = {3} (suceso elemental)
2) Lanzamiento de dos dados. Podemos considerar los siguientes eventos:
A = ”el puntaje total excede 8” = {9, 10, 11, 12}

B = ”sale un par y un impar” = {3, 5, 7, 9, 11}
3) Arrojar una moneda hasta obtener ”cara” por primera vez y registrar la cantidad de lanzamientos
que fueron necesarios. Eventos que podrı́an interesarnos:
A = ”se requiere a lo sumo 5 lanzamientos” = {1, 2, 3, 4, 5}

B = ”se requiere una cantidad impar de lanzamientos” = {3, 5, 7, 9, 11, 13, · · · }
3) Lanzamiento del dardo descrito anteriormente. Un evento en el que podemos estar interesados
es A = {x ∈ Ω : x ≤ 0, 2}
Consideremos un evento A en el contexto de un experimento aleatorio. Supongamos que la realización

del experimento conduce a un resultado ω ∈ Ω. Cuando ω ∈ A se dice que el resultado del
experimento es favorable a A o que ha ocurrido A en dicha realización. Caso contrario se dice
que el resultado ω es desfavorable a A o que no ha ocurrido A en dicha realización. Notemos
que el hecho de que ocurra cierto evento no quita la posibilidad que ocurran también, en la misma
realización, otros eventos.
Ejemplo: Un experimento consiste en lanzar una moneda dos veces de modo que
Ω = {(C, C), (C, S), (S, C), (S, S)}
donde C = ”sale cara” , S = ”sale ceca”, entonces si en determinada realización es ω = (C, C) y si

A = ”la primera moneda sale cara” = {(C, C), (C, S)} y B = ”la segunda moneda sale ceca” =
{(C, C), (S, C)}, entonces han ocurrido tanto el evento A como el evento B. Es decir que el
resultado del experimento ha sido favorable tanto al evento A como al evento B.
9 Álgebra de eventos
Sean A, B eventos. A partir de ellos construimos nuevos eventos del modo siguiente:
• El complemento de A es el evento Ac = {ω ∈ Ω : ω 6∈ A}. Es el evento que ocurre cada vez

que no ocurre A. Los resultados favorables a Ac son los desfavorables al A y viceversa. El
complemento de A también suele anotarse A0 .
• La unión de A con B es el evento A ∪ B = {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}. Es el evento

que ocurre cuando al menos uno de los dos sucesos A, B ocurre. Es decir que A ∪ B ocurre
sii o bien ocurre A pero no ocurre B, o bien ocurre B pero no ocurre A, o bien ocurren
simultáneamente tanto A como B.
• La intersección de A con B es el evento A ∩ B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es

el evento que ocurre cuando A y B ocurren simultáneamente. La intersección de A con
B también suele anotarse AB
• La diferencia de A con B es el evento A \ B = {ω ∈ Ω : ω ∈ A ∧ ω 6∈ B}. Es el

evento que ocurre cuando ocurre A y simultáneamente no ocurre B.
Ejemplo: En el último ejemplo se tiene:
Ac = {(S, C), (S, S)}
A ∪ B = {(C, C), (C, S), (S, S)}
A ∩ B = {(C, S)}
A \ B = {(C, S)} y B \ A = {(S, C)}
Más generalmente, sean A1 , A2 , · · · , An eventos.
• La unión de tales eventos es el evento

n
[
Ai = A1 ∪ · · · ∪ An = {ω ∈ Ω : ω ∈ A1 ∨ ··· ∨ ω ∈ An }
i=1
• La intersección de tales eventos es el evento

n
\
Ai = A1 ∩ · · · ∩ An = {ω ∈ Ω : ω ∈ A1 ∧ ··· ∧ ω ∈ An }
i=1
Dicha intersección también se anota A1 A2 · · · An
Más generalmente aún necesitaremos definir uniones e intersecciones de una cantidad numerable de
eventos: Sea {An } una sucesión de eventos.
• La unión de dichos eventos es el evento que ocurre cuando ocurre al menos uno de los eventos
de la sucesión:
∞
[
An = {ω ∈ Ω : ∃n ∈ N , ω ∈ An }
n=1
• La intersección de dichos eventos es el evento que ocurre cuando ocurren simultáneamente todos
y cada uno de los eventos de la sucesión:
∞
\
An = {ω ∈ Ω : ∀n ∈ N , ω ∈ An }
n=1
Ejemplo: Un experimento aleatorio consistente en arrojar una moneda tantas veces como sea necesario
hasta obtener por primera vez ”cara”. Podemos considerar:
Ω = {C, SC, SSC, SSSC, SSSSC, · · · }
Consideremos los siguientes eventos: An = ”sale C en el lanzamiento 2n-ésimo”

En este caso:
∞
[
An = ”sale C en una cantidad par de lanzamientos”
n=1
Definición 2 Los eventos A y B se dicen incompatibles o (mutuamente) excluyentes o disjuntos

si es imposible que ocurran simultáneamente. Es decir que cada vez que ocurre A no ocurre B y
cada vez que ocurre
U B no ocurre A. Para destacar tal situación nosotros anotaremos el evento unión
A ∪ B como A B.
Más generalmente dada una sucesión {An } de eventos, se dice que dichos eventos son dos a dos
incompatibles o (mutuamente) excluyentes o disjuntos dos a dos sii se verifica:
∀m, n ∈ N , m 6= n ⇒ A m ∩ An = ∅
∞
S U∞
Para destacar tal situación anotaremos la unión An como n=1 An
n=1
Dados eventos A, B se dice que A está contenido o incluido en B o también que B contiene o
incluye a A sii cada vez que ocurre A también ocurre B (pero no necesariamente a la inversa). Tal
relación entre eventos se simboliza A ⊆ B o también B ⊇ A. En otras palabras: A ⊆ B sii todo
resultado favorable a A es también favorable a B. En la práctica para demostrar que A ⊆ B es
frecuente tomar un elemento genérico (es decir, no un elemento particular) de A y demostrar que
necesariamente también pertenece a B. Naturalmente, dos eventos son iguales sii A ⊆ B y B ⊆ A.
Por lo tanto una manera de probar la igualdad entre dos eventos consiste en probar que cada uno de
ellos está contenido en el otro.
Damos a continuación un listado de propiedades muy sencillas cuyas demostraciones formales omiti-
mos:
A⊆A
A⊆B ∧ B⊆C ⇒ A⊆C
A∩A=A ; A∪A=A
A∪B =B∪A ; A∩B =B∩A
A ∪ (B ∪ C) = (A ∪ B) ∪ C ; A ∩ (B ∩ C) = (A ∩ B) ∩ C
∅⊆A⊆Ω
A∩B ⊆A⊆A∪B
∅∩A=∅ ; ∅∪A=A
Ω∩A=A ; Ω∪A=Ω
(Ac )c = A
(A ∪ B)c = Ac ∩ B c ; (A ∩ B)c = Ac ∪ B c
A ∪ B = A ∪ (B \ A)
B = (B ∩ A) ] (B \ A)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) ; A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
n
µ n ¶
S U c c
Ai = A 1 ] A1 · · · An−1An
i=1 i=2
µ ∞
¶c ∞
µ ∞
¶c ∞
S T T S
An = Acn ; An = Acn
n=1 n=1 n=1 n=1
10 Algebras y σ-álgebras de subconjuntos de Ω - Espacio de prob-

abilidad
Todos hemos en algún momento realizado mediciones. Como ejemplo concreto supongamos que de-
seamos medir áreas de rectángulos. Como se sabe, el área de un rectángulo es un número positivo
igual al producto base × altura. Supongamos ahora que construimos figuras planas a partir de una
cantidad finita de rectángulos. Podemos asignar un área a cada una de tales figuras del modo sigu-
iente: Primero descomponemos la figura en una unión finita de rectángulos disjuntos dos a dos y
luego sumamos las áreas de tales rectángulos. Finalmente, supongamos que todos los rectángulos
que consideramos están contenidos dentro de un ”gran” rectángulo que llamamos Ω. Cada vez que
podamos medir el área de cierta figura contenida en Ω también podremos medir el área de la ”figura
complementaria”, es decir la figura que se obtiene a partir de todos los puntos de Ω que no pertenecen
a la figura original. En otros términos, si podemos medir el área de una figura también podemos medir
el área de su complemento. Queda también claro que si hemos podido asignar un área A(F ) a la
figura F ⊆ Ω entonces tendremos A(F c ) = A(Ω) − A(F ). Es decir que hay una cantidad de
propiedades básicas que esperamos de todo número que represente una manera de medir. Para reflejar
estas propiedades elementales es necesario determinar una cierta clase de conjuntos, que podrı́amos
denominar ”medibles” que serán precisamente aquellos a los cuales asignaremos una medida. En
nuestro ejemplo precedente, no queda claro en absoluto cómo podrı́amos medir el área de un cı́rculo
contenido en Ω, pero sı́ podremos asignar áreas de modo sencillo tomando como conjuntos medibles la
clase de todos los subconjuntos de Ω que sean o bien rectángulos, o bien uniones finitas de rectángulos
o bien sus complementos sean uniones finitas de rectángulos. Una clase de subconjuntos de Ω con
estas carácterı́sticas es lo que denominaremos un álgebra de subconjuntos de Ω.
Definición 3 Dados un conjunto no vacı́o Ω y una clase A de subconjuntos de Ω, diremos que

A es un álgebra de subconjuntos de Ω sii satisface las siguiente condiciones:
i) Ω ∈ A
ii) ∀A ∈ A , Ac ∈ A
n
S
iii) ∀n ∈ N , ∀A1 , · · · , An ∈ A , Ai ∈ A
i=1
Ejemplo: Sea Ω cualquier rectángulo no vacı́o. Definamos, como vimos anteriormente, la siguiente
clase de subconjuntos de Ω:
A = {A ⊆ Ω : A es unión finita de rectángulos}
Veamos que A tiene las propiedades de un álgebra de subconjuntos de Ω:

i) Ω ∈ A pues Ω es unión finita de rectángulos ya que es un rectángulo.
ii) Supongamos que A ∈ A. Queremos ver que Ac es también unión finita de rectángulos.
En primer lugar notemos que si R ⊆ Ω es un rectángulo entonces Rc = Ω \ R es unión finita
de rectángulos (Esto le resultará evidente cuando dibuje el gran rectángulo Ω y un rectángulo
arbitrario R contenido en él).
Sn m
S
Además, si B = Ri y C = Rj∗ son uniones finitas de rectángulos entonces:
i=1 j=1
[ ³ ´
B∩C = Ri ∩ Rj∗
1≤i≤n
1≤j≤m
de modo que B ∩ C es unión finita de rectángulos (notar que Ri ∩ Rj∗ es un rectángulo).

Esto se extiende a la intersección de un número finito de uniones finitas de rectángulos. Por lo
tanto podemos afirmar que la intersección de un número finito de miembros de A es también

miembro de A.
Sn
Como A ∈ A podemos escribir A = Ri donde los Ri son ciertos subrectángulos de Ω.
i=1
Entonces: Ã !c
n
[ n
\
c
A = Ri = Ric
i=1 i=1
y dado que los Ric

son uniones finitas de rectángulos, la intersección de ellos también lo es. Por
lo tanto A es unión finita de rectángulos de modo que Ac ∈ A.
c
iii) Fijemos n ∈ N y sean A1 , · · · , An ∈ A. Sabemos que cada Ai es unión finita de rectángulos.

n
S
Pero entonces evidentemente A = Ai también es unión finita de rectángulos, de donde re-
i=1
sulta que A ∈ A.
Consideremos ahora un ejemplo que nos servirá para generalizar la definición de álgebra de subcon-
juntos de Ω.
Ejemplo: Supongamos que se tiene una secuencia {Rn } de rectángulos contenidos en el gran
rectángulo Ω. Más aún, supongamos que los Rn son disjuntos dos a dos. Parece intuitivamente
∞
U
claro que también se le puede asignar un área al conjunto Rn , de la manera siguiente:
n=1
Cada Rn tiene asignada un área A(Rn )
Podemos asignar área al conjunto R1 ] R2 como A(R1 ] R2 ) = A(R1 ) + A(R2 )
Podemos asignar área al conjunto R1 ] R2 ] R3 como A(R1 ] R2 ] R3 ) = A(R1 ) + A(R2 ) +

A(R3 )
µ n ¶ n
U P
etc. En genral: A Ri = A(Ri )
i=1 i=1
n
U
De este modo vemos cómo asignar un área al conjunto Sn = Ri , cualquiera sea n ∈ N. Natu-
i=1
ralmente los números A(S1 ), A(S2 ), A(S3 ), · · · forman una sucesión creciente de números reales
positivos. Además, dado que todos los Sn ⊆ Ω resulta A(Sn ) ≤ A(Ω). Un resultado matemático
asegura que toda sucesión de números reales que sea creciente y acotada superiormente, posee un
lı́mite finito. Por lo tanto existe y es finito el número:
lim A(Sn )
n →∞
Resulta entonces natural definir

µ ∞ ¶ µ n
¶
U U
A Rn = lim A Ri = lim A(Sn ) =
n=1 n →∞ i=1 n →∞
n
P ∞
P
= lim A(Ri ) = A(Rn )
n → ∞ i=1 n=1
Este ejemplo muestra que podemos ampliar la definición de álgebra de conjuntos para permitir que
no sólo las uniones finitas de conjuntos medibles sean medibles, sino también las uniones infinitas
numerables. Esto conduce a la definición siguiente.
Definición 4 Una clase Σ de subconjuntos de un conjunto no vacı́o Ω se dice una σ-álgebra de

subconjuntos de Ω sii verifica las siguientes condiciones:
i) Ω ∈ Σ
ii) ∀A ∈ Σ , Ac ∈ Σ
∞
S
iii) ∀ {An } sucesión en Σ , An ∈ Σ
n=1
Ejemplo: Consideremos un conjunto no vacı́o Ω. La clase que consta de todos los subconjuntos de
Ω se denomina el conjunto de ”partes” de Ω y se suele anotar P(Ω). Claramente es una σ-álgebra
de subconjuntos de Ω. De hecho es la más grande de todas.
Propiedad 3 Sea Σ una σ-álgebra de subconjuntos de Ω. Entonces ∅ ∈ Σ

Dem:
Puesto que Ω ∈ Σ resulta ∅ = Ωc ∈ Σ ¥
Propiedad 4 Sea Σ una σ-álgebra de subconjuntos de Ω. Supongamos que Ω es finito o infinito

numerable. Se verifica:
∀ω ∈ Ω , {ω} ∈ Σ ⇒ Σ = P(Ω)
Dem:
Sea A ⊆
S Ω. Puesto que Ω es finito o infinito numerable, lo mismo es cierto de A. Dado que:
A = {ω} resulta inmediatamente que A ∈ Σ puesto que la unión anterior es a lo sumo
ω∈A
numerable y cada {ω} pertenece a Σ ¥
Propiedad 5 Sea Σ una σ-álgebra de subconjuntos de Ω y sean A1 , · · · , An ∈ Σ. Entonces

Sn
Ai ∈ Σ
i=1
Dem:
Definamos An+1 = An+2 = · · · = ∅. Entonces la secesión {Ai } está en Σ. Se tiene pues:
n
[ ∞
[
Ai = Ai ∈ Σ ¥
i=1 i=1
Propiedad 6 Sea Σ una σ-álgebra de subconjuntos de Ω y sea {An } una sucesión en Σ.

∞
T
Entonces An ∈ Σ
n=1
Dem: Ã !c
∞
\ ∞
[
An = Acn ∈ Σ dado que cada Acn ∈ Σ ¥
n=1 n=1
Propiedad 7 Sea Σ una σ-álgebra de subconjuntos de Ω y sean A1 , · · · , An ∈ Σ.

n
T
Entonces Ai ∈ Σ
i=1
Dem:
Definamos An+1 = An+2 = · · · = Ω. Tenemos ası́ una sucesión {An } en Σ. Por la propiedad
anterior resulta:
n
\ ∞
\
Ai = Ai ∈ Σ ¥
i=1 i=1
Propiedad 8 Sean Ω un conjunto no vacı́o y T{Σi }i∈I una familia no vacı́a, donde cada Σi es
una σ-álgebra de subconjuntos de Ω. Entonces Σi es una σ-álgebra de subconjuntos de Ω.
i∈I
T
Dem: Anotemos Σ = Σi . Debemos probar que Σ satisface los axiomas de σ-álgebra de
i∈I
subconjuntos de Ω. Sabiendo que cada Σi satisface dichos axiomas, se deduce que:
• Ω ∈ Σ pues ∀i ∈ I , Ω ∈ Σi
• Si A ∈ Σ entonces ∀i ∈ I , A ∈ Σi . Luego: ∀i ∈ I , Ac ∈ Σi . Entonces Ac ∈ Σ
• Sea {An } sucesión en Σ. Entonces ∀i ∈ I , {An } es una sucesión en Σi . Por lo tanto
∞
S ∞
S
∀i ∈ I , An ∈ Σi . Luego: An ∈ Σ ¥
n=1 n=1
Propiedad 9 Dados un conjunto no vacı́o Ω y un subconjunto G de P(Ω), existe una mı́nima

σ-álgebra de subconjuntos de Ω que contiene a G
Dem: Basta considerar la familia de todas las σ-álgebras de subconjuntos de Ω que contienen a
G (una de ellas es P(Ω)) y aplicarle la propiedad anterior ¥
Estamos ahora en condiciones de definir la noción axiomática de probabilidad.
Definición 5 Sean Ω un conjunto no vacı́o y Σ una σ-álgebra de subconjuntos de Ω. Una medida

de probabilidad o función de probabilidad o simplemente una probabilidad sobre Σ es una función
P : Σ → R que verifica los siguientes axiomas:
i) ∀A ∈ Σ , P (A) ≥ 0
ii) P (Ω) = 1
iii) Para toda sucesión {An } de elementos de Σ disjuntos dos a dos se cumple:
Ã ∞ ! ∞
] X
P An = P (An )
n=1 n=1
Nota: Parte del supuesto en esta igualdad es que la serie en el miembro de la derecha sea
convergente.
Un espacio de probabilidad es una terna ordenada (Ω, Σ, P ) donde P es una probabilidad sobre Σ.
Ejemplo: Sea Ω un conjunto no vacı́o a lo sumo numerable, que podemos anotar Ω = {ω n }. Sea
Σ una σ-álgebra de subconjuntos de Ω tal que ∀n , {ωn } ∈ Σ. Como vimos antes esto implica que
Σ = P(Ω). Si P es una probabilidad sobre Σ notemos que:
• Las probabilidades pn = P ({ωn }) determinan
U la probabilidad de cualquier evento aleatorio.
En efecto: Sea A ⊆ Ω. Entonces A = {ωn }. Por lo tanto:
ωn ∈A
Ã !
] X X
P (A) = P {ωn } = P ({ωn }) = pn
ωn ∈A ωn ∈A ωn ∈A
• Dada una sucesión {pn } de números reales tal que:

a) ∀n , pn ≥ 0
∞
P
b) pn = 1
n=1
existe una única probabilidad P sobre Σ tal que P ({ωn }) = pn
11 Espacios de equiprobabilidad
1
Si Ω = {ω1 , · · · , ωN } es finito y si definimos ∀n ∈ {1, · · · , N } , pn = N entonces se cumplen
las condiciones a) y b) del item anterior, de manera que queda definida una única probabilidad sobre
1 1
Σ = P(Ω) tal que ∀n ∈ {1, · · · , N } , P {ωn } = N = #(Ω) . Esta manera de asignar probabili-
dades sobre un espacio muestral finito es lo que se conoce como espacio de equiprobabilidad. En
un espacio de equiprobabilidad se tiene para cuanlquier evento A ⊆ Ω
Ã !
] X X 1 #(A)
P (A) = P {ω} = P ({ω}) = =
ω∈A ω∈A ω∈A
#(Ω) #(Ω)
Esta manera de asignar probabilidades en un espacio muestral finito suele resumirse del modo siguiente:
# {resultados favorables al evento A}

P (A) =
# {resultados posibles del experimento}
En la práctica cuando asociamos determinado espacio muestral Ω a un experimento aleatorio con una
cantidad finita de resultados posibles, la asignación de probabilidades a dichos eventos elementales no
siempre se reduce a considerar resultados equiprobables. Volviendo a uno de nuestros primeros ejem-
plos: Se lanzan dos dados ”normales” y se anota el puntaje total obtenido. En este caso podrı́amos
tomar como espacio muestral Ω = {2, 3, 4, · · · , 12}. Sin embargo no es correcto asignar probabili-
dades del modo siguiente:
1
∀n ∈ {2, · · · , 12} , P ({n}) =
11
¿ Qué inconvenientes observa acerca de esta asignación de probabilidad?
El mismo experimento aleatorio podrı́a modelizarse mediante el siguiente espacio muestral:
Ω = {(i, j) : 1 ≤ i, j ≤ 6}
Con este espacio muestral sı́ es adecuada la asignación de probabilidad en forma equiprobable:
1
∀(i, j) tal que 1 ≤ i, j ≤ 6 , P ({(i, j)}) =
36
Calculemos en este ejemplo la probabilidad de que el puntaje total obtenido sea 7. En este caso
A = {(i, j) : 1 ≤ i, j ≤ 6 ; i + j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Por lo
tanto P (A) = #(A)
#(Ω)
6
= 36 = 16
Ejemplo: Una urna contiene 3 bolillas blancas y 2 bolillas negras. Se extraen al azar dos bolillas sin
reposición. Calculemos P (A) y P (C) siendo:
A = ”ambas bolillas son blancas” y C = ”ambas bolillas son negras”
Una posible representación del espacio muestral asociado a este experimento aleatorio podrı́a ser Ω =
{BB, BN, N B, N N }. Sin embargo, dada esta representación es evidente que no resulta natural
considerar los cuatro posibles resultados como equiprobables puesto que hay más bolillas blancas que
negras. De hecho, si utilizáramos el artificio de numerar las bolillas blancas como B 1 , B2 , B3 y
numerar las bolillas negras como N1 , N2 resulta claro que el resultado A se da en más casos que el
resultado C. De hecho:
A = {(B1 , B2 ), (B1 , B3 ), (B2 , B1 ), (B2 , B3 ), (B3 , B1 ), (B3 , B2 )} tiene 6 elementos
C = {(N1 , N2 ), (N2 , N1 )} tiene 2 elementos
Lo natural entonces es elegir una representación del espacio muestral en la que resulte natural la
equiprobabilidad. Tal representación podrı́a ser la siguiente:
Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y}
Con este espacio muestral es natural plantear equiprobabilidad. Se tiene:

#(A) 3·2 3
P (A) = #(Ω)
= 5·4
= 10
= 0, 3
#(C) 2·1 1
P (C) = #(Ω)
= 5·4
= 10
= 0, 1
Otra posible representación del espacio muestral es la siguiente, que prescinde del orden en que se
extraen las bolillas:
Ω = {{x, y} : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y}
También en este caso es natural la equiprobabilidad. Se tiene:
#(A) (32) 3
P (A) = = = = 0, 3
#(Ω) (52) 10
#(C) (22) 1
P (C) = = = = 0, 1
#(Ω) (52) 10
Como era de esperar, se obtienen las mismas probabilidades que cuando se tiene en cuenta el orden de
extracción. Ejemplo: Nuevamente consideremos una urna con 3 bolillas blancas y dos bolillas negras.
Se extraen al azar dos bolillas, pero esta vez con reposición. Calculemos las probabilidades de los
mismos eventos A y C del ejemplo anterior.
En este caso conviene representar el espacio muestral como:
Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 }}
Entonces:
P (A) = #(A)
#(Ω)
= 3·3
5·5
= 9
25
= 0, 36
#(C) 2·2 4
P (C) = #(Ω)
= 5·5
= 25
= 0, 16
12 Propiedades de una probabilidad

Una cantidad de resultados útiles se desprenden de la definición axiomática de probabilidad dada en
el parágrafo anterior.
Propiedad 10 P (∅) = 0
Dem:
Definamos ∀n , An = ∅. Claramente estos eventos son dos a dos disjuntos, de manera que:
Ã ∞ ! ∞ ∞
] X X
P (∅) = P An = P (An ) = P (∅)
n=1 n=1 n=1
Puesto que la serie a la derecha de la última igualdad es convergente, necesariamente su término

general debe tender a 0. Pero dicho término general, siendo constantemente igual a P (∅), tiende a
P (∅). Por lo tanto: P (∅) = 0 ¥
Propiedad 11 Sean A1 , · · · , An ∈ Σ dos a dos disjuntos. Entonces:

Ã n ! n
] X
P Ai = P (Ai )
i=1 i=1
Dem:
Definamos An+1 = An+2 = · · · = ∅. Se tiene:
Ã n ! Ã∞ ! ∞ n
] ] X X
P Ai = P Ai = P (Ai ) = P (Ai ) ¥
i=1 i=1 i=1 i=1
Propiedad 12 Sean A, B ∈ Σ tales que A ⊆ B. Se verifica:

P (B \ A) = P (B) − P (A)
Dem:
Podemos escribir B = A](B \ A) siendo la unión disjunta. Por lo tanto: P (B) = P (A ] (B \ A)) =
P (A) + P (B \ A). Despejando se tiene: P (B \ A) = P (B) − P (A) ¥
Propiedad 13 Sean A, B ∈ Σ (no necesariamente disjuntos). Se verifica:

P (A ∪ B) = P (A) + P (B) − P (AB)
Dem:
Primeramente notemos que BAc = B \ AB. Ahora bien, por la propiedad anterior y teniendo en
cuenta que AB ⊆ B se tiene:
P (BAc ) = P (B \ AB) = P (B) − P (AB). Luego:
P (A ∪ B) = P (A ] BAc ) = P (A) + P (BAc ) = P (A) + P (B) − P (AB) ¥
Corolario 1 Para cualesquiera eventos A, B ∈ Σ se verifica la siguiente desigualdad:

P (A ∪ B) ≤ P (A) + P (B)
Dem: P (A ∪ B) = P (A) + P (B) − P (AB) ≤ P (A) + P (B) pues P (AB) ≥ 0 ¥
Propiedad 14 Dados A, B, C ∈ Σ se verifica:

P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC)
Dem:
P (A ∪ B ∪ C) = P (A ∪ B) + P (C) − P ((A ∪ B) C) =
= P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC) =
= P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ACBC)) =
= P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ABC)) =
= P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC) ¥
Propiedad 15 Sea (Ω, Σ, P ) un espacio de probabilidad. Dados A1 , · · · , An ∈ Σ se cumple:

Pn P
P (A1 ∪ · · · ∪ An ) = P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n (1)
+ .................................................... +
+ (−1)n+1 P (A1 A2 · · · An )
Dem:
Por inducción sobre n.
• Paso base: n = 2 ya fue demostrada.
• Hipótesis inductiva (HI): Suponemos válida (1) para n.
• Supongamos A1 , · · · , An+1 ∈ Σ.
P (A1 ∪ · · · ∪ An+1 ) = P (A1 ∪ · · · ∪ An ) + P (An+1 ) − P ((A1 ∪ · · · ∪ An )An+1 ) =
n
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n
+ (−1)n+1 P (A1 A2 · · · An ) + P (An+1 ) − P (A1 An+1 ∪ · · · ∪ An An+1 ) =
n+1
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n
n
P P
+ (−1)n+1 P (A1 A2 · · · An ) − { P (Ai An+1 ) − P (Ai1 Ai2 An+1 ) + · · ·
i=1 1≤i1 <i 2 ≤n
+ (−1)n+1 P (A1 A2 · · · An An+1 )}
n+1
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n+1
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n+1
+ (−1)n+2 P (A1 A2 · · · An+1 ) ¥
Propiedad 16 Dados A, B ∈ Σ con A ⊆ B se tiene P (A) ≤ P (B)

Dem:
Como A ⊆ B resulta B = A ] BAc . Luego: P (B) = P (A) + P (BAc ) ≥ P (A) ¥
Corolario 2 Para todo A ∈ Σ es P (A) ≤ 1

Dem:
Como A ⊆ Ω y dado que P (Ω) = 1 resulta P (A) ≤ P (Ω) = 1 ¥
Propiedad 17 Para cualquier A ∈ Σ se verifica:
P (Ac ) = 1 − P (A) ; P (A) = 1 − P (Ac )
Dem:
Puesto que Ω = A ] Ac resulta 1 = P (Ω) = P (A) + P (Ac ) ¥
13 Propiedades de continuidad
Propiedad 18 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es creciente,
es decir: A1 ⊆ A2 ⊆ A3 ⊆ · · · . Se verifica:
Ã ∞ !
[
P An = lim P (An )
n →∞
n=1
Dem:
Definamos los siguientes eventos:
B1 = A1
B2 = A 2 \ A1
B3 = A 3 \ A2
··· ··· ···
Bn = An \ An−1
··· ··· ···
Se tiene ası́ una sucesión {Bn } en Σ tal que:
n
S n
U ∞
S ∞
U
Ai = Bi y Ai = Bi
i=1 i=1 i=1 i=1
Por conveniencia definamos también Ao = ∅. Entonces:

µ n ¶ µ n ¶ n
S S P
P Ai = P Bi = P (Bi ) =
i=1 i=1 i=1
n
P n
P
= P (Ai \ Ai−1) = (P (Ai ) − P (Ai−1)) =
i=1 i=1
= P (An ) − P (Ao ) = P (An ) − P (∅) = P (An )

Luego:
n
P ∞
P
lim P (An ) = lim P (Bi ) = P (Bi ) =
n →∞ n → ∞ i=1 i=1
µ∞ ¶ µ∞ ¶
U S
= P Bi =P Ai
i=1 i=1
¥
Propiedad 19 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es decreciente,
es decir: A1 ⊇ A2 ⊇ A3 ⊇ · · · . Se verifica:
Ã ∞ !
\
P An = lim P (An )
n →∞
n=1
Dem:
Notemos que dado que los An decrecen entonces los Acn crecen.
µ ∞ ¶ µ· ∞ ¸c ¶
T T
P An = 1−P An =
n=1 n=1
µ ∞
¶
S
= 1−P Acn = 1 − lim P (Acn ) =
n=1 n →∞
¡ ¢
= lim 1 − P (Acn ) = lim P (An ) ¥
n →∞ n →∞
Probabilidad condicional - Sucesos independientes
14 Probabilidad condicional
Seguramente al lector no se le habrá pasado por alto, cuando definimos los axiomas de una probabili-
dad, la relación intuitiva que existe entre éstos y lo que se conoce como el enfoque ”frecuentista” de
las probabilidades, que pasamos a explicar someramente.
Supongamos, en el contexto de un experimento aleatorio concreto, que se desea asignar probabilidad a
cierto evento A. El enfoque frecuentista consiste en repetir el experimento un número finito y grande
de veces, digamos N veces. A continuación determina lo que se conoce como frecuencia relativa del
evento A en esas N realizaciones del experimento. Dicha frecuencia relativa, que anotaremos f A ,
se define por:
número de veces que ha ocurrido A en las N realizaciones
fA =
número total N de realizaciones
Intuitivamente fA es un reflejo de la chance de ocurrencia de A en dichas repeticiones del
experimento. En otro capı́tulo formalizaremos esta idea intuitiva. Por el momento nos conformamos
con admitirla como natural y motivadora. Esta frecuencia relativa posee las siguientes propiedades:
Dados eventos A, B se verifica
i) fA ≥ 0
ii) fΩ = 1
iii) Si A y B son disjuntos entonces fA∪B = fA + fB
Las propiedades anteriores nos hacen recordar propiedades análogas a las de la definición axiomática
de probabilidad.
Basados intuitivamente en esta idea frecuentista vamos a introducir el concepto de probabilidad condi-
cional. La importancia de este concepto se debe a dos motivos principales:
• Frecuentemente estamos interesados en calcular probabilidades cuando disponemos de alguna

información parcial adicional acerca del resultado del experimento. En tal caso dichas probabil-
idades se dicen condicionales (a la información adicional).
• Aún en situaciones en las cuales no disponemos de tal información parcial adicional, es frecuente
el uso de la probabilidad condicional como herramienta que permite calcular las probabilidades
deseadas de un modo más sencillo.
Para fijar ideas consideremos el ejemplo que sigue.
Ejemplo: Se arrojan dos dados normales, de manera que cada uno de los 36 resultados posibles son
equiprobables. Supongamos que se observa además que el primer dado es un 3. Con esta información
adicional, ¿ cuál es la probabilidad de que el puntaje total obtenido sea 8 ?
Primeramente observemos que ”el primer dado es un 3” es un evento, que podemos anotar H. Dado
que ha ocurrido H, el experimento se limita a arrojar el segundo dado y determinar el número que
sale. Sabemos que los posibles resultados de este experimento parcial seran sólo seis y definirán un
espacio muestral parcial: ΩH = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}. Es natural considerar
estos seis resultados como equiprobables, es decir que podemos definir una probabilidad P H de modo
que ∀j ∈ {1, · · · , 6} , PH ({(3, j)}) = 1/6. Esta probabilidad sobre el espacio muestral Ω∗ puede
pensarse como una probabilidad ”condicional a H” en el espacio muestral Ω asociado al experimento
original, definiendo:
• La probabilidad condicional de {(3, j)} como 1/6. Anotamos P ({(3, j)} |H) = 1/6
• La probabilidad condicional de {(i, j)} como 0 si i 6= 3. Anotamos P ({(i, j)} |H) = 0 si

i 6= 3
Por lo tanto, la probabilidad condicional de obtener puntaje total 8 será
P (”se obtiene puntaje 8”|H) = P ({(3, 5)} |H) = 1/6
Ejemplo: Más generalmente consideremos dos eventos E y H en el contexto de un experimento

aleatorio. Queremos asignar una probabilidad al evento E bajo el supuesto o condición que haya
ocurrido H. Intuitivamente lo que podrı́amos hacer es repetir el experimento un gran número N de
veces y contar en cuántas de ellas ha ocurrido H, digamos NH veces, y luego contar en cuántas de
estas NH ha ocurrido también E, digamos NEH veces. Entonces podrı́amos considerar el número:
NE H
NH
Equivalentemente, dividiendo numerador y denominador por N se obtiene: NNEHH/N /N
= ffEHH
Dado que las frecuencias relativas son base intuitiva para las probabilidades, este cociente motiva la
definición siguiente.
Definición 6 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) > 0. Dado un
evento E ∈ Σ se define la probabilidad de E condicional a F como:
P (EF )
P (E|F ) =
P (F )
Ejemplo: Se lanza dos veces una moneda normal. Calculemos:
a) La probabilidad de que ambas salgan cara.
b) La probabilidad condicional de que ambas salgan cara dado que la primera sale cara.
Para responder a) consideramos el espacio muestral Ω = {CC, CS, SC, SS} y naturalmente
asignamos probabilidades uniformemente, de modo que cada uno de los cuatro resultados elementales
tiene probabilidad 1/4. Luego:
1
P (”ambas salen cara”) = P ({CC}) =
4
Para responder a b) utilizamos la definición de probabilidad condicional. Sean E = ”ambas salen cara” y
H = ”la primera sale cara”. Entonces:
P (EF ) P ({CC}) 1/4 1
P (E|H) = = = =
P (F ) P ({CC, CS}) 1/2 2
Propiedad 20 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) > 0.

P (·|H)
Sea Σ −→ R la función que asigna a cada E ∈ Σ el número real P (E|H). Entonces
(Ω, Σ, P (·|H)) es un espacio de probabilidad.
Dem:
La demostración se propone como ejercicio al final del capı́tulo ¥
Propiedad 21 Sean Σ una σ-álgebra de subconjuntos de Ω y H ∈ Σ. Sea ΣH la siguiente clase

de subconjuntos de H:
ΣH = {EH : E ∈ Σ}
Entonces ΣH es una σ-álgebra de subconjuntos de H.
Dem:
i) Dado que H ∈ Σ y H = HH resulta H ∈ ΣH
ii) Supongamos que B ∈ ΣH . Luego, existe cierto E ∈ Σ tal que B = EH. Dado que tanto
E como H son miembros de Σ también lo es B. Luego, también B c ∈ Σ. Entonces el
complemento de B relativo a H es H \ B = B c H. Por ende este complemento pertenece a
ΣH , siendo este complemento la intersección entre H y un miembro de Σ.
iii) Sea {Bn } una sucesión en ΣH . Luego, existe una sucesión {En } en Σ tal que ∀n , Bn =
En H. Luego: Ã ∞ !
∞
[ ∞
[ [
Bn = En H = En ∩ H
n=1 n=1 n=1
∞
S
Sea E = En . Dado que los En son miembros de Σ resulta E ∈ Σ. Pero como
n=1
∞
S ∞
S
Bn = EH resulta que Bn ∈ Σ H ¥
n=1 n=1
Definición 7 La σ-álgebra ΣH definida arriba se denomina la relativización de Σ a H o la

reducción de Σ a H.
Propiedad 22 Dados (Ω, Σ, P ) espacio de probabilidad y H ∈ Σ tal que P (H) > 0, la función
PH
Σh −→ R definida por
P (B)
PH (B) =
P (H)
es una probabilidad sobre (H, ΣH ). Más aún, se verifica: ∀E ∈ Σ , PH (EH) = P (E|H)
Dem:
La demostración se propone como ejercicio al final del capı́tulo ¥
Definición 8 Se dice que el espacio de probabilidad (H, ΣH , PH ) se ha obtenido reduciendo a H el

espacio de probabilidad (Ω, Σ, P ).
La idea es la siguiente: Calcular en Σ probabilidades condicionalmente a H equivale a calcular en
ΣH probabilidades sin condicionar. En determinados ejemplos es más sencillo calcular probabilidades
condicionales por definición mientras que en otros es más fácil calcularlas trabajando directamente
sobre el espacio muestral reducido.
Teorema 3 (Regla del producto)

Sea (Ω, Σ, P ) espacio de probabilidad.
i) Si A, B ∈ Σ con P (B) > 0 entonces P (AB) = P (A|B) · P (B)
ii) Más generalmente, dados A1 , · · · , An+1 ∈ Σ con P (A1 · · · An ) > 0 se verifica:
P (A1 · · · An+1 ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 A2 ) · · · · · P (An+1 |A1 A2 · · · An )
Dem:
Por inducción sobre n.
Paso base: n = 1
Este caso corresponde a demostrar i). Sean A1 , A2 ∈ Σ con P (A) > 0. Se tiene:
P (A1 A2 )
Como P (A2 |A1 ) = se deduce P (A1 A2 ) = P (A1 )P (A2 |A1 )
P (A1 )
Hipótesis inductiva: Suponemos la propiedad válida para n

Ahora queremos demostrar que vale para n + 1. Sean A1 , · · · , An+2 ∈ Σ. Se tiene:
HI
P (A1 A2 · · · An+1 An+2 ) = P (A1 · · · An+1 )P (An+2 | A1 · · · An+1 ) =
| {z } | {z } | {z } | {z } | {z }
A B A B A
HI
= P (A1 )P (A2 |A1 ) · · · P (An+1 |A1 · · · An )P (An+2 |A1 · · · An+1 )
Esto demuestra que la propiedad es verdadera para n + 1 bajo el supuesto que sea verdadera para
n. Luego, por inducción es válida para todo n ∈ N ¥
Ejemplo: Una urna contiene inicialmente r bolillas rojas y b bolillas blancas. Se realiza el siguiente
experimento aleatorio: Se extrae una bolilla al azar y se completa la urna con c bolillas de ese mismo
color. Se extrae nuevamente una bolilla al azar y se completa la urna con c bolillas del mismo
color, etc. Se quiere calcular la probabilidad de que las tres primeras extracciones resulten en bolillas
rojas. Para resolverlo, dado que el experimento se lleva a cabo en tres etapas y cada etapa afecta la
composición de la urna de extracción, es adecuado condicionar una extracción a los resultados de las
extracciones previas.
Definamos Ri = ”la i-ésima extracción resulta bolilla roja” (i = 1, 2, 3). Entonces lo que pretende-
mos calcular es precisamente P (R1 R2 R3 ). Planteamos la regla del producto:
P (R1 R2 R3 ) = P (R1 )P (R2 |R1 )P (R3 |R1 R2 )
Por la composición inicial de la urna es claro que

r
P (R1 ) =
r+b
Por la composición de la urna inmediatamente luego que ha ocurrido R1 es claro que
r+c
P (R2 |R1 ) =
r+c+b
Por la composición de la urna inmediatamente luego que han ocurrido R1 , R2 se tiene análogamente
r + 2c
P (R3 |R1 R2 ) =
r + 2c + b
Por lo tanto:
r r+c r + 2c
P (R1 R2 R3 ) = · ·
r+b r+c+b r + 2c + b
Definición 9 Sea (Ω, Σ, P ) un espacio de probabilidad. Una sucesión {An } en Σ se dice una
partición de Ω sii se verifican:
i) ∀n ∈ N , P (An ) > 0
∞
S
ii) Ω = An
n=1
iii) ∀n, n ∈ N , n 6= m ⇒ A n ∩ Am = ∅
Ejemplo: Consideremos un espacio de equiprobabilidad Ω = {1, 2, · · · , 12}. Es decir: ∀i ∈

Ω , P ({i}) = 1/n > 0. Una posible partición de Ω es {A1 , A2 , A3 } donde
A1 = {1, 3, 5, 7, 9, 11} ; A2 = {6, 12} ; A3 = {2, 4, 8, 10}
Teorema 4 (Teorema de la probabilidad total)

Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn } una partición de Ω. Entonces para cualquier
B ∈ Σ se verifica:
X∞
P (B) = P (B|Hn )P (Hn )
n=1
Dem:
∞
S
Dado que {Hn } es una partición de Ω, sabemos que An = Ω. Por lo tanto
n=1
Ã ∞
! ∞
[ [
B =B∩Ω=B∩ Hn = BHn
n=1 n=1
Además esta unión es disjunta dos a dos:
n 6= m ⇒ (BHn )(BHm ) = BHn Hm = B∅ = ∅
Luego:
∞
X
P (B) = P (BHn )
n=1
Pero como ∀n ∈ N , P (Hn ) > 0 podemos escribir P (BHn ) = P (B|Hn )P (Hn ). Entonces:
∞
X ∞
X
P (B) = P (BHn ) = P (B|Hn )P (Hn ) ¥
n=1 n=1
Nota: El teorema de la probabilidad total es también válido para particiones finitas.
Ejemplo: Una caja C1 contiene n1 fichas marcadas con un 1 y n2 fichas marcadas con un 2.
Se extrae una ficha al azar. Si sale 1 se extrae una bolilla al azar de una urna U 1 que contiene
r1 bolillas rojas y b1 bolillas blancas. En cambio, si sale 2 se extrae una bolilla al azar de una urna
U2 que contiene r2 bolillas rojas y b2 bolillas blancas. Calcular la probabilidad de extraer una
bolilla roja.
La composición de la urna de la que se extrae la bolilla depende de la primera etapa del experimento
(extracción de ficha). Por lo tanto es de esperar que necesitemos condicionar al resultado de la primera
etapa. Definamos F1 = ”sale ficha 1” y F2 = ”sale ficha 2”. Entonces {F1 , F2 } es claramente una
partición de Ω. Definamos también R = ”sale bolilla roja”. Por lo tanto:
2
X
P (R) = P (R|Fn )P (Fn ) = P (R|F1 )P (F1 ) + P (R|F2 )P (F2 )
n=1
Es claro que
n1 n2
P (F1 ) = n1 +n2
; P (F2 ) = n1 +n2
También es claro que:
r1 r2
P (R|F1 ) = r1 +b1
; P (R|F2 ) = r2 +b2
Por lo tanto: r1 n1 r2 n2
P (R) = · + ·
r1 + b1 n1 + n 2 r2 + b2 n1 + n 2
Teorema 5 (Regla de Bayes)
Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn } una partición de Ω. Para cualquier B ∈ Σ tal
que P (B) > 0 y para cualquier j ∈ N se verifica:
P (B|Hj )P (Hj )
P (Hj |B) = ∞
P
P (B|Hn )P (Hn )
n=1
Dem:
Se tiene:
P (BHj ) P (B|Hj )P (Hj )
P (Hj |B) = = ∞ ¥
P (B) P
P (B|Hn )P (Hn )
n=1
Nota: La regla de Bayes también es válida para particiones finitas.
Ejemplo: Una caja contiene N = n1 + n2 + n3 fichas, de las cuales n1 están numeradas con
”1”, n2 están numeradas con ”2” y n3 están numeradas con ”3”. Se dispone además de tres urnas
U1 , U2 , U3 . La urna Ui contiene ri bolillas rojas y bi bolillas blancas (i = 1, 2, 3). Se extrae al
azar una ficha de la caja. Acto seguido se elige al azar una bolilla de la urna rotulada con el mismo
número que la ficha extraida. Sabiendo que la bolilla extraida fue roja, ¿ cuál es la probabilidad de
que haya provenido de la urna U2 ?
Sean
Fi = ”sale ficha i” ; i = 1, 2, 3
R = ”sale bolilla roja” y B = ”sale bolilla blanca”
Se pretende calcular P (F2 |R). Acá se quiere averiguar la probabilidad de un evento que ocurrió
en una etapa previa del experimento basados en infromación de una etapa posterior. Es natural
entonces ”revertir” este condicionamiento, para lo cual utilizamos el teorema de Bayes. Notemos que
{F1 , F2 , F3 } es una partición de Ω. Entonces:
P (R|F2 )P (F2 )
P (F2 |R) = P (R|F1 )P (F1 )+P (R|F2 )P (F2 )+P (R|F3 )P (F3 )
=
r2 n2
·
r2 +b2 n1 +n2 +n3
= r1
·
n1 r2 n r3
+ r +b · n +n2 +n + r +b ·
n3 =
r1 +b1 n1 +n2 +n3 2 2 1 2 3 3 3 n1 +n2 +n3
r2 n 2
r2 +b2
= r1 n 1 r n r n
+ r 2+b2 + r 3+b3
r1 +b1 2 2 3 3
Ejemplo: Un procedimiento llamado fluoroscopı́a cardı́aca (FC) se utiliza para determinar si existe
calcificación en las arterias coronarias. El test permite detectar si hay 0,1,2,ó 3 arterias coronarias
calcificadas. Anotemos:
Ti+ : la FC detecta i arterias calcificadas (i = 0, 1, 2, 3)
D + : hay enfermedad coronaria ; D − : no hay enfermedad coronaria
Supongamos que se conocen los datos de la siguiente tabla
i P (Ti+ |D + ) P (Ti+ |D −)
0 0.41 0.96
1 0.24 0.02
2 0.20 0.02
3 0.15 0.00
a) Si P (D + ) = 0.05 calcular P (D + |Ti+ ) para i = 0, 1, 2, 3
b) Si P (D + ) = 0.92 calcular P (D + |Ti+ ) para i = 0, 1, 2, 3
En ambos casos el cálculo se reduce a utilizar la regla de Bayes:
P (Ti+ |D + )P (D + )
P (D + |Ti+ ) =
P (Ti+ |D + )P (D + ) + P (Ti+ |D −)P (D −)
donde P (D −) = 1 − P (D + )
Se obtienen los resultados siguientes:
i P (D + |Ti+ ) cuando P (D + ) = 0.05 P (D + |Ti+ ) cuando P (D + ) = 0.92

0 0.022 0.831
1 0.387 0.993
2 0.345 0.991
3 1.000 1.000
15 Independencia estocástica
Sean A, B eventos con P (A) > 0 y P (B) > 0. Intuitivamente podemos decir que dichos eventos
son independientes (entre sı́) si el hecho que ocurra A no influye sobre la chance de ocurrir B y
recı́procamente, el hecho que ocurra B no influye sobre la chance de ocurrir A. Es decir si la
ocurrencia de A ni afecta ni es afectada por la ocurrencia de B. Podemos expresar esta idea intuitiva
diciendo que A y B son independientes sii P (B|A) = P (B) y P (A|B) = P (A). Expresando
mediante intersecciones podemos reducir estas dos condiciones a una sola, con la ventaja adicional
de no requerir que los eventos tengan probabilidades positivas. Esta idea es la base de la siguiente
definición.
Definición 10 Los eventos A y B se dicen independientes sii P (AB) = P (A) · P (B)

Nota: No debe confundirse la noción de independencia con la de eventos excluyentes. De hecho, si
A y B son mutuamente excluyentes y si P (A) > 0 y P (B) > 0, entonces A y B distan mucho
de ser independientes pues P (AB) = P (∅) = 0 6= P (A)P (B)
Ejemplo: Se elige al azar una carta de un mazo de 52 cartas francesas. Consideremos los eventos
A : ”sale un as” ; C : ”sale una carta de corazones”
Analicemos la independencia entre ellos:

4 13 1
P (A) = 52
P (C) = 52
P (AC) = 52
1 4 13
P (AC) = 52
= 52
· 52
= P (A)P (C)
Por lo tanto A y C son independientes.
Ejemplo: Se arrojan dos dados equilibrados, uno blanco y otro rojo. Consideremos los eventos
A : ”puntaje total 6” ; B : ”el dado rojo sale 4”
Analicemos la independencia entre ellos:

5 1 1
P (A) = 36
P (B) = 6
P (AB) = 36
1 5 1
P (AB) = 36
6= 36
· 36
= P (A)P (B)
Por lo tanto A y C no son independientes.
Propiedad 23 Los eventos A y B son independientes sii los eventos A y B 0 son independientes
Dem:
⇒) Supongamos A y B independientes. Luego: P (AB) = P (A)P (B). Entonces:
P (AB 0 ) = P (A\B) = P (A)−P (AB) = P (A)−P (A)P (B) = P (A)(1−P (B)) = P (A)P (B 0 )
Luego, A y B 0 son independientes.

⇐) Si ahora suponemos A y B 0 independientes, podemos aplicarles la parte ⇒) ya demostrada.
Se deduce que A y (B 0 )0 = B son independientes ¥
Corolario 3 Los eventos A y B son independientes sii A0 y B 0 son independientes

Generalicemos la noción de independencia a tres eventos A, B, C. Imaginemos que C represente la
presencia de cierta enfermedad y que A y B representen la presencia de dos sı́ntomas clı́nicos.
Supongamos que dichos sı́ntomas se presentan independientemente (que un paciente presente un
sı́ntoma no lo hace más ni menos proclive a presentar el otro sı́ntoma). Supongamos también que
A y C sean independientes y que B y C sean independientes. Podrı́a sin embargo ocurrir
que la presencia simultánea de ambos sı́ntomas sı́ aumentara (o disminuyera) la chance de tener la
enfermedad. En tal caso los eventos AB y C no serı́an independientes. Esto motiva la siguientes
definición.
Definición 11 Los eventos A, B, C se dicen independientes sii se verifican
P (AB) = P (A)P (B) , P (AC) = P (A)P (C) , P (BC) = P (B)P (C)
P (ABC) = P (A)P (B)P (C)
Ejemplo: Sea Ω = {1, 2, 3, 4} un espacio de equiprobabilidad. Definamos los eventos:
A = {1, 4} , B = {2, 4} , C = {3, 4}
Entonces:
1 1 1
P (A) = 2
, P (B) = 2
, P (C) = 2
1 1 1
P (AB) = 4
= P (A)P (B) , P (AC) = 4
= P (A)P (C) , P (BC) = 4
= P (B)P (C)
1 1
P (ABC) = 4
6= 8
= P (A)P (B)P (C)
Luego A, B, C no son independientes.
Ejemplo: Sea Ω = {1, 2, 3, 4, 5, 6, 7, 8} un espacio de equiprobabilidad. Definamos los eventos:
A = {1, 2, 3, 4} , B = {1, 2, 7, 8} , C = {1, 5, 6, 7}
Entonces:
1 1 1
P (A) = 2
, P (B) = 2
, P (C) = 2
1 1 1 1
P (AB) = 4
= P (A)P (B) , P (BC) = 4
= P (B)P (C) , P (AC) = 8
6= 4
= P (A)P (C)
1
P (ABC) = 8
= P (A)P (B)P (C)
Luego A, B, C no son independientes.
Definición 12 Se dice que los eventos A1 , · · · , An son independientes sii para cualquier secuencia
estrictamente creciente 1 ≤ i1 < · · · < ir ≤ n de enteros, se verifica
r
Q
P (Ai1 · · · Air ) = P (Aij )
j=1
¡n¢ ¡n¢ ¡n¢

Nota: Vemos que en general es necesario verificar 2
+ 3
+···+ n
= 2n − (n + 1) condiciones
para asegurar la independencia de n eventos.
Propiedad 24 Supongamos que A1 , · · · , An son independientes. Sean B1 , · · · , Bn eventos tales

que
Bi = Ai ó Bi = A0i (i = 1, · · · , n)
Entonces B1 , · · · , Bn son independientes.
Variables aleatorias - Distribuciones de probabilidad
16 Funciones
X
Sea Ω → C una función. Recordemos que esto significa que X establece una correspondencia entre
elementos de Ω y elementos de C con la caracterı́stica que a cada elemento de Ω le asigna uno y sólo
un elemento de C. Si dicha correspondencia asigna al elemento ω ∈ Ω el elemento c ∈ C decimos
que c es el valor de X en ω o la imagen de ω por X, situación que se anota X(ω) = c.
El conjunto Ω se denomina dominio de la función y suele anotarse Dom(X). La imagen o rango (o
a veces el recorrido) de X es el conjunto de todos los valores de X, es decir el conjunto formado por
todos los valores X(ω) cuando ω recorre Ω. Anotaremos la imagen de X como R X . Es decir:
RX = {X(ω) : ω ∈ Ω} = {c ∈ C : ∃ω ∈ Ω , c = X(ω)}
Dado B ⊆ C definimos la imagen inversa de B por X como el conjunto de todos los elementos de
Ω cuyas imágenes por X pertenecen a B. Si anotamos X −1(B) a la imagen inversa de B por
X esta definición establece que
X −1(B) = {ω ∈ Ω : X(ω) ∈ B}
X
Ejemplo: Sea R → R dada por X(t) = t2 . En este caso la imagen o rango de X es RX = [0, ∞).
Por otra parte:
X −1 ({4}) = {2, −2} , X −1 ([4, ∞)) = (−∞, −2] ∪ [2, ∞)
n √ √ o
X −1 ({0}) = {0} , X −1 ({0, 2, 4, 7}) = 0, ± 2, ±2, ± 7
X −1 ((−∞, 0)) = ∅ , X −1 (R) = R

X
Ejemplo: Sea {ω1 , ω2 , ω3 , ω4 } → R dada mediante la siguiente tabla de valores:
ω X(ω)
ω1 2 X −1 ({2}) = {ω1 } X −1 ({1}) = {ω2 , ω3 }
ω2 1 Entonces por ejemplo: X −1 ({0}) = {ω4 } X −1 ((−∞, 0]) = {ω4 }
ω3 1 X −1 ((−∞, 1]) = {ω2 , ω3 , ω4 } X −1 ((−∞, −1]) = ∅
ω4 0
Dado A ⊆ R se denomina función indicadora o función caracterı́stica de A a la función I A : R →
R dada por 
 1 si x ∈ A
IA (x) =

0 si x 6∈ A
17 Variables aleatorias y funciones de distribución

Cuando se realiza un experimento aleatorio existen diversas caracterı́sticas observables o medibles. No
obstante ello, generalmente el experimentador centra su interés en algunas de estas caracterı́sticas. Por
ejemplo, si el experimento consiste en lanzar un dado N = 10 veces, podrı́amos interesarnos en las
siguientes caracterı́sticas: ”cantidad de dados que salen 3”, ”puntaje total obtenido”, ”mı́nimo número
obtenido”,etc. Cada una de estas caracterı́sticas relaciona cada posible resultado del experimento
con un número real. Ası́ por ejemplo podemos considerar que ”puntaje total obtenido” relaciona el
resultado ω = (1, 5, 4, 3, 4, 6, 5, 1, 2, 2) con el número real 1+5+4+3+4+6+5+1+2+2 = 33.
Esto motiva la siguiente definición.
Definición 13 Se denomina variable aleatoria (va) sobre un espacio de probabilidad (Ω, Σ, P ) a

toda función X : Ω → R con la siguiente propiedad:
∀a ∈ R , X −1 ((−∞, a]) ∈ Σ (2)
Las variables aleatorias suelen designarse mediante las últimas letras del abecedario y en mayúsculas:
· · · , P, · · · , X, Y, Z. También se las designa mediante alguna de estas letras junto con uno o más
subı́ndices, por ejemplo: X1 , X2 , S12
Nota: Dados un número real a y una variables aleatoria X, puesto que según la definición X es
una función de Ω en R, tiene sentido calcular la imagen inversa de B = (−∞, a] por X, que es
precisamente:
X −1 ((−∞, a]) = {ω ∈ Ω : X(ω) ∈ (−∞, a]} = {ω ∈ Ω : X(ω) ≤ a}
En el contexto de variables aleatorias es frecuente una notación alternativa y mucho más frecuente
para las imágenes inversas por X. En general, para B ⊆ R la imagen inversa de B por X se anota
también {X ∈ B}. Es decir:
{X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} = X −1(B)
Por lo tanto la definición establece que una función X : Ω → R es una variable aleatoria sobre
(Ω, Σ, P ) sii se cumple
∀x ∈ R , {X ≤ x} ∈ Σ
Tengamos presente que cuando el espacio de probabilidad es finito (es decir cuando #(Ω) es finito)
y Σ = P(Ω) es la σ-álgebra de todos los subconjuntos de Ω, entonces la condición (2) es superflua
puesto que se satisface automáticamente. Lo mismo ocurre cuando Ω = {ω 1 , ω2 , · · · } es infinito
numerable y cada {ωn } ∈ Σ puesto que:
∞
[
{X ≤ x} = {ωn : X(ωn ) ≤ x} = {ωn }
n=1
X(ωn )≤x
Siendo la unión a lo sumo numerable y cada {ω} ∈ Σ se deduce que {X ≤ x} ∈ Σ.

Luego, en los casos donde el espacio de probabilidad es discreto, la noción de variable aleatoria coincide
con la de función X : Ω → R.
Definición 14 Sea X v.a. definida sobre un espacio de probabilidad (Ω, Σ, P ). Se dice que X es
discreta sii existe A ∈ Σ, A a lo sumo numerable y tal que P (X ∈ A) = 1.
Observemos que cuando el espacio muestral es finito cualquier variable aleatoria es discreta, pues basta
tomar A = Ω.
Propiedad 25 Dada una v.a. discreta X existe un mı́nimo A ∈ Σ con la propiedad que P (X ∈
A) = 1
Dem:
Siendo X discreta, sea A ∈ Σ tal que A es a lo sumo numerable y P (X ∈ A) = 1. Definamos
SX = {x ∈ R : P (X = x) > 0}. Entonces:
A = SX ] (A \ SX )
de manera que 1 = PX (A) = PX (SX ) + PX (A \ SX ). Mostraremos que PX (A \ SX ) = 0. En
c resulta ∀x ∈ B , P ({x}) = 0.
efecto: Anotemos B = A \ SX . En primer lugar, como B ⊆ SX X
Dado que A es a lo sumo numerable resulta B a lo sumo numerable. Luego:
Ã !
] X
PX (B) = PX {x} = PX ({x}) = 0
x∈B x∈B
Es decir que hemos demostrado que si A es a lo sumo numerable y P (X ∈ A) = 1 entonces

P (A \ SX ) = 0
En particular: PX (SX ) = 1. Es decir P (X ∈ SX ) = 1.
Supongamos ahora que SX 6⊆ A. Entonces existirı́a xo ∈ SX con xo 6∈ A. Luego: P (X = xo ) >
0. Entonces PX (X ∈ A ] {xo }) = PX (A) + P (X = xo ) > PX (A) = 1. Absurdo. Entonces
necesariamente es SX ⊆ A. Esto demuestra que:
P (X ∈ SX ) = 1
Si A es a lo sumo numerable y P (X ∈ A) = 1 entonces SX ⊆ A
Por lo tanto SX es el mı́nimo conjunto buscado ¥
Definición 15 Dada una variable aleatoria discreta X se denomina soporte (o rango esencial o
simplemente rango) de X al mı́nimo A tal que P (X ∈ A) = 1. Anotaremos RX al rango de X.
Cuando un experimento conduce a medir cantidades como ”peso”, ”altura”, ”temperatura”, ”du-
ración”, etc, es de esperar que dichas variables aleatorias no estén restringidas a un rango a lo sumo
numerable. Una posible clasificación de las variables aleatorias es la siguiente:

 discretas
variables aleatorias continuas

mixtas
Son discretas aquellas variables aleatorias cuyo rango es a lo sumo numerable. Son continuas aquellas
que poseen una ”densidad” (concepto que precisaremos más adelante). Las mixtas son aquellas que
ni son discretas ni son continuas.
Ejemplo: Se lanza una moneda tantas veces como sea necesario hasta que sale ”cara”. En este caso
Ω = {C, SC, SSC, SSSC, · · · } y consideramos Σ = P(Ω).
Sea X = ”lanzamientos necesarios hasta obtener cara”. Esta va. discreta tiene rango R X = N. Para
familiarizarnos con la notación de imagen inversa vemos como ejemplo que:
{X ≤ 0} = ∅ , {X ≤ 5} = {C, SC, SSC, SSSC, SSSSC}
Ejemplo: Se lanza una moneda. Se tiene Ω = {C, S}. Consideramos Σ = P(Ω). Sea X =
”cantidad de caras obtenidas”. Entonces RX = {0, 1}. En este caso:

 ∅ si x<0
{X ≤ x} = {S} si 0 ≤ x < 1

{C, S} si x≥1
Recordemos que una bola abierta en Rn es el conjunto de todos los puntos de Rn que distan de un
xo ∈ Rn (llamado el centro de dicha bola) en menos que una cantidad ² > 0 (el radio de
punto fijo ~
la bola). Es decir
B²(~xo ) = {~x ∈ Rn : k~ x−~ xo k < ²}
Un subconjunto A ⊆ Rn se dice abierto sii para cada ~
x = (x1 , · · · , xn ) ∈ A existe al menos una
n−bola abierta en Rn centrada en ~
x y completamente contenida en A. Formalmente: A ⊆ Rn es
abierto sii se verifica
∀~ y ∈ Rn , k~
x ∈ A , ∃² > 0 , ∀~ y−~
xk < ² ⇒ y ∈ A
Definición 16 Se denomina σ-álgebra de Borel en R a la mı́nima σ-álgebra de subconjuntos de

R que contiene a todos los conjuntos de la forma (−∞, x] con x ∈ R. Anotaremos B a esta
σ-álgebra de subconjuntos de R.
Propiedad 26 Dada una variable aleatoria discreta X, se verifica:

X
∀B ∈ B , P (X ∈ B) = P (X = x)
x∈B∩RX
Dem: ¡ ¢
c
Como B = (B ∩ RX ) ] B ∩ RX se deduce que:
c
PX (B) = PX (B ∩ RX ) + PX (B ∩ RX )
c ) = 0. Luego: P (B ∩ Rc ) = 0, de manera que
Pero como PX (RX ) = 1 entonces PX (RX X X
X
PX (B) = PX (B ∩ RX ) = P (X = x)
x∈B∩RX
Definición 17 Sea (Ω, Σ, P ) un espacio de probabilidad. Consideremos una variable aleatoria

X : Ω → R. La función PX : B → R dada por E 7−→ P (X ∈ E) se denomina función de
distribución de X.
Propiedad 27 La función de distribución PX de una variable aleatoria X es una función de

probabilidad sobre (R, B).
Dem: En lo que sigue B, Bn ∈ B
PX (R) = P (X ∈ R) = P (Ω) = 1
PX (B) = P (X ∈ B) ≥ 0 pues P es una probabilidad y {X ∈ B} ∈ Σ
Supongamos {Bn } sucesión en B, tal que n 6= m ⇒ Bn ∩ Bm = ∅. Entonces:
µ ∞ ¶ µ ∞
¶ µ µ ∞ ¶¶
S S −1
S
PX Bn = P X∈ Bn = P X Bn =
n=1 n=1 n=1
µ ∞
¶ ∞ ∞
S P ¡ ¢ P
= P X −1(Bn ) = P X −1(Bn ) = P (X ∈ Bn )
n=1 n=1 n=1
puesto que los eventos {X ∈ Bn } son disjuntos dos a dos. ¥
Definición 18 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad.

Se dice que X e Y son equidistribuidas o idénticamente distribuidas sii ambas poseen la misma
función de distribución, i.e. ∀B ∈ B , PX (B) = PY (B)
Nota: El hecho de ser X e Y equidistribuidas no significa que sean iguales. Esto se verá más
adelante. Ejemplo: Un fabricante produce un artı́culo en dos variedades A y B. Desea recabar
información acerca de la preferencia de los consumidores. Para ello seleccionará al azar 30 clientes a
quienes se les preguntará si prefieren A o B. Se trata de un experimento aleatorio en el cual el espacio
muestral Ω puede definirse como el conjunto de todas las 30-uplas de 1’s y/o 0’s, donde un 1 en la
i-ésima coordenada de la 30-upla indica que el i-ésimo cliente encuestado prefiere la variedad A sobre
la B. Supongamos que estos 230 posibles resultados de la encuesta sean equiprobables. Consideremos
X = ”cantidad de consumidores que prefieren A”. Se tiene RX = {0, 1, · · · , 30}. Calculemos para
cada 0 ≤ k ≤ 30, las probabilidades siguientes:
#{X=k} (30
k)
P (X = k) = #(Ω)
= 230
(k = 0, 1, · · · , 30)
k
P
P (X ≤ k) = P (X = j)
j=0
Grafiquemos los valores de X sobre el eje de abscisas y las probabilidades halladas anteriormente
sobre el eje de ordenadas:
1.0
0.14
0.12
0.8
0.10
0.6
0.08
P(X<=k)
P(X=k)
0.06
0.4
0.04
0.2
0.02
0.0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
k k
Definición 19 Dada una variable aleatoria X : Ω → R se denomina función de distribución

acumulada (fda) de X a la función designada FX y definida por:
FX : R → R dada por FX (x) = P (X ≤ x)
Nota: Para indicar que la variable aleatoria posee fda F anotamos X ∼ F .
Ejemplo: Se arroja tres veces una moneda normal. Sea X = cantidad de caras obtenidas. Entonces
RX = {0, 1, 2, 3}. La función de distribución acumulada de X es


 0 si x<0

 1/8 si 0 ≤ x < 1

FX (x) = 1/2 si 1 ≤ x < 2

 7/8 si 2 ≤ x < 3



1 si x≤3
Distribucion binomial acumulada

1.0
)
0.8
0.6
F(x)
)
0.4
0.2
)
0.0
-1 0 1 2 3 4
Ejemplo: Se arroja una moneda normal hasta que sale cara.

Sea X = ”cantidad de lanzamientos antes que salga cara”. Se tiene RX = {0, 1, 2, 3, · · · }. La fda
de X es: 

 0 si x<0



 1/2 si 0 ≤ x<1



 1/2 + 1/4 si 1≤x<2

 1/2 + 1/4 + 1/8 si
 2≤x<3
FX (x) = .. .. ..

 . . .

 k+1
 P ¡ 1
¢ i


 2
si k ≤ x < k + 1

 i=1


 .. .. ..
. . .
Propiedad 28 Sea X una variable aleatoria con función de distribución acumulada F X . Se cumple:
i) ∀x ∈ R , 0 ≤ FX (x) ≤ 1
ii) FX es no decreciente, es decir: ∀x, y ∈ R , x < y ⇒ FX (x) ≤ FX (y)
iii) FX es continua por la derecha, es decir: ∀x ∈ R , lim FX (t) = FX (x)

t → x+
iv) lim FX (x) = 0 y lim FX (x) = 1

x → −∞ x →∞
Dem:
i) Evidente pues FX (x) = P (X ≤ x) es una probabilidad.
ii) Sean x, y ∈ R con x < y. Entonces {X ≤ x} ⊆ {X ≤ y}. Por lo tanto FX (x) =

P (X ≤ x) ≤ P (X ≤ y) = FX (y)
iii) Siendo FX no decreciente sabemos que para todo x ∈ R , lim FX (t) existe (es finito). Como
© ª t → x+ ¡ ¢
1 1
x+ n es una sucesión de términos a la derecha de x y tal que lim x + n = x, en-
n →∞
¡ ¢ ∞
T © ª
1 1
tonces lim FX (t) = lim FX x + n . Pero: {X ≤ x} = X ≤x+ n . Como esta
t→x + n → ∞ n=1
n o © ª
1 1
intersección es decreciente, pues X ≤ x + n+1 ⊆ X ≤x+ n , entonces por propiedad
¡ 1
¢
de una función de probabilidad es P (X ≤ x) = lim P X ≤ x + n . Luego:
n →∞
µ ¶ µ ¶
1 1
FX (x) = P (X ≤ x) = lim P X ≤ x + = lim FX x + = lim FX (t)
n →∞ n n →∞ n t → x+
∞
S
iv) Dado que Ω = {X ∈ R} = {X ≤ n} y siendo la unión creciente, por propiedad de una
n=1
función de probabilidad se tiene lim FX (n) = lim P (X ≤ n) = P (Ω) = 1. Pero siendo
n →∞ n →∞
FX no decreciente y acotada resulta lim FX (x) = lim FX (n). Entonces:
x →∞ n →∞
lim FX (x) = lim FX (n) = 1

x →∞ n →∞
La demostración del otro lı́mite es análoga y queda a cargo de ustedes. ¥
Teorema 6 Sea F : R → R una función. Se cumple:

F satisface las propiedades siguientes:
i) F es no decreciente en R.
ii) F es continua a derecha en R
iii) lim F (x) = 0 y lim F (x) = 1

x → −∞ x →∞
si y sólo si F es la función de distribución de probabilidad acumulada de cierta variable aleatoria.

Dem: ⇐) Ya se demostró (Prop. anterior)
⇒) La demostración excede el alcance y los objetivos de este curso de modo que la omitimos. Sólo
comentaré que es necesario demostrar que existe cierto espacio de probabilidad (Ω, Σ, P ) y cierta
variable aleatoria X en dicho espacio, tal que FX = F ¥
Ejemplo: Consideremos la función

½
1 − e− x si x ≥ 0
F (x) =
0 si x < 0
El teorema anterior permite demostrar la existencia de una variable aleatoria X (definida en cierto
espacio de probabilidad) tal que F = FX . En efecto:
F es no decreciente.
F es continua a derecha en R. De hecho F continua en R
Se tiene
¡ ¢
lim F (x) = lim 0=0 y lim F (x) = lim 1 − e− x = 1
x → −∞ x → −∞ x →∞ x →∞
La gráfica de F tiene el siguiente aspecto:

1.0
0.8
0.6
F(x)
0.4
0.2
0.0
-2 0 2 4 6 8 10
Propiedad 29 Sean X una variable aleatoria, xo ∈ R. Se cumple:
i) FX (xo ) − FX (xo −) = P (X = xo )
ii) FX es continua a izquierda en xo sii P (X = xo ) = 0
iii) FX posee una cantidad a lo sumo numerable de discontinuidades.
Dem:
i) Utilizando las propiedades de continuidad de una probabilidad resulta:
FX (xo −) = lim FX (x) = lim P (X ≤ x) = lim P (X ≤ xo − 1/n) =

x → xo − x → xo − n →∞
µ ∞
¶
S
= P {X ≤ xo − 1/n} = P (X < xo )
n=1
Por lo tanto: P (X = xo ) = P (X ≤ xo ) − P (X < xo ) = FX (xo ) − FX (xo −)

ii) Evidente a partir de i).
iii) Si FX es discontinua en xo entonces P (X = xo ) > 0. Anotemos A = {x0 ∈ R : P (X = xo ) > 0}.
Queremos ver que A es a lo sumo numerable. Pero:
∞
[
A= Ak donde Ak = {x0 ∈ R : P (X = xo ) > 1/k}
k=1
Bastará entonces mostrar que los Ak son finitos. Supongamos por el absurdo que existiera k tal
que Ak fuera infinito. Entonces existirı́a una sucesión de términos todos distintos {x n } tal que
∀n , xn ∈ Ak . Luego:
Ã ∞ ! ∞
] X
P (A) ≥ P {xn } = P ({xn }) = ∞
n=1 n=1
dado que la serie posee término general que no tiende a cero. Absurdo. Luego los A k son todos
finitos, con lo cual A es a lo sumo numerable ¥
Propiedad 30 Sea X una variable aleatoria y sea FX su fda. Dados a, b ∈ R , a ≤ b, se cumple:
i) P (a < X ≤ b) = FX (b) − FX (a)
ii) P (a ≤ X ≤ b) = FX (b) − FX (a−)
iii) P (a < X < b) = FX (b−) − FX (a)
iv) P (a ≤ X < b) = FX (b−) − FX (a−)
Dem:
Demostremos i):
{a < X ≤ b} = {X ≤ b} \ {X ≤ a}
Entonces
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a) ¥
Definición 20 Para n ∈ N, se denomina sucesión de n ensayos de Bernoulli a todo experimento

aleatorio que consiste en repetir n veces un ensayo sujeto a las siguientes condiciones:
• Las n repeticiones son independientes entre sı́.
• Cada ensayo tiene sólo dos posibles resultados, digamos E (”éxito”) y F (”fracaso”).
• La probabilidad de E es la misma en cada uno de los n ensayos.
Es frecuente denotar la probabilidad de fracaso en cada ensayo individual por q. De modo que
p + q = 1, es decir q = 1 − p. El espacio muestral asociado a una sucesión de n ensayos de Bernoulli
es Ω = {(ω1 , · · · , ωn ) : ωi ∈ {E, F } , 1 ≤ i ≤ n}. Ası́, el experimento consta de 2n posibles
resultados. Notemos que, salvo cuando p = 1/2, los eventos elementales no son equiprobables. De
hecho:
P ({ω}) = pr · q n−r sii ω posee exactamente r éxitos
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale 3”, de modo
que F = ”no sale 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli con probabilidad de
éxito p = 1/6 en cada ensayo. Entonces, por ejemplo:
µ ¶2 µ ¶3
1 5
P ({(3, 1, 1, 3, 6)}) = ·
6 6
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale múltiplo de 3”,
de modo que F = ”no sale múltiplo de 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli
con probabilidad de éxito p = 1/3 en cada ensayo. Entonces, por ejemplo:
µ ¶3 µ ¶2
1 2
P ({(3, 1, 1, 3, 6)}) = ·
3 3
Ejemplo: Dada un sucesión de n ensayos de Bernoulli, con probabilidad de éxito p en cada ensayo,
sea X = ”cantidad de éxitos en los n ensayos”. Esta variable aleatoria tiene R X = {0, 1, 2, · · · , n}.
El evento {X = k} estará formado por todos aquellos resultados elementales que consten exac-
tamente de k ”éxitos” y n − k ”fracasos”. Dado que cada uno de ellos tiene probabilidad
individual pk (1 − p)n−k, para calcular la probabilidad de {X = k} bastará multiplicar dicha
probabilidad individual por la cantidad total
¡n¢ de resultados elementales que consten¡n¢dekexactamente
k ”éxitos” y n − k ”fracasos”, es decir k . Entonces se tiene: P (X = k) = k p (1 − p)n−k
(k = 0, 1, · · · , n)
Ejemplo: Consideremos un ensayo aleatorio con dos resultados posibles ”éxito” y ”fracaso”, donde la
probabilidad de ”éxito” es 0 < p < 1. Nuestro experimento aleatorio consiste en repetir el ensayo en
forma independiente hasta obtener el primer ”éxito”. El espacio muestral puede representarse como
Ω = {E, F E, F F E, F F F E, · · · }. Los resultados elementales no son equiprobables. De hecho:
 
 
P  |F ·{z · · F} E  = (1 − p)k p
 
k
Sea X = ”cantidad de ensayos hasta obtener éxito”, de modo que RX = N. Se tiene: P (X = k) =

(1 − p)k−1p , k = 1, 2, · · · Hallemos la fda de la variable aleatoria X. Para x ≥ 0 se tiene:
[x]
X 1 − q [x]
FX (x) = P (X ≤ x) = (1 − p)k−1p = p · = 1 − q [x]
k=1
1−q
donde [x] simboliza la ”parte entera de x”, es decir el mayor entero que es menor o igual que x. Por
ejemplo: [4] = 4 , [4, 1] = 4 , [3, 9] = 3. Entonces:
½
0 si x < 1
FX (x) =
1 − q [x] si x ≥ 1
Definición 21 Dada una variable aleatoria X se denomina función de probabilidad puntual o función
de masa de probabilidad (fmp) de X a la función
pX : R → R dada por pX (x) = P (X = x)
Nota: Cuando la variable aleatoria X es discreta, con rango RX = {xn }, la fmp pX de

X queda unı́vocamente determinada conociendo los valores pn = pX (xn ). Por este motivo nos
referiremos indistintamente a pX o a {pn } cuando X sea discreta. Ejemplo: Consideremos
una sucesión de n ensayos de Bernoulli con probabilidad de éxito p en cada ensayo. Sea X =
”cantidad de éxitos en los n ensayos”. En este caso RX = {0, 1, · · · , n}. La fmp de X es:
½ ¡n¢ x
x
p (1 − p)n−x si x ∈ {0, 1, · · · , n}
pX (x) =
0 si x 6∈ {0, 1, · · · , n}
Grafiquemos esta fdp en el caso n = 10, para p = 1/2 y luego para p = 1/4
p=0.5 p=0.25
0.30
0.30
0.25
0.25
0.20
0.20
fdp(x)
fdp(x)
0.15
0.15
0.10
0.10
0.05
0.05
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Propiedad 31 Para toda variable aleatoria X se cumple: ∀x ∈ R , pX (x) = FX (x) − FX (x−)

∞
S © ª
1
Dem: Podemos escribir {X < x} = X ≤x−
. Esta unión es creciente de manera que
n
n=1 ¡ ¢
1
por propiedades de las funciones de probabilidad vale: P (X < x) = lim P X ≤ x − n =
¡ ¢ n →∞
1
lim FX x − n = FX (x−). Entonces pX (x) = P (X = x) = P (X ≤ x) − P (X < x) =
n →∞
FX (x) − FX (x−) ¥
Nota: Obsérvese que FX (xo ) − FX (xo −) representa el valor del ”salto” de la fda de X en el punto
x = xo . Cuando FX es continua en xo entonces no hay salto allı́ y en consecuencia la fmp de X es
nula en x = xo .
Propiedad 32 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad.

Se verifica: X e Y son idénticamente distribuidas sii ∀x ∈ R , FX (x) = FY (x)
Dem: ⇒) Supongamos X e Y idénticamente distribuidas. Sea x ∈ R arbitrario. Entonces
(−∞, x] ∈ B de modo que FX (x) = P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) = FY (x). Luego,
X e Y poseen la misma fda.
⇐) Supongamos que FX = FY . Consideremos la clase G de todos los miembros de B donde
PX coincide con PY , es decir:
G = {B ∈ B : PX (B) = PY (B)} = {B ∈ B : P (X ∈ B) = P (Y ∈ B)}
Por construcción es G ⊆ B. Además por hipótesis, tomando B = (−∞, x] se tiene PX (B) =

FX (x) = FY (x) = PY (B), de modo que G contiene a todos los subconjuntos de R de la forma
(−∞, x] con x ∈ R. Pero dado que B es la mı́nima σ-álgebra de subconjuntos de R que contiene
a todos los conjuntos de la forma (−∞, x], resulta G ⊇ B. Por lo tanto: G = B. Esto significa que
∀B ∈ B , PX (B) = PY (B) ¥
Ejemplo: Se arroja una moneda normal 3 veces. Sean X = ”cantidad de caras obtenidas” e Y =
”cantidad de cecas obtenidas”. Veamos que X e Y son idénticamente distribuidas. En efecto, dado
que en cada ensayo la probabilidad de cara es igual a la probabilidad de ceca, se tiene:
[x] µ ¶ µ ¶3
X 3 1
FX (x) = = FY (x)
k=0
k 2
Observemos, de paso, que X 6= Y . Por ejemplo, para ω = (C, C, S) es X(Ω) = 2 en tanto que
Y (ω) = 1
Propiedad 33 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X verifica
las propiedades siguientes:
i) ∀x ∈ R , pX (x) ≥ 0
∞
P
ii) pX (xn ) = 1
n=1
Dem:
∞
S
Ω = {X ∈ RX } = {X = xn } siendo la unión disjunta. Por lo tanto: 1 = P (Ω) =
n=1
∞
P ∞
P
P ({X = xn }) = pX (xn ) ¥
n=1 n=1
Propiedad 34 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X determina
unı́vocamente su fda. En efecto:
 
∞ ∞ ∞
 [  X X
FX (x) = P (X ≤ x) = P  {X = xn } = P (X = xn ) = pX (xn )
n=1 n=1 n=1
xn ≤x xn ≤x xn ≤x
Ejemplo: Se lanzan dos dados. Consideremos la variable aleatoria Xi = ”número del dado i” (i =
1, 2). Sea X = ”máximo número en los dos dados”. Es decir: X = max {X1 , X2 }. Hallemos la
fmp y la fda de X.
Hallemos primeramente las fmp de X1 y X2 . Se tiene: RX1 = RX2 = {1, 2, · · · , 6} y por
equiprobabilidad vale:
pX1 (k) = pX2 (k) = 1/6 (k = 1, 2, · · · , 6)
Por lo tanto:
6
X 1 [x]
FX1 (x) = FX2 (x) = =
k=1
6 6
k≤x
Observemos ahora que

{X ≤ x} = {X1 ≤ x} ∩ {X2 ≤ x}
Por lo tanto y teniendo en cuenta la independencia de ambos lanzamientos:
FX (x) = P (X ≤ x) = P ({X1 ≤ x} ∩ {X2 ≤ x}) =
³ ´2
[x] [x]2
= P (X1 ≤ x)P (X2 ≤ x) = FX1 (x)FX2 (x) = 6
= 36
Luego, para k = 1, 2, · · · , 6 se tiene:
k2 − (k − 1)2 2k − 1
pX (k) = P (X ≤ k) − P (X ≤ k − 1) = FX (k) − FX (k − 1) = =
36 36
Generalicemos esta situación para el experimento que consiste en arrojar una dado normal n-veces.
Definamos:
Xi = ”número obtenido en el i-ésimo lanzamiento”
X = ”máximo número obtenido en los n lanzamientos”

n
T
Como antes: {X ≤ k} = {Xi ≤ k} Por lo tanto, teniendo en cuenta la independencia de los
i=1
n lanzamientos, resulta:
µ n
¶ n
T Q
P (X ≤ x) = P {Xi ≤ x} = P (Xi ≤ x) =
i=1 i=1
n
Q n
Q ³ ´n
[x] [x]
= FXi (x) = 6
= 6
i=1 i=1
Luego, para k = 1, 2, · · · , 6 se tiene:

µ ¶n µ ¶n
k k−1 kn − (k − 1)n
pX (k) = FX (k) − FX (k − 1) = − =
6 6 6n
La propiedad anterior no es válida para variables aleatorias no discretas. De hecho, existen fda que son
funciones continuas en todo R. Si X una tal variable aleatoria entonces ∀x ∈ R , F X (x) = FX (x−).
Por lo tanto:
P (X = x) = P (X ≤ x) − P (X < x) = FX (x) − FX (x−) = 0
Es decir, para variables aleatorias continuas la fmp carece por completo de interés dado que es
idénticamente nula.
Propiedad 35 Sea {pn } una sucesión tal que:
i) ∀n ∈ N , pn ≥ 0
∞
P
ii) pn = 1
x=1
Entonces {pn } es una fmp.

Dem:
∞
P
Definamos F (x) = pn . Dejo a cargo de ustedes verificar que F satisface las condiciones para
n=1
n≤x
ser una fda (Teorema 1) ¥
Motivaremos ahora la noción de variable aleatoria continua.
Ejemplo: Consideremos una población formada por un gran número N = 1000 de personas. Supong-
amos que nos interesa la distribución de la variable aleatoria X que mide la altura de un individuo
seleccionado al azar dentro de esta población. Supongamos para fijar ideas que las alturas se miden
en cm y que se encuentran en el intervalo [150, 190] Dado el gran número de personas en la población
podemos tener una idea aproximada de la distribución de alturas dividiendo el intervalo [150, 190]
en cuatro subintervalos de igual longitud [150, 160) , [160, 170) , [170, 180) , [180, 190) y de-
terminando las frecuencias, es decir la cantidad de individuos cuyas alturas caen en el respectivo
subintervalo. Para fijar ideas, supongamos que tales frecuencias resulten como muestra la tabla:
Intervalo f (frecuencia) f r(frecuencia relativa) f r/(longitud subintervalo)
[150, 160) 80 0.10 0.01
[160, 170) 150 0.25 0.025
[170, 180) 500 0.50 0.05
[180, 190) 150 0.15 0.015
Si tomamos el extremo izquierdo de cada subintervalo como representativo de un valor en dicho subin-
tervalo, la tabla anterior provee una variable aleatoria discreta D que aproxima a la variable aleatoria
X y que toma los cuatro valores 150, 160, 170, 180 con probabilidades dadas por la columna f r y
que podemos resumir en esta otra tabla:
k pD (k) pD (k)/(long.subintervalo)
150 0.10 0.01
160 0.25 0.025
170 0.50 0.05
180 0.15 0.015
Para obtener una variable aleatoria discreta cuya distribución represente más fielmente la distribución
de X podemos refinar nuestra partición del intervalo original [150, 190] y recalcular la fmp de la
variable discreta obtenida. Siguiendo de este modo, aumentando cada vez la cantidad de subinterva-
los y reduciendo la longitud de los mismos (norma tendiendo a cero) e imaginando que la población
es tan grande que puede suponerse ”infinita” y por ende este proceso podrı́a segir indefinidamente,
obtendrı́amos por lo general una situación como se muestra en los gráficos siguientes, en la que se
grafica pD /(long.subintervalo) versus x para particiones con norma cada vez menor. Comente-
mos algunas caracterı́sticas interesantes acerca de estos gráficos:
• Permiten ”reconstruir” la fmp de la v.a.discreta simplemente hallando el área de cada rectángulo.
• Dado que hemos considerado únicamente particiones regulares, los rectángulos más altos y los
más bajos permiten visualizar los valores más probables y los menos probables de la variable
discreta y, como la discreta aproxima a la v.a. X, también podemos localizar los intervalos
donde X cae con mayor y con menor probabilidad.
• Cuidado: Las alturas de los rectángulos no dan probabilidades sino probabilidades por unidad
de longitud.
• Si la variable aleatoria X es discreta, el proceso deja de ser informativo dado que a partir de
cierto momento habrá una enorme cantidad de subintervalos donde f r/L (L la long. del
subintervalo) será nula y algunos otros (a lo sumo tantos como valores tome la v.a. X) donde
f r/L será muy grande (pues L tiende a cero en tanto que f r permanecerá fija). En el lı́mite
podrı́amos decir que las gráficas tienden a ser nulas salvo en una cantidad a lo sumo numerable
de ”picos infinitos”.
• La suma de las áreas de los rectángulos es 1
• Las gráficas de las alturas de los rectángulos se asemejan cada vez más a la gráfica de una
función, digamos f (x), de argumento continuo.
0.05
0.05
0.03
0.03
0.0 0.01
0.0 0.01
150 160 170 180 190 150 160 170 180 190
x x
0.05
0.05
0.03
0.03
0.0 0.01
0.0 0.01
150 160 170 180 190 150 160 170 180 190
x x
Este ejemplo motiva la definición que sigue.
Definición 22 Se dice que una variable aleatoria X es continua (o más precisamente absolutamente
continua) sii existe al menos una función fX : R → R tal que:
i) ∀x ∈ R , fX (x) ≥ 0
R
ii) ∀A ∈ B , P (X ∈ A) = fX (x) dx
A
Una tal función fX se denomina una función de densidad de probabilidad (fdp) de X o de F X .

Nota:
• Dado que la integral involucrada en esta definición puede ser impropia, se presupone su conver-
gencia.
Rx
• Tomando A = (−∞, x] se tiene que FX (x) = fX (t) dt
−∞
En particular, si fX sea una función continua en el intervalo (a, b) resulta FX derivable en
0 (x) = f (x).
(a, b) y vale ∀x ∈ (a, b) , FX X
∞
R
• Observemos que fX (x) dx = P (X ∈ R) = 1. Es decir, el área bajo la curva y =
−∞
fX (x) es igual a 1. Esto implica que una fdp, a diferencia de una fda, no puede ser monótona
puesto que para la convergencia de esta integral impropia es necesario que se verifique:
lim fX (x) = 0 y lim fX (x) = 0

x → −∞ x →∞
• Si X es variable aleatoria continua entonces para cualquier intervalo I ⊆ R de extremos a y

b se tiene
Zb Za Zb
P (X ∈ I) = FX (b) − FX (a) = fX (x) dx − fX (x) dx = fX (x) dx
−∞ −∞ a
0 (x)
• Si fX es continua en x, entonces fX (x) = FX de modo que se tiene la siguiente
interpretación de la fdp:
fX (x+h)−FX (x) P (X≤x+h)−P (X≤x)
fX (x) = lim h
= lim h
=
h → 0+ h → 0+
P (x<X<x +h)
= lim h
h → 0+
Es decir que fX (x) representa la probabilidad de que X pertenezca al intervalo (x, x +

h) dividida por la longitud de dicho intervalo. De ahı́ el nombre ”densidad” de probabilidad.
Ejemplo: Sea F : R → R dada por F (x) = 1+e1− x . Comprueben que F satisface las condiciones
de una fda, es decir que existe una variable aleatoria X tal que F = FX . Esta va es continua.
Hallemos su fdp:
0 (x) = d 1 e− x ex
fX (x) = FX dx 1+e− x
= 2 = (1+ex )2
(1+e− x )
Propiedad 36 Sea f : R → R una función satisfaciendo las siguientes condiciones:
i) ∀x ∈ R , f (x) ≥ 0
∞
R
ii) f (x) dx = 1
−∞
Entonces f una fdp.

Rx
Dem: Definamos F : R → R por F (x) = f (t) dt. Vamos a verificar que esta F es una fda.
−∞
• F es no decreciente pues si x, y ∈ R con x < y se tiene:

Zx Zy
F (x) = f (t) dt ≤ f (t) dt = F (y)
−∞ −∞
ya que f ≥ 0 y (−∞, x) ⊆ (−∞, y)
• Para cualquier x ∈ R es F continua en x. Sólo demostraremos esto en el caso partirular en

que f es continua en x. En tal caso el teorema fundamental del cálculo asegura que:
x+h
Z
1
lim f (t) dt = f (x)
h→0 h
x
Entonces:
Ã !
x+h
R Rx x+h
R
lim F (x + h) − F (x) = lim f (t) dt − f (t) dt = lim f (t) dt =
h→0 h→0 −∞ −∞ h→0 x
Ã !
x+h
R
1
= lim h· h
f (t) dt = 0 · f (x) = 0
h→0 x
Por lo tanto lim F (x + h) − F (x) = 0. Es decir: lim F (x + h) = F (x)

h→0 h→0
• Finalmente:
Rx −∞
R
lim F (x) = lim f (t) dt = f (t) dt = 0
x → −∞ x → −∞ −∞ −∞
Rx ∞
R
lim F (x) = lim f (t) dt = f (t) dt = 1
x →∞ x → ∞ −∞ −∞
Esto demuestra que F es una fda. Entonces por teorema 1 existe una variable aleatoria con fda F (y
por ende, con fdp f ) ¥
Definición 23 Sea f una fdp. Se denomina soporte de f al menor conjunto cerrado que contiene
al conjunto {x ∈ R : f (x) > 0}. Anotaremos RX al soporte de f .
Propiedad 37 Sean X v.a. continua con fdp fX y sea B ∈ B. Entonces: P (X ∈ B) = P (X ∈

B ∩ RX )
Dem: R R R R
P (X ∈ B) = B fX (x) dx = B∩RX fX (x) dx + B∩Rc fX (x) dx = B∩RX fX (x) dx =
R R X
P (X ∈ B ∩ RX ) puesto que B∩Rc fX (x) dx = B∩Rc 0 dx = 0 ¥
X X
2 /2
Propiedad 38 La función f (x) = √1 · e− x es una fdp.
2π
Dem:
Claramente: ∀x ∈ R , f (x) > 0. Por otra parte:
Ã !2 Ã ! Ã !
∞
R ∞
R ∞
R
1 2 1 2 − y2 /2
√ · e− x /2 dx = √ · e− x /2 dx · √1 ·e dy =
2π 2π 2π
−∞ −∞ −∞
∞
R ∞
R R 2π
∞ R
1 2 +y 2 )/2 1 2 /2
= 2π
· e− (x dy dx = 2π
· e− r r dθ dr =
−∞ −∞ 0 0
∞
R ∞
R ¯∞
2 /2
= e− r r dr = e− t dt = − e− t¯0 = 1
0 0
En lo anterior hemos utilizado coordenadas polares (se multiplicó por r, el módulo del jacobiano).
Luego, el cuadrado de la integral es 1. Pero siendo positiva la integral (pues f es positiva), resulta
necesariamente:
Z∞
1 2
√ · e− x /2 dx = 1
2π
−∞
Esta fdp es sumamente importante en estadı́stica y se denomina densidad gaussiana (es frecuente
llamarla también densidad normal standard). Suele anotarse ϕ(x).
Ejemplo: Sea ½
kx si 0<x<1
f (x) =
0 si x ≤ 0 ∨ x ≥ 1
Determinar el valor de la constante k de modo que f resulte ser una fdp. Hallar también la fda.
∞
R
En primer lugar debe ser f (x) dx = 1. En este caso:
−∞
Z1 ¯1
x2 ¯¯ k
1= kx dx = k =
2 0 ¯ 2
0
Por lo tanto k = 2. Hallemos la fda asociada:


Zx  0 si x≤0 

 Rx  0 si x≤0
F (x) = f (t) dt = 2t dt si 0 < x < 1 = 2
x si 0 < x < 1
 0 
−∞

 1 si x≥1
1 si x≥1
Nota: El soporte de f en este ejemplo es [0, 1].
Ejemplo: El tiempo T en horas que funciona una computadora antes de descomponerse es una v.a.
continua con fdp dada por: 
 λe− t/100 si t ≥ 0
fT (t) =

0 si t < 0
Calcular la probabilidad de que una computadora funcione entre 50 y 150 horas antes de descompon-
erse. Calcular también la probabilidad de que funciones menos de 100 horas.
Rta: Primero debemos hallar λ. Siendo fT una fdp se tiene:
Z ∞ Z ∞ ¯∞
λe− t/100 dt = −100λ e− t/100¯ = 100λ
¯
1= fT (t) dt =
−∞ 0 0
Luego λ = 1/100. Entonces la probabilidad de funcionar entre 50 y 150 horas es:

Z 150 1 ¯150
e− t/100 dt = − e− t/100¯ = e−0.5 − e−1.5 ≈ 0.384
¯
P (50 < T < 150) =
50 100 50
La probabilidad de que funcione menos de 100 horas viene dada por:

Z 100
1 − t/100 ¯100
dt = − e− t/100¯ = 1 − e−1 ≈ 0.633
¯
P (T < 100) = e
0 100 0
18 Cuantiles de una distribución

Definición 24 Sea X una variable aleatoria con fda FX . Dado α ∈ R , 0 < α < 1, un número
real xα se dice un α-cuantil de FX o de X sii se verifican:
P (X < xα) ≤ α y P (X > xα) ≤ 1 − α
Equivalentemente, xα es un α-cuantil de FX sii se cumplen:
P (X < xα) ≤ α y P (X ≤ xα) ≥ α
Suponiéndolos únicos, cuando α = 0.5 hablamos de la mediana de FX , cuando α = 0.25 hablamos

del primer cuartil de FX y para α = 0.75 hablamos del tercer cuartil de X. Cuando se consideran
cuantiles asociados a una división del intervalo (0, 1) en cien partes iguales es frecuente hablar de
percentiles de FX .
Nota: Cuando X es variable aleatoria continua (es decir que FX es función continua) la condición
anterior se expresa de manera más simple:
Z xα
xα es cuantil α de FX sii F (xα) = α sii fX (x) dx = α sii P (X ≤ xα) = α
−∞
De manera más gráfica, el cuantil α de una distribución continua es el punto del eje de abscisas que
deja a su izquierda y por debajo de la gráfica de fX (obviamente por encima del eje de abscisas) un
área exactamente igual a α. Equivalentemente si se grafica FX (siempre supuesta continua), hallar

el cuantil α de FX es hallar la abscisa del punto de la gráfica que posee ordenada igual a α
Ejemplo: Si X es una variable aleatoria con distribución gaussiana standard entonces la mediana es
x0.5 = 0 pues debido a la paridad de la fdp ϕ se tiene:
Z0 Z∞
1
FX (0) = ϕ(x) dx = ϕ(x) dx = 0.5
2
−∞ −∞
El cuantil α = 0.05 se determina planteando Φ(x0.05 ) = 0.05. Entonces x0.05 = Φ−1(0.05). Para
calcularlo en forma concreta podemos utilizar tablas normales acumulativas o podemos por ejemplo
recurrir al SPlus. Para ilustrar un poco más, veamos la siguiente tabla (junto con los comandos
utilizados):
p_c(0.01,0.05,0.1)
alfa_c(p,0.5,1-rev(p))
round(qnorm(alfa),3)
α xα
0.01 −2.326
0.05 −1.645
0.1 −1.282
0.5 0.000
0.9 1.282
0.95 1.645
0.99 2.326
Ejemplo: Sea X ≈ Bi(n, 0.5). Veamos que la mediana es única cuando n par pero deja de serlo
cuando n es impar.
• Si n = 2r entonces x0.5 = r pues:
r−1
P ¡2r¢ ¡ 1 ¢2r ¡ 1 ¢2r r−1
P ¡2r¢
P (X < r) = k 2
= 2 k
k=0 k=0
2r
P ¡2r¢ ¡ 1 ¢2r ¡ 1 ¢2r 2r
P ¡2r¢
P (X > r) = j 2
= 2 j
=
j=r+1 j=r+1
¡ 1 ¢2r 2r
P ¡ 2r ¢ ¡ 1 ¢2r r−1
P ¡2r¢
= 2 2r−j
= 2 k
j=r+1 k=0
Entonces P (X < r) = P (X > r). Pero P (X < r) + P (X = r) + P (X > r) = 1. Luego:

P (X < r) = 1−P (X=r)
2
≤ 0.5 y P (X > r) = P (X < r) ≤ 0.5 = 1 − 0.5
• Si n = 2r − 1 entonces cualquier punto del intervalo (r − 1, r] es una posible mediana de X.
En efecto: Sea x∗ ∈ (r − 1, r]. Se tiene
r−1 ¡ 1 ¢2r−1 r−1
P ¡ 2r−1¢ ¡ 1 ¢2r−1 P ¡2r−1¢
P (X < x∗) = k 2
= 2 k
k=0 k=0
2r−1 ¡ 1 ¢2r−1 2r−1

P ¡ 2r−1¢ ¡ 1 ¢2r−1 P ¡2r−1¢
P (X > x∗) = j 2
= 2 j
=
j=r j=r
¡ 1 ¢2r−1 2r−1
P ¡ 2r−1 ¢ ¡ 1 ¢2r−1 r−1
P ¡2r−1¢
= 2 2r−1−j
= 2 k
j=r k=0
Luego: P (X < x∗) = P (X > x∗). Pero como P (X < x∗) + P (X > x∗) = 1,
necesariamente es P (X < x∗) = P (X > x∗) = 1/2. Luego: P (X < x∗) ≤ 0.5 y
P (X > x∗) ≤ 1 − 0.5 = 0.5
Familias paramétricas de distribuciones univariadas
19 Distribuciones discretas
19.1 Distribución uniforme discreta
Dado N ∈ N, se dice que una v.a. tiene distribución uniforme discreta en {1, · · · , N } sii su fmp
viene dada por:
1
pX (X = k) = (1 ≤ k ≤ N )
N
Obsérvese que RX = {1, · · · , N } y esta distribución de probabilidades es uniforme en el sentido
que deposita la misma masa de probabilidad en cada uno de los N posibles valores 1, · · · , N de X.
Podemos comprobar que pX verifica los axiomas de una fmp:
• ∀k ∈ RX , pX (k) = 1/N ≥ 0
N
P N
P 1 1
• pX (k) = N
=N· N
=1
k=1 k=1
Ejemplo: Se arroja un dado equilibrado. Sea X el puntaje obtenido. En este caso X posee
distribución uniforme discreta en {1, · · · , 6}
Ejemplo: Se extrae una carta al azar de un mazo de cartas españolas. Sea X la v.a. definida por


 1 si sale carta de oro

2 si sale carta de copa
X=

 3 si sale carta de espada

4 si sale carta de basto
Entonces X posee distribución uniforme discreta en {1, 2, 3, 4}
Ejemplo: Un sereno tiene un llavero con n llaves y sólo una de ellas abre la puerta de su habitación,
pero no recuerda cuál. Decide probarlas una por una (separando las que no abren) hasta lograr
abrir la puerta. Sea X el número de ensayos que necesita hasta abrir la puerta, de manera que
RX = {1, 2, · · · , n}. Veamos que X posee distribución uniforme discreta en {1, 2, · · · , n}. En
efecto:
1
P (X = 1) = n
(n−1)1 1
P (X = 2) = n(n−1)
= n
(n−1)(n−2)1 1
P (X = 3) = n(n−1)(n−2)
= n
.. .. .. .. ..
. . . . .
(n−1)(n−2)···2·1 1
P (X = n) = n!
= n
19.2 Distribución binomial

Una variable aleatoria X se dice con distribución binomial de parámetros n, p, siendo n ∈ N y
p ∈ R , 0 < p < 1, sii su fmp viene dada por:
µ ¶
n
pX (k) = pk (1 − p)n−k (0 ≤ k ≤ n)
k
En tal caso anotamos X ∼ Bi(n, p). Obsérvese que RX = {0, 1, · · · , n}. Comprobemos que
pX verifica los axiomas de una fmp:
¡n¢ k
• ∀k ∈ RX , pX (k) = k
p (1 − p)n−k ≥ 0
n
P n ¡ ¢
P n k
• pX (k) = k
p (1 − p)n−k = (p + (1 − p))n = 1
k=0 k=0
Además la fda de X viene dada por:

[x] µ ¶
X n
FX (x) = pk (1 − p)n−k
k=0
k
Cuando p = 1/2 la fmp resulta simétrica con centro de simetrı́a x∗ = n/2. En efecto: Consideremos
por separado los casos n par e impar.
• n impar. Anotemos n = 2r − 1. En este

¡ caso ¢ el simétrico de x = r − j respecto de
∗ ∗ 1
x = r − 1/2 es x = 2x − (r − j) = 2 r − 2 − (r − j) = 2r − 1 − r + j = r + j − 1
µ ¶ µ ¶n
2r − 1 1
pX (r − j) =
r−j 2
µ ¶ µ ¶n
2r − 1 1
pX (r + j − 1) =
r+j−1 2
Pero µ ¶ µ ¶ µ ¶
2r − 1 2r − 1 2r − 1
= =
r−j (2r − 1) − (r − j) r+j−1
• n par. Anotemos n = 2r. En este caso el simétrico de x = r − j respecto de x∗ = r es

x = 2x∗ − (r − j) = 2 2r
2
− (r − j) = 2r − (r − j) = r + j
µ ¶ µ ¶n
2r 1
pX (r − j) =
r−j 2
µ ¶ µ ¶n
2r 1
pX (r + j) =
r+j 2
Pero µ ¶ µ ¶ µ ¶
2r 2r 2r
= =
r−j (2r) − (r − j) r+j
La distribución binomial Bi(n, p) frecuentemente surge cuando se mide la cantidad de éxitos en

una sucesión de n ensayos de Bernoulli con probabilidad de éxito p en cada ensayo individual.
Nótese que en tal caso la distribución del número de fracasos es una variable aleatoria con distribución
Bi(n, 1 − p).
Ejemplo: Se lanza 8 veces un dado equilibrado. Sea
X = ”cantidad de ensayos en los que se obtiene múltiplo de 3”
Se trata de una sucesión de 8 ensayos de Bernoulli, donde en cada ensayo: ”exito”=”sale múltiplo
de 3”. la probabilidad de éxito en cada ensayo es pues p = 1/3. La distribución de X es entonces
Bi(8, 1/3). Calculemos las probabilidades de los siguientes eventos:
a) ”Cinco veces sale múltiplo de 3”

¡ ¢ ¡ ¢5 ¡ 2 ¢3
Rta: P (X = 5) = 85 13 3
= 0.0683
b) ”Al menos dos veces sale múltiplo de 3”

¡ ¢ ¡ ¢8 ¡ ¢ ¡ ¢7
Rta: P (X ≥ 2) = 1−P (X < 2) = 1−P (X = 0)−P (X = 1) = 1− 80 32 − 81 31 · 23
c) ”A lo sumo cinco veces sale múltiplo de 3”

Rta: P (X ≤ 5) = 1 − P (X > 5) = 1 − P (X = 6) − P (X = 7) − P (X = 8) =
¡ ¢ ¡ ¢6 ¡ ¢2 ¡ ¢ ¡ ¢7 ¡ ¢ ¡ ¢8
1 − 86 13 · 23 − 87 31 · 23 − 88 31
Propiedad 39 La fmp de una v.a. con distribución Bi(n, p) alcanza un máximo en el punto
x∗ = [(n + 1)p]
Dem:
Dado que la fmp es discontinua, no es posible aplicar técnicas de cálculo (derivada) para obtener
su máximo. Sin embargo el siguiente procedimiento es viable: Calculemos el cociente C(k) =
pX (k)/pX (k − 1) Mientras este cociente se mantenga mayor que la unidad será pX creciente como
función de k. En cambio mientras el cociente permanezca menor que la unidad entonces p X será
decreciente. Ante todo hallemos este cociente:
¡n¢
k ¢ n!(k − 1)!(n − k + 1)!pk q n−k (n − k + 1)p
C(k) = ¡ n = k−1 n−k+1
=
k−1
k!(n − k)!n!p q kq
Luego:
C(k) > 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k < (n + 1)p
C(k) = 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k = (n + 1)p
C(k) < 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k > (n + 1)p

Si (n + 1)p no es entero, lo anterior muestra que la fmp alcanza su máximo en un único punto
(unimodal), a saber x∗ = [(n + 1)p]. Si, en cambio, (n + 1)p es entero, lo anterior muestra que la
fmp alcanza su máximo en dos puntos (bimodal), a saber: x∗ = (n + 1)p y x∗∗ = x∗ − 1 ¥
Esta situación se puede comprobar en los siguientes gráficos:
fmp de una Bi(6,1/3) fmp de una Bi(8,1/3)

0.25
0.3
0.20
0.2
0.15
0.10
0.1
0.05
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8
Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ Bi(n, p). Sea k un vector, k =
(k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dbinom(k,n,p)
da como resultado el vector (pX (k1 ), · · · pX (ks )).
Por ejemplo:
> n <- 8
> p <- 0.25
> k <- c(3, 4, 6, 7)
> dbinom(k, n, p)
[1] 0.2076416016 0.0865173340 0.0038452148 0.0003662109
> round(dbinom(k, n, p), 5)
[1] 0.20764 0.08652 0.00385 0.00037
> k <- 0:8
> dbinom(k, n, p)
[1] 0.10011291504 0.26696777344 0.31146240234 0.20764160156 0.08651733398
[6] 0.02307128906 0.00384521484 0.00036621094 0.00001525879
> round(dbinom(k, n, p), 5)
[1] 0.10011 0.26697 0.31146 0.20764 0.08652 0.02307 0.00385 0.00037 0.00002
pbinom(k,n,p)
da como resultado el vector (FX (k1 ), · · · FX (ks )).
19.3 Distribución geométrica

Dado p ∈ (0, 1), una v.a. X se dice con distribución geométrica de parámetro p sii su fmp viene
dada por:
pX (k) = (1 − p)k−1 · p (k ∈ N)
En tal caso anotamos X ∼ G(p). Observemos que RX = N. Verifiquemos que pX satisface los
axiomas de una fmp. Para abreviar anotemos q = 1 − p:
• ∀k ∈ N , pX (k) = q k−1p ≥ 0
∞
P ∞
P ∞
P p p
• pX (k) = q k−1p = p q k−1 = 1−q
= p
=1
k=1 k=1 k=1
Calculemos su fda:
[x]
P [x]−1
P
FX (x) = P (X ≤ x) = (1 − p)k−1p = p (1 − p)j =
k=1 j=0
1−(1−p)[x]
= p· 1−(1−p)
= 1 − (1 − p)[x] = 1 − q [x]
Algunas de estas gráficas se muestran en la figura siguiente: Graficamos también algunas fmp:
Una propiedad interesante de esta distribución es la siguiente.
Propiedad 40 (”Ausencia de memoria”) Sea X una v.a. con distribución geométrica de

parámetro p ∈ (0, 1). Sean s, t ∈ N con s > t. Se verifica:
P (X > s|X > t) = P (X > s − t)
Dem:
En efecto, anotemos q = 1 − p. Como s > t resulta {X > s} ⊆ {X > t}. Por lo tanto:
{X > s} ∩ {X > t} = {X > s}
Luego:
P (X>s , X>t ) P (X>s ) 1−FX (s) qs ¡ ¢
P (X > s|X > t) = P (X>t )
= P (X>t )
= 1−FX (t)
= qt
= q s−t = 1 − 1 − q s−t =
= 1 − FX (s − t) = P (X > s − t) ¥
0.0 0.2 0.4 0.6 0.8 1.0 fda de una G( 0.2 ) fda de una G( 0.4 )
0.0 0.2 0.4 0.6 0.8 1.0

P( X = k )
P( X = k )
0 5 10 15 20 0 2 4 6 8 10 12
k k
fda de una G( 0.6 ) fda de una G( 0.8 )

0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0

P( X = k )
P( X = k )
0 2 4 6 8 0 1 2 3 4 5
k k
fmp de una G( 0.2 ) fmp de una G( 0.4 )

0.20
0.4
0.15
0.3
P( X = k )
P( X = k )
0.10
0.2
0.05
0.1
0.0
0.0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
k k
fmp de una G( 0.6 ) fmp de una G( 0.8 )

0.6
0.8
0.6
0.4
P( X = k )
P( X = k )
0.4
0.2
0.2
0.0
0.0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
k k
Ejemplo: La distribución geométrica surge también en el contexto de ensayos de Bernoulli con proba-
bilidad de éxito p en cada ensayo. Si X = ”cantidad de ensayos hasta obtener el primer éxito” entonces
X posee distribución geométrica con parámetro p. Por ejemplo, si se arroja un dado equilibrado hasta
que sale el número 6 y X representa la cantidad de lanzamientos necesarios, entonces R X = N y
X = k sii en los primeros k − 1 lanzamientos no sale 6 y en el k-ésimo sale 6. Dado que los
lanzamientos son independientes entre sı́, es claro que P (X = k) = (1 − p)k−1p, siendo p = 1/6.
Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ G(p). Sea k un vector, k =
(k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dgeom(k,p)
Por ejemplo:
> p <- 0.25

> k <- c(1, 4, 6, 7)
> dgeom(k, p)
[1] 0.18750000 0.07910156 0.04449463 0.03337097
> round(dgeom(k, p), 5)
[1] 0.18750 0.07910 0.04449 0.03337
> k <- 4:10

> dgeom(k, p)
[1] 0.07910156 0.05932617 0.04449463 0.03337097 0.02502823 0.01877117
[7] 0.01407838
> round(dgeom(k, p), 5)
[1] 0.07910 0.05933 0.04449 0.03337 0.02503 0.01877 0.01408
pgeom(k,p)
19.4 Distribución hipergeométrica

Dados n, D, N ∈ N con n < N , D < N , se dice que una v.a. X posee distribución hiper-
geométrica con parámetros n, D, N sii su fmp viene dada por:
¡D¢¡N −D¢
k n−k
pX (k) = ¡N ¢ para max {0, D − (N − n)} ≤ k ≤ min {n, D}
n
En tal caso anotaremos X ∼ H(n, D, N ). Observemos que cuando n ≤ min {D, N − D} resulta
RX = {0, 1, · · · , n} .
Ejemplo: Un lote de tamaño N de cierta clase de artı́culos contiene D artı́culos defectuosos (y

N − D artı́culos no defectuosos). Se extrae al azar una muestra de artı́culos de tamaño n, sin
reposición. Sea X la cantidad de artı́culos defectuosos presentes en dicha muestra. Evidentemente
el rango de X es de la forma RX = {m, · · · , M }, donde m = max {n − (N − D), 0} y
M = min {D, n}. Dado k ∈ RX calculemos P (X = k). Abreviemos In = {1, · · · , n}. El
espacio muestral puede pensarse como
Ω = {A ⊆ {M1 , · · · , MD , B1 , · · · , BN −D} : #(A) = n}
donde M indica defectuoso y B indica no defectuoso. Puesto que la extracción se realiza al azar,
resulta natural considerar a los eventos elementales en este espacio muestral como equiprobables.
Entonces:
# {X = k}
P (X = k) =
#Ω
Contar la cantidad de elementos en Ω equivale a contar¡ la¢cantidad de posibles subconjuntos de
tamaño n elegidos entre N elementos diferentes. Hay N n
formas diferentes. Contemos ahora
en cuántas de ellas hay exactamente k objetos defectuosos. Para ello debemos ¡ ¢ contar de cuántas
formas es posible elegir los k objetos defectuosos que participarán, a saber D k
, y por cada una de
estas elecciones habrá que determinar¡ de cuántas formas es posible elegir los otros n ¢− k elementos
N −D¢ ¡D¢¡N −D
participantes no defectuosos, a saber n−k . Por lo tanto # {X = k} = k n−k . Por lo tanto:
¡D¢¡N −D¢
k n−k
P (X = k) = ¡N ¢
n
Es decir, efectivamente X posee distribución hipergeométrica de parámetros n, D, N . Anotaremos

esta distribución como H(n, D, N ).
Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ H(n, D, N ). Sea k un vector,
k = (k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dhyper(k,D,N-D,n)
Por ejemplo:
> D <- 6
> ND <- 8
> n <- 4
> k <- 0:3
> round(dhyper(k, D, ND, n), 4)
[1] 0.0699 0.3357 0.4196 0.1598
phyper(k,D,N-D,n)
h i
(n+1)(D+1)
La fmp de una v.a. H(n, D, N ) alcanza un máximo cuando k = k ∗ = N +2
, como puede
(n+1)(D+1)
demostrarse y comprobarse en los siguientes gráficos. Nótese que si N +2
no es entero, el
∗ (n+1)(D+1)
máximo se alcanza únicamente en k (unimodal), mientras que si N +2
es entero, entonces
(n+1)(D+1)
pX alcanza su máximo en los dos puntos k ∗ = N +2
y k∗∗ = k∗ − 1 (bimodal)
fmp de H(10,12,26) fmp de H(7,6,10)

0.30
0.4
0.25
0.3
0.20
P( X=k )
P( X=k )
0.15
0.2
0.10
0.1
0.05
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7
k k
19.5 Distribución de Poisson - Procesos de Poisson

Dado λ ∈ R , λ > 0, se dice que una v.a. X posee distribución de Poisson con parámetro λ sii su
fmp viene dada por:
λk
pX (k) = e− λ · (k = 0, 1, 2, · · · )
k!
En tal caso anotaremos X ∼ P(λ). El parámetro λ suele llamarse intensidad. Observemos que
RX = N ∪ {0}. Verifiquemos que efectivamente pX es una fmp:
λk
• ∀k ∈ N ∪ {0} , pX (k) = e− λ · k!
≥0
∞ ∞ ∞
P P λk P λk
• pX (k) = e− λ · k!
= e− λ k!
= e− λeλ = e0 = 1
k=0 k=0 k=0
Cuando λ no es entero, la distribución P(λ) alcanza su máximo en el único (unimodal) punto

k = [λ]. En cambio cuando λ es entero, la distribución alcanza su máximo en dos puntos (bimodal),
a saber k = λ y k = λ − 1. Grafiquemos algunas fmp de v.a. Poisson:
Uno de los contextos donde surgen naturalmente variables Poisson es en situaciones en las que deter-
minado evento de interés ocurre aleatoriamente en puntos del eje temporal. Por ejemplo, si estamos
en una parada de micros y el evento es la llegada de un micro a la parada, tal eventos ocurrirá en de-
terminados instantes (horas). Supongamos que para cierta constante λ > 0 se verifican las siguientes
suposiciones:
fmp de una P( 1.5 ) fmp de una P( 3 )
0.0 0.05 0.10 0.15 0.20

0.3
0.2
P( X = k )
P( X = k )
0.1
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
k k
fmp de una P( 4.5 ) fmp de una P( 6 )
0.15
0.05 0.10 0.15
0.10
P( X = k )
P( X = k )
0.05
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
k k
1. La probabilidad de que ocurra exactamente un evento en un intervalo de tiempo dado y de

longitud h es de la forma: λh + o(h)
2. La prbabilidad de que dos o más eventos ocurran en un intervalo de tiempo dado y de longitud
h de la forma: o(h)
3. Dados cualesquiera números n ∈ N , j1 , · · · , jn ∈ N∪{0} y cualquier conjunto de n intervalos

temporales disjuntos dos a dos, si se define Ei como el suceso que exactamente ji de los eventos
bajo consideración ocurran en el i-ésimo intervalo temporal (i = 1, · · · , n), entonces los sucesos
E1 , · · · , En son mutuamente independientes.
Intuitivamente hablando, el supuesto 1 significa que para valores pequeños de h, la probabilidad de

ocurrencia de exactamente uno de los eventos en un lapso de duración h es λh más una cantidad
despreciable respecto de h. Obsérvese que podemos interpretar λ como la tasa o razón instantánea
de ocurrencia de un evento. El supuesto 2 significa que la probabilidad de que ocurran dos o más
eventos en un lapso de tiempo de duración h es despreciable respecto de h. El supuesto 3 significa
que la cantidad de ocurrencias de eventos en un intervalo temporal no afecta ni es influenciada por la
cantidad de ocurrencias del evento en intervalos de tiempo disjuntos con el primero.
Antes de continuar vamos a establecer un lema que nos resultará útil dentro de poco.
Lema 1 Sea {αn } una sucesión de números reales tal que existe α ∈ R con lim αn = α.
n →∞
Entonces se cumple: µ ¶
αn n
lim 1 − = e− α
n →∞ n
Dem:
Sea f (x) = ln (1 − x). Desarrollemos por Taylor de primer orden alrededor de x = 0. Se obtiene:
x2 1
f (x) = −x − · con c entre 0 y x
2 (1 − c)2
Evaluando en x = αn /n y multiplicando por n se obtiene:

µ ¶
αn α2 1
n · ln 1 − = −αn − n · (3)
n 2n (1 − cn )2
Dado que cn se encuentra entre 0 y αn /n y como lim αn = α, resulta lim cn = 0. Luego,

n →∞ n →∞
tomando lı́mite para n → ∞ en (3) vemos que la sucesión (3) tiene lı́mite − α. Tomando exponencial
y teniendo en cuenta que esta función es continua, resulta lo afirmado en el teorema ¥
Teorema 7 Bajo los supuestos 1,2 y 3, la cantidad de ocurrencias de eventos en un lapso de tiempo
de duración h es una variable aleatoria con distribución de Poisson de parámetro λh.
Dem:
Designemos N (t) el número de ocurrencias de eventos en el intervalo [0, t). Formemos una par-
tición regular del intervalo [0, t] en n subintervalos: [0, t/n) , [t/n, 2t/n) · · · [(n − 1)t/n, t) .
Consideremos los siguientes sucesos:
A = ”k de los subint. contienen exact. un evento y n-k contienen 0 eventos”
Bi = ”el subint. i-ésimo contiene dos o más eventos” (i = 1, · · · , n)
B = ”al menos uno de los subint. contiene dos o más eventos”
C = {N (t) = k} ∩ B
Entonces claramente:
n
S
B= Bi (unión no disjunta)
i=1
P (N (t) = k) = P (A ∪ C) = P (A) + P (C) pues A y C son disjuntos

Pero:
n n µ ¶ µ ¶ µ ¶
X X t t o(t/n)
P (C) ≤ P (B) ≤ P (Bi ) = o =n·o =t·
i=1 i=1
n n t/n
Para cada t fijo es lim o(t/n) = 0. Luego: lim P (C) = 0. Por otra parte, si I es un intervalo
n → ∞ t/n n →∞
de duración h, los supuestos 1 y 2 implican que:
P (”ocurren 0 eventos en I”) = 1 − P (”ocurre exact. un evento en I”)−
−P (”ocurren dos o más eventos en I”) =
= 1 − (λh + o(h)) − o(h) = 1 − λh − o(h)
Además en virtud del supuesto 3 se tiene:
¡ ¢ h λt ¡ t ¢ik h ¡ t ¢in−k
P (A) = n k n
+ o n
1 − λt
n
− o n
=
n h ¡ t ¢iok n h ¡ t ¢ion−k
n(n−1)···(n−k+1)
= k!
· n1k n λt
n
+ o n
1 − λt
n
+ o n
=
n h (4)
n(n−1)···(n−k+1) 1 ¡ t ¢iok n h ¡ t ¢ion−k
= nk
· k! n λt
n
+ o n
1 − λt
n
+ o n
=
n h ¡ t ¢iok n h ¡ t ¢ion n h k ³
¡ t ¢io−k Q ´
1 i−1
= k!
n λt
n
+ o n
1 − λt
n
+ o n
1 − λt
n
+ o n
1− n
i=1
Pero como · µ ¶¸ · ¸
λt t o(t/n)
lim n = λt + lim t
+o = λt
n →∞ n n n →∞ t/n
h ¡ ¢ i
se deduce del lema 1 con αn = n λtn
+ o nt que:
½ · µ ¶¸¾n
λt t
lim 1 − +o = e− λt
n →∞ n n
La primera expresión entre llaves en la última de las expresiones en (4) tiende a λ k y la tercera
expresión entre llaves tiende a 0. La productoria consta de un número fijo de factores y cada uno de
ellos tiende a 1. Por lo tanto:
(λt)k
lim P (A) = e− λt · ¥
n →∞ k!
Nota: Definamos para cada t > 0 la variable aleatoria
Xt = ”cantidad de ocurrencias del evento en el intervalo de tiempo [0,t)”
La colección de variables aleatorias {Xt : t > 0} se denomina porceso de Poisson de parámetro

λ. Nótese que para cada t > 0 es Xt ∼ P(λt). Volveremos a los procesos de Poisson cuando
presentemos las distribuciones exponencial y gama.
Corolario 4 (Aproximación de Poisson a la distribución binomial)

Sea λ ∈ R , λ > 0. Para cada k ∈ N ∪ {0} se verifica:
µ ¶ µ ¶k µ ¶
n λ λ n−k λk
lim 1− = e− λ ·
n →∞ k n n k!
Nota: Este corolario suele utilizarse de la manera siguiente. Sea X ∼ Bi(n, p). Supongamos
n grande, p pequeño y np es moderado. Entonces la fmp de X es aproximadamente igual a la
fmp de Y , siendo Y ∼ P(np). La recomendación suele ser el uso de la aproximación cuando:
n ≥ 100 ; p ≤ 0, 01 ; np ≤ 20
Mencionemos que las variables Poisson no ocurren únicamente contando ocurrencias de eventos en el
tiempo. Damos algunos ejemplos de otras v.a. que usualmente tienen distribución de Poisson:
• La cantidad de errores de impresión en cierta/s página/s de un libro.
• La cantidad de bacterias en cierta región de cierto cultivo.
Ejemplo: Supongamos que la cantidad de errores tipográficos por página de apuntes teórico-prácticos
tipeados por Gastón Argeri posee distribución P(0.25) (i.e. en promedio Gastón comete un error
de tipeo cada cuatro páginas). Si se escoge al azar un apunte teórico-práctico de Gastón, calcular la
probabilidad de que la primera página presente al menos un error tipográfico.
Rta: Si anotamos X a la cantidad de errores en la primera página entonces:
P (X ≥ 1) = 1 − P (X = 0) = 1 − e−0.25 ≈ 0.221
Ejemplo: Supongamos que en promedio uno de cada diez artı́culos producidos por cierta máquina
resultan defectuosos. Se eligen al azar 20 artı́culos producidos por la máquina. Hallar la probabilidad
de que al menos 3 de ellos resulten defectuosos.
Rta: Se trata de una sucesión de n = 20 ensayos de Bernoulli, donde ”éxito=se produce artı́culo
defectuoso”, con p = 1/10 = 0.1 en cada ensayo. Si X representa la cantidad de defectuosos entre
20, entonces X ∼ Bi(20, 0.1) de modo que la probabilidad pedida es:
P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) =
¡20¢ ¡ ¢ ¡ ¢
= 1− 0
(0.9)20 − 20
1
(0.1)(0.9)19 − 20
2
(0.1)2 (0.9)18 ≈
≈ 1 − 0.1215767 − 0.2701703 − 0.2851798 ≈ 0.3231
Utilizando la aproximación de Poisson con λ = np = 20(0.1) = 2 se obtiene:

2
X 2k
P (X ≥ 3) ≈ 1 − e− 2 · ≈ 1 − 0.1353353 − 0.2706706 − 0.2706706 ≈ 0.3233
k=0
k!
En este caso la aproximación ha resultado muy buena.
19.6 Distribución binomial negativa

Dados r ∈ N y p ∈ (0, 1), se dice que una variable aleatoria X posee distribución binomial negativa
con parámetros r y p sii su fmp está dada por:
µ ¶
k−1 r
pX (k) = p (1 − p)k−r (k = r, r + 1, · · · )
r−1
En tal caso anotaremos X ∼ BN (r, p). Obseérvese que RX = {r, r + 1, · · · }. Verifiquemos que
efectivamente pX es una fmp:
¡ ¢ r
• pX (k) = k−1
r−1
p (1 − p)k−r ≥ 0 (k = r, r + 1, · · · )
∞ ∞ ¡ ∞ ¡
P P k−1¢ P k−1¢
• pX (k) = r−1
pr (1 − p)k−r = pr r−1
(1 − p)k−r
k=r k=r k=r
∞
P 1
Consideremos la función g(q) = qj = 1−q
Si la derivamos r − 1 veces obtenemos:
j=0
∞
P 1
jq j−1 = (1−q)2
j=1
∞
P 2
j(j − 1)q j−2 = (1−q)3
j=2
··· ···
∞
P (r−1)!
j(j − 1) · · · (j − r + 2)q j−r+1 = (1−q)r
j=r−1
∞ ¡
P j ¢ j−r+1 (r−1)!
Es decir (r − 1)! r−1
q = (1−q)r
Por lo tanto, tomando q = 1 − p se tiene:
j=r−1
∞ µ ¶ ∞ µ ¶
X k−1 X j pr
pr (1 − p)k−r = pr (1 − p)j−r+1 = r = 1
k=r
r−1 j=r−1
r−1 p
La distribuciń binomial negativa surge naturalmente en el contexto de ensayos de Bernoulli con prob-
abilidad de éxito p en cada ensayo individual. Recordemos que en dicho contexto la Bi(n, p) es la
distribución de la cantidad de éxitos en los n ensayos. En cambio, la BN (r, p) es la distribución
de la v.a. X definida como la cantidad de ensayos necesarios hasta obtener el r-ésimo éxito (es
decir, la cantidad de ensayos es ahora aleatoria). En efecto, decir que X = k equivale a decir que
el r-ésimo éxito ocurre en el k-ésimo ensayo. Por lo tanto en los k − 1 ensayos anteriores debe
haber exactamente r − 1 éxitos y k − r fracasos. Entonces para calcular la probabilidad ¡ ¢ del evento
{X = k} utilizamos asignación de probabilidad por ensayos independientes: Hay k−1 r−1
maneras
de ubicar los r − 1 éxitos entre los k − 1 primeros ensayos (los lugares para los fracasos quedan
automáticamente determinados). Cada ¡ ordenamiento
¢ r de r éxitos y k − r fracasos tiene probabilidad
pr (1 − p)k−r . Luego P (X = k) = k−1 r−1
p (1 − p) k−r Es decir X ∼ BN (r, p).
Nota: Comandos útiles eb SPlus son dnbinom , pnbinom

i negativas: Obsérvese que la fmp de una v.a. BN (r, p)
Presentamos algunos ejemplos de fmp binomiales
h
r+p−1
∗
alcanza su máximo en el punto k = p
. Cuando r+p−1
p
no es entero, el máximo se alcanza
r+p−1
únicamente (unimodal) en k = k∗. En cambio, cuando p
es entero, el máximo se alcanza en
k = k∗ y en k = k∗ − 1 (bimodal).
fmp de BN( 3 , 0.25 ) fmp de BN( 3 , 0.45 ) fmp de BN( 3 , 0.7 )

0.08
0.15
0.3
0.06
0.10
0.2
P( X=k )
P( X=k )
P( X=k )
0.04
0.05
0.1
0.02
0.0
0.0
0.0
3 4 5 6 7 8 9 10 11 12 13 14 15 3 4 5 6 7 8 9 10 11 12 13 14 15 3 4 5 6 7 8 9 10 11 12 13 14 15
k k k
20 Distribuciones continuas
20.1 Distribución uniforme
Sean a, b ∈ R con a < b. Se dice que una variable aleatoria X posee distribución uniforme en el
intervalo [a, b] sii X posee fdp fX dada por
½ 1
b−a
si a ≤ x < b
fX (x) =
0 si x < a ∨ x ≥ b
Anotamos X ∼ U (a, b) para indicar que X posee distribución uniforme en [a, b]. Verifiquemos
que fX es realmente un fdp:
• ∀x ∈ R , fX (x) ≥ 0
∞
R Rb Rb
1 1 b−a
• fX (x) dx = b−a
dx = b−a
dx = b−a
=1
−∞ a a
Rx
Obtengamos la fda. FX (x) = fX (t) dt. Debemos distinguir tres casos, según el valor de x:
−∞
• Si x < a: FX (x) = 0
Rx 1 x−a
• Si a ≤ x < b: FX (x) = a b−a
dt = b−a
Rb 1
• Si x ≥ b: FX (x) = a b−a dt = 1
Es decir: 
 0 si x < a
x−a
FX (x) = b−a
si a ≤ x < b

1 si x ≥ b
Las gráficas de la fdp y la fda tienen el siguiente aspecto:
20.2 Distribución gaussiana

Sean µ, σ ∈ R , σ > 0. Se dice que una variable aleatoria X posee distribución gaussiana (también
llamada distribución normal) de parámetros µ, σ sii X posee fdp dada por
1 1 2 /σ 2
fX (x) = √ · e− 2 (x−µ) ; x∈R
2π σ
fdp de U(a,b) fda de U(a,b)
1.2
0.8
1.0
1 / ( b - a )
0.8
0.6
0.6
y
y
0.4
0.4
0.2
0.2
0.0
0.0
a b
0 1 2 0 1 2
x x
Para indicar que X posee distribución gaussiana de parámetros µ, σ anotamos X ∼ N (µ, σ). En
particular, cuando µ = 0 y σ = 1 se habla de la distribución gaussiana (o normal) standard. Su
fdp suele anotarse con la letra ϕ. Ası́, la fdp gaussiana standard está dada por
1 1 2
ϕ(x) = √ · e− 2 x ; x∈R
2π
Mediante cálculo es posible estudiar las caracterı́sticas de la gráfica de ϕ. Resulta simétrica respecto
del eje de ordenadas (función par), con máximo en el origen. Además tiene la conocida forma de
”campana de Gauss”. Volviendo al caso general, obsérvese que:
µ ¶
1 x−µ
fX (x) = √ ϕ
2π σ σ
Es decir que fX se puede obtener a partir de ϕ mediante una traslación paralela al eje de abscisas
y cambios de escala en los ejes coordenados. Tales transformaciones conservan la forma acampanada
de la fdp. Grafiquemos algunos ejemplos de fdp gaussianas:
La fda asociada viene dada por:

Zx
1 1 2 2
FX (x) = √ e− 2 (t−µ) /σ dt
2π σ
−∞
La fda de una v.a. gaussiana standard suele anotarse Φ y viene dada por:
Zx
1 1 2
Φ(x) = √ e− 2 x dt
2π
−∞
Dado que esta función no es elemental (no puede expresarse elementalmente la integral indefinida
correspondiente), para evaluarla en un punto se debe recurrir a tablas o se debe utilizar algún software
o fórmula que aproxime sus valores. En el caso general, observemos que:
µ ¶
x−µ
FX (x) = Φ si X ∼ N (µ, σ)
σ
Nota: Comandos de SPlus dnorm , pnorm , qnorm. Ver el help del SPlus. Por ejemplo: help(dnorm)
o simplemente resaltando ”dnorm” y clickeando sobre la flechita ”run”.
Familia de densidades gaussianas

misma sigma, distintas mu
N(4,1.5)
0.5
N(2,1.5)
N(7,1.5)
0.4
0.3
y
0.2
0.1
0.0
-2 0 2 4 6 8 10 12
misma mu, distintas sigma
N(4,1.5)
0.5
N(4,3)
N(4,0.75)
0.4
0.3
y
0.2
0.1
0.0
-2 0 2 4 6 8 10 12
20.3 Distribución exponencial

Dado λ ∈ R , λ > 0, se dice que una variable aleatoria X posee distribución exponencial con
parámetro λ sii su fdp vien dada por:
fX (x) = λe− λx (x > 0)
En tal caso anotaremos X ∼ E(λ). El parámetro λ suele denominarse parámetro de intensidad.

Verifiquemos que fX es efectivamente una fdp:
• Para todo x ∈ R, fX (x) = λe− λx ≥ 0
• Efectuando el cambio de variables t = λx se obtiene:

Z ∞ Z ∞
¯c
λe− λx dx = e−t dt = − lim e−t¯0 = − lim (e− c − 1) = 1
0 0 c →∞ c →∞
Hallemos al fda de X:
Rx
• Si x ≤ 0 entonces FX (x) = −∞ fX (t) dt = 0 pues fX (t) = 0 si t ≤ 0
Rx Rx ¯x
• Si x > 0 se tiene: FX (x) = −∞ fX (t) dt = 0 λe− λt dt = − e− λt¯0 = 1 − e− λx
Por lo tanto la fda viene dada por:
½
0 si x ≤ 0
FX (x) = − λt
1−e si x > 0
Familia de densidades exponenciales

fdp fda
0.6
1.0
0.5
lambda=0.2
0.8
lambda=0.4
lambda=0.6
0.4
0.6
0.3
y
0.4
0.2
lambda=0.2
0.2
lambda=0.4
0.1
lambda=0.6
0.0
0.0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14
x x
Para observar las caracterı́sticas más importantes de la distribución exponencial, grafiquemos algunos
ejemplos de fdp y fda en el caso exponencial:
Propiedad 41 (”Ausencia de memoria”) Supongamos que X ∼ E(λ). Sean s, t ∈ R , s > t ≥

0. Se verifica:
P (X > s | X > t) = P (X > s − t)
Dem:
P (X>s , X>t ) P (X>s ) 1−FX (s) e− λs
P (X > s|X > t) = P (X>t )
= P (X>t )
= 1−FX (t)
= e− λt
= e− λ(s−t) = P (X > s − t) ¥
Ejemplo: Consideremos un proceso de conteo (de ocurrencias de cierto evento) tipo Poisson {X t : t > 0}
de parámetro λ, es decir que Xt ∼ E(λ). Definamos la variable aleatoria:
T1 = ”tiempo hasta la primera ocurrencia del evento”
Hallemos la fda de T1 . Para ello calculemos:
P (T1 ≥ t) = P (”la primera ocurrencia se produce luego del instante t”) =
(λt)0
= P (”no hay ocurrencias en [0, t]”) = P (Xt = 0) = e− λt · 0!
= e− λt
Por lo tanto FT1 (t) = 1 − e− λt si t > 0. Naturalmente FT1 (t) = 0 si t ≤ 0. Por lo tanto la
variable aleatoria T1 tiene distribución exponencial de parámetro λ.
Nota: Comandos de SPlus dexp , pexp , qexp
20.4 Distribución gamma

Se denomina función gama a la función Γ : (0, ∞) → R definida por:
Z∞
Γ(x) = tx−1e−t dt (5)
0
Para ver que esta función está correctamente definida es necesario demostrar que la integral impropia
en (5) es convergente. Obsérvese que el integrando es positivo y que cuando x ≥ 1 la integral es
impropia en el infinito, en tanto que si 0 < x < 1 la integral es impropia tanto en el infinito como
en el origen.
Lema 2 Para cada u ∈ R , u ≥ 0 y para cada n ∈ N se verifica
u2 u3 un
eu ≥ 1 + u + + + ··· + (6)
2! 3! n!
Dem:
Por inducción sobre n
Paso base: Ru
Dado que ∀u ≥ 0 , eu ≥ 0, la monotonı́a de la integral definida garantiza que 0 eu du ≥ 0. Luego:
eu − 1 ≥ 0. Por lo tanto eu ≥ 1
Hipótesis inductiva (HI): Consiste en suponer que para todo u ≥ 0 la desigualdad (6) es verdadera.
En base a la HI queremos probar que:
u2 u3 un+1
eu ≥ 1 + u + + + ··· + (u ≥ 0)
2! 3! (n + 1)!
Pero integrando ambos miembros de (6) en el intervalo [0, u] y teniendo en cuenta la monotonı́a de
la integral, se deduce que
u2 u3 un+1
eu − 1 ≥ u + + + ··· +
2! 3! (n + 1)!
que es precisamente lo que queremos demostrar. Luego, la desigualdad es verdadera para tono
n natural ¥
Corolario 5 Para cada u ≥ 0 y cada n natural (o cero) se verifica la siguiente desigualdad
un
eu ≥
n!
Dem:
Siendo u ≥ 0, todos los términos en el mienbro de la derecha de la desigualdad (6) son no negativos.
Luego, la suma de los mismos es mayor o igual que cualquiera de ellos. En particular es mayor o igual
que el último término. Este hecho, junto con la desigualdad (6) terminan de demostrar este lema ¥
Propiedad 42 Para cada x ∈ R , x > 0, la integral en (5) es convergente.

Dem:
Consideramos dos casos por separado.
• Caso x ≥ 1
En el corolario anterior tomemos n = 1 + [x] de manera que n − x + 1 > 1. Entonces para
t > 0 se verifica
tx−1 tx−1n! n!
tx−1e−t = t
≤ n
= n−x+1
e t t
R∞ n!
Como la integral impropia 1 tn−x+1 dt es convergente, por criterio de comparación resulta
R ∞ x−1 −t R1
1 Rt e dt también convergente. Puesto que 0 tx−1e−t dt es propia (finita), se deduce
∞
que 0 tx−1e−t dt es convergente.
• Caso 0 < x < 1
– Para t ≥ 1 resulta t1−x = e(1−x) ln t ≥ 1 dado que (1 − x) ln t > 0. Entonces:

1 1
tx−1e−t = ≤ = e−t
t1−xet et
R∞ R∞
Pero como 1 e−t dt es convergente, por criterio de comparación resulta 1 tx−1e−t dt
convergente.
1
– Para 0 < t < 1 resulta e−t ≤ 1. Luego tx−1e−t ≤ tx−1 = t1−x . Puesto que
R1 1
1−x dt es convergente por ser 0 < x < 1, el criterio de comparación asegura que
R01 tx−1 −t
0 t e dt es convergente ¥
Propiedad 43 La función gama verifica:
i) ∀x ∈ R, x > 0, Γ(x + 1) = xΓ(x)
ii) ∀n ∈ N , Γ(n) = (n − 1)!
Dem:
i) Integrando por partes con u = e−t, dv = tx−1 se tiene du = − e−t, v = tx /x

Z Z µ Z ¶
x−1 −t tx e−t 1 x −t 1 x −t (x+1)−1 −t
t e dt = + t e dt = t e + t e dt
x x x
Entonces: Rh ³ ¯h R h ´
1
1 tx−1e−t dt = x
tx e−t¯1 + 1 t(x+1)−1e−t dt =
³ Rh ´
1
= x
hx e−h − e−1 + 1 t(x+1)−1e−t dt
Tomando lı́mite para h → ∞ se obtiene:
Z ∞ µ Z ∞ ¶
x−1 −t 1 −1 (x+1)−1 −t
t e dt = −e + t e dt (7)
1 x 1
Análogamente:
R1 ³ ¯1 R1 ´
1
h tx−1e−t dt = x
tx e−t¯h + h t(x+1)−1e−t dt =
³ R1 ´
1
= x
e−1 − hx e−h + h t(x+1)−1e−t dt
Tomando lı́mite para h → 0+ se obtiene:

Z 1 µ Z 1 ¶
x−1 −t 1 −1 (x+1)−1 −t
t e dt = e + t e dt (8)
0 x 0
1
Juntando los resultados (7) y (8) se tiene Γ(x) = x
Γ(x + 1) como se querı́a demostrar.
ii) Para n ∈ N podemos aplicar repetidamente el resultado probado en el item anterior. Más
formalmente, utilicemos inducción completa:
• Paso base:
Z ∞ Z 1 Z ∞
−t −t
Γ(1) = e dt = e dt + e−t dt = lim e−h + lim e−k = 1 = 0!
0 0 1 h → 0+ k →∞
• Hipótesis inductiva (HI): Suponemos Γ(n) = (n − 1)!
• En base a la HI queremos demostrar que Γ(n + 1) = n!. Para ello:

Γ(n + 1) = nΓ(n) = n(n − 1)! = n!
Por lo tanto Γ(n) = (n − 1)! es verdadera para todo n ∈ N ¥

Dados α, λ ∈ R , α, λ > 0 se dice que una variable aleatoria X posee distribución gama de
parámetros α, λ sii posee fdp dada por
λα
fX (x) = xα−1e− λx (x > 0)
Γ(α)
En tal caso anotaremos X ∼ Γ(α, λ). El parámetro α suele llamarse parámetro de forma (”shape”)
y el parámetro λ se suele denominar parámetro de intensidad (”rate”). Verifiquemos que f X es
efectivamente una fdp:
λα
• Para todo x ∈ R es fX (x) = Γ(α)
xα−1e− λx ≥ 0
• Debemos verificar que la integral de fX sobre R es 1. Si en la integral se realiza el cambio de

variables t = λx se tendrá:
Z ∞ Z ∞
λα α−1 − λx 1 Γ(α)
x e dx = tα−1e−t dt = =1
0 Γ(α) Γ(α) 0 Γ(α)
Grafiquemos algunos ejemplos de densidades gama:
Familia de densidades gama

alfa= 0.5 alfa= 1 alfa= 1.5
0.30
14
lambda=0.2 lambda=0.2 lambda=0.2

0.6

0.25
12
0.5
10
0.20
0.4
8
0.15
0.3
y
y
6
0.10
0.2
4
0.05
0.1
2
0.0
0.0
0
0.0 0.02 0.04 0.06 0.08 0.10 0 2 4 6 0 5 10 15
x x x
Examinando los distintos gráficos se dará cuenta porque α y λ se dicen parámetros de ”forma” e
”intensidad” (para α ≥ 1, λ controla la rapidez con la cual la cola a derecha de la fdp tiende a cero
para x → ∞), respectivamente.
Observemos que la distribución Γ(1, λ) es precisamente la distribución exponencial de parámetro λ.
En efecto, sea X ∼ Γ(1, λ):
λ1
fX (x) = x1−1e− λx = λe− λx
Γ(1)
Nota: Comandos de SPlus dgamma , pgamma , qgamma
Vamos a vincular las distribuciones gamma y Poisson.
Propiedad 44 Sean n ∈ N, x > 0. Sea X ∼ Γ(n, λ). Si Y ∼ P(λx) entonces se cumple:
FX (x) = P (X ≤ x) = P (Y ≥ n) = 1 − FY (n − 1)
Dem:
Mediante integración por partes, con u = tn−1 y dv = e− λtdt, se tiene:
Z ½ Z ¾
n−1 − λt −1 n−1 − λt n−2 − λt
t e dt = −λ t e + (n − 1) t e dt
Rx
Aplicando la regla de Barrow entre t = 0 y t = x y anotando In (x) = 0 tn−1e− λt dt resulta:
λIn (x) = (n − 1)In−1(x) − xn−1e− λx (9)
Queremos demostrar (lo haremos por inducción sobre n):

Z n−1
x λn n−1 − λt
X (λx)k
∀n ∈ N , ∀x > 0 , t e dt = 1 − e− λx
0 (n − 1)! k=0
k!
En otro términos, queremos probar que:

n−1
λn X (λx)k
In (x) = 1 − e− λx (10)
(n − 1)! k=0
k!
Entonces:
Rx ¯x
• Paso base: I1 (x) = 0 λe− λt dt = 1 − e− λt¯0 = 1 − e− λx Esto es precisamente (10) cuando
n=1
• Hipótesis inductiva (HI): Supongamos (10) es verdadera.
• Utilizando (9) junto con (HI) se tiene:

λn+1 λn
¡ ¢ λn (λx)n − λx
n!
In+1 (x) = n!
nIn (x) − xn e− λx = I (x)
(n−1)! n
− n!
e =
n−1 n
P (λx)k (λx)n − λx P (λx)k
= 1− k!
e− λx − n!
e =1− k!
e− λx ¥
k=0 k=0
20.5 Distribución chi cuadrado

Esta distribución es un caso particular de la distribución gama. Si en la familia de distribuciones gama
se considera α = n/2, siendo n natural, y se toma λ = 1/2 se obtiene la llamada distribución chi
cuadrado con n grados de libertad (g.l.). Es decir:
Dado n ∈ N, se dice que una variable aleatoria X posee distribución chi cuadrado con n grados de
libertad sii posee fdp dada por:
1
fX (x) = x(n/2)−1e− x/2 (x > 0)
2n/2 Γ(n/2)
En tal caso anotamos X ∼ χ2 (n). La distribución chi cuadrado con g.l.=2 tambiénse denomina
distribución de Raleygh y la chi cuadrado con g.l.=3 también se llama distribución de Maxwell-
Boltzman (Estos términos son más frecuentes en mecánica estadı́stica).
Presentamos algunos ejemplos de fdp chi cuadrado con distintos grados de libertad asociados:
Nota: En SPlus los comandos útiles son dchisq , pchisq , qchisq.
Familia de densidades chi cuadrado
0.25
g.l=1 g.l=3
g.l=2 g.l=4
g.l=8
1.5
0.20
0.15
1.0
y
0.10
0.5
0.05
0.0
0.0
0.0 0.5 1.0 1.5 2.0 0 5 10 15
x x
20.6 Distribución beta

Se denomina función beta la fuención B : (0, ∞) × (0, ∞) → R dada por
Z 1
B(α, β) = xα−1(1 − x)β−1 dx
0
Obsérvese que según los valores de α, β la integral que define a la función beta puede ser impropia
en el origen (cuando 0 < α < 1) y/o en x = 1 (cuando 0 < β < 1), o directamente ser propia.
Una aplicación trivial del creiterio de comparación muestra que la integral impropia es convergente
para cualesquiera α, β > 0. Mencionemos dos propiedades útiles de la función beta.
Propiedad 45 Para cualesquiera α, β ∈ R, α > 0, β > 0 se verifican:

Γ(α)Γ(β)
i) B(α, β) = Γ(α+β)
ii) B(β, α) = B(α, β)
Dados α, β ∈ R , α > 0, β > 0 se dice que una variable aleatoria X posee distribución beta con
parámteros α, β si posee fdp dada por:
1
fX (x) = xα−1(1 − x)β−1 (0 < x < 1)
B(α, β)
En tal caso anotaremos X ∼ B(α, β). Verifiquemos que fX es realmente una fdp:
1
• Para x ∈ (0, 1) , B(α,β) xα−1(1 − x)β−1 ≥ 0
R1 1 1
• 0 B(α,β)
xα−1(1 − x)β−1 dx = B(α,β)
B(α, β) = 1
Grafiquemos algunos ejemplos de fdp para distribuciones beta:
Familia de densidades beta

alfa= 0.5 alfa= 0.7
5
4
beta= 0.4 beta= 0.4

beta= 1 beta= 1
4
beta= 1.5 beta= 1.5
3
3
y
y
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
alfa= 1 alfa= 1.3

6
beta= 0.4 beta= 0.4
6
beta= 1 beta= 1
5
beta= 1.5 beta= 1.5

4
4
y
y
3
2
2
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
Cuando α = β la distribución beta es simétrica respecto de x = 0.5 Un caso particular (evidente)

de la distribución beta es la U (0, 1). Esto también se aprecia en el gráfico correspondiente a los
valores α = 1 , β = 1
20.7 Distribución de Cauchy

Dados λ ∈ R, θ ∈ R, θ > 0, se dice que una variable aleatoria tiene distribución de Cauchy con
parámetros λ, θ sii posee fdp dada por:
θ 1
fX (x) = (x ∈ R)
π θ 2 + (x − λ)2
En tal caso anotamos X ∼ C(λ, θ). Se dice que λ es el parámetro de posición y θ el parámetro de
escala. La fdp tiene forma similar a la gaussiana (acampanada) pero sus colas son mucho más pesadas,
como veremos posteriormente. Esta familia de distribuciones es importante en estudios teóricos y de
simulación. En la gráfica se observan fdp Cauchy para distintos valores de los parámetros: Nota: En
SPlus los comandos interesantes son dcauchy , pcauchy , qcauchy.
Familia de densidades Cauchy

misma theta, distintas lambda
0.0 0.05 0.10 0.15 0.20

C(4,1.5)
C(2,1.5)
C(7,1.5)
y
-2 0 2 4 6 8 10 12
misma lambda, distintas theta
C(4,0.75)
0.4
C(4,1.5)
C(4,2.25)
0.3
0.2
y
0.1
0.0
0 2 4 6 8
20.8 Distribución lognormal

Sean µ, σ ∈ R , σ > 0. Se dice que una variable aleatoria X tiene distribución lognormal con
parámetros µ, σ sii ln X posee distribución N (µ, σ 2 ). Para hallar la fdp de X, llamemos Y =
ln X de manera que Y ∼ N (µ, σ 2 ), y procedamos como sigue:
FX (x) = P (X ≤ x) = P (eY ≤ x) = P (Y ≤ ln x) = FY (ln x)
Derivando ambos miembros respecto de x (usamos la regla de la cadena) obtenemos:

1 1 1 2 /σ 2
fX (x) = fY (ln x) · = √ e− 2 (ln x−µ)
x 2π σx
Las caracterı́sticas salientes de la gráfica de una fdp lognormal puede estudiarse analı́ticamente. Pre-
sentamos algunos ejemplos: Nota: Los comandos útiles en SPlus son dlnorm , plnorm , qlnorm.
Familia de densidades lognormales

misma mu,distintas sigma
logN(1,0.25)
0.3
logN(1,1)
logN(1,2.25)
0.2
y
0.1
0.0
0 1 2 3 4 5 6
misma sigma,distintas mu
logN(0.7,1)
0.30
logN(1,1)
logN(1.3,1)
0.20
y
0.10
0.0
0 1 2 3 4 5 6
20.9 Distribución t doble exponencial o de Laplace

Dados µ, λ ∈ R , σ > 0, se dice que una variable aleatoria tiene distribución doble exponencial con
parámetros µ, λ sii posee fdp dada por:
1
fX (x) = e− λ|x−µ| (x ∈ R)
2λ
En tal caso anotamos X ∼ DE(µ, λ). Obsérvese que, para µ = 0, esta fdp se obtiene al dividir por
dos la fdp exponencial de parámetro λ y simetrizando por paridad con respecto al eje de ordenadas
(Cada mitad encierra área 0.5 por debajo, de modo que el área total por debajo es la unidad).
También notemos que ambas mitades se han ”pegado” de manera no suave en el origen, resultando
una fdp no diferenciable allı́. En la gráfica se observa este hecho como un ”pico” en forma angulosa
(en el origen duando µ = 0 y en x = µ en general). La doble exponencial resulta interesante puesto
que posee colas más pesadas que la distribución normal. Entre otras razones resulta útil cuando se
estudia la eficiencia asintótica de ciertos estimadores, como veremos posteriormente.
Familia de densidades doble exponencial

misma lambda, distintas mu
0.6
DE(3,0.6)
DE(2,0.6)
DE(5,0.6)
0.4
y
0.2
0.0
-2 0 2 4 6 8 10
misma mu, distintas lambda
DE(3,0.3)
0.8
DE(3,0.6)
DE(3,0.9)
0.6
y
0.4
0.2
0.0
-2 0 2 4 6 8 10
Nota: La distribución doble exponencial no está disponible mediante comandos de SPlus, dada su
sencilla vinculación con la distribución exponencial.
20.10 Distribución t de Student

Dado n ∈ N, se dice que una variable aleatoria tiene distribución t de Student con n grados de
libertad (g.l) sii posee fdp dada por:
¡ ¢ µ ¶− (n+1)/2
Γ n+1 2 x2
fX (x) = ¡ n ¢ √ 1+ (x ∈ R)
Γ 2 nπ n
En tal caso anotaremos X ∼ t(n). Esta distribución es de aspecto acampanado, semejante a primera
vista a la N (0, 1), pero es de colas más pesadas que ésta y cobrará importancia a medida que
avancemos en este curso, cuando nos avoquemos a temas de inferencia. Un comentario interesante:
La distribución C(0, 1) es precisamente la misma que t(1). Presentamos algunas fdp t de Student:
Se observa que a medida que aumentan los grados de libertad, la distribución t de Student se aproxima
cada vez más a la N (0, 1).
Nota: Los comandos útiles en SPlus son dt , pt , qt.
Familia de densidades t de Student
0.4
t(2)
t(5)
t(12)
N(0,1)
0.3
0.2
y
0.1
0.0
-4 -2 0 2 4
20.11 Distribución F de Fisher

Dados m, n ∈ N, se dice que una variable aleatoria X tiene distribución Fisher con m, n grados de
libertad (g.l) sii posee fdp expresada por:
¡ ¢ µ ¶m/2 µ ¶
Γ m+n2 (m/2)−1 m mx − (m+n)/2
fX (x) = ¡ m ¢ ¡ n ¢ x 1+ (x > 0)
Γ 2 Γ 2 n n
En tal caso se anota X ∼ F (m, n). Esta distribución cobrará importancia cuando estudiemos prob-
lemas de inferencia más adelante.
Nota: Los comandos de SPlus que utilizaremos son df , pf , qf.
Familia de densidades F de Fisher Familia de densidades F de Fisher
F(3,4) F(4,3)
F(5,4) F(4,5)
F(12,4) F(4,12)
0.6
0.6
0.4
0.4
y
y
0.2
0.2
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x
20.12 Distribución Weibull

Dados α, β ∈ R , α > 0, β > 0, se dice que una variable aleatoria X tiene distribución Weibull de
parámetros α, β si posee fdp dada por:
1 α
fX (x) = xα−1 e− (x/β ) (x > 0)
βα
En tal caso anotamos X ∼ W(α, β). La distribución Weibull es importante en el estudio de tiempos
de sobrevida. El aspecto de la gráfica de una fdp Weibull puede observarse en las siguientes figuras:
Familia de densidades Weibull
W(0.5,1) W(1,0.5)
W(1,1) W(1,1)
W(1.5,1) W(1,1.5)
1.5
1.5
1.0
1.0
y
0.5
0.5
0.0
0.0
0 1 2 3 4 0 1 2 3 4
x x
Nota: Como caso particular, observemos que tomando α = 1 y λ = β −1 se obtiene la distribución

exponencial de parámetro λ.
20.13 Distribución logı́stica

Dados θ, λ ∈ R , θ > 0, se dice que una variable aleatoria X tiene distribución logı́stica de
parámetros λ, θ si posee fdp dada por:
1 e− (x−λ)/θ
fX (x) = £ ¤
θ 1 + e− (x−λ)/θ 2
En tal caso anotamos X ∼ L(λ, θ). Las gráficas de las fdp logı́sticas asemejan a la gaussiana, pero
con colas más pesadas. Presentemos algunas figuras comparativas:
Familia de densidades logisticas

misma theta, distintas lambda misma lambda, distintas theta
0.4
L(2,1) L(0,0.5)
0.5
L(3,1) L(0,1)
L(5,1) L(0,1.5)
N(0,1) N(0,1)
0.4
0.3
0.3
0.2
y
0.2
0.1
0.1
0.0
0.0
-4 -2 0 2 4 6 8 -4 -2 0 2 4 6 8
x x
Funciones de variables aleatorias
21 Transformaciones de variables aleatorias

21.1 Distribución de una función de una variable aleatoria
Supongamos que un experimento aleatorio está diseñado para estudiar el área de la sección transver-
sal de una población de tubos cilı́ndricos (circulares). Posiblemente cuando se estudia una muestra
aleatoria de tubos se mida el radio de su sección transversal, en lugar del área de dicha sección. Del
mismo modo, podrı́amos conocer la distribución poblacional del radio de un tubo y estar interesados
en investigar la distribución poblacional del área de la sección transversal del mismo. Si anotamos
X a la variable aleatoria ”radio del tubo” e Y a la variable aleatoria ”área de la sección transver-
sal del tubo”, existe una relación funcional determinı́stica entre ambas variables aleatorias, a saber:
Y = πX 2 . Dado que la distribución de X queda determinada por FX , es de esperar que ésta
también determine la distribución FY .
Definición 25 Sean Σ una σ-álgebra de subconjuntos de Ω, X una variable aleatoria sobre

g g(X)
(Ω, Σ) con rango RX y D → R una función con RX ⊆ D. Definimos Ω → R como
def
la función compuesta g(X) = g ◦ X. Es decir, para cada ω ∈ Ω se define (g(X)) (ω) =
(g ◦ X) (ω) = g (X(ω))
Recordemos que B designa la σ-álgebra de Borel en R, es decir la mı́nima σ-álgebra de subconjuntos
de R que contiene a todos los abiertos.
Nos preguntamos qué caracterı́stica debe tener la función g en la def. anterior de modo que g(X) sea
una variable aleatoria sobre (Ω, Σ). Para responder a esta pregunta necesitamos una definición previa.
g
Definición 26 Diremos que una función D → R, con D ⊆ R, es boreliana sii se verifica:
∀B ∈ B , g −1(B) ∈ B
Las funciones continuas son sólo un ejemplo de la amplı́sima variedad de funciones borelianas.
Propiedad 46 Sean X , g como en la primera definición. Anotemos Y = g(X). Si g es una

función boreliana entonces Y es una variable aleatoria sobre (Ω, Σ).
Dem:
Sea B ∈ B. Para ver que Y es variable aleatoria sobre (Ω, Σ) debemos verificar que Y −1(B) ∈ Σ.
Pero:
{Y ∈ B} = Y −1(B) = {ω ∈ Ω : Y (ω) ∈ B} = {ω ∈ Ω : g (X(ω)) ∈ B} =
© ª © ¡ ¢ª
= ω ∈ Ω : X(ω) ∈ g −1(B) = ω ∈ Ω : ω ∈ X −1 g −1(B)
© ª
= X ∈ g −1(B)
Siendo g boreliana y B ∈ ¡B se cumple

¢ g −1(B) ∈ B. Pero puesto que X es variable aleatoria
sobre (Ω, Σ) resulta X −1 g (B) ∈ Σ. Esto demuestra que Y −1(B) ∈ Σ, como deseábamos
−1
ver ¥
Investiguemos la relación entre la fda de X y la fda de Y = g(X) (suponiéndola v.a.). Notemos

ante todo que RY = g (RX ) = {g(x) : x ∈ RX }. Fijado y ∈ R hemos visto que
© ª
{Y ≤ y} = X ∈ g −1 ((− ∞, y])
Por lo tanto: ¡ ¢
FY (y) = P X ∈ g −1 ((− ∞, y])
Ası́, cuando X es v.a.discreta, digamos con RX = {xn }, resulta también Y discreta con RY =
{g(xn )} (Notar que como g no necesita ser 1-1, los valores g(xn ) pueden estar repetidos). Si
anotamos RY = {yn } se tiene:
∞
P ∞
P ∞
P ¡ ¢
FY (y) = pY (yn ) = P (Y = yn ) = P X ∈ g −1 ({yn }) =
n=1 n=1 n=1
yn ≤y yn ≤y yn ≤y
∞
P
= pX (xn )
n=1
g(xn )≤y
Análogamente:
¡ ¢ ∞
P
pY (yn ) = P (Y = yn ) = P X ∈ g −1(yn ) = P (X = xn ) =
n=1
g(xn )=yn
∞
P
= pX (xn )
n=1
g(xn )=yn
En cambio, si X es v.a. continua con fdp fX , resulta:

¡ ¢ R
FY (y) = P X ∈ g −1 ((− ∞, y]) = fX (x) dx
g −1 ((− ∞,y])
En este caso no queda claro si Y posee fdp. Esta situación se analizará más adelante. Por ahora nos
dedicaremos a presentar algunos ejemplos concretos de lo que acabamos de ver.
Nota: Cuando X discreta, la función g no necesita ser boreliana puesto que en este caso es
Σ = P(Ω).
Ejemplo: Sea X ≈ Bi(n, p). Para fijar ideas podemos pensar en n lanzamientos independientes e
idénticos de una moneda, con probabilidad de salir cara en cada lanxamiento igual a p, donde X mide
la cantidad de caras que salen. Sea Y la cantidad de cecas que se obtienen. Entonces Y = n − X.
Acá g(x) = n − x. Como RX = {0, 1, · · · , n} resulta RY = RX . Para k ∈ RY se tiene:
pY (k) = P (Y = k) = P (n − X = k) =
¡ n ¢ n−k ¡n¢
= P (X = n − k) = pX (n − k) = n−k
p (1 − p)k = k
(1 − p)k pn−k
Esto muestra (aunque es obvio) que Y ≈ Bi(n, 1 − p).

1
Ejemplo: Sea X ≈ E(λ). Determinemos la distribución de Y = X
. Evidentemente RY = (0, ∞).
Se tiene para y > 0:
¡1 ¢ ³ ´
1
FY (y) = P (Y ≤ y) = P X
≤y =P X≥ y
=
∞
R ¯∞
= λe− λx dx = − e− λx¯1/y = e− λ/y
1/y
Por lo tanto:
λe− λ/y
fY (y) = FY0 (y) = (para Y > 0)
y2
Ejemplo: Sea X ≈ N (0, 1). Definamos Y = X 2 . Hallemos la fda de Y . Naturalmente RY =

(0, ∞). Fijado y > 0 se tiene:
p √ √
FY (y) = P (Y ≤ y) = P (X 2 ≤ y) = P (|X| ≤ (y)) = P (− y ≤ X ≤ y) =
√
Ry 2 /2 √ √ √
= √1 · e− x dx = Φ( y) − Φ(− y) = 2Φ( y) − 1
√ 2π
− y
Luego: √ √
¡ √ ¢0 2ϕ( y) ϕ( y)
fY (y) = FY0 (y) = 2Φ( y) − 1 = √
2 y
= √
y
=
= √1 · y − 1/2e−y/2 (para y > 0)

2π
Habrán reconocido que ésta es la fdp de una v.a. chi-cuadrado con 1 grado de libertad, verdad? Es
decir:
X ≈ N (0, 1) ⇒ X 2 ≈ χ2 (1)
Hay dos casos donde la relación entre FX y FY es muy sencilla: Cuando la función g es estrictamente
g −1
monótona sabemos que existe la función inversa g(D) → D la cual verifica:
• ∀x ∈ D , g −1 (g(x)) = x
¡ ¢
• ∀y ∈ g(D) , g g −1(y) = y
Consideremos por separado los casos g creciente y g decreciente:
• Cuando g es creciente también g −1 lo es. En efecto: Si y, u ∈ g(D) , y < u entonces

no puede ser g −1(y) ≥ g −1(u) porque en tal caso, sabiendo que g crece resultarı́a la con-
tradicción y = g(g −1(y)) ≥ g(g −1(u)) = u. Luego, necesariamente es g −1(y) < g −1(u).
Por lo tanto podemos reescribir:
X ∈ g −1 ((− ∞, y]) ⇔ g(X) ∈ (− ∞, y] ⇔ g(X) ≤ y ⇔ g −1 (g(X)) ≤ g −1(y)
⇔ X ≤ g −1(y)
Entonces se obtiene:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1(y)) = FX (g −1(y))
Dicho de otro modo: FY = FX ◦ g −1
• Cuando g es decreciente también g −1 lo es (sencillo de demostrar) y en tales casos la relación

entre FX y FY viene dada por: FY (y) = 1 − lim FX (t). Si además FX es continua
t % g −1 (y)
en el punto x = g −1(y) esto se simplifica aún más: FY (y) = 1 − FX (g −1(y))
Teorema 8 Sea X ∼ N (µ, σ 2 ) y sean a, b ∈ R , a 6= 0. Entonces:
Y = aX + b ∼ N (aµ + b, a2 σ 2 )
Dem:
Consideremos primeramente el ³caso a > ´ ³ F´Y (y) = P (Y ≤ y) = P (aX + b ≤
0. Se tiene:
y−b
y) = P (aX ≤ y − b) = P X ≤ a = FX y−b a
. Esto mismo se podı́a obtener a partir
de g(x) = ax + b hallando la inversa: g³−1(y)´ = (y − b)/a. Entonces según las observaciones
anteriores es FY (y) = FX (g −1(y)) = FX y−b
a
.
Luego, derivando respecto de y se obtiene:
µ y−b ¶2
³ ´ a −µ y−(aµ+b) 2
³ ´
y−b − 1/2 − 1/2
1 0 1 √1 σ
√ 1
fY (y) = a
FX a
= a
e = e aσ
2π σ 2π aσ
Pero esta es precisamente la fdp N (aµ + b, a2 σ 2 )

Ahora consideremos
³ el caso ´ FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤
´ a < 0. Se³ tiene:
y−b y−b
y − b) = P X ≥ a = 1 − FX a
. Por lo tanto, derivando respecto de y se tiene:
µ y−b ¶2
³ ´ a −µ y−(aµ+b) 2
³ ´
y−b − 1/2 − 1/2
− a1 1 √1 √ 1
0 σ
fY (y) = FX a
= |a|
e = e |a|σ
2π σ 2π |a|σ
Reconocemos aquı́ nuevamente la fdp N (aµ + b, (|a| σ)2 ) es decir N (aµ + b, a2 σ 2 ) ¥
Corolario 6
X −µ
X ∼ N (µ, σ 2 ) ⇔ ∼ N (0, 1)
σ
Nota: A partir de una variable aleatoria X ∼ N (µ, σ 2 ), el proceso de restarle mu y dividir el
resultado por σ, es decir obtener la nueva variable aleatoria Z = X−µ
σ
, se denomina standarizar X.
O sea, Z es la standarización de X.
Ejemplo: Si X ∼ N (2, 9) calcular:
a) P (1 < X < 5)
Rta: ³ ´
P (1 < X < 5) = P 1−2 3
< X−2
3
< 5−2
3
= P (− 1/3 < Z < 1) = Φ(1) − Φ(− 1/3) ≈
0.841 − 0.369 = 0.472
b) P (|X − 3| > 6)
Rta:
P (|X − 3| > 6) = 1 − P (|X − 3| ≤ 6) = 1 − P (−6 ≤ X − 3 ≤ 6) =
³ ´
−3−2 X−2 9−2
= 1 − P (−6 + 3 ≤ X ≤ 6 + 3) = 1 − P 3
≤ 3
≤ 3
=
= 1 − P (−5/3 ≤ Z ≤ 7/3) = 1 − [Φ(7/3) − Φ(−5/3)] ≈
≈ 1 − 0.990 + 0.048 = 0.058
g
Teorema 9 (Teorema de cambio de variables) Sea [c, d] → R diferenciable con continuidad
en [c, d] (es decir g 0 existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verifica:
Z g(d) Z d
f (x) dx = f (g(t)) g 0 (t) dt
g(c) c
Nota: Siendo g continua en [c, d] resulta g ([c, d]) intervalo. Este intervalo contiene al intervalo
de extremos g(c) y g(d).
Dem:
g 0 ,f ◦g G F
Por hipótesis las funciones [c, d] −→ R son continuas. Definamos [c, d] → R y g ([c, d]) → R por
Rt Rx
G(t) = c f (g(s)) g 0 (s) ds ; F (x) = g(c) f (w) dw
Por el teorema fundamental del cálculo se tiene:

G0 (t) = f (g(t)) g 0 (t) para todo t ∈ [c, d]
F 0 (x) = f (x) para todo x ∈ g ([c, d])
Las funciones G y F ◦ g son dos primitivas de (f ◦ g)g 0 en [c, d]. Por lo tanto existe alguna
constante k tal que G = F ◦ g + k. Pero evaluando en t = c resulta G(c) = 0 = F (g(c)). Luego
k = 0. Entonces G = F ◦ g. En particular, tomando t = d se obtiene lo deseado ¥
Corolario 7 Sea X una v.a. continua con fdp fX . Anotemos SX al soporte de fX y supongamos
que es un intervalo. Sea g una función continua y estrictamente monótona en § X . Definamos
def
SY = g(SX ). Supongamos que g −1 es diferenciable con continuidad en SY Entonces la variable
aleatoria Y = g(X) es continua y su fdp viene dada por:
 ¯ ¢¯¯
¯d ¡
 fX (g −1(y)) · ¯ dy g −1(y) ¯ si y ∈ RY

fY (y) =


0 si y 6∈ RY
Dem:
Consideremos el caso en que g es estrictamente decreciente en RX Como g es continua re-
sulta que g(RX ) es un intervalo. Anotemos IX e IY a las funciones indicadoras de SX y
de SY respectivamente. Entonces:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (g(X) ≤ y, X ∈ RX ) = P (X ≥ g −1(y)) =

R∞ R −∞ ¡ ¢¡ ¢0
= g −1 (y) fX (x)IX (x) dx = y fX g −1(y) g −1 (y)IY (y) dy =
Ry ¡ ¢ d
¡ −1 ¢
= − −∞ fX g −1(y) dy
g (y) IY (y) dy =
Ry ¡ ¢h d
¡ ¢i
= −∞ fX g −1(y) − dy
g −1(y) IY (y) dy =
Ry ¡ ¢ ¯¯ d ¡ −1 ¢¯¯
= −∞ fX g −1(y) ¯ dy g (y) ¯ IY (y) dy
El otro caso es similar ¥
Ejemplo: Veamos que si X ∼ U (0, 1) entonces Y = − ln(1 − X) ∼ E(1)

Notemos que SX = (0, 1) Además en este caso Y = g(X) siendo y = g(x) = − ln(1 − x) Esta
función es estrictamente creciente en SX como puede comprobarse vı́a gráfica o evaluando el signo
g
de g 0 en S¡X Se tiene:
¢ (0, 1) → (0, ∞) , g −1(y) = 1 − e− y es diferenciable con continuidad,
d
siendo dy g −1(y) = e− y Por el teorema resulta:
fY (y) = fX (1 − e− y )e−y I(0,∞) (y) = e−y I(0,∞) (y)
que es precisamente la densidad de una E(1)
Ejemplo: Mostrar que si X ∼ U (0, 1) entonces Y = βX 1/α ∼ W(α, β)
g
Se tiene SX = (0, ∞) En este caso (0, ∞) → ¡(0, ∞) es ¢ estrictamente creciente con inversa
d
continuamente diferenciable: g −1(y) = (y/β)α , dy g −1(y) = βαα y α−1 Por el teorema se tiene:
α α
fY (y) = fX ((y/β)α) · y α−1I(0,∞) (y) = y α−1I(0,∞) (y)
βα βα
que es precisamente la densidad W(α, β)
Ejemplo: Si X ∼ U (0, 1) y si Φ es la fda normal standard entonces Y = Φ−1(X) ∼ N (0, 1)

Por ejemplo con Splus o R podrı́amos generar n = 100 observaciones normales standard del modo
siguiente:
x_runif(100)
y_qnorm(x)
y
qqnorm(y)
qqline(y)
cuyo resultado es:
> y
[1] 1.439656209 -0.153820818 -0.973364545 -2.670822995 1.573157002
[6] -1.515236540 -0.017587315 -0.277855490 1.522914668 0.805903825
[11] 1.390965278 1.081745384 -0.940007847 1.806211842 1.385184211
[16] 0.789081143 -0.572512513 -0.426706851 -1.619519525 -0.163684787
[21] 0.363264580 3.509691190 -0.358246089 -0.618651099 -0.440391503
[26] -0.463496951 -0.528399068 0.343278381 -0.798728454 -0.858057270
[31] -0.114529089 0.014408313 0.711339651 -0.702370373 1.151716769
[36] 1.222205661 0.553613844 -1.291154983 1.576725352 1.274922705
[41] 2.373343271 0.023516669 -1.179085855 0.376860986 0.837743375
[46] 0.638265270 0.200955245 -1.227181790 0.226847841 0.092363984
[51] -0.202351448 -1.194020555 -0.031555431 -0.276199872 -0.522546189
[56] -0.821240291 -0.829233179 -1.420151004 -0.018863978 1.071702472
[61] 0.952116827 -0.481977529 0.013052120 2.576981022 -0.240945446
[66] 1.061576194 -0.429587065 1.177723298 1.517133775 0.747041757
[71] -0.302776745 -0.606648062 0.159249318 -0.727483736 -0.209902629
[76] -1.468940054 -0.384172801 -1.107982526 1.475101839 0.794312989
[81] -1.684586480 -0.847926953 0.244018386 -0.143598695 0.614903554
[86] 0.592337464 0.417235128 1.225940136 1.156041361 0.214837671
[91] -0.005689715 -0.291107554 1.142520415 -0.036015666 1.284851222
[96] 0.343150051 0.431397104 -0.260146350 -0.297678363 0.857941106
3
2
1
y
0
-1
-2
-2 -1 0 1 2
Quantiles of Standard Normal
El teorema anterior tiene el inconveniente de requerir la monotonı́a de g Presentamos a continuación

una versión menos restrictiva del mismo teorema.
Teorema 10 ddd
Esperanza y varianza
22 Valor esperado de una variable aleatoria

22.1 Motivación
Los ejemplos siguientes aclaran la situación que vamos a considerar.
Ejemplo: Una prueba es calificada en una escala de puntajes 0, 1, 2, 3. Un curso de 35 alumnos

realiza la prueba, con los siguientes resultados (en la tabla X indica el puntaje):
Al. X Al. X Al. X Al. X Al. X

1 2 8 1 15 2 22 1 29 0
2 1 9 2 16 2 23 1 30 1
3 1 10 1 17 1 24 2 31 1
4 0 11 1 18 2 25 1 32 2
5 2 12 1 19 1 26 1 33 2
6 2 13 0 20 1 27 2 34 2
7 2 14 3 21 0 28 1 35 1
Supongamos que se extrae al azar un alumno entre los 35 evaluados ¿ Qué puntaje se espera observar?
Dicho en otro términos, ¿ qué número podemos tomar como representativo del puntaje del curso?
Naturalmente esperamos que el puntaje promedio del curso sirva a tales efectos. Sea X la variable
aleatoria que mide el puntaje (de un alumno, en nuestro experimento aleatorio de extraer un alumno
al azar y observar su puntaje). El rango de X es RX = {0, 1, 2, 3}. El puntaje promedio del curso
es (n = 35):
2+1+1+0+2+2+2+1+2+1+1+1+0+3+2+2+1+2+1+1+0+1+1+2+1+1+2+2+1+1
X̄ = 35
Para calcular el numerador de esta expresión podemos agrupar puntajes iguales, es decir que podemos
agrupar de acuerdo a los distintos valores de la variable aleatoria X. Entonces el cálculo anterior
adopta la forma:
X̄ = 0·f (X=0)+1·f (X=1)+2·f35
(X=2)+3·f (X=3)
=
0·4+1·18+2·12+3·1
= 35
En los cálculos f (k) = f (X = k) representa la frecuencia del valor X = k (k = 0, 1, 2, 3). Si
ahora distribuimos el denominador, se obtiene:
0·4+1·18+2·12+3·1 4 18 12 1
X̄ = 35
=0· 35
+1· 35
+2· 35
+3· 35
=
= 0 · f (X=0)
35
+1· f (X=1)
35
+2· f (X=2)
35
+3· f (X=3)
35
=
=
Pn
= k · f (X=k)
n
k=0
Ahora bien, los números f (X=k)

n
vienen dados precisamente por la fmp de X, es decir pX (k) =
P (X = k). Entonces obtenemos el siguiente resultado:
n
P n
P P
X̄ = k · pX (k) = k · P (X = k) = k · P (X = k)
k=0 k=0 k∈RX
Ejemplo: Supongamos (para modelizar) que la altura X de un individuo adulto de cierta población
sigue una distribución N (1.70, 0.01). Si se extrae un individuo al azar de esta población, ¿ qué
altura esperada tendrá? Es decir, ¿ qué número podrı́amos tomar como representativo de la altura de
un individuo en dicha población? A diferencia del ejemplo anterior, en este caso la variable aleatoria
X es continua. Podemos considerar un rango razonable [L, U ] de alturas (por ejemplo podrı́amos
tomar L = 1, U = 2 por decir algo). Dividamos este intervalo [L, U ] en cierta cantidad n de
subintervalos, mediante una partición regular:
L = x o < x1 < · · · < x n = U
y llamemos h a la norma de esta partición, es decir h = (U − L)/n. Recordemos que:
P (x ≤ X < x + h)
fX (x) = lim
h → 0+ h
Por lo tanto podemos escribir:
P (x ≤ X < x + h) = hfX (x) + o(h) para h → 0+
o aproximadamente para h pequeño: P (x ≤ X < x + h) ≈ hfX (x). En cada subintervalo

[x, x + h) es razonable considerar a x o a cualquier otro valor en tal intervalo, como represetativo
de las alturas allı́ (h pequeño). Luego, imitando los cálculos del ejemplo anterior, tomarı́amos como
altura representativa aproximada:
n
X n
X n
X
xk P (xk−1 ≤ X < xk ) ≈ xk fX (xk )h = xk fX (xk ) · h
k=1 k=1 k=1
El cálculo resultará más representativo cuanto más pequeño sea h. En el lı́mite el cálculo resultará
exacto. Pero de acuerdo a la definición de integral definida se tiene:
n
X Z U
lim xk fX (xk ) · h = xfX (x) dx
h → 0+ L
k=1
Pero hemos introducido un intervalo ”razonable” de alturas posibles. Si nos atenemos estrictamente
a nuestro modelo N (1.70, 0.01), no hay razones por las cuales no debamos considerar cualesquiera
posibles valores de X en su rango RX = R (recordemos que esto es sólo un modelo para la población
real). Entonces lo lógico será tomar como representativo de la altura de la población al número:
Z ∞
xfX (x) dx
−∞
22.2 Definición y ejemplos

Definición 27 Sea X una variable aleatoria discreta con rango RX = {xk } (finito o infinito
numerable) y sea pX su fmp. Se define el valor esperado o la esperanza de X como el número real:
X X
E(X) = xP (X = x) = xpX (x)
x∈RX x∈RX
siempre y cuando la serie converja absolutamente. En caso contrario se dice que X no posee esperanza
o que la esperanza de X no está definda. Al hablar de convergencia absoluta queremos significar que
la serie de los valores absolutos debe converger (suma finita), es decir:
X
|x| pX (x) < ∞
x∈RX
Nota: Cuando RX es finito siempre existirá E(X) puesto que la serie en cuestión sólo consta de
un número finito de términos.
Definición 28 Sea X una variable aleatoria continua y sea fX su fdp. Se define el valor esperado
o la esperanza de X como el número real:
Z∞
E(X) = xfX (x) dx
−∞
siempre y cuando la integral converja absolutamente. En caso contrario se dice que X no posee
esperanza o que la esperanza de X no está definda.
Nota: La integral puede ser propia o impropia, dependiendo de las caracterı́sticas y del soporte de f X .
En todo caso, siempre debe analizarse su covergencia. Al hablar de convergencia absoluta queremos
significar que la integral del valor absoluto debe converger (valor finito), es decir:
Z∞
|x| fX (x) dx < ∞
−∞
Vamos a ilustrar estas definiciones calculando la esperanza de algunas de las distribuciones que hemos
introducido anteriormente. Calcularemos también la esperanza del cuadrado de cada variable aleatoria,
dado que nos resultará útil en el futuro (cuando definamos el concepto de varianza de una variable
aleatoria)
Ejemplo: Geométrica
Sea X ∼ G(p). En este caso RX = N. Anotemos q = 1 − p. La esperanza se calcula como:
∞
X ∞
X ∞
X
E(X) = kP (X = k) = kq k−1p = p kq k−1
k=1 k=1 k=1
Para sumar esta serie podemos recurrir al truco siguiente (que ya hemos utilizado):
∞
X 1
S(q) = qk = (11)
k=0
1−q
Derivado respecto de q (justificarán el intercambio de derivada con suma en alguno de los cursos de
Análisis Matemático) se obtiene:
∞ µ ¶
0
X
k−1 d 1 1 1
S (q) = kq = = 2
= 2
k=1
dq 1 − q (1 − q) p
Luego:
1 1
E(X) = p =
p2 p
Por otra parte:
∞
X ∞
X ∞
X
E(X 2 ) = k2 P (X = k) = k2 q k−1p = p k2 q k−1
k=1 k=1 k=1
Para hallar la suma de esta serie, derivemos (11) pero en este caso dos veces:
∞ µ ¶
00
X
k−2 d 1 2 2
S (q) = k(k − 1)q = 2
= 3
= 3
k=2
dq (1 − q) (1 − q) p
Si separamos la suma obtenemos:

∞ ∞
µ ∞ ∞
¶
P P P P
S 00 (q) = k2 q k−2 − kq k−2 = q −1 k2 q k−1 −1− kq k−1 =
k=2 k=2 k=1 k=2
· ∞
¸
P
= q −1 k2 q k−1 −1− (S 0 (q) − 1) =
k=1
µ ∞
¶
P
= q −1 k2 q k−1 − S 0 (q)
k=1
Despejando:
∞
X 2q 1 2q + p
k2 q k−1 = qS 00 (q) + S 0 (q) = + =
k=1
p3 p2 p3
Por lo tanto:
∞
X 2q + p
E(X 2 ) = p k2 q k−1 =
k=1
p2
Ejemplo: Binomial
Sea X ∼ Bi(n, p). En este caso RX = {0, 1, · · · , n}. Anotemos q = 1 − p. Entonces:
n
P ¡n¢ n
P n
P
kn! n(n−1)!
E(X) = k k
pk q n−k = k!(n−k)!
pk q n−k = (k−1)!(n−k)!
pk q n−k =
k=0 k=1 k=1
n ¡ n ¡
P n−1¢ P n−1¢
= np k−1
pk−1q n−k = np k−1
pk−1q n−k =
k=1 k=1
= np(p + q)n−1 = np
Para calcular la esperanza del cuadrado de una binomial:

n ¡n¢ k n−k n ¡ ¢ k n−k n
P P P k2 n!
E(X 2 ) = k2 k
p q = k2 n
k
p q = k!(n−k)!
pk q n−k =
k=0 k=1 k=1
n
P n
P ¡n−1¢ k−1 n−k
nk(n−1)!
= (k−1)!(n−k)!
pk q n−k = np k k−1
p q =
k=1 k=1
· n n ¡
¸
P ¡n−1¢ P n−1¢ k−1 n−k
= np (k − 1) k−1
pk−1q n−k + k−1
p q =
k=1 k=1
· n
¸ ·n−1 ¸
P ¡n−1¢ P ¡n−1¢ s n−1−s
= np (k − 1) k−1
pk−1q n−k + 1 = np s s p q +1 =
k=1 s=0
= np [(n − 1)p + 1] = np(np + 1 − p) = np(np + q)
donde hemos utilizado que la última suma entre corchetes es la expresión de la esperanza de una
Bi(n − 1, p), es decir (n − 1)p.
Ejemplo: Poisson S
Sea X ∼ P(λ) de modo que RX = N {0}. Calculemos su esperanza:
∞ ∞ ∞
X λk −λ −λ
X λk−1 −λ
X λs
E(X) = k e = λe = λe = λe− λeλ = λ
k=0
k! k=1
(k − 1)! s=0
s!
Calculemos la esperanza de su cuadrado:

∞ ∞ ∞
P λk P λk−1 P λs
E(X 2 ) = k2 k!
e− λ = λe− λ k (k−1)!
= λe− λ (s + 1) s!
=
k=0 k=1 s=0
· ∞ ∞
¸
P λs P λs
¡ ¢
= λ s s!
e− λ + e− λ s!
= λ λ + e− λeλ = λ(1 + λ)
s=0 s=0
Ejemplo: Gaussiana standard

Sea X ∼ N (0, 1). Su esperanza se calcula como:
Z ∞ Z ∞
1 2 1 2
E(X) = x√ e− x /2 dx = √ x e− x /2 dx
−∞ 2π 2π − ∞
Afortunadamente el integrando posee primitiva elemental. En efecto: Sustituyendo t = −x 2 /2 se

tiene dt = − x dx
Z Z
− x2 /2 2
xe dx = − et dt = −et + C = −e− x /2 + C
Por lo tanto: Rb 2 /2 2 /2
0 x e− x dx = 1 − e− b −→ 1
b →∞
R0 2 /2 2 /2
a x e− x dx = e− a − 1 −→ −1
a →− ∞
R∞ − x2 /2
De manera que: − ∞ x e dx = −1 + 1 = 0. Esto muestra que E(X) = 0
2
Calculemos ahora E(X ), es decir:
Z ∞ Z ∞
1 2 1 2
E(X 2 ) = x2 √ e− x /2 dx = √ x2 e− x /2 dx
−∞ 2π 2π − ∞
2
RPlanteamos la integral indefinida por partes: u = x , dv = xe− x /2 dx. Entonces: du = dx , v =
− x2 /2 2
xe dx = −e− x /2 . Luego:
Z Z
2 − x2 /2 − x2 /2 2
x e dx = xe + e− x /2 dx
Por lo tanto:
Z b ¯b Z b Z b
2 2 2 /2 2 /2 2 /2 2 /2
x2 e− x /2 dx = xe− x /2 ¯ + e− x dx = be− b − ae− a e− x
¯
+ dx
a a a a
Luego: R0 R0
2 /2 2 /2
a x2 e − x dx −→ + −∞ e− x dx
a →− ∞
Rb 2 /2 R∞ 2 /2
0 x2 e − x dx −→ + 0 e− x dx
b →∞
Por lo tanto: Z Z
∞
2 − x2 /2
∞
2 /2 √
x e dx = e− x dx = 2π
−∞ −∞
Finalmente: Por lo tanto:

Z
21 ∞
2 /2 1 √
E(X ) = √ x2 e − x dx = √ 2π = 1
2π −∞ 2π
Ejemplo: Exponencial
Sea X ∼ E(λ). Calculemos su esperanza:
Z ∞ Z ∞
− λx
E(X) = xλe dx = λ xe− λx dx
0 0
Planteamos la integral indefinida por partes: u = x , dv = λe− λx dx

Z Z
1
xe− λx dx = −x e− λx + e− λx dx = −x e− λx − e− λx
λ
Entonces: ¯∞ 1 − λx¯¯∞ 1
E(X) = − x e− λx¯ −
¯
e ¯ =
0 λ 0 λ
En cuanto a la esperanza del cuadrado, planteamos:
Z ∞ Z ∞
2 2 − λx
E(X ) = x λe dx = λ x2 e− λx dx
0 0
Nuevamente acá planteamos la integral indefinida por partes: u = x2 , dv = λe− λx dx

Z Z
2 − λx 2 − λx
x e dx = −x e +2 xe− λx dx
Entonces:
R∞ ¯∞ R∞ R∞
E(X 2 ) = 0 x2 e− λx dx = − x2 e− λx¯0 + 2 0 xe− λx dx = 2 0 xe− λx dx =
E(X)
= 2 λ
= 2/λ2
Ejemplo: Binomial negativa

Sea X ∼ BN (r, p). Su esperanza se calcula como:
∞
P ¡k−1¢ ∞
P k(k−1)!
E(X) = k r−1
pr q k−r = (r−1)!(k−r)!
pr q k−r =
k=r k=r
∞
P ∞ ¡ ¢
P
k! k
= r r!(k−r)!
pr q k−r = r r
pr q k−r =
k=r k=r
∞ µ ¶
r
∞ ¡ ¢
P k r
X s−1 r
= p r
pr+1 q k−r = p
pr+1 q s−(r+1) = p
k=r s=r+1
(r + 1) − 1
| {z }
1
Para hallar la esperanza del cuadrado:

∞
P ¡k−1¢ r k−r ∞
P rkk!
E(X 2 ) = k2 r−1
p q = r!(k−r)!
pr q k−r =
k=r k=r
∞
P ¡k ¢ ∞
P ¡s−1¢
= r k r
pr q k−r = r (s − 1) r
pr+1 q s−r−1 =
k=r s=r+1
 
 ∞ µ ¶ ∞ µ ¶ 
r
 X s − 1 X s − 1 
r
³
r+1
´
pr+1 q s−r−1 − pr+1 q s−r−1 =
 
= p  s p p
−1
 r r 
s=r+1 s=r+1 
| {z } | {z }
(r+1)/p 1
Ejemplo: Gama
Sea X ∼ Γ(α, λ). Calculemos su esperanza:
R∞ λα
R∞ λα
E(X) = 0 x Γ(α) xα−1 e− λx dx = 0 Γ(α)
x(α+1)−1 e− λx dx =
α
R∞ λα+1 α
= λ 0 Γ(α+1)
x(α+1)−1 e− λx dx = λ
En cuanto a la esperanza del cuadrao, los cálculos son similares:

R∞ λα
R ∞ λα (α+2)−1 − λx
E(X 2 ) = 0 x2 Γ(α) xα−1 e− λx dx = 0 Γ(α) x e dx =
α(α+1) R∞ λα+2 α(α+1)

= λ2 0 Γ(α+2)
x(α+2)−1 e− λx dx = λ2
Ejemplo: Beta
Sea X ∼ Be(α, β). Su esperanza viene dada por:
R1 1
R1 1
E(X) = 0 x B(α,β)
xα−1 (1 − x)β−1 dx = 0 B(α,β)
x(α+1)−1 (1 − x)β−1 dx =
R1 1 α
R1 1 α
= 0 B(α,β)
x(α+1)−1 (1 − x)β−1 dx = α+β 0 B(α+1,β)
x(α+1)−1 (1 − x)β−1 dx = α+β

R1 1
R1 1
E(X 2 ) = 0 x2 B(α,β) xα−1 (1 − x)β−1 dx = 0 B(α,β)
x(α+2)−1 (1 − x)β−1 dx =
α(α+1) R1 1 α(α+1)
= (α+β)(α+β+1) 0 B(α+2,β)
x(α+2)−1 (1 − x)β−1 dx = (α+β)(α+β+1)
Ejemplo: Hipergeométrica
Sea X ∼ H(n, D, N ). Sean m = max {0, n − N + D} , M = min {n, D}. Entonces si anota-
mos m∗ = max {0, (n − 1) − (N − 1) + (D − 1)} , M ∗ = min {n − 1, D − 1} resulta:
½
∗ 0 si m = 0
m = = max {m − 1, 0} = max {m, 1} − 1 ; M∗ = M − 1
m − 1 si m ≥ 1
La esperanza de X viene dada por:

M
P (Dk)(Nn−k
−D
) M
P (Dk)(Nn−k
−D
)
E(X) = k N = k N =
k=m (n) k=max{m,1}
(n)
M (N −1)−(D−1) M (N −1)−(D−1)
n P D (D−1
k−1 )( (n−1)−(k−1) ) nD P (D−1
k−1 )( (n−1)−(k−1) )
= = =
N
k=max{m,1}
(N −1
n−1 )
N
k=max{m,1}
(N −1
n−1 )
nD
MP
−1 (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) D
= = =n
N
s=max{m,1}−1
(N −1
n−1 ) N
s=m∗ (N −1
n−1 ) N

M
P (Dk)(Nn−k
−D
) M
P (Dk)(Nn−k
−D
)
E(X 2 ) = k2 N = k2 N =
k=m (n) k=max{m,1}
(n)
M (N −1)−(D−1) M (N −1)−(D−1)
n P D (D−1
k−1 )( (n−1)−(k−1) ) nD P (D−1
k−1 )( (n−1)−(k−1) )
= k N −1 = k =
N
k=max{m,1}
( n−1 ) N
k=max{m,1}
(N −1
n−1 )
nD
MP
−1 (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s )
= N
(s + 1) N −1 = N
(s + 1) N −1 =
s=max{m,1}−1
( n−1 ) s=m∗ ( n−1 )
· ¸
nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) P∗ (D−1
M
s )(
(N −1)−(D−1)
(n−1)−s )
= s + =
N
s=m∗ (N −1
n−1 ) s=m∗ (N −1
n−1 )
h i ³ ´
nD D−1 nD (n−1)(D−1)+(N −1) D D−1
= N
(n − 1) N −1
+1 = N N −1
=n N
1 + (n − 1) N −1
=
³ ´ ³ ´
N n(D−1) D D
= N −1
1+ N −D
n N
1− N
Ejemplo: Chi cuadrado

¡ 1¢
Sea X ∼ χ2 (n) = Γ n , . Entonces por lo visto para la gamma, se tiene:
2 2
n
n/2 ( n2 +1)
E(X) = 1/2
=n ; E(X 2 ) = 2
(1/2)2
= n(n + 2)
Ejemplo: Uniforme
Sea X ∼ U (a, b). En este caso:
Rb Rb ¯b
1 1 1 x2 ¯ b2 −a2 (b−a)(b+a) a+b
E(X) = a x b−a
dx = b−a a x dx = b−a 2 ¯a
= 2(b−a)
= 2(b−a)
= 2
¯b
Rb 1 1
Rb 1 x3 ¯ b3 −a3 (b−a)(a2 +ab+b2 ) a2 +ab+b2
E(X 2 ) = a x2 b−a
dx = b−a a x2 dx = b−a 3 ¯a
= 3(b−a)
= 3(b−a)
= 3
Ejemplo: t de Student
Sea X ∼ t(n). Para calcular su esperanza observemos antes algunas particularidades. Debemos
analizar ante todo la convergencia de la integral impropia. Por simetrı́a y dado que dicha integral
√
es propia en el origen, vamos a estudiarla en [ n, ∞). De hecho, para que nos sirva después,
estudiaremos la convergencia de la siguiente (un poco más general):
Z ∞ xk
Ik,n = √ ³ ´ dx
n x 2 (n+1)/2
1+ n
√
Hacemos el cambio de variables (para deshacernos del n ”molesto”): t = x/ n. Entonces dt =
√
dx/ n. Luego:
Z ∞
(k+1)/2 tk
Ik,n = n dt
1 (1 + t2 )(n+1)/2
Pero si t ≥ 1 se cumple:
tk tk 1
• ≤ tn+1
= tn+1−k
pues 1 + t2 ≥ t2
(1+t2 )(n+1)/2
tk tn tn 1
• tk
≥ ≥ = pues 1 + t2 ≤ t2 + t2 = 2t2
(1+t2 )(n+1)/2 (2t2 )(n+1)/2 2(n+1)/2 t
(1+t2 )(n+1)/2
Luego: Ik,n es convergente sii n + 1 − k > 1 sii k < n. Deducimos inmediatamente que si
X ∼ t(1) entonces X carece de esperanza (finita). Si X ∼ t(2) entonces E(X) existe pero
E(X 2 ) no existe. En cambio si X ∼ t(n) con n ≥ 3 entonces existen E(X) y E(X 2 ).
Γ( n+1 )
Vamos a calcularlas: Para alivianar notación denotemos An = Γ n 2√nπ . Tengamos presente que
(2)
por definición de fdp (su integral sobre toda la recta es 1 ) se tiene para n ∈ N:
Z ∞ Z ∞
dt − 1/2 dx ³
1/2
´−1
(n+1)/2
= n ³ ´ = n A n
−∞ (1 + t2 ) 2 (n+1)/2
−∞
1 + xn
√
Entonces usando consecutivamente las sustituciones t = x/ n , s = 1 + t2 se obtiene para n ≥ 2:
R∞ x
R∞ t
E(X) = An − ∞ ³ 2
´ (n+1)/2 dx = nA n −∞ 2 (n+1)/2
dt =
1+ xn (1+t )
hR R∞ i
0 t t
= nAn − ∞ (1+t2 )(n+1)/2 dt + 0 dt =
(1+t2 )(n+1)/2
hR R∞ i h R R∞ i
1 0 ds ds 1 ∞ ds ds
= 2
nAn ∞ s(n+1)/2 + 0 s(n+1)/2
= 2
nAn − 0 s(n+1)/2
+ 0 s(n+1)/2
=0
Análogamente, para n ≥ 3 se tiene:

R∞ x2
R∞ t2
E(X 2 ) = An −∞ ³ 2
´ (n+1)/2 dx = n3/2 An − ∞ (1+t2 )(n+1)/2 dt =
1+ xn
R∞ (1+t2 )−1
= n3/2 An − ∞ (1+t2 )(n+1)/2 dt =
hR R∞ i
∞ 1 1
= n3/2 An − ∞ (1+t2 )(n−1)/2 dt − − ∞ (1+t2 )(n+1)/2 dt =
h i
1 1
= n3/2 An (n−2)1/2 An−2
− n1/2 An
=
·³ ´1/2 ¸
n An
= n n−2 An−2
−1
Utilizando
£ las propiedades
¤ de la función gamma se puede verificar fácilmente que A n /An−2 = (n −
1)/ n(n − 2)1/2 . Reemplazando resulta:
½³ ´1/2 ¾ ³ ´
n n−1 n−1 n
E(X 2 ) = n n−2 1/2 − 1 = n n−2
− 1 = n−2
[n(n−2)]
Ejemplo: F de Fisher-Snedecor
El cálculo de E(X) y E(X 2 ) es un poco engorroso y lo omitiremos. El resultado es el siguiente:
n
E(X) = n−2
para n ≥ 3
³ ´2 h i
n m+n−2
E(X 2 ) = n−2
1 + 2 m(n−4) para n ≥ 5
Ejemplo: Lognormal
Sea X ∼ logN (µ, σ). Calculemos su esperanza: Para la integral realizamos la sustitución t = ln x.
Luego: dt = dx/x , x = et . Entonces:

R∞ 2 /(2σ2 ) R∞ 2 /(2σ2 )
E(X) = √ x e− (ln x−µ) dx = √1 e− (ln x−µ) dx =
0 2π σx 2π σ 0
R −∞ 2 /(2σ2 ) R∞ 2 −2µt+µ2 −2σ2 t)/(2σ2 )

= = √1 e− (t−µ) et dt = √1 e−(t dt =
2π σ ∞ 2π σ −∞
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+σ2 )t
= √1 e− µ
2π σ −∞
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+σ2 )t+(µ+σ2 )2 −(µ+σ2 )2
= √1 e− µ
2π σ −∞
R∞ 2
e−[t−(µ+σ )]
2 /(2σ2 ) 2 /(2σ2 ) (µ+σ2 )2 /(2σ2 )
= √1 e− µ e dt =
2π σ −∞
R∞ 2
e−[t−(µ+σ )]
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /(2σ2 )
= e− µ e(µ+σ √1 dt =
−∞ 2π σ
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /2
= e− µ e(µ+σ = eµ+σ
El cálculo de la esperanza del cuadrado es completamente similar:

R∞ 2 2 /(2σ2 ) R∞ 2 /(2σ2 )
E(X 2 ) = √x e− (ln x−µ) dx = √1 x e− (ln x−µ) dx =
0 2π σx 2π σ 0
R −∞ 2 /(2σ2 ) R∞ 2 −2µt+µ2 −4σ2 t)/(2σ2 )

= = √1 e− (t−µ) e2t dt = √1 e−(t dt =
2π σ ∞ 2π σ −∞
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+2σ2 )t
= √1 e− µ
2π σ −∞
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+2σ2 )t+(µ+2σ2 )2 −(µ+2σ2 )2
= √1 e− µ
2π σ −∞
R∞ 2
e−[t−(µ+2σ )]
2 /(2σ2 ) 2 /(2σ2 ) (µ+2σ2 )2 /(2σ2 )
= √1 e− µ e dt =
2π σ −∞
R∞ 2
e−[t−(µ+2σ )]
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /(2σ2 )
= e− µ e(µ+2σ √1 dt =
−∞ 2π σ
2 /(2σ2 ) 2 )2 /(2σ2 ) 2)
= e− µ e(µ+2σ = e2(µ+σ
22.3 Propiedades de la esperanza

Propiedad 47 (Linealidad de la esperanza) Sean X e Y variables aleatorias definidas sobre
un mismo espacio de probabilidad. Supongamos además que E(X) , E(Y ) están definidas. Entonces
para cualesquiera constantes a, b ∈ R la esperanza E(aX + bY ) existe y se verifica:
E(aX + bY ) = aE(X) + bE(Y )
Dem: Esta demostración se dará más adelante, cuando desarrollemos la teorı́a de vectores aleatorios. ¥
Propiedad 48 Sea X una variable aleatoria. Dados m, n ∈ N , m < n se cumple:
E(X n ) existe ⇒ E(X m ) existe
Dem:
Sólo demostramos el caso discreto (El caso continuo se demustra de manera completamente análoga,
reemplazando sumas por integrales). Tengamos en cuenta que: ∀x ≥ 0 , xm ≤ xn ⇔ x ≥ 1

P P P
E (|X m |) = |x|m pX (x) = |x|m pX (x) + |x|m pX (x) ≤
x∈RX x∈RX x∈RX
|x|>1 |x|≤1
P P
≤ |x|n pX (x) + pX (x) ≤
x∈RX x∈RX
|x|>1 |x|≤1
P P
≤ |x|n pX (x) + pX (x) = E (|X n |) + 1
x∈RX x∈RX
Por lo tanto si E(X n ) existe entonces E (|X n |) < ∞ por lo cual E (|X m |) < ∞ de manera que
E(X m ) existe. ¥
Propiedad 49 Sea X una variable aleatoria tal que E(X) existe. Se cumple:
P (X ≥ 0) = 1 ⇒ E(X) ≥ 0
Dem:
Caso discreto:
pX (x) = P (X = x) = P (X = x, X ≥ 0) + P (X = x, X < 0)
Pero: P (X < 0) = 1 − P (X ≥ 0) = 1 − 1 = 0 Entonces como {X = x, X < 0} ⊆
{X < 0} resulta P (X = x, X < 0) = 0 Por lo tanto: pX (x) = P (X = x, X ≥ 0) =
pX (x)I[0,∞) (x) Entonces:
X X X
E(X) = xpX (x) = xpX (x)I[0,∞) (x) = xpX (x) ≥ 0
x∈RX x∈RX x∈RX
x≥0
El caso continuo es similar. ¥
Corolario 8 Sean X, Y variables aleatorias tales que existen E(X), E(Y ) Se cumple:
P (X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y )
Dem: Consideremos Z = X − Y Aplicándole directamente la propiedad anterior y utilizando luego
la linealidad de la esperanza, se deduce el resultado a probar. ¥
Propiedad 50 (Desigualdad de Markov) Sea X una variable aleatoria tal que X ≥ 0 y E(X)
existe. Entonces para cualquier número real c > 0 se verifica:
E(X)
P (X ≥ c) ≤
c
Dem: Sea A = [c, ∞) La función indicadora de A es
½
1 si x ∈ A
IA (x) =
0 si x 6∈ A
La variable aleatoria IA (X) es discreta con rango {0, 1} Calculemos su esperanza:
E(IA (X)) = 0·P (IA (X) = 0)+1·P (IA (X) = 1) = P (IA (X) = 1) = P (X ∈ A) = P (X ≥ c)
Además: x ∈ A ⇒ x ≥ c ⇒ x/c ≥ 1 Por lo tanto:
x x
∀x ∈ R , IA (x) ≤ IA (x) ≤
c c
X
Luego: IA (X) ≤ c
Tomando esperanzas y utilizando el corolario anterior se tiene:
µ ¶
X E(X)
P (X ≥ c) = E(IA (X)) ≤ E = ¥
c c
Propiedad 51 Sea X una variable aleatoria. Se verifica:
X≥0 y E(X) = 0 ⇒ P (X = 0) = 1
Dem: Fijemos x > 0 Por la desigualdad de Markov y utilizando que E(X) = 0 se tiene:
P (X ≥ x) ≤ E(X)
x
=0
Entonces: ∀x > 0 , P (X ≥ x) = 0 Por lo tanto, si x > 0 vale: FX (x) = 1 puesto que:
 
FX (x) = P (X ≤ x) = lim P (X < x + 1/n) = lim 1 − P (X ≥ x + 1/n) = 1

n →∞ n →∞ | {z }
0
Utilizando que X ≥ 0 también se tiene: ∀x > 0 , FX (−x) = 0 Por lo tanto:

 
P (X = 0) = lim FX (x) − FX (−x) = 1

x → 0+ | {z } | {z }
1 0
como querı́amos demostrar. ¥
23 Varianza de una variable aleatoria

23.1 Motivación y definición
Consideremos una variable aleatoria X que representa una caracterı́stica numérica de los individuos
de cierta población. Supongamos además que existe E(X 2 ) Elijamos al azar un individuo dentro de
tal población e intentemos ”predecir” el valor que tomará la variable aleatoria X en dicho individuo.
Lo más razonable serı́a predecir el valor de X mediante el número E(X) ¿ Porqué? Supongamos
que decidimos predecir el valor de X mediante un número c Tal predicción tendrá asociado un error
(absoluto) aleatorio expresado por |X − c| Naturalmente ningún número c minimizará este error para
todos los valores posibles de X precisamente por ser aleatorio el error. Pero podemos intentar buscar
el número c que minimice la esperanza del error. Para evitar valores absolutos, busquemos el número
c que minimice la esperanza del cuadrado del error, denominada error cuadrático medio(ECM):
¡ ¢
ECM (c) = E (X − c)2 = E(X 2 − 2cX + c2 ) = E(X 2 ) − 2cE(X) + c2
La expresión anterior es cuadrática en c Podemos reexpresarla como:

¡ ¢ n o
E (X − c)2 = E [(X − E(X)) + (E(X) − c)]2 =
¡ ¢ ¡ ¢
= E (X − E(X))2 + 2 (E(X) − c) E (X − E(X)) + E (X − E(X))2 =
¡ ¢ ¡ ¢
= E (X − E(X))2 + E (E(X) − c)2
Como el primer término en esta expresión no depende de c y el segundo término se hace mı́nimo
tomando c = E(X) deducimos que el mejor predictor ¡ constante de¢X es el número E(X) Además, el
ECM de E(X) como predictor de X resulta ser E (X − E(X))2 Esta magnitud es tan importante
en probabilidades y estadı́stica que recibe un nombre especial.
Definición 29 Dada una variable aleatoria X se define la varianza de X como:

¡ ¢
V (X) = E (X − E(X))2
siempre y cuando tal esperanza exista.

Otras notaciones comunes para la varianza de X son V ar(X) , σXX , σX 2
El desvı́o standard o tı́pico de X se define como la raı́z cuadrada de su varianza:

p
SD(X) = V (X)
El desvı́o standard de X también se anota σX

Obsérvese que:
• Si E(X 2 ) existe entonces V (X) existe puesto que por propiedades vistas anteriormente se
deduce que E(X) ¡existe y por lo tanto,
¢ utilizando la propiedad de linealidad de la esperanza
tiene: V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) existe.
• Siendo V (X) la esperanza de un cuadrado, resulta siempre: V (X) ≥ 0
• Por propiedades vistas anteriormente se deduce que: V (X) = 0 ⇔ P (X = E(X)) = 1
• Si X se expresa en ciertas unidades, entonces V (X) se expresa en dichas unidades al cuadrado.

Por ejemplo, si X representa altura y se expresa en cm entonces V (X) queda expresada en
cm2 En cambio SD(X) queda espresada en las mismas unidades que X
Tanto V (X) como SD(X) miden en cierto sentido cuán alejados se encuentran, en promedio, los
valores de la variable aleatoria X respecto de su ”centro” o valor esperado E(X) Por ello decimos
que V (X) y SD(X) representan medidas de dispersión de la variable aleatoria.
23.2 Cálculo y propiedades

Propiedad 52 Sea X una variable aleatoria con E(X 2 ) finita. Se cumple:
V (X) = E(X 2 ) − E 2 (X)
Dem: Notemos que como E(X 2 ) < ∞ entonces por una propiedad anterior E(X) existe. Por lo
tanto, utilizando
¡ la linealidad¢ de la esperanza se obtiene:
V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) = E(X 2 ) − 2E 2 (X) + E 2 (X) =
E(X 2 ) − E 2 (X) ¥
Ejemplo: X ∼ Bi(n, p)
Ya calculamos E(X) = np , E(X 2 ) = np(q + np) de modo que se tiene: V (X) = np(q + np) −
(np)2 = npq = np(1 − p)
Ejemplo: X ∼ G(p)
En este caso sabemos que E(X) = 1/p y E(X 2 ) = (2q + p)/p2 Por lo tanto V (X) =
(2q + p)/p2 − 1/p2 = q/p2 = (1 − p)/p2
Ejemplo: X ∼ H(n, D, N ) ³ ´ ³ ´
D N n(D−1) D D
Vimos que E(X) = n N y E(X 2 ) = N −1
1+ N −D
nN 1− N
³ ´ N −n
D D
Entonces luego de operar se obtiene: V (X) = n N
1− N
N −1
| {z }
(∗)
El factor (∗) se denomina factor de corrección por población finita, en tanto que los tres primeros
factores coinciden con la esperanza de una variable aleatoria con distribución Bi(n, D/N ) Esto no
debe sorprendernos ya que la hipergeométrica surgió al contar la cantidad de objetos distinguidos
en una muestra sin reposición de tamaño n de una población de N individuos entre los que hay un
total de D distinguidos. Entonces cuando N es grande respecto de n y éste es pequeño respecto
de D es razonable que la no reposición afecte muy poco el resultado, de manera que contar la can-
tidad de distinguidos entre los n deberı́a dar resultados similares ya sea que la extracción se realice
con o sin reposición. Pero si se realiza con reposición, la cantidad de distinguidos posee distribución
Bi(n, D/N )
Ejemplo: X ∼ P(λ)
En este caso vimos que E(X) = λ , E(X 2 ) = λ(λ + 1) Luego: V (X) = λ(λ + 1) − λ2 = λ
Ejemplo: X ∼ N (µ, σ 2 )
Vimos que E(X) = µ , E(X 2 ) = µ2 + σ 2 Por lo tanto: V (X) = µ2 + σ 2 − µ2 = σ 2
Ejemplo: X ∼ Γ(λ, α)
Probamos antes que E(X) = λ/α , E(X 2 ) = λ(λ + 1)/α2 Luego: V (X) = λ(λ + 1)/α2 −
(λ/α)2 = λ/α
Propiedad 53 Sea X una variable aleatoria tal que V (X) es finita y sean a, b constantes. Vale:
V (aX + b) = a2 V (X)
Dem:
¡ ¢
V (aX + b) = E (aX + b)2 − E 2 (aX + b) = E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2 =
= a2 E(X 2 ) + 2abE(X) + b2 − a2 E 2 (X) − 2abE(X) − b2 =

¡ ¢
= a2 E(X 2 ) − a2 E 2 (X) = a2 E(X 2 ) − E 2 (X) = a2 V (X) ¥
24 Esperanza y varianza de una función de una variable aleatoria

Propiedad 54 Sea X una variable aleatoria y sea SX el soporte de su distribución. La esperanza de
la variable aleatoria g(X) puede calcularse, siempre que exista, como:
i) Caso discreto: X
E(g(X)) = g(x)pX (x)
x∈SX
ii) Caso continuo: Z

E(g(X)) = g(x)fX (x) dx
SX
Dem: P
Caso discreto: La fmp de Y = g(X) viene dada por pY (y) = pX (x) Por lo tanto:
x∈RX
g(x)=y
P P P P P
E(Y ) = ypY (y) = y pX (x) = ypX (x) =
y∈RY y∈RY x∈RX y∈RY x∈RX
g(x)=y g(x)=y
P P P
= g(x)pX (x) = g(x)pX (x)
y∈RY x∈RX x∈RX
g(x)=y
En el caso continuo la demostración es similar a la del teorema de cambio de variables que se demostró
cuando se dedujo, bajo condiciones de regularidad, que Y = g(X) posee densidad. Omitimos la
prueba. ¥
Ejemplo: Calculemos E(− ln X) siendo X ∼ U (0, 1)

Sea Y = − ln X Anotando SX = (0, 1) y SY = (0, ∞) los soportes de X e Y respectivamente,
se tiene:
Z 1 Z 1 Z 1
E(Y ) = (− ln x) fX (x) dx = − ln x dx = − x ln x|10 + dx = 1
0 0 0

Completo PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Completo PDF

Cargado por

Copyright:

Formatos disponibles

UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág.

de la multiplicación, la cantidad total de posibles variaciones de n tomados de a k resulta ser:

3568 5368 5638 5683

Para determinar la cantidad de combinaciones de n tomados de a k procedemos de modo indirecto del

n!(n+1) (n+1)! ¡n+1¢

Podemos reescribir este desarrollo como:

Análogamente para el desarrollo del cubo de un binomio:

(a + b)3 = a3 + 3a2 b + 3ab2 + b3

que también puede reescribirse como:

Teorema 1 (Fórmula del binomio de Newton)

es verdadera para todo número natural n.

de modo que p(1) es verdadera.

6 Permutaciones con repetición

El número anterior se denomina coeficiente multinomial y suele anotarse también como

Teorema 2 (Teorema multinomial) Para cualesquiera números x1 , x2 , · · · , xr ∈ R y cualquier

7 Distribución de bolillas en urnas

7.1 Disposiciones de n bolillas distintas en r urnas distintas

7.1.2 A lo sumo una bolilla es admisible por urna

7.2 Disposiciones de n bolillas idénticas en r urnas distintas

1|1|111111 1|11|11111 1|111|1111 1|1111|111 1|11111|11 1|111111|1 11|1|11111

7.2.2 Pueden quedar urnas vacı́as

Ejemplo: Se desea invertir un capital de $20.000 en cuatro posibilidades de inversión (negocios). Se

Teorı́a axiomática de probabilidades

8 Experimentos aleatorios - Espacio muestral - Eventos

Definición 1 Llamaremos espacio muestral asociado a un experimento aleatorio a cualquier conjunto

• El experimento es reproducible en idénticas condiciones una cantidad arbitraria de veces

Un espacio muestral asociado a este experimento puede ser Ω = {1, 2, 3, 4, 5, 6}

i) ∀a ∈ A , ∃n ∈ N tal que a = f (n)

ii) ∀m, n ∈ N m 6= n ⇒ f (m) 6= f (n)

En tal caso la función f determina una ”enumeración” de A. Si en lugar de f (n) anotamos

1) Lanzamiento de un dado. Podemos considerar los siguientes eventos:

A = ”sale número par” = {2, 4, 6}

2) Lanzamiento de dos dados. Podemos considerar los siguientes eventos:

A = ”el puntaje total excede 8” = {9, 10, 11, 12}

A = ”se requiere a lo sumo 5 lanzamientos” = {1, 2, 3, 4, 5}

Consideremos un evento A en el contexto de un experimento aleatorio. Supongamos que la realización

Ω = {(C, C), (C, S), (S, C), (S, S)}

donde C = ”sale cara” , S = ”sale ceca”, entonces si en determinada realización es ω = (C, C) y si

• El complemento de A es el evento Ac = {ω ∈ Ω : ω 6∈ A}. Es el evento que ocurre cada vez

• La unión de A con B es el evento A ∪ B = {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}. Es el evento

• La intersección de A con B es el evento A ∩ B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es

• La diferencia de A con B es el evento A \ B = {ω ∈ Ω : ω ∈ A ∧ ω 6∈ B}. Es el

Ejemplo: En el último ejemplo se tiene:

Ac = {(S, C), (S, S)}

A ∪ B = {(C, C), (C, S), (S, S)}

A \ B = {(C, S)} y B \ A = {(S, C)}

Más generalmente, sean A1 , A2 , · · · , An eventos.

• La unión de tales eventos es el evento

• La intersección de tales eventos es el evento

Dicha intersección también se anota A1 A2 · · · An

Ω = {C, SC, SSC, SSSC, SSSSC, · · · }

Consideremos los siguientes eventos: An = ”sale C en el lanzamiento 2n-ésimo”

Definición 2 Los eventos A y B se dicen incompatibles o (mutuamente) excluyentes o disjuntos

A⊆B ∧ B⊆C ⇒ A⊆C

A∪B =B∪A ; A∩B =B∩A

10 Algebras y σ-álgebras de subconjuntos de Ω - Espacio de prob-

Definición 3 Dados un conjunto no vacı́o Ω y una clase A de subconjuntos de Ω, diremos que

A = {A ⊆ Ω : A es unión finita de rectángulos}

Veamos que A tiene las propiedades de un álgebra de subconjuntos de Ω:

de modo que B ∩ C es unión finita de rectángulos (notar que Ri ∩ Rj∗ es un rectángulo).

tanto podemos afirmar que la intersección de un número finito de miembros de A es también

y dado que los Ric

iii) Fijemos n ∈ N y sean A1 , · · · , An ∈ A. Sabemos que cada Ai es unión finita de rectángulos.