Está en la página 1de 97

UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág.

Combinatoria

1 Principios básicos
La combinatoria es una disciplina que se ocupa de estudiar técnicas de conteo y enumeración de
conjuntos, en especial cuando la cantidad de elementos que poseen es muy grande (de modo que una
lista extensiva serı́a imposible o impráctica). Aplicada a la teorı́a de probabilidades permite en muchos
casos determinar la cantidad de elementos de un espacio muestral finito y la cantidad de elementos de
algún evento de interés.
Presentamos dos reglas básicas de la combinatoria:

Principio de la multiplicación
Supongamos que un experimento consta de dos etapas. Si como resultado de la primera etapa pueden
darse n resultados posibles y si, independientemente del resultado particular de la primera etapa, la
segunda etapa puede dar lugar a m resultados posibles, entonces la cantidad de posibles resultados
del experimento es n · m
El principio se extiende de manera natural a un experimento en r etapas, donde la i-ésima etapa
tiene una cantidad ni de posibles resultados (independientemente de los resultados particulares
de las etapas anteriores), donde i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del
r
Q
experimento es ni
i=1
Ejemplo: Una caja contiene 5 cartas distintas de una baraja española. Se extraen dos cartas al azar.
Si se realiza la extracción con reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5·
5 = 25 maneras distintas.
Si se realiza la extracción sin reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5 ·
4 = 20 maneras distintas.

Principio de la adición
Un experimento puede llevarse a cabo de dos formas. Cuando se lo realiza de una forma conduce
a n resultados posibles. Cuando se lo realiza de la otra forma conduce a m resultados posibles.
Entonces eligiendo una u otra forma para realizarlo, el experimento da lugar a n + m resultados
posibles.
El principio de la adición también se generaliza a un experimento que se realiza de una entre r maneras
posibles, siendo ni la cantidad de posibles resultados cuando se lo realiza de la i-ésima forma, donde
Pr
i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del experimento es ni
i=1
Ejemplo: Para viajar de Buenos Aires a San Pablo se puede optar por tres compañı́as aéreas o por
cinco empresas de omnibus ¿ Cuántas maneras diferentes existen para contratar el viaje? Rta: 3 +
5 = 8 maneras distintas.

2 Variaciones
Se tienen n objetos diferentes y se quiere ordenar k de ellos en fila, siendo k ≤ n. Cada posible
ordenamiento se denomina una variación de los n objetos tomados de a k. Para calcular la cantidad
total de variaciones utilizamos el principio de la multiplicación: Para el primer lugar de la fila hay
n posibles maneras de llenarlo con un objeto. Independientemente de cuál sea el objeto que ocupe
el primero lugar, para llenar el segundo lugar de la fila disponemos ahora de n − 1 objetos dado que
uno de los objetos ya fue utilizado para cubrir el primer lugar. Independientemente de cuáles hayan
sido los objetos que llenan los dos primeros lugares de la fila, para cubrir el tercer lugar disponemos de
n − 2 objetos pues dos ya han sido utilizados. Ası́ sicesivamente de modo que aplicando el principio

Prof.J.Gastón Argeri 1
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 2

de la multiplicación, la cantidad total de posibles variaciones de n tomados de a k resulta ser:


n!
(n)k = n · (n − 1) · (n − 2) · · · · · [n − (k − 1)] =
(n − k)!

Ejemplo: En un club se postulan cinco miembros, digamos A,B,C,D y E, para ocupar las posiciones de
presidente y secretario. Para identificar todas las posibles maneras de elegir entre ellos un presidente
y un secretario, formamos las variaciones de 5 tomadas de a 2. En este caso la ”fila” tiene en primer
lugar al presidente y en segundo lugar al secretario. El listado de las 5 · 4 = 20 variaciones es el
siguiente:
AB AC AD AE
BA BC BD BE
CA CB CD CE
DA DB DC DE
EA EB EC ED

3 Permutaciones
Un caso particular de variaciones de n objetos tomados de a k se presenta cuando k = n. En tal
caso las variaciones reciben el nombre de permutaciones de n objetos y corresponden a las diferentes
maneras de ordenar en fila n objetos diferentes. La cantidad de permutaciones de n objetos resulta
entonces ser:
n · (n − 1) · (n − 2) · · · · · [n − (n − 1)] = n!
Ejemplo: La cantidad de números de cuatro cifras que pueden formarse a partir de los dı́gitos
3, 5, 6, 8 sin repetir ninguno de ellos resulta ser 4! = 24. Damos un listado de dichos números:

3568 5368 5638 5683


3586 5386 5836 5863
3658 6358 6538 6583
3685 6385 6835 6853
3856 8356 8536 8563
3865 8365 8635 8653

4 Combinaciones
Dados n objetos diferentes, cada conjunto formado por k de los n elementos se dice una combinación
de los n elementos tomados de a k. La diferencia entre variaciones y combinaciones reside en el hecho
que las combinaciones no tienen en cuenta el orden relativo entre los elementos (ya no podemos pensar
en un ”fila”). Por ejemplo, si se tienen cuatro objetos A,B,C y D las posibles combinaciones de a 2
son:
AB AC AD
BC BD
CD
Compárese esto con las posibles variaciones de 4 tomados de a 2:

AB BA AC CA AD DA
BC CB BD DB
CD DC

Para determinar la cantidad de combinaciones de n tomados de a k procedemos de modo indirecto del


modo siguiente: Anotemos provisoriamente x a dicha cantidad. Para una dada combinación existen
k! maneras diferentes de ordenar sus elementos en una fila. Además, combinaciones diferentes darán

Prof.J.Gastón Argeri 2
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 3

lugar a filas con diferentes configuraciones, dado que diferirán en al menos uno de los objetos presentes.
De esta manera, tomando todas las posibles combinaciones y ordenando en fila los k objetos en cada
una de ellas, obtendremos la totalidad de posibles ordenamientos en fila de k de los n objetos, es
n!
decir la totalidad de variaciones de n tomados de a k. Por lo tanto: x · k! = (n−k)!
Despejando x resulta que la cantidad de posibles¡n¢ combinaciones de n objetos tomados de a k,
número que representaremos con el sı́mbolo k es:
µ ¶
n n!
=
k k!(n − k)!
Este número se denomina número combinatorio n sobre k.
En
¡4¢ el ejemplo precedente n = 4 , k = 2 de modo que la cantidad de posibles combinaciones es
4! 4!
2
= 2!2!
= 4
= 3! = 6

Propiedad 1 µ ¶ µ ¶
n n
=
k n−k
Dem:
La demostración queda a cargo del lector.

Propiedad 2 µ ¶ µ ¶ µ ¶
n n n+1
+ =
j−1 j j
Dem:
¡ n ¢ ¡n¢ n! n!
j−1
+ j
= (j−1)!(n−j+1)!
+ j!(n−j)!
=

n! n!
= (j−1)!(n−j)!(n−j+1)
+ (j−1)!j(n−j)!
=
³ ´
n! 1 1
= (j−1)!(n−j)! n−j+1
+ j
=

n! j+n−j+1
= (j−1)!(n−j)!
· j(n−j+1)
=

n!(n+1) (n+1)! ¡n+1¢


= (j−1)!j(n−j)!(n+1−j)
= j!(n+1−j)!
= j
¥

5 Binomio de Newton
Dados números a, b ∈ R sabemos que el desarrollo del cuadrado del binomio a + b viene dado por:

(a + b)2 = a2 + 2ab + b2

Podemos reescribir este desarrollo como:


µ ¶ µ ¶ µ ¶ 2 µ ¶
2 2 0 2 2 1 1 2 2 0
X 2
(a + b) = a b + a b + a b = ak b2−k
0 1 2 k=0
k

Análogamente para el desarrollo del cubo de un binomio:

(a + b)3 = a3 + 3a2 b + 3ab2 + b3

Prof.J.Gastón Argeri 3
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 4

que también puede reescribirse como:


µ ¶ µ ¶ µ ¶ µ ¶ 3 µ ¶
3 3 0 3 3 1 2 3 2 1 3 3 0
X 3
(a + b) = a b + a b + a b + a b = ak b3−k
0 1 2 3 k=0
k

La fórmula del binomio de Newton generaliza lo anterior al desarrollo de cualquier potencia natural
de un binomio y se expresa de la siguiente manera.

Teorema 1 (Fórmula del binomio de Newton)


Para cualesquiera números a, b ∈ R y cualquier número n ∈ N se verifica:
n µ ¶
n
X n
(a + b) = ak bn−k
k=0
k

Dem:
Por inducción respecto de n demostraremos que la proposición
n µ ¶
n
X n
p(n) : ∀a, b ∈ R, (a + b) = ak bn−k
k=0
k

es verdadera para todo número natural n.


Paso base: Probemos que p(1) es V.
1 µ ¶
1
X 1
p(1) : ∀a, b ∈ R, (a + b) = ak b1−k
k=0
k
El miembro izquierdo de la igualdad es simplemente a + b. El miembro derecho es:
µ ¶ µ ¶
1 0 1 1
a b + a 1 b0 = b + a
0 1

de modo que p(1) es verdadera.


(HI)Hipótesis inductiva: Supongamos que p(n) es verdadera.
Ahora probaremos que necesariamente p(n + 1) es verdadera, bajo el supuesto (HI). Para ello

Prof.J.Gastón Argeri 4
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 5

procedemos ası́:
n ¡ ¢
P n
(a + b)n+1 = (a + b)(a + b)n = (a + b) k
ak bn−k =
k=0

n ¡ ¢
P n ¡ ¢
P
n n
= a k
ak bn−k + b k
ak bn−k =
k=0 k=0

n ¡ ¢
P n ¡ ¢
P
n n
= k
ak+1 bn−k + k
ak bn−k+1 =
k=0 k=0

n+1 ¡ n ¡ ¢
P n ¢ j n−j+1 P n
= j−1
a b + j
aj bn−j+1 =
j=1 j=0

¡n¢ n ¡ n ¡ ¢
P n ¢ j n−j+1 ¡n¢ P n
= n
an+1 + j−1
a b + 0
bn+1 + j
aj bn−j+1 =
j=1 j=1

( )
¡n¢ n h¡ ¡n¢i
P n ¢ ¡n¢
= 0
bn+1 + j−1
+ j
aj bn−j+1 + n
an+1 =
j=1

¡n¢ n ¡
P n+1¢ ¡n¢
= 0
bn+1 + j
aj bn−j+1 + n
an+1 =
j=1

¡n+1¢ n ¡
P n+1¢ ¡n+1¢
= 0
a0 bn+1 + j
aj bn−j+1 + n+1
an+1 b0 =
j=1

n+1
P ¡n+1¢
= j
aj bn+1−j
j=0

que muestra que p(n + 1) es verdadera. Luego, por inducción completa p(n) es verdadera para
todo n ∈ N ¥

6 Permutaciones con repetición


Supongamos que queremos determinar cuántas palabras de cuatro letras pueden formarse con las le-
tras de la palabra AZAR. Aquı́ entendemos por ”palabra” cualquier secuencia que utilice las cuatro
letras de AZAR, tenga o no significado en algún lenguaje. Para averiguar cuántas pueden formarse,
digamos x (a determinar), consideremos el siguiente razonamiento: Si bien la palabra AZAR posee
sólo tres letras diferentes, a saber A,Z,R, momentáneamente distingamos las dos apariciones de la
letra A, por ejemplo podrı́amos ”pintar” de dos colores diferentes las dos letras A. En tal caso ya
sabemos que la cantidad de posibles ordenamientos de las cuatro letras distintas es 4!. Ahora bien,
cada ordenamiento de los x (que no distinguen entre ambas A) da lugar de manera natural a 2!
ordenamientos (que sı́ distinguen entre ambas A), por simple permutación de las dos letras A entre
4!
sı́. Por lo tanto podemos afirmar que: x · 2! = 4! Se deduce que: x = 2!
El mismo tipo de razonamiento se generaliza cuando hay varias letras (objetos) repetidas. For-
malmente: Si se tienen r objetos diferentes de los cuales se va a repetir el primero n 1 veces,
el segundo n2 veces, · · · , el r-ésimo nr veces, la cantidad total de configuraciones en fila de
n = n1 + · · · + nr objetos con las repeticiones especificadas anteriormente es:
(n1 + n2 + · · · + nr )!
n1 ! n 2 ! · · · n r !

Prof.J.Gastón Argeri 5
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 6

El número anterior se denomina coeficiente multinomial y suele anotarse también como


µ ¶
n (n1 + n2 + · · · + nr )!
=
n1 , n 2 , · · · , n r n1 ! n 2 ! · · · n r !
4!
Por ejemplo, con las letras de la palabra AZAR pueden formarse 2!
= 12 palabras diferentes. Para
convencernos las listamos todas:
AZAR AZRA AAZR
AARZ ARZA ARAZ
ZAAR ZARA ZRAA
RAAZ RAZA RZAA

Teorema 2 (Teorema multinomial) Para cualesquiera números x1 , x2 , · · · , xr ∈ R y cualquier


número n ∈ N se verifica
µ ¶
X n
n
(x1 + x2 + · · · + xr ) = xk11 · · · xkr r
0≤k ,··· ,k r ≤n
k 1 , · · · , k r
1
k1 +···+k r =n

7 Distribución de bolillas en urnas


Diversos problemas de ı́ndole combinatorio pueden representarse mediante problemas ”modelo” basa-
dos en disposiciones de bolillas en urnas.

7.1 Disposiciones de n bolillas distintas en r urnas distintas


7.1.1 Más de una bolilla es admisible por urna
En este caso simplemente se trata de un experimento en n etapas: La primera etapa consiste en
ubicar la primera bolilla en alguna de las r posibles urnas. La segunda etapa consiste en colocar la
segunda bolilla en alguna de las r urnas aún disponibles, etc. De manera que la cantidad de posibles
disposiciones es en total
n
| · r{z· · · r} = r
r
n

7.1.2 A lo sumo una bolilla es admisible por urna


Este caso exige que n ≤ r. Para la primera bolilla hay r posibles urnas donde ubicarla, para la
segunda bolilla hay sólo r − 1 urnas vacı́as para ubicarla, para la tercer bolilla hay sólo r − 2 urnas
vacı́as disponibles, etc. De modo que la cantidad total de posibles disposiciones es r · (r − 1) · (r −
2) · · · [r − (n − 1)] es decir igual al número de variaciones de r tomados de a n.

7.2 Disposiciones de n bolillas idénticas en r urnas distintas


7.2.1 No pueden quedar urnas vacı́as
En este caso debe ser n ≥ r pues de lo contrario necesariamente quedarı́an urnas vacı́as. Podemos
asimilar este problema de combinatoria representando las bolillas indistinguibles por asteriscos ”∗” y
las separaciones entre urnas mediante barras ”|” Ası́ por ejemplo una configuración con tres urnas y
cinco bolillas podrı́a representarse por: ∗ ∗ | ∗ | ∗ ∗ Esto quiere simbolizar de algún modo que en la
primera urna hay exactamente dos bolillas, en la segunda urna exactamente una bolilla y en la tercera
urna exactamente dos bolillas.
Si disponemos las bolillas en una hilera, ubicar las n bolillas idénticas en las r urnas diferentes
equivale a ubicar r − 1 separadores ”|” en los n − 1 espacios entre bolillas consecutivas. Esto

Prof.J.Gastón Argeri 6
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 7

¡n−1¢
puede realizarse de r−1
maneras distintas.

Ejemplo: Distribuir seis bolillas idénticas en tres urnas diferentes, sin permitir urnas vacı́as. Listamos
las posibilidades:

∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗∗ ∗| ∗ ∗ ∗ | ∗ ∗ ∗| ∗ ∗ ∗ ∗|∗ ∗ ∗ | ∗ | ∗ ∗∗
∗ ∗ | ∗ ∗| ∗ ∗ ∗ ∗ | ∗ ∗ ∗ |∗ ∗ ∗ ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗|∗ ∗ ∗ ∗ ∗ | ∗ |∗

Ejemplo: Hallar todas las descomposiciones del número 8 como suma de tres números naturales.
Considerar que el orden relativo de los tres términos en la descomposición es relevante.
Se tendrán las siguientes posibles descomposiciones:

1|1|111111 1|11|11111 1|111|1111 1|1111|111 1|11111|11 1|111111|1 11|1|11111


1+1+6 1+2+5 1+3+4 1+4+3 1+5+2 1+6+1 2+1+5
11|11|1111 11|111|111 11|1111|11 11|11111|1 111|1|1111 111|11|111 111|111|11
2+2+4 2+3+3 2+4+2 2+5+1 3+1+4 3+2+3 3+3+2
111|1111|1 1111|1|111 1111|11|11 1111|111|1 11111|1|11 11111|11|1 111111|1|1
3+4+1 4+1+3 4+2+2 4+3+1 5+1+2 5+2+1 6+1+1
¡8−1¢ ¡ 7¢ 7!
Es decir un total de 3−1
= 2
= 2!5!
= 21 descomposiciones.

7.2.2 Pueden quedar urnas vacı́as


También aquı́ podemos pensar en bolillas ∗ y separadores entre urnas |, pero a diferencia de la
situación previa, en este caso los separadores pueden quedar contiguos, como por ejemplo en la con-
figuración siguiente: ∗ ∗ || ∗ | ∗ ∗ ∗ | que corresponde a n = 6 bolillas idénticas en r = 5 urnas
distintas, donde hay 2 bolillas en la primer urna, la segunda urna está vacı́a, 1 bolilla en la tercer
urna, 3 bolillas en la cuarta urna y la quinta urna está vacı́a.
Se trata pues de disponer en fila n sı́mbolos ∗ y r − 1 sı́mbolos | Es¢ decir
¡n+r−1 en un¢ total de
¡n+r−1
n + r − 1 lugares. Luego, la cantidad de posibles disposiciones es n
= r−1
puesto
que basta con elegir los lugares que serán ocupados por ∗ (o equivalentemente elegir los lugares a ser
ocupados por |).

Ejemplo: Se desea invertir un capital de $20.000 en cuatro posibilidades de inversión (negocios). Se


desea además que las inversión se realice en múltiplos de $1.000
a) Si se quiere invertir la totalidad del capital, ¿ de cuántas formas diferentes puede realizarse?
Si ∗ representa una inversión de $1.000 el problema se asimila al de n = 20 bolillas y
r = 4 urnas y donde pueden quedar urnas vacı́as (negocios en los cuales se decide no invertir
¡ningun
20+4−1¢
monto).
¡23¢Entonces la cantidad total de maneras posibles de invertir el capital de $20.000 es
20
= 20
= 1.771
b) Si se quiere invertir la totalidad o parte del capital, ¿ de cuántas formas diferentes puede realizarse?
El análisis es similar al anterior sólo que ahora no es obligatorio invertir todo el capital disponible.
Podemos entonces pensar que la parte del capital que se decida no invertir es un ”quinto negocio
posible”. De este modo se trata de un problema de disposición
¡ de
¢ n ¡= 20 bolillas en r = 5 urnas y
24¢
donde no pueden quedar urnas vacı́as. Hay un total de 20+5−1 20
= 20
= 10.626 posibles maneras
de invertir el capital (Una de dichas maneras consiste en no invertirlo en absoluto).

Prof.J.Gastón Argeri 7
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 8

Teorı́a axiomática de probabilidades

8 Experimentos aleatorios - Espacio muestral - Eventos


Denominaremos experimento aleatorio a todo proceso (procedimiento, experimento, etc.) que con-
duzca a un resultado que cumpla con las siguientes caracterı́sticas:

• El proceso es repetible en idénticas condiciones una cantidad ilimitada de veces. Cada realización
particular del proceso conduce a un único resultado.

• Se conoce a priori (es decir previamente a cualquier realización particular) todos los posibles
resultados del experimento.

• El resultado del experimento está sujeto al azar. Es decir que es imposible determinar a priori
(es decir previamente a cualquier realización particular) cuál de todos los resultados posibles del
experimento ocurrirá.

Definición 1 Llamaremos espacio muestral asociado a un experimento aleatorio a cualquier conjunto


que caracterice todos los posibles resultados de dicho experimento. El espacio muestral frecuentemente
se anota mediante la letra griega omega mayúscula Ω.
En este contexto caracterizar significa que cada elemento del espacio muestral se corresponde con uno
y sólo un posible resultado del experimento y a todo posible resultado del experimento le corresponde
uno y sólo un elemento del espacio muestral. En este sentido podrı́amos decir que un espacio muestral
es una forma de ”codificar” los posibles resultados del experimento.

Ejemplo:

1) Se arroja un dado una vez y se observa el número que sale. Claramente es un experimento
aleatorio pues cada realización particular conduce a un único número saliente (es imposible que
arrojemos el dado y salgan simultáneamente dos o más números) y además:

• El experimento es reproducible en idénticas condiciones una cantidad arbitraria de veces


(Al menos una versión idealizada del experimento, por ejemplo con un dado imaginario que
nunca se desgasta o deforma).
• Antes de arrojar el dado se sabe de antemano que los posibles resultados son los números
1, 2, 3, 4, 5, 6.
• El resultado del lanzamiento es al azar puesto que es imposible determinar el número que
saldrá, con anterioridad al lanzamiento.

Un espacio muestral asociado a este experimento puede ser Ω = {1, 2, 3, 4, 5, 6}

2) Se arroja un dado dos veces y se anota el puntaje total (suma de los números obtenidos en ambos
lanzamientos). En este caso un espacio muestral es Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

3) Se arroja un dado hasta obtener por primera vez un 1 y se registra la cantidad de lanzamientos
necesarios. En este ejemplo un espacio muestral es Ω = N

4) Desde una distancia de 3 metros se arroja un dardo a un blanco circular de radio 0, 25 metros.
Suponiendo que el dardo da en el blanco, se registra la distancia desde el punto de impacto hasta
el centro del blanco. En este caso un espacio muestral es Ω = [0 ; 0, 25]

Un conjunto infinito A se dice numerable si sus elementos pueden ponerse en correspondencia 1-1
f
con los números naturales, es decir si existe alguna función N → A con las propiedades siguientes:

Prof.J.Gastón Argeri 8
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 9

i) ∀a ∈ A , ∃n ∈ N tal que a = f (n)

ii) ∀m, n ∈ N m 6= n ⇒ f (m) 6= f (n)

En tal caso la función f determina una ”enumeración” de A. Si en lugar de f (n) anotamos


an entonces los elementos de A son precisamente los de la secuencia infinita a1 , a2 , a3 , · · · . Es
decir A = {a1 , a2 , a3 , · · · }. Un conjunto que o bien sea finito o bien sea infinito numerable se dice
un conjuto a lo sumo numerable. Si se omite la condición ii) pero conservando la i), se dice que f es
una función suryectiva o sobre A. Se puede demostrar que A es a lo sumo numerable sii existe alguna
función de N sobre A.

Ejemplo: Mostremos que los siguientes conjuntos infinitos son numerables: N, Z, 2N, Q
f
• Basta considerarla función identidad N → N
f £n¤
• Por ejemplo tomando la función N → Z dada por f (n) = (−1)n 2

f
• Tomando N → 2N dada por f (n) = 2n

• En este caso es más engorroso encontrar una fórmula explı́tica para una fución de N sobre Q.
Es más secillo presentar un gráfico ilustrativo de tal función:

²²
1/1 // 1/2 1/3 // 1/4 1/5 // · · ·
z z << z z << { {
z z z z {
zzz zzz zzz zzz {{{
z z z z {
||zz zz ||zz zz }}{{
2/1 // 2/2 2/3 2/4 2/5 ·== · ·
zz zz<< zz {{{
zz zz zz {{
zzz zzz zzz {{{
||z z ||z {
3/1 oo 3/2 3/3 3/4 3/5 ···
zz<< zz zz<< {{{
zz zz zz {{
zzz zzz zzz {{{
²² z ||z z }}{
4/1 // 4/2 4/3 4/4 4/5 ···
<< {==
zzz zzz zzz {{{
z z z {
zz zz zz {{
||zz zz ||zz {{
5/1 oo 5/2 5/3 5/4 5/5 ···
{{== {{ {{== |||
{ { { ||
{{ {{ {{ ||
²² {{{ {{{ {{{ |
{ { { |
.. // .. { .. }}{ .. { .. ~~|
. . . . .

Vamos a distinguir dos tipos de espacios muestrales de acuerdo a su cardinalidad (es decir su cantidad
de elementos): 
 Finito o infinito numerable


Infinito no numerable
En los ejemplos 1) y 2) los espacios muestrales considerados son finitos. En el ejemplo 3) el espacio
muestral es infinito numerable. En el ejemplo 4) el espacio muestral es infinito no numerable.
Momentáneamente llamaremos evento o suceso a cualquier subconjunto del espacio muestral Ω. Más
adelante precisaremos este concepto. Dos eventos de particular interés son el evento Ω (denominado
evento seguro o cierto) y el evento ∅ (denominado evento vacı́o o imposible). Los elementos ω ∈ Ω del

Prof.J.Gastón Argeri 9
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 10

espacio muestral dan lugar a los denominados eventos simples, que son los eventos de la forma {ω}.
Todo evento no simple se dice compuesto. Los eventos suelen anotarse empleando las primeras letras
del alfabeto en mayúsculas: A, B, C, D, etc.

Ejemplo:

1) Lanzamiento de un dado. Podemos considerar los siguientes eventos:

A = ”sale número par” = {2, 4, 6}


B = ”sale múltiplo de tres” = {3, 6}
C = ”sale 3” = {3} (suceso elemental)

2) Lanzamiento de dos dados. Podemos considerar los siguientes eventos:

A = ”el puntaje total excede 8” = {9, 10, 11, 12}


B = ”sale un par y un impar” = {3, 5, 7, 9, 11}

3) Arrojar una moneda hasta obtener ”cara” por primera vez y registrar la cantidad de lanzamientos
que fueron necesarios. Eventos que podrı́an interesarnos:

A = ”se requiere a lo sumo 5 lanzamientos” = {1, 2, 3, 4, 5}


B = ”se requiere una cantidad impar de lanzamientos” = {3, 5, 7, 9, 11, 13, · · · }

3) Lanzamiento del dardo descrito anteriormente. Un evento en el que podemos estar interesados
es A = {x ∈ Ω : x ≤ 0, 2}

Consideremos un evento A en el contexto de un experimento aleatorio. Supongamos que la realización


del experimento conduce a un resultado ω ∈ Ω. Cuando ω ∈ A se dice que el resultado del
experimento es favorable a A o que ha ocurrido A en dicha realización. Caso contrario se dice
que el resultado ω es desfavorable a A o que no ha ocurrido A en dicha realización. Notemos
que el hecho de que ocurra cierto evento no quita la posibilidad que ocurran también, en la misma
realización, otros eventos.

Ejemplo: Un experimento consiste en lanzar una moneda dos veces de modo que

Ω = {(C, C), (C, S), (S, C), (S, S)}

donde C = ”sale cara” , S = ”sale ceca”, entonces si en determinada realización es ω = (C, C) y si


A = ”la primera moneda sale cara” = {(C, C), (C, S)} y B = ”la segunda moneda sale ceca” =
{(C, C), (S, C)}, entonces han ocurrido tanto el evento A como el evento B. Es decir que el
resultado del experimento ha sido favorable tanto al evento A como al evento B.

9 Álgebra de eventos
Sean A, B eventos. A partir de ellos construimos nuevos eventos del modo siguiente:

• El complemento de A es el evento Ac = {ω ∈ Ω : ω 6∈ A}. Es el evento que ocurre cada vez


que no ocurre A. Los resultados favorables a Ac son los desfavorables al A y viceversa. El
complemento de A también suele anotarse A0 .

• La unión de A con B es el evento A ∪ B = {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}. Es el evento


que ocurre cuando al menos uno de los dos sucesos A, B ocurre. Es decir que A ∪ B ocurre
sii o bien ocurre A pero no ocurre B, o bien ocurre B pero no ocurre A, o bien ocurren
simultáneamente tanto A como B.

Prof.J.Gastón Argeri 10
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 11

• La intersección de A con B es el evento A ∩ B = {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}. Es


el evento que ocurre cuando A y B ocurren simultáneamente. La intersección de A con
B también suele anotarse AB

• La diferencia de A con B es el evento A \ B = {ω ∈ Ω : ω ∈ A ∧ ω 6∈ B}. Es el


evento que ocurre cuando ocurre A y simultáneamente no ocurre B.

Ejemplo: En el último ejemplo se tiene:

Ac = {(S, C), (S, S)}

A ∪ B = {(C, C), (C, S), (S, S)}

A ∩ B = {(C, S)}

A \ B = {(C, S)} y B \ A = {(S, C)}

Más generalmente, sean A1 , A2 , · · · , An eventos.

• La unión de tales eventos es el evento


n
[
Ai = A1 ∪ · · · ∪ An = {ω ∈ Ω : ω ∈ A1 ∨ ··· ∨ ω ∈ An }
i=1

• La intersección de tales eventos es el evento


n
\
Ai = A1 ∩ · · · ∩ An = {ω ∈ Ω : ω ∈ A1 ∧ ··· ∧ ω ∈ An }
i=1

Dicha intersección también se anota A1 A2 · · · An

Más generalmente aún necesitaremos definir uniones e intersecciones de una cantidad numerable de
eventos: Sea {An } una sucesión de eventos.

• La unión de dichos eventos es el evento que ocurre cuando ocurre al menos uno de los eventos
de la sucesión:

[
An = {ω ∈ Ω : ∃n ∈ N , ω ∈ An }
n=1

• La intersección de dichos eventos es el evento que ocurre cuando ocurren simultáneamente todos
y cada uno de los eventos de la sucesión:

\
An = {ω ∈ Ω : ∀n ∈ N , ω ∈ An }
n=1

Ejemplo: Un experimento aleatorio consistente en arrojar una moneda tantas veces como sea necesario
hasta obtener por primera vez ”cara”. Podemos considerar:

Ω = {C, SC, SSC, SSSC, SSSSC, · · · }

Consideremos los siguientes eventos: An = ”sale C en el lanzamiento 2n-ésimo”


En este caso:

[
An = ”sale C en una cantidad par de lanzamientos”
n=1

Prof.J.Gastón Argeri 11
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 12

Definición 2 Los eventos A y B se dicen incompatibles o (mutuamente) excluyentes o disjuntos


si es imposible que ocurran simultáneamente. Es decir que cada vez que ocurre A no ocurre B y
cada vez que ocurre
U B no ocurre A. Para destacar tal situación nosotros anotaremos el evento unión
A ∪ B como A B.
Más generalmente dada una sucesión {An } de eventos, se dice que dichos eventos son dos a dos
incompatibles o (mutuamente) excluyentes o disjuntos dos a dos sii se verifica:

∀m, n ∈ N , m 6= n ⇒ A m ∩ An = ∅

S U∞
Para destacar tal situación anotaremos la unión An como n=1 An
n=1

Dados eventos A, B se dice que A está contenido o incluido en B o también que B contiene o
incluye a A sii cada vez que ocurre A también ocurre B (pero no necesariamente a la inversa). Tal
relación entre eventos se simboliza A ⊆ B o también B ⊇ A. En otras palabras: A ⊆ B sii todo
resultado favorable a A es también favorable a B. En la práctica para demostrar que A ⊆ B es
frecuente tomar un elemento genérico (es decir, no un elemento particular) de A y demostrar que
necesariamente también pertenece a B. Naturalmente, dos eventos son iguales sii A ⊆ B y B ⊆ A.
Por lo tanto una manera de probar la igualdad entre dos eventos consiste en probar que cada uno de
ellos está contenido en el otro.
Damos a continuación un listado de propiedades muy sencillas cuyas demostraciones formales omiti-
mos:

A⊆A

A⊆B ∧ B⊆C ⇒ A⊆C

A∩A=A ; A∪A=A

A∪B =B∪A ; A∩B =B∩A

A ∪ (B ∪ C) = (A ∪ B) ∪ C ; A ∩ (B ∩ C) = (A ∩ B) ∩ C

∅⊆A⊆Ω

A∩B ⊆A⊆A∪B

∅∩A=∅ ; ∅∪A=A

Ω∩A=A ; Ω∪A=Ω

(Ac )c = A

(A ∪ B)c = Ac ∩ B c ; (A ∩ B)c = Ac ∪ B c

A ∪ B = A ∪ (B \ A)

B = (B ∩ A) ] (B \ A)

A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) ; A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
n
µ n ¶
S U c c
Ai = A 1 ] A1 · · · An−1An
i=1 i=2
µ ∞
¶c ∞
µ ∞
¶c ∞
S T T S
An = Acn ; An = Acn
n=1 n=1 n=1 n=1

Prof.J.Gastón Argeri 12
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 13

10 Algebras y σ-álgebras de subconjuntos de Ω - Espacio de prob-


abilidad
Todos hemos en algún momento realizado mediciones. Como ejemplo concreto supongamos que de-
seamos medir áreas de rectángulos. Como se sabe, el área de un rectángulo es un número positivo
igual al producto base × altura. Supongamos ahora que construimos figuras planas a partir de una
cantidad finita de rectángulos. Podemos asignar un área a cada una de tales figuras del modo sigu-
iente: Primero descomponemos la figura en una unión finita de rectángulos disjuntos dos a dos y
luego sumamos las áreas de tales rectángulos. Finalmente, supongamos que todos los rectángulos
que consideramos están contenidos dentro de un ”gran” rectángulo que llamamos Ω. Cada vez que
podamos medir el área de cierta figura contenida en Ω también podremos medir el área de la ”figura
complementaria”, es decir la figura que se obtiene a partir de todos los puntos de Ω que no pertenecen
a la figura original. En otros términos, si podemos medir el área de una figura también podemos medir
el área de su complemento. Queda también claro que si hemos podido asignar un área A(F ) a la
figura F ⊆ Ω entonces tendremos A(F c ) = A(Ω) − A(F ). Es decir que hay una cantidad de
propiedades básicas que esperamos de todo número que represente una manera de medir. Para reflejar
estas propiedades elementales es necesario determinar una cierta clase de conjuntos, que podrı́amos
denominar ”medibles” que serán precisamente aquellos a los cuales asignaremos una medida. En
nuestro ejemplo precedente, no queda claro en absoluto cómo podrı́amos medir el área de un cı́rculo
contenido en Ω, pero sı́ podremos asignar áreas de modo sencillo tomando como conjuntos medibles la
clase de todos los subconjuntos de Ω que sean o bien rectángulos, o bien uniones finitas de rectángulos
o bien sus complementos sean uniones finitas de rectángulos. Una clase de subconjuntos de Ω con
estas carácterı́sticas es lo que denominaremos un álgebra de subconjuntos de Ω.

Definición 3 Dados un conjunto no vacı́o Ω y una clase A de subconjuntos de Ω, diremos que


A es un álgebra de subconjuntos de Ω sii satisface las siguiente condiciones:
i) Ω ∈ A
ii) ∀A ∈ A , Ac ∈ A
n
S
iii) ∀n ∈ N , ∀A1 , · · · , An ∈ A , Ai ∈ A
i=1

Ejemplo: Sea Ω cualquier rectángulo no vacı́o. Definamos, como vimos anteriormente, la siguiente
clase de subconjuntos de Ω:

A = {A ⊆ Ω : A es unión finita de rectángulos}

Veamos que A tiene las propiedades de un álgebra de subconjuntos de Ω:


i) Ω ∈ A pues Ω es unión finita de rectángulos ya que es un rectángulo.
ii) Supongamos que A ∈ A. Queremos ver que Ac es también unión finita de rectángulos.
En primer lugar notemos que si R ⊆ Ω es un rectángulo entonces Rc = Ω \ R es unión finita
de rectángulos (Esto le resultará evidente cuando dibuje el gran rectángulo Ω y un rectángulo
arbitrario R contenido en él).
Sn m
S
Además, si B = Ri y C = Rj∗ son uniones finitas de rectángulos entonces:
i=1 j=1
[ ³ ´
B∩C = Ri ∩ Rj∗
1≤i≤n
1≤j≤m

de modo que B ∩ C es unión finita de rectángulos (notar que Ri ∩ Rj∗ es un rectángulo).


Esto se extiende a la intersección de un número finito de uniones finitas de rectángulos. Por lo

Prof.J.Gastón Argeri 13
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 14

tanto podemos afirmar que la intersección de un número finito de miembros de A es también


miembro de A.
Sn
Como A ∈ A podemos escribir A = Ri donde los Ri son ciertos subrectángulos de Ω.
i=1
Entonces: Ã !c
n
[ n
\
c
A = Ri = Ric
i=1 i=1

y dado que los Ric


son uniones finitas de rectángulos, la intersección de ellos también lo es. Por
lo tanto A es unión finita de rectángulos de modo que Ac ∈ A.
c

iii) Fijemos n ∈ N y sean A1 , · · · , An ∈ A. Sabemos que cada Ai es unión finita de rectángulos.


n
S
Pero entonces evidentemente A = Ai también es unión finita de rectángulos, de donde re-
i=1
sulta que A ∈ A.

Consideremos ahora un ejemplo que nos servirá para generalizar la definición de álgebra de subcon-
juntos de Ω.

Ejemplo: Supongamos que se tiene una secuencia {Rn } de rectángulos contenidos en el gran
rectángulo Ω. Más aún, supongamos que los Rn son disjuntos dos a dos. Parece intuitivamente

U
claro que también se le puede asignar un área al conjunto Rn , de la manera siguiente:
n=1

Cada Rn tiene asignada un área A(Rn )

Podemos asignar área al conjunto R1 ] R2 como A(R1 ] R2 ) = A(R1 ) + A(R2 )

Podemos asignar área al conjunto R1 ] R2 ] R3 como A(R1 ] R2 ] R3 ) = A(R1 ) + A(R2 ) +


A(R3 )
µ n ¶ n
U P
etc. En genral: A Ri = A(Ri )
i=1 i=1
n
U
De este modo vemos cómo asignar un área al conjunto Sn = Ri , cualquiera sea n ∈ N. Natu-
i=1
ralmente los números A(S1 ), A(S2 ), A(S3 ), · · · forman una sucesión creciente de números reales
positivos. Además, dado que todos los Sn ⊆ Ω resulta A(Sn ) ≤ A(Ω). Un resultado matemático
asegura que toda sucesión de números reales que sea creciente y acotada superiormente, posee un
lı́mite finito. Por lo tanto existe y es finito el número:

lim A(Sn )
n →∞

Resulta entonces natural definir


µ ∞ ¶ µ n

U U
A Rn = lim A Ri = lim A(Sn ) =
n=1 n →∞ i=1 n →∞

n
P ∞
P
= lim A(Ri ) = A(Rn )
n → ∞ i=1 n=1

Este ejemplo muestra que podemos ampliar la definición de álgebra de conjuntos para permitir que
no sólo las uniones finitas de conjuntos medibles sean medibles, sino también las uniones infinitas
numerables. Esto conduce a la definición siguiente.

Prof.J.Gastón Argeri 14
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 15

Definición 4 Una clase Σ de subconjuntos de un conjunto no vacı́o Ω se dice una σ-álgebra de


subconjuntos de Ω sii verifica las siguientes condiciones:

i) Ω ∈ Σ

ii) ∀A ∈ Σ , Ac ∈ Σ

S
iii) ∀ {An } sucesión en Σ , An ∈ Σ
n=1

Ejemplo: Consideremos un conjunto no vacı́o Ω. La clase que consta de todos los subconjuntos de
Ω se denomina el conjunto de ”partes” de Ω y se suele anotar P(Ω). Claramente es una σ-álgebra
de subconjuntos de Ω. De hecho es la más grande de todas.

Propiedad 3 Sea Σ una σ-álgebra de subconjuntos de Ω. Entonces ∅ ∈ Σ


Dem:
Puesto que Ω ∈ Σ resulta ∅ = Ωc ∈ Σ ¥

Propiedad 4 Sea Σ una σ-álgebra de subconjuntos de Ω. Supongamos que Ω es finito o infinito


numerable. Se verifica:
∀ω ∈ Ω , {ω} ∈ Σ ⇒ Σ = P(Ω)
Dem:
Sea A ⊆
S Ω. Puesto que Ω es finito o infinito numerable, lo mismo es cierto de A. Dado que:
A = {ω} resulta inmediatamente que A ∈ Σ puesto que la unión anterior es a lo sumo
ω∈A
numerable y cada {ω} pertenece a Σ ¥

Propiedad 5 Sea Σ una σ-álgebra de subconjuntos de Ω y sean A1 , · · · , An ∈ Σ. Entonces


Sn
Ai ∈ Σ
i=1

Dem:
Definamos An+1 = An+2 = · · · = ∅. Entonces la secesión {Ai } está en Σ. Se tiene pues:
n
[ ∞
[
Ai = Ai ∈ Σ ¥
i=1 i=1

Propiedad 6 Sea Σ una σ-álgebra de subconjuntos de Ω y sea {An } una sucesión en Σ.



T
Entonces An ∈ Σ
n=1

Dem: Ã !c

\ ∞
[
An = Acn ∈ Σ dado que cada Acn ∈ Σ ¥
n=1 n=1

Propiedad 7 Sea Σ una σ-álgebra de subconjuntos de Ω y sean A1 , · · · , An ∈ Σ.


n
T
Entonces Ai ∈ Σ
i=1

Dem:
Definamos An+1 = An+2 = · · · = Ω. Tenemos ası́ una sucesión {An } en Σ. Por la propiedad
anterior resulta:
n
\ ∞
\
Ai = Ai ∈ Σ ¥
i=1 i=1

Prof.J.Gastón Argeri 15
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 16

Propiedad 8 Sean Ω un conjunto no vacı́o y T{Σi }i∈I una familia no vacı́a, donde cada Σi es
una σ-álgebra de subconjuntos de Ω. Entonces Σi es una σ-álgebra de subconjuntos de Ω.
i∈I
T
Dem: Anotemos Σ = Σi . Debemos probar que Σ satisface los axiomas de σ-álgebra de
i∈I
subconjuntos de Ω. Sabiendo que cada Σi satisface dichos axiomas, se deduce que:
• Ω ∈ Σ pues ∀i ∈ I , Ω ∈ Σi
• Si A ∈ Σ entonces ∀i ∈ I , A ∈ Σi . Luego: ∀i ∈ I , Ac ∈ Σi . Entonces Ac ∈ Σ
• Sea {An } sucesión en Σ. Entonces ∀i ∈ I , {An } es una sucesión en Σi . Por lo tanto

S ∞
S
∀i ∈ I , An ∈ Σi . Luego: An ∈ Σ ¥
n=1 n=1

Propiedad 9 Dados un conjunto no vacı́o Ω y un subconjunto G de P(Ω), existe una mı́nima


σ-álgebra de subconjuntos de Ω que contiene a G
Dem: Basta considerar la familia de todas las σ-álgebras de subconjuntos de Ω que contienen a
G (una de ellas es P(Ω)) y aplicarle la propiedad anterior ¥

Estamos ahora en condiciones de definir la noción axiomática de probabilidad.

Definición 5 Sean Ω un conjunto no vacı́o y Σ una σ-álgebra de subconjuntos de Ω. Una medida


de probabilidad o función de probabilidad o simplemente una probabilidad sobre Σ es una función
P : Σ → R que verifica los siguientes axiomas:
i) ∀A ∈ Σ , P (A) ≥ 0
ii) P (Ω) = 1
iii) Para toda sucesión {An } de elementos de Σ disjuntos dos a dos se cumple:
à ∞ ! ∞
] X
P An = P (An )
n=1 n=1

Nota: Parte del supuesto en esta igualdad es que la serie en el miembro de la derecha sea
convergente.
Un espacio de probabilidad es una terna ordenada (Ω, Σ, P ) donde P es una probabilidad sobre Σ.
Ejemplo: Sea Ω un conjunto no vacı́o a lo sumo numerable, que podemos anotar Ω = {ω n }. Sea
Σ una σ-álgebra de subconjuntos de Ω tal que ∀n , {ωn } ∈ Σ. Como vimos antes esto implica que
Σ = P(Ω). Si P es una probabilidad sobre Σ notemos que:
• Las probabilidades pn = P ({ωn }) determinan
U la probabilidad de cualquier evento aleatorio.
En efecto: Sea A ⊆ Ω. Entonces A = {ωn }. Por lo tanto:
ωn ∈A
à !
] X X
P (A) = P {ωn } = P ({ωn }) = pn
ωn ∈A ωn ∈A ωn ∈A

• Dada una sucesión {pn } de números reales tal que:


a) ∀n , pn ≥ 0

P
b) pn = 1
n=1

existe una única probabilidad P sobre Σ tal que P ({ωn }) = pn

Prof.J.Gastón Argeri 16
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 17

11 Espacios de equiprobabilidad
1
Si Ω = {ω1 , · · · , ωN } es finito y si definimos ∀n ∈ {1, · · · , N } , pn = N entonces se cumplen
las condiciones a) y b) del item anterior, de manera que queda definida una única probabilidad sobre
1 1
Σ = P(Ω) tal que ∀n ∈ {1, · · · , N } , P {ωn } = N = #(Ω) . Esta manera de asignar probabili-
dades sobre un espacio muestral finito es lo que se conoce como espacio de equiprobabilidad. En
un espacio de equiprobabilidad se tiene para cuanlquier evento A ⊆ Ω
à !
] X X 1 #(A)
P (A) = P {ω} = P ({ω}) = =
ω∈A ω∈A ω∈A
#(Ω) #(Ω)

Esta manera de asignar probabilidades en un espacio muestral finito suele resumirse del modo siguiente:

# {resultados favorables al evento A}


P (A) =
# {resultados posibles del experimento}

En la práctica cuando asociamos determinado espacio muestral Ω a un experimento aleatorio con una
cantidad finita de resultados posibles, la asignación de probabilidades a dichos eventos elementales no
siempre se reduce a considerar resultados equiprobables. Volviendo a uno de nuestros primeros ejem-
plos: Se lanzan dos dados ”normales” y se anota el puntaje total obtenido. En este caso podrı́amos
tomar como espacio muestral Ω = {2, 3, 4, · · · , 12}. Sin embargo no es correcto asignar probabili-
dades del modo siguiente:
1
∀n ∈ {2, · · · , 12} , P ({n}) =
11
¿ Qué inconvenientes observa acerca de esta asignación de probabilidad?
El mismo experimento aleatorio podrı́a modelizarse mediante el siguiente espacio muestral:

Ω = {(i, j) : 1 ≤ i, j ≤ 6}

Con este espacio muestral sı́ es adecuada la asignación de probabilidad en forma equiprobable:
1
∀(i, j) tal que 1 ≤ i, j ≤ 6 , P ({(i, j)}) =
36
Calculemos en este ejemplo la probabilidad de que el puntaje total obtenido sea 7. En este caso
A = {(i, j) : 1 ≤ i, j ≤ 6 ; i + j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Por lo
tanto P (A) = #(A)
#(Ω)
6
= 36 = 16

Ejemplo: Una urna contiene 3 bolillas blancas y 2 bolillas negras. Se extraen al azar dos bolillas sin
reposición. Calculemos P (A) y P (C) siendo:
A = ”ambas bolillas son blancas” y C = ”ambas bolillas son negras”
Una posible representación del espacio muestral asociado a este experimento aleatorio podrı́a ser Ω =
{BB, BN, N B, N N }. Sin embargo, dada esta representación es evidente que no resulta natural
considerar los cuatro posibles resultados como equiprobables puesto que hay más bolillas blancas que
negras. De hecho, si utilizáramos el artificio de numerar las bolillas blancas como B 1 , B2 , B3 y
numerar las bolillas negras como N1 , N2 resulta claro que el resultado A se da en más casos que el
resultado C. De hecho:
A = {(B1 , B2 ), (B1 , B3 ), (B2 , B1 ), (B2 , B3 ), (B3 , B1 ), (B3 , B2 )} tiene 6 elementos
C = {(N1 , N2 ), (N2 , N1 )} tiene 2 elementos
Lo natural entonces es elegir una representación del espacio muestral en la que resulte natural la
equiprobabilidad. Tal representación podrı́a ser la siguiente:

Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y}

Prof.J.Gastón Argeri 17
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 18

Con este espacio muestral es natural plantear equiprobabilidad. Se tiene:


#(A) 3·2 3
P (A) = #(Ω)
= 5·4
= 10
= 0, 3

#(C) 2·1 1
P (C) = #(Ω)
= 5·4
= 10
= 0, 1

Otra posible representación del espacio muestral es la siguiente, que prescinde del orden en que se
extraen las bolillas:

Ω = {{x, y} : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y}

También en este caso es natural la equiprobabilidad. Se tiene:

#(A) (32) 3
P (A) = = = = 0, 3
#(Ω) (52) 10

#(C) (22) 1
P (C) = = = = 0, 1
#(Ω) (52) 10

Como era de esperar, se obtienen las mismas probabilidades que cuando se tiene en cuenta el orden de
extracción. Ejemplo: Nuevamente consideremos una urna con 3 bolillas blancas y dos bolillas negras.
Se extraen al azar dos bolillas, pero esta vez con reposición. Calculemos las probabilidades de los
mismos eventos A y C del ejemplo anterior.
En este caso conviene representar el espacio muestral como:

Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 }}

Entonces:
P (A) = #(A)
#(Ω)
= 3·3
5·5
= 9
25
= 0, 36
#(C) 2·2 4
P (C) = #(Ω)
= 5·5
= 25
= 0, 16

12 Propiedades de una probabilidad


Una cantidad de resultados útiles se desprenden de la definición axiomática de probabilidad dada en
el parágrafo anterior.

Propiedad 10 P (∅) = 0
Dem:
Definamos ∀n , An = ∅. Claramente estos eventos son dos a dos disjuntos, de manera que:
à ∞ ! ∞ ∞
] X X
P (∅) = P An = P (An ) = P (∅)
n=1 n=1 n=1

Puesto que la serie a la derecha de la última igualdad es convergente, necesariamente su término


general debe tender a 0. Pero dicho término general, siendo constantemente igual a P (∅), tiende a
P (∅). Por lo tanto: P (∅) = 0 ¥

Propiedad 11 Sean A1 , · · · , An ∈ Σ dos a dos disjuntos. Entonces:


à n ! n
] X
P Ai = P (Ai )
i=1 i=1

Prof.J.Gastón Argeri 18
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 19

Dem:
Definamos An+1 = An+2 = · · · = ∅. Se tiene:
à n ! Ã∞ ! ∞ n
] ] X X
P Ai = P Ai = P (Ai ) = P (Ai ) ¥
i=1 i=1 i=1 i=1

Propiedad 12 Sean A, B ∈ Σ tales que A ⊆ B. Se verifica:


P (B \ A) = P (B) − P (A)
Dem:
Podemos escribir B = A](B \ A) siendo la unión disjunta. Por lo tanto: P (B) = P (A ] (B \ A)) =
P (A) + P (B \ A). Despejando se tiene: P (B \ A) = P (B) − P (A) ¥

Propiedad 13 Sean A, B ∈ Σ (no necesariamente disjuntos). Se verifica:


P (A ∪ B) = P (A) + P (B) − P (AB)
Dem:
Primeramente notemos que BAc = B \ AB. Ahora bien, por la propiedad anterior y teniendo en
cuenta que AB ⊆ B se tiene:
P (BAc ) = P (B \ AB) = P (B) − P (AB). Luego:
P (A ∪ B) = P (A ] BAc ) = P (A) + P (BAc ) = P (A) + P (B) − P (AB) ¥

Corolario 1 Para cualesquiera eventos A, B ∈ Σ se verifica la siguiente desigualdad:


P (A ∪ B) ≤ P (A) + P (B)
Dem: P (A ∪ B) = P (A) + P (B) − P (AB) ≤ P (A) + P (B) pues P (AB) ≥ 0 ¥

Propiedad 14 Dados A, B, C ∈ Σ se verifica:


P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC)
Dem:

P (A ∪ B ∪ C) = P (A ∪ B) + P (C) − P ((A ∪ B) C) =

= P (A) + P (B) − P (AB) + P (C) − P (AC ∪ BC) =

= P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ACBC)) =

= P (A) + P (B) + P (C) − P (AB) − (P (AC) + P (BC) − P (ABC)) =

= P (A) + P (B) + P (C) − P (AB) − P (AC) − P (BC) + P (ABC) ¥

Propiedad 15 Sea (Ω, Σ, P ) un espacio de probabilidad. Dados A1 , · · · , An ∈ Σ se cumple:


Pn P
P (A1 ∪ · · · ∪ An ) = P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n

P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n (1)

+ .................................................... +

+ (−1)n+1 P (A1 A2 · · · An )

Prof.J.Gastón Argeri 19
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 20

Dem:
Por inducción sobre n.

• Paso base: n = 2 ya fue demostrada.

• Hipótesis inductiva (HI): Suponemos válida (1) para n.

• Supongamos A1 , · · · , An+1 ∈ Σ.

P (A1 ∪ · · · ∪ An+1 ) = P (A1 ∪ · · · ∪ An ) + P (An+1 ) − P ((A1 ∪ · · · ∪ An )An+1 ) =

n
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n

P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n

+ (−1)n+1 P (A1 A2 · · · An ) + P (An+1 ) − P (A1 An+1 ∪ · · · ∪ An An+1 ) =

n+1
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n

P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n

n
P P
+ (−1)n+1 P (A1 A2 · · · An ) − { P (Ai An+1 ) − P (Ai1 Ai2 An+1 ) + · · ·
i=1 1≤i1 <i 2 ≤n

+ (−1)n+1 P (A1 A2 · · · An An+1 )}

n+1
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n+1

P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n+1

+ (−1)n+2 P (A1 A2 · · · An+1 ) ¥

Propiedad 16 Dados A, B ∈ Σ con A ⊆ B se tiene P (A) ≤ P (B)


Dem:
Como A ⊆ B resulta B = A ] BAc . Luego: P (B) = P (A) + P (BAc ) ≥ P (A) ¥

Corolario 2 Para todo A ∈ Σ es P (A) ≤ 1


Dem:
Como A ⊆ Ω y dado que P (Ω) = 1 resulta P (A) ≤ P (Ω) = 1 ¥

Propiedad 17 Para cualquier A ∈ Σ se verifica:

P (Ac ) = 1 − P (A) ; P (A) = 1 − P (Ac )

Dem:
Puesto que Ω = A ] Ac resulta 1 = P (Ω) = P (A) + P (Ac ) ¥

Prof.J.Gastón Argeri 20
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 21

13 Propiedades de continuidad
Propiedad 18 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es creciente,
es decir: A1 ⊆ A2 ⊆ A3 ⊆ · · · . Se verifica:
à ∞ !
[
P An = lim P (An )
n →∞
n=1

Dem:
Definamos los siguientes eventos:
B1 = A1
B2 = A 2 \ A1
B3 = A 3 \ A2
··· ··· ···
Bn = An \ An−1
··· ··· ···
Se tiene ası́ una sucesión {Bn } en Σ tal que:
n
S n
U ∞
S ∞
U
Ai = Bi y Ai = Bi
i=1 i=1 i=1 i=1

Por conveniencia definamos también Ao = ∅. Entonces:


µ n ¶ µ n ¶ n
S S P
P Ai = P Bi = P (Bi ) =
i=1 i=1 i=1

n
P n
P
= P (Ai \ Ai−1) = (P (Ai ) − P (Ai−1)) =
i=1 i=1

= P (An ) − P (Ao ) = P (An ) − P (∅) = P (An )


Luego:
n
P ∞
P
lim P (An ) = lim P (Bi ) = P (Bi ) =
n →∞ n → ∞ i=1 i=1
µ∞ ¶ µ∞ ¶
U S
= P Bi =P Ai
i=1 i=1
¥

Propiedad 19 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es decreciente,
es decir: A1 ⊇ A2 ⊇ A3 ⊇ · · · . Se verifica:
à ∞ !
\
P An = lim P (An )
n →∞
n=1

Dem:
Notemos que dado que los An decrecen entonces los Acn crecen.
µ ∞ ¶ µ· ∞ ¸c ¶
T T
P An = 1−P An =
n=1 n=1
µ ∞

S
= 1−P Acn = 1 − lim P (Acn ) =
n=1 n →∞

¡ ¢
= lim 1 − P (Acn ) = lim P (An ) ¥
n →∞ n →∞

Prof.J.Gastón Argeri 21
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 22

Probabilidad condicional - Sucesos independientes

14 Probabilidad condicional
Seguramente al lector no se le habrá pasado por alto, cuando definimos los axiomas de una probabili-
dad, la relación intuitiva que existe entre éstos y lo que se conoce como el enfoque ”frecuentista” de
las probabilidades, que pasamos a explicar someramente.
Supongamos, en el contexto de un experimento aleatorio concreto, que se desea asignar probabilidad a
cierto evento A. El enfoque frecuentista consiste en repetir el experimento un número finito y grande
de veces, digamos N veces. A continuación determina lo que se conoce como frecuencia relativa del
evento A en esas N realizaciones del experimento. Dicha frecuencia relativa, que anotaremos f A ,
se define por:
número de veces que ha ocurrido A en las N realizaciones
fA =
número total N de realizaciones
Intuitivamente fA es un reflejo de la chance de ocurrencia de A en dichas repeticiones del
experimento. En otro capı́tulo formalizaremos esta idea intuitiva. Por el momento nos conformamos
con admitirla como natural y motivadora. Esta frecuencia relativa posee las siguientes propiedades:
Dados eventos A, B se verifica

i) fA ≥ 0

ii) fΩ = 1

iii) Si A y B son disjuntos entonces fA∪B = fA + fB

Las propiedades anteriores nos hacen recordar propiedades análogas a las de la definición axiomática
de probabilidad.
Basados intuitivamente en esta idea frecuentista vamos a introducir el concepto de probabilidad condi-
cional. La importancia de este concepto se debe a dos motivos principales:

• Frecuentemente estamos interesados en calcular probabilidades cuando disponemos de alguna


información parcial adicional acerca del resultado del experimento. En tal caso dichas probabil-
idades se dicen condicionales (a la información adicional).

• Aún en situaciones en las cuales no disponemos de tal información parcial adicional, es frecuente
el uso de la probabilidad condicional como herramienta que permite calcular las probabilidades
deseadas de un modo más sencillo.

Para fijar ideas consideremos el ejemplo que sigue.

Ejemplo: Se arrojan dos dados normales, de manera que cada uno de los 36 resultados posibles son
equiprobables. Supongamos que se observa además que el primer dado es un 3. Con esta información
adicional, ¿ cuál es la probabilidad de que el puntaje total obtenido sea 8 ?
Primeramente observemos que ”el primer dado es un 3” es un evento, que podemos anotar H. Dado
que ha ocurrido H, el experimento se limita a arrojar el segundo dado y determinar el número que
sale. Sabemos que los posibles resultados de este experimento parcial seran sólo seis y definirán un
espacio muestral parcial: ΩH = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}. Es natural considerar
estos seis resultados como equiprobables, es decir que podemos definir una probabilidad P H de modo
que ∀j ∈ {1, · · · , 6} , PH ({(3, j)}) = 1/6. Esta probabilidad sobre el espacio muestral Ω∗ puede
pensarse como una probabilidad ”condicional a H” en el espacio muestral Ω asociado al experimento
original, definiendo:

• La probabilidad condicional de {(3, j)} como 1/6. Anotamos P ({(3, j)} |H) = 1/6

Prof.J.Gastón Argeri 22
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 23

• La probabilidad condicional de {(i, j)} como 0 si i 6= 3. Anotamos P ({(i, j)} |H) = 0 si


i 6= 3

Por lo tanto, la probabilidad condicional de obtener puntaje total 8 será

P (”se obtiene puntaje 8”|H) = P ({(3, 5)} |H) = 1/6

Ejemplo: Más generalmente consideremos dos eventos E y H en el contexto de un experimento


aleatorio. Queremos asignar una probabilidad al evento E bajo el supuesto o condición que haya
ocurrido H. Intuitivamente lo que podrı́amos hacer es repetir el experimento un gran número N de
veces y contar en cuántas de ellas ha ocurrido H, digamos NH veces, y luego contar en cuántas de
estas NH ha ocurrido también E, digamos NEH veces. Entonces podrı́amos considerar el número:
NE H
NH
Equivalentemente, dividiendo numerador y denominador por N se obtiene: NNEHH/N /N
= ffEHH
Dado que las frecuencias relativas son base intuitiva para las probabilidades, este cociente motiva la
definición siguiente.

Definición 6 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) > 0. Dado un
evento E ∈ Σ se define la probabilidad de E condicional a F como:
P (EF )
P (E|F ) =
P (F )
Ejemplo: Se lanza dos veces una moneda normal. Calculemos:

a) La probabilidad de que ambas salgan cara.

b) La probabilidad condicional de que ambas salgan cara dado que la primera sale cara.

Para responder a) consideramos el espacio muestral Ω = {CC, CS, SC, SS} y naturalmente
asignamos probabilidades uniformemente, de modo que cada uno de los cuatro resultados elementales
tiene probabilidad 1/4. Luego:
1
P (”ambas salen cara”) = P ({CC}) =
4
Para responder a b) utilizamos la definición de probabilidad condicional. Sean E = ”ambas salen cara” y
H = ”la primera sale cara”. Entonces:
P (EF ) P ({CC}) 1/4 1
P (E|H) = = = =
P (F ) P ({CC, CS}) 1/2 2

Propiedad 20 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) > 0.


P (·|H)
Sea Σ −→ R la función que asigna a cada E ∈ Σ el número real P (E|H). Entonces
(Ω, Σ, P (·|H)) es un espacio de probabilidad.
Dem:
La demostración se propone como ejercicio al final del capı́tulo ¥

Propiedad 21 Sean Σ una σ-álgebra de subconjuntos de Ω y H ∈ Σ. Sea ΣH la siguiente clase


de subconjuntos de H:
ΣH = {EH : E ∈ Σ}
Entonces ΣH es una σ-álgebra de subconjuntos de H.
Dem:

i) Dado que H ∈ Σ y H = HH resulta H ∈ ΣH

Prof.J.Gastón Argeri 23
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 24

ii) Supongamos que B ∈ ΣH . Luego, existe cierto E ∈ Σ tal que B = EH. Dado que tanto
E como H son miembros de Σ también lo es B. Luego, también B c ∈ Σ. Entonces el
complemento de B relativo a H es H \ B = B c H. Por ende este complemento pertenece a
ΣH , siendo este complemento la intersección entre H y un miembro de Σ.

iii) Sea {Bn } una sucesión en ΣH . Luego, existe una sucesión {En } en Σ tal que ∀n , Bn =
En H. Luego: Ã ∞ !

[ ∞
[ [
Bn = En H = En ∩ H
n=1 n=1 n=1

S
Sea E = En . Dado que los En son miembros de Σ resulta E ∈ Σ. Pero como
n=1

S ∞
S
Bn = EH resulta que Bn ∈ Σ H ¥
n=1 n=1

Definición 7 La σ-álgebra ΣH definida arriba se denomina la relativización de Σ a H o la


reducción de Σ a H.

Propiedad 22 Dados (Ω, Σ, P ) espacio de probabilidad y H ∈ Σ tal que P (H) > 0, la función
PH
Σh −→ R definida por
P (B)
PH (B) =
P (H)
es una probabilidad sobre (H, ΣH ). Más aún, se verifica: ∀E ∈ Σ , PH (EH) = P (E|H)
Dem:
La demostración se propone como ejercicio al final del capı́tulo ¥

Definición 8 Se dice que el espacio de probabilidad (H, ΣH , PH ) se ha obtenido reduciendo a H el


espacio de probabilidad (Ω, Σ, P ).
La idea es la siguiente: Calcular en Σ probabilidades condicionalmente a H equivale a calcular en
ΣH probabilidades sin condicionar. En determinados ejemplos es más sencillo calcular probabilidades
condicionales por definición mientras que en otros es más fácil calcularlas trabajando directamente
sobre el espacio muestral reducido.

Teorema 3 (Regla del producto)


Sea (Ω, Σ, P ) espacio de probabilidad.

i) Si A, B ∈ Σ con P (B) > 0 entonces P (AB) = P (A|B) · P (B)

ii) Más generalmente, dados A1 , · · · , An+1 ∈ Σ con P (A1 · · · An ) > 0 se verifica:

P (A1 · · · An+1 ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 A2 ) · · · · · P (An+1 |A1 A2 · · · An )

Dem:
Por inducción sobre n.
Paso base: n = 1
Este caso corresponde a demostrar i). Sean A1 , A2 ∈ Σ con P (A) > 0. Se tiene:

P (A1 A2 )
Como P (A2 |A1 ) = se deduce P (A1 A2 ) = P (A1 )P (A2 |A1 )
P (A1 )

Prof.J.Gastón Argeri 24
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 25

Hipótesis inductiva: Suponemos la propiedad válida para n


Ahora queremos demostrar que vale para n + 1. Sean A1 , · · · , An+2 ∈ Σ. Se tiene:
HI
P (A1 A2 · · · An+1 An+2 ) = P (A1 · · · An+1 )P (An+2 | A1 · · · An+1 ) =
| {z } | {z } | {z } | {z } | {z }
A B A B A

HI
= P (A1 )P (A2 |A1 ) · · · P (An+1 |A1 · · · An )P (An+2 |A1 · · · An+1 )

Esto demuestra que la propiedad es verdadera para n + 1 bajo el supuesto que sea verdadera para
n. Luego, por inducción es válida para todo n ∈ N ¥

Ejemplo: Una urna contiene inicialmente r bolillas rojas y b bolillas blancas. Se realiza el siguiente
experimento aleatorio: Se extrae una bolilla al azar y se completa la urna con c bolillas de ese mismo
color. Se extrae nuevamente una bolilla al azar y se completa la urna con c bolillas del mismo
color, etc. Se quiere calcular la probabilidad de que las tres primeras extracciones resulten en bolillas
rojas. Para resolverlo, dado que el experimento se lleva a cabo en tres etapas y cada etapa afecta la
composición de la urna de extracción, es adecuado condicionar una extracción a los resultados de las
extracciones previas.
Definamos Ri = ”la i-ésima extracción resulta bolilla roja” (i = 1, 2, 3). Entonces lo que pretende-
mos calcular es precisamente P (R1 R2 R3 ). Planteamos la regla del producto:

P (R1 R2 R3 ) = P (R1 )P (R2 |R1 )P (R3 |R1 R2 )

Por la composición inicial de la urna es claro que


r
P (R1 ) =
r+b
Por la composición de la urna inmediatamente luego que ha ocurrido R1 es claro que
r+c
P (R2 |R1 ) =
r+c+b
Por la composición de la urna inmediatamente luego que han ocurrido R1 , R2 se tiene análogamente
r + 2c
P (R3 |R1 R2 ) =
r + 2c + b
Por lo tanto:
r r+c r + 2c
P (R1 R2 R3 ) = · ·
r+b r+c+b r + 2c + b

Definición 9 Sea (Ω, Σ, P ) un espacio de probabilidad. Una sucesión {An } en Σ se dice una
partición de Ω sii se verifican:

i) ∀n ∈ N , P (An ) > 0

S
ii) Ω = An
n=1

iii) ∀n, n ∈ N , n 6= m ⇒ A n ∩ Am = ∅

Ejemplo: Consideremos un espacio de equiprobabilidad Ω = {1, 2, · · · , 12}. Es decir: ∀i ∈


Ω , P ({i}) = 1/n > 0. Una posible partición de Ω es {A1 , A2 , A3 } donde

A1 = {1, 3, 5, 7, 9, 11} ; A2 = {6, 12} ; A3 = {2, 4, 8, 10}

Prof.J.Gastón Argeri 25
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 26

Teorema 4 (Teorema de la probabilidad total)


Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn } una partición de Ω. Entonces para cualquier
B ∈ Σ se verifica:
X∞
P (B) = P (B|Hn )P (Hn )
n=1

Dem:

S
Dado que {Hn } es una partición de Ω, sabemos que An = Ω. Por lo tanto
n=1
à ∞
! ∞
[ [
B =B∩Ω=B∩ Hn = BHn
n=1 n=1
Además esta unión es disjunta dos a dos:
n 6= m ⇒ (BHn )(BHm ) = BHn Hm = B∅ = ∅
Luego:

X
P (B) = P (BHn )
n=1
Pero como ∀n ∈ N , P (Hn ) > 0 podemos escribir P (BHn ) = P (B|Hn )P (Hn ). Entonces:

X ∞
X
P (B) = P (BHn ) = P (B|Hn )P (Hn ) ¥
n=1 n=1
Nota: El teorema de la probabilidad total es también válido para particiones finitas.

Ejemplo: Una caja C1 contiene n1 fichas marcadas con un 1 y n2 fichas marcadas con un 2.
Se extrae una ficha al azar. Si sale 1 se extrae una bolilla al azar de una urna U 1 que contiene
r1 bolillas rojas y b1 bolillas blancas. En cambio, si sale 2 se extrae una bolilla al azar de una urna
U2 que contiene r2 bolillas rojas y b2 bolillas blancas. Calcular la probabilidad de extraer una
bolilla roja.
La composición de la urna de la que se extrae la bolilla depende de la primera etapa del experimento
(extracción de ficha). Por lo tanto es de esperar que necesitemos condicionar al resultado de la primera
etapa. Definamos F1 = ”sale ficha 1” y F2 = ”sale ficha 2”. Entonces {F1 , F2 } es claramente una
partición de Ω. Definamos también R = ”sale bolilla roja”. Por lo tanto:
2
X
P (R) = P (R|Fn )P (Fn ) = P (R|F1 )P (F1 ) + P (R|F2 )P (F2 )
n=1
Es claro que
n1 n2
P (F1 ) = n1 +n2
; P (F2 ) = n1 +n2
También es claro que:
r1 r2
P (R|F1 ) = r1 +b1
; P (R|F2 ) = r2 +b2

Por lo tanto: r1 n1 r2 n2
P (R) = · + ·
r1 + b1 n1 + n 2 r2 + b2 n1 + n 2
Teorema 5 (Regla de Bayes)
Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn } una partición de Ω. Para cualquier B ∈ Σ tal
que P (B) > 0 y para cualquier j ∈ N se verifica:
P (B|Hj )P (Hj )
P (Hj |B) = ∞
P
P (B|Hn )P (Hn )
n=1

Prof.J.Gastón Argeri 26
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 27

Dem:
Se tiene:
P (BHj ) P (B|Hj )P (Hj )
P (Hj |B) = = ∞ ¥
P (B) P
P (B|Hn )P (Hn )
n=1
Nota: La regla de Bayes también es válida para particiones finitas.

Ejemplo: Una caja contiene N = n1 + n2 + n3 fichas, de las cuales n1 están numeradas con
”1”, n2 están numeradas con ”2” y n3 están numeradas con ”3”. Se dispone además de tres urnas
U1 , U2 , U3 . La urna Ui contiene ri bolillas rojas y bi bolillas blancas (i = 1, 2, 3). Se extrae al
azar una ficha de la caja. Acto seguido se elige al azar una bolilla de la urna rotulada con el mismo
número que la ficha extraida. Sabiendo que la bolilla extraida fue roja, ¿ cuál es la probabilidad de
que haya provenido de la urna U2 ?
Sean
Fi = ”sale ficha i” ; i = 1, 2, 3
R = ”sale bolilla roja” y B = ”sale bolilla blanca”
Se pretende calcular P (F2 |R). Acá se quiere averiguar la probabilidad de un evento que ocurrió
en una etapa previa del experimento basados en infromación de una etapa posterior. Es natural
entonces ”revertir” este condicionamiento, para lo cual utilizamos el teorema de Bayes. Notemos que
{F1 , F2 , F3 } es una partición de Ω. Entonces:
P (R|F2 )P (F2 )
P (F2 |R) = P (R|F1 )P (F1 )+P (R|F2 )P (F2 )+P (R|F3 )P (F3 )
=

r2 n2
·
r2 +b2 n1 +n2 +n3
= r1
·
n1 r2 n r3
+ r +b · n +n2 +n + r +b ·
n3 =
r1 +b1 n1 +n2 +n3 2 2 1 2 3 3 3 n1 +n2 +n3

r2 n 2
r2 +b2
= r1 n 1 r n r n
+ r 2+b2 + r 3+b3
r1 +b1 2 2 3 3

Ejemplo: Un procedimiento llamado fluoroscopı́a cardı́aca (FC) se utiliza para determinar si existe
calcificación en las arterias coronarias. El test permite detectar si hay 0,1,2,ó 3 arterias coronarias
calcificadas. Anotemos:
Ti+ : la FC detecta i arterias calcificadas (i = 0, 1, 2, 3)

D + : hay enfermedad coronaria ; D − : no hay enfermedad coronaria

Supongamos que se conocen los datos de la siguiente tabla

i P (Ti+ |D + ) P (Ti+ |D −)
0 0.41 0.96
1 0.24 0.02
2 0.20 0.02
3 0.15 0.00

a) Si P (D + ) = 0.05 calcular P (D + |Ti+ ) para i = 0, 1, 2, 3

b) Si P (D + ) = 0.92 calcular P (D + |Ti+ ) para i = 0, 1, 2, 3

En ambos casos el cálculo se reduce a utilizar la regla de Bayes:

P (Ti+ |D + )P (D + )
P (D + |Ti+ ) =
P (Ti+ |D + )P (D + ) + P (Ti+ |D −)P (D −)

Prof.J.Gastón Argeri 27
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 28

donde P (D −) = 1 − P (D + )
Se obtienen los resultados siguientes:

i P (D + |Ti+ ) cuando P (D + ) = 0.05 P (D + |Ti+ ) cuando P (D + ) = 0.92


0 0.022 0.831
1 0.387 0.993
2 0.345 0.991
3 1.000 1.000

15 Independencia estocástica
Sean A, B eventos con P (A) > 0 y P (B) > 0. Intuitivamente podemos decir que dichos eventos
son independientes (entre sı́) si el hecho que ocurra A no influye sobre la chance de ocurrir B y
recı́procamente, el hecho que ocurra B no influye sobre la chance de ocurrir A. Es decir si la
ocurrencia de A ni afecta ni es afectada por la ocurrencia de B. Podemos expresar esta idea intuitiva
diciendo que A y B son independientes sii P (B|A) = P (B) y P (A|B) = P (A). Expresando
mediante intersecciones podemos reducir estas dos condiciones a una sola, con la ventaja adicional
de no requerir que los eventos tengan probabilidades positivas. Esta idea es la base de la siguiente
definición.

Definición 10 Los eventos A y B se dicen independientes sii P (AB) = P (A) · P (B)


Nota: No debe confundirse la noción de independencia con la de eventos excluyentes. De hecho, si
A y B son mutuamente excluyentes y si P (A) > 0 y P (B) > 0, entonces A y B distan mucho
de ser independientes pues P (AB) = P (∅) = 0 6= P (A)P (B)

Ejemplo: Se elige al azar una carta de un mazo de 52 cartas francesas. Consideremos los eventos

A : ”sale un as” ; C : ”sale una carta de corazones”

Analicemos la independencia entre ellos:


4 13 1
P (A) = 52
P (C) = 52
P (AC) = 52

1 4 13
P (AC) = 52
= 52
· 52
= P (A)P (C)
Por lo tanto A y C son independientes.

Ejemplo: Se arrojan dos dados equilibrados, uno blanco y otro rojo. Consideremos los eventos

A : ”puntaje total 6” ; B : ”el dado rojo sale 4”

Analicemos la independencia entre ellos:


5 1 1
P (A) = 36
P (B) = 6
P (AB) = 36

1 5 1
P (AB) = 36
6= 36
· 36
= P (A)P (B)
Por lo tanto A y C no son independientes.

Propiedad 23 Los eventos A y B son independientes sii los eventos A y B 0 son independientes
Dem:
⇒) Supongamos A y B independientes. Luego: P (AB) = P (A)P (B). Entonces:

P (AB 0 ) = P (A\B) = P (A)−P (AB) = P (A)−P (A)P (B) = P (A)(1−P (B)) = P (A)P (B 0 )

Prof.J.Gastón Argeri 28
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 29

Luego, A y B 0 son independientes.


⇐) Si ahora suponemos A y B 0 independientes, podemos aplicarles la parte ⇒) ya demostrada.
Se deduce que A y (B 0 )0 = B son independientes ¥

Corolario 3 Los eventos A y B son independientes sii A0 y B 0 son independientes


Generalicemos la noción de independencia a tres eventos A, B, C. Imaginemos que C represente la
presencia de cierta enfermedad y que A y B representen la presencia de dos sı́ntomas clı́nicos.
Supongamos que dichos sı́ntomas se presentan independientemente (que un paciente presente un
sı́ntoma no lo hace más ni menos proclive a presentar el otro sı́ntoma). Supongamos también que
A y C sean independientes y que B y C sean independientes. Podrı́a sin embargo ocurrir
que la presencia simultánea de ambos sı́ntomas sı́ aumentara (o disminuyera) la chance de tener la
enfermedad. En tal caso los eventos AB y C no serı́an independientes. Esto motiva la siguientes
definición.

Definición 11 Los eventos A, B, C se dicen independientes sii se verifican

P (AB) = P (A)P (B) , P (AC) = P (A)P (C) , P (BC) = P (B)P (C)

P (ABC) = P (A)P (B)P (C)

Ejemplo: Sea Ω = {1, 2, 3, 4} un espacio de equiprobabilidad. Definamos los eventos:

A = {1, 4} , B = {2, 4} , C = {3, 4}

Entonces:
1 1 1
P (A) = 2
, P (B) = 2
, P (C) = 2

1 1 1
P (AB) = 4
= P (A)P (B) , P (AC) = 4
= P (A)P (C) , P (BC) = 4
= P (B)P (C)

1 1
P (ABC) = 4
6= 8
= P (A)P (B)P (C)

Luego A, B, C no son independientes.

Ejemplo: Sea Ω = {1, 2, 3, 4, 5, 6, 7, 8} un espacio de equiprobabilidad. Definamos los eventos:

A = {1, 2, 3, 4} , B = {1, 2, 7, 8} , C = {1, 5, 6, 7}

Entonces:
1 1 1
P (A) = 2
, P (B) = 2
, P (C) = 2

1 1 1 1
P (AB) = 4
= P (A)P (B) , P (BC) = 4
= P (B)P (C) , P (AC) = 8
6= 4
= P (A)P (C)

1
P (ABC) = 8
= P (A)P (B)P (C)

Luego A, B, C no son independientes.

Definición 12 Se dice que los eventos A1 , · · · , An son independientes sii para cualquier secuencia
estrictamente creciente 1 ≤ i1 < · · · < ir ≤ n de enteros, se verifica
r
Q
P (Ai1 · · · Air ) = P (Aij )
j=1

Prof.J.Gastón Argeri 29
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 30

¡n¢ ¡n¢ ¡n¢


Nota: Vemos que en general es necesario verificar 2
+ 3
+···+ n
= 2n − (n + 1) condiciones
para asegurar la independencia de n eventos.

Propiedad 24 Supongamos que A1 , · · · , An son independientes. Sean B1 , · · · , Bn eventos tales


que
Bi = Ai ó Bi = A0i (i = 1, · · · , n)
Entonces B1 , · · · , Bn son independientes.

Prof.J.Gastón Argeri 30
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 31

Variables aleatorias - Distribuciones de probabilidad

16 Funciones
X
Sea Ω → C una función. Recordemos que esto significa que X establece una correspondencia entre
elementos de Ω y elementos de C con la caracterı́stica que a cada elemento de Ω le asigna uno y sólo
un elemento de C. Si dicha correspondencia asigna al elemento ω ∈ Ω el elemento c ∈ C decimos
que c es el valor de X en ω o la imagen de ω por X, situación que se anota X(ω) = c.
El conjunto Ω se denomina dominio de la función y suele anotarse Dom(X). La imagen o rango (o
a veces el recorrido) de X es el conjunto de todos los valores de X, es decir el conjunto formado por
todos los valores X(ω) cuando ω recorre Ω. Anotaremos la imagen de X como R X . Es decir:

RX = {X(ω) : ω ∈ Ω} = {c ∈ C : ∃ω ∈ Ω , c = X(ω)}

Dado B ⊆ C definimos la imagen inversa de B por X como el conjunto de todos los elementos de
Ω cuyas imágenes por X pertenecen a B. Si anotamos X −1(B) a la imagen inversa de B por
X esta definición establece que

X −1(B) = {ω ∈ Ω : X(ω) ∈ B}
X
Ejemplo: Sea R → R dada por X(t) = t2 . En este caso la imagen o rango de X es RX = [0, ∞).
Por otra parte:
X −1 ({4}) = {2, −2} , X −1 ([4, ∞)) = (−∞, −2] ∪ [2, ∞)
n √ √ o
X −1 ({0}) = {0} , X −1 ({0, 2, 4, 7}) = 0, ± 2, ±2, ± 7

X −1 ((−∞, 0)) = ∅ , X −1 (R) = R


X
Ejemplo: Sea {ω1 , ω2 , ω3 , ω4 } → R dada mediante la siguiente tabla de valores:

ω X(ω)
ω1 2 X −1 ({2}) = {ω1 } X −1 ({1}) = {ω2 , ω3 }
ω2 1 Entonces por ejemplo: X −1 ({0}) = {ω4 } X −1 ((−∞, 0]) = {ω4 }
ω3 1 X −1 ((−∞, 1]) = {ω2 , ω3 , ω4 } X −1 ((−∞, −1]) = ∅
ω4 0
Dado A ⊆ R se denomina función indicadora o función caracterı́stica de A a la función I A : R →
R dada por 
 1 si x ∈ A
IA (x) =

0 si x 6∈ A

17 Variables aleatorias y funciones de distribución


Cuando se realiza un experimento aleatorio existen diversas caracterı́sticas observables o medibles. No
obstante ello, generalmente el experimentador centra su interés en algunas de estas caracterı́sticas. Por
ejemplo, si el experimento consiste en lanzar un dado N = 10 veces, podrı́amos interesarnos en las
siguientes caracterı́sticas: ”cantidad de dados que salen 3”, ”puntaje total obtenido”, ”mı́nimo número
obtenido”,etc. Cada una de estas caracterı́sticas relaciona cada posible resultado del experimento
con un número real. Ası́ por ejemplo podemos considerar que ”puntaje total obtenido” relaciona el
resultado ω = (1, 5, 4, 3, 4, 6, 5, 1, 2, 2) con el número real 1+5+4+3+4+6+5+1+2+2 = 33.
Esto motiva la siguiente definición.

Prof.J.Gastón Argeri 31
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 32

Definición 13 Se denomina variable aleatoria (va) sobre un espacio de probabilidad (Ω, Σ, P ) a


toda función X : Ω → R con la siguiente propiedad:
∀a ∈ R , X −1 ((−∞, a]) ∈ Σ (2)
Las variables aleatorias suelen designarse mediante las últimas letras del abecedario y en mayúsculas:
· · · , P, · · · , X, Y, Z. También se las designa mediante alguna de estas letras junto con uno o más
subı́ndices, por ejemplo: X1 , X2 , S12
Nota: Dados un número real a y una variables aleatoria X, puesto que según la definición X es
una función de Ω en R, tiene sentido calcular la imagen inversa de B = (−∞, a] por X, que es
precisamente:
X −1 ((−∞, a]) = {ω ∈ Ω : X(ω) ∈ (−∞, a]} = {ω ∈ Ω : X(ω) ≤ a}
En el contexto de variables aleatorias es frecuente una notación alternativa y mucho más frecuente
para las imágenes inversas por X. En general, para B ⊆ R la imagen inversa de B por X se anota
también {X ∈ B}. Es decir:
{X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} = X −1(B)
Por lo tanto la definición establece que una función X : Ω → R es una variable aleatoria sobre
(Ω, Σ, P ) sii se cumple
∀x ∈ R , {X ≤ x} ∈ Σ
Tengamos presente que cuando el espacio de probabilidad es finito (es decir cuando #(Ω) es finito)
y Σ = P(Ω) es la σ-álgebra de todos los subconjuntos de Ω, entonces la condición (2) es superflua
puesto que se satisface automáticamente. Lo mismo ocurre cuando Ω = {ω 1 , ω2 , · · · } es infinito
numerable y cada {ωn } ∈ Σ puesto que:

[
{X ≤ x} = {ωn : X(ωn ) ≤ x} = {ωn }
n=1
X(ωn )≤x

Siendo la unión a lo sumo numerable y cada {ω} ∈ Σ se deduce que {X ≤ x} ∈ Σ.


Luego, en los casos donde el espacio de probabilidad es discreto, la noción de variable aleatoria coincide
con la de función X : Ω → R.

Definición 14 Sea X v.a. definida sobre un espacio de probabilidad (Ω, Σ, P ). Se dice que X es
discreta sii existe A ∈ Σ, A a lo sumo numerable y tal que P (X ∈ A) = 1.
Observemos que cuando el espacio muestral es finito cualquier variable aleatoria es discreta, pues basta
tomar A = Ω.

Propiedad 25 Dada una v.a. discreta X existe un mı́nimo A ∈ Σ con la propiedad que P (X ∈
A) = 1
Dem:
Siendo X discreta, sea A ∈ Σ tal que A es a lo sumo numerable y P (X ∈ A) = 1. Definamos
SX = {x ∈ R : P (X = x) > 0}. Entonces:
A = SX ] (A \ SX )
de manera que 1 = PX (A) = PX (SX ) + PX (A \ SX ). Mostraremos que PX (A \ SX ) = 0. En
c resulta ∀x ∈ B , P ({x}) = 0.
efecto: Anotemos B = A \ SX . En primer lugar, como B ⊆ SX X
Dado que A es a lo sumo numerable resulta B a lo sumo numerable. Luego:
à !
] X
PX (B) = PX {x} = PX ({x}) = 0
x∈B x∈B

Prof.J.Gastón Argeri 32
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 33

Es decir que hemos demostrado que si A es a lo sumo numerable y P (X ∈ A) = 1 entonces


P (A \ SX ) = 0
En particular: PX (SX ) = 1. Es decir P (X ∈ SX ) = 1.
Supongamos ahora que SX 6⊆ A. Entonces existirı́a xo ∈ SX con xo 6∈ A. Luego: P (X = xo ) >
0. Entonces PX (X ∈ A ] {xo }) = PX (A) + P (X = xo ) > PX (A) = 1. Absurdo. Entonces
necesariamente es SX ⊆ A. Esto demuestra que:

P (X ∈ SX ) = 1

Si A es a lo sumo numerable y P (X ∈ A) = 1 entonces SX ⊆ A

Por lo tanto SX es el mı́nimo conjunto buscado ¥

Definición 15 Dada una variable aleatoria discreta X se denomina soporte (o rango esencial o
simplemente rango) de X al mı́nimo A tal que P (X ∈ A) = 1. Anotaremos RX al rango de X.
Cuando un experimento conduce a medir cantidades como ”peso”, ”altura”, ”temperatura”, ”du-
ración”, etc, es de esperar que dichas variables aleatorias no estén restringidas a un rango a lo sumo
numerable. Una posible clasificación de las variables aleatorias es la siguiente:

 discretas
variables aleatorias continuas

mixtas

Son discretas aquellas variables aleatorias cuyo rango es a lo sumo numerable. Son continuas aquellas
que poseen una ”densidad” (concepto que precisaremos más adelante). Las mixtas son aquellas que
ni son discretas ni son continuas.

Ejemplo: Se lanza una moneda tantas veces como sea necesario hasta que sale ”cara”. En este caso
Ω = {C, SC, SSC, SSSC, · · · } y consideramos Σ = P(Ω).
Sea X = ”lanzamientos necesarios hasta obtener cara”. Esta va. discreta tiene rango R X = N. Para
familiarizarnos con la notación de imagen inversa vemos como ejemplo que:

{X ≤ 0} = ∅ , {X ≤ 5} = {C, SC, SSC, SSSC, SSSSC}

Ejemplo: Se lanza una moneda. Se tiene Ω = {C, S}. Consideramos Σ = P(Ω). Sea X =
”cantidad de caras obtenidas”. Entonces RX = {0, 1}. En este caso:

 ∅ si x<0
{X ≤ x} = {S} si 0 ≤ x < 1

{C, S} si x≥1

Recordemos que una bola abierta en Rn es el conjunto de todos los puntos de Rn que distan de un
xo ∈ Rn (llamado el centro de dicha bola) en menos que una cantidad ² > 0 (el radio de
punto fijo ~
la bola). Es decir
B²(~xo ) = {~x ∈ Rn : k~ x−~ xo k < ²}
Un subconjunto A ⊆ Rn se dice abierto sii para cada ~
x = (x1 , · · · , xn ) ∈ A existe al menos una
n−bola abierta en Rn centrada en ~
x y completamente contenida en A. Formalmente: A ⊆ Rn es
abierto sii se verifica

∀~ y ∈ Rn , k~
x ∈ A , ∃² > 0 , ∀~ y−~
xk < ² ⇒ y ∈ A

Definición 16 Se denomina σ-álgebra de Borel en R a la mı́nima σ-álgebra de subconjuntos de


R que contiene a todos los conjuntos de la forma (−∞, x] con x ∈ R. Anotaremos B a esta
σ-álgebra de subconjuntos de R.

Prof.J.Gastón Argeri 33
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 34

Propiedad 26 Dada una variable aleatoria discreta X, se verifica:


X
∀B ∈ B , P (X ∈ B) = P (X = x)
x∈B∩RX

Dem: ¡ ¢
c
Como B = (B ∩ RX ) ] B ∩ RX se deduce que:
c
PX (B) = PX (B ∩ RX ) + PX (B ∩ RX )
c ) = 0. Luego: P (B ∩ Rc ) = 0, de manera que
Pero como PX (RX ) = 1 entonces PX (RX X X
X
PX (B) = PX (B ∩ RX ) = P (X = x)
x∈B∩RX

Definición 17 Sea (Ω, Σ, P ) un espacio de probabilidad. Consideremos una variable aleatoria


X : Ω → R. La función PX : B → R dada por E 7−→ P (X ∈ E) se denomina función de
distribución de X.

Propiedad 27 La función de distribución PX de una variable aleatoria X es una función de


probabilidad sobre (R, B).
Dem: En lo que sigue B, Bn ∈ B
PX (R) = P (X ∈ R) = P (Ω) = 1
PX (B) = P (X ∈ B) ≥ 0 pues P es una probabilidad y {X ∈ B} ∈ Σ
Supongamos {Bn } sucesión en B, tal que n 6= m ⇒ Bn ∩ Bm = ∅. Entonces:
µ ∞ ¶ µ ∞
¶ µ µ ∞ ¶¶
S S −1
S
PX Bn = P X∈ Bn = P X Bn =
n=1 n=1 n=1
µ ∞
¶ ∞ ∞
S P ¡ ¢ P
= P X −1(Bn ) = P X −1(Bn ) = P (X ∈ Bn )
n=1 n=1 n=1

puesto que los eventos {X ∈ Bn } son disjuntos dos a dos. ¥

Definición 18 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad.


Se dice que X e Y son equidistribuidas o idénticamente distribuidas sii ambas poseen la misma
función de distribución, i.e. ∀B ∈ B , PX (B) = PY (B)
Nota: El hecho de ser X e Y equidistribuidas no significa que sean iguales. Esto se verá más
adelante. Ejemplo: Un fabricante produce un artı́culo en dos variedades A y B. Desea recabar
información acerca de la preferencia de los consumidores. Para ello seleccionará al azar 30 clientes a
quienes se les preguntará si prefieren A o B. Se trata de un experimento aleatorio en el cual el espacio
muestral Ω puede definirse como el conjunto de todas las 30-uplas de 1’s y/o 0’s, donde un 1 en la
i-ésima coordenada de la 30-upla indica que el i-ésimo cliente encuestado prefiere la variedad A sobre
la B. Supongamos que estos 230 posibles resultados de la encuesta sean equiprobables. Consideremos
X = ”cantidad de consumidores que prefieren A”. Se tiene RX = {0, 1, · · · , 30}. Calculemos para
cada 0 ≤ k ≤ 30, las probabilidades siguientes:
#{X=k} (30
k)
P (X = k) = #(Ω)
= 230
(k = 0, 1, · · · , 30)
k
P
P (X ≤ k) = P (X = j)
j=0

Grafiquemos los valores de X sobre el eje de abscisas y las probabilidades halladas anteriormente
sobre el eje de ordenadas:

Prof.J.Gastón Argeri 34
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 35

1.0
0.14
0.12

0.8
0.10

0.6
0.08

P(X<=k)
P(X=k)

0.06

0.4
0.04

0.2
0.02
0.0

0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30

k k

Definición 19 Dada una variable aleatoria X : Ω → R se denomina función de distribución


acumulada (fda) de X a la función designada FX y definida por:

FX : R → R dada por FX (x) = P (X ≤ x)

Nota: Para indicar que la variable aleatoria posee fda F anotamos X ∼ F .

Ejemplo: Se arroja tres veces una moneda normal. Sea X = cantidad de caras obtenidas. Entonces
RX = {0, 1, 2, 3}. La función de distribución acumulada de X es


 0 si x<0

 1/8 si 0 ≤ x < 1

FX (x) = 1/2 si 1 ≤ x < 2

 7/8 si 2 ≤ x < 3



1 si x≤3

Distribucion binomial acumulada


1.0

)
0.8
0.6
F(x)

)
0.4
0.2

)
0.0

-1 0 1 2 3 4

Prof.J.Gastón Argeri 35
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 36

Ejemplo: Se arroja una moneda normal hasta que sale cara.


Sea X = ”cantidad de lanzamientos antes que salga cara”. Se tiene RX = {0, 1, 2, 3, · · · }. La fda
de X es: 

 0 si x<0



 1/2 si 0 ≤ x<1



 1/2 + 1/4 si 1≤x<2

 1/2 + 1/4 + 1/8 si
 2≤x<3
FX (x) = .. .. ..

 . . .

 k+1
 P ¡ 1
¢ i


 2
si k ≤ x < k + 1

 i=1


 .. .. ..
. . .

Propiedad 28 Sea X una variable aleatoria con función de distribución acumulada F X . Se cumple:

i) ∀x ∈ R , 0 ≤ FX (x) ≤ 1

ii) FX es no decreciente, es decir: ∀x, y ∈ R , x < y ⇒ FX (x) ≤ FX (y)

iii) FX es continua por la derecha, es decir: ∀x ∈ R , lim FX (t) = FX (x)


t → x+

iv) lim FX (x) = 0 y lim FX (x) = 1


x → −∞ x →∞

Dem:

i) Evidente pues FX (x) = P (X ≤ x) es una probabilidad.

ii) Sean x, y ∈ R con x < y. Entonces {X ≤ x} ⊆ {X ≤ y}. Por lo tanto FX (x) =


P (X ≤ x) ≤ P (X ≤ y) = FX (y)

iii) Siendo FX no decreciente sabemos que para todo x ∈ R , lim FX (t) existe (es finito). Como
© ª t → x+ ¡ ¢
1 1
x+ n es una sucesión de términos a la derecha de x y tal que lim x + n = x, en-
n →∞
¡ ¢ ∞
T © ª
1 1
tonces lim FX (t) = lim FX x + n . Pero: {X ≤ x} = X ≤x+ n . Como esta
t→x + n → ∞ n=1
n o © ª
1 1
intersección es decreciente, pues X ≤ x + n+1 ⊆ X ≤x+ n , entonces por propiedad
¡ 1
¢
de una función de probabilidad es P (X ≤ x) = lim P X ≤ x + n . Luego:
n →∞
µ ¶ µ ¶
1 1
FX (x) = P (X ≤ x) = lim P X ≤ x + = lim FX x + = lim FX (t)
n →∞ n n →∞ n t → x+


S
iv) Dado que Ω = {X ∈ R} = {X ≤ n} y siendo la unión creciente, por propiedad de una
n=1
función de probabilidad se tiene lim FX (n) = lim P (X ≤ n) = P (Ω) = 1. Pero siendo
n →∞ n →∞
FX no decreciente y acotada resulta lim FX (x) = lim FX (n). Entonces:
x →∞ n →∞

lim FX (x) = lim FX (n) = 1


x →∞ n →∞

La demostración del otro lı́mite es análoga y queda a cargo de ustedes. ¥

Teorema 6 Sea F : R → R una función. Se cumple:


F satisface las propiedades siguientes:

i) F es no decreciente en R.

Prof.J.Gastón Argeri 36
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 37

ii) F es continua a derecha en R

iii) lim F (x) = 0 y lim F (x) = 1


x → −∞ x →∞

si y sólo si F es la función de distribución de probabilidad acumulada de cierta variable aleatoria.


Dem: ⇐) Ya se demostró (Prop. anterior)
⇒) La demostración excede el alcance y los objetivos de este curso de modo que la omitimos. Sólo
comentaré que es necesario demostrar que existe cierto espacio de probabilidad (Ω, Σ, P ) y cierta
variable aleatoria X en dicho espacio, tal que FX = F ¥

Ejemplo: Consideremos la función


½
1 − e− x si x ≥ 0
F (x) =
0 si x < 0

El teorema anterior permite demostrar la existencia de una variable aleatoria X (definida en cierto
espacio de probabilidad) tal que F = FX . En efecto:

F es no decreciente.

F es continua a derecha en R. De hecho F continua en R

Se tiene
¡ ¢
lim F (x) = lim 0=0 y lim F (x) = lim 1 − e− x = 1
x → −∞ x → −∞ x →∞ x →∞

La gráfica de F tiene el siguiente aspecto:


1.0
0.8
0.6
F(x)

0.4
0.2
0.0

-2 0 2 4 6 8 10

Propiedad 29 Sean X una variable aleatoria, xo ∈ R. Se cumple:

i) FX (xo ) − FX (xo −) = P (X = xo )

ii) FX es continua a izquierda en xo sii P (X = xo ) = 0

iii) FX posee una cantidad a lo sumo numerable de discontinuidades.

Prof.J.Gastón Argeri 37
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 38

Dem:
i) Utilizando las propiedades de continuidad de una probabilidad resulta:

FX (xo −) = lim FX (x) = lim P (X ≤ x) = lim P (X ≤ xo − 1/n) =


x → xo − x → xo − n →∞

µ ∞

S
= P {X ≤ xo − 1/n} = P (X < xo )
n=1

Por lo tanto: P (X = xo ) = P (X ≤ xo ) − P (X < xo ) = FX (xo ) − FX (xo −)


ii) Evidente a partir de i).
iii) Si FX es discontinua en xo entonces P (X = xo ) > 0. Anotemos A = {x0 ∈ R : P (X = xo ) > 0}.
Queremos ver que A es a lo sumo numerable. Pero:

[
A= Ak donde Ak = {x0 ∈ R : P (X = xo ) > 1/k}
k=1

Bastará entonces mostrar que los Ak son finitos. Supongamos por el absurdo que existiera k tal
que Ak fuera infinito. Entonces existirı́a una sucesión de términos todos distintos {x n } tal que
∀n , xn ∈ Ak . Luego:
à ∞ ! ∞
] X
P (A) ≥ P {xn } = P ({xn }) = ∞
n=1 n=1

dado que la serie posee término general que no tiende a cero. Absurdo. Luego los A k son todos
finitos, con lo cual A es a lo sumo numerable ¥

Propiedad 30 Sea X una variable aleatoria y sea FX su fda. Dados a, b ∈ R , a ≤ b, se cumple:

i) P (a < X ≤ b) = FX (b) − FX (a)

ii) P (a ≤ X ≤ b) = FX (b) − FX (a−)

iii) P (a < X < b) = FX (b−) − FX (a)

iv) P (a ≤ X < b) = FX (b−) − FX (a−)

Dem:
Demostremos i):
{a < X ≤ b} = {X ≤ b} \ {X ≤ a}
Entonces
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a) ¥

Definición 20 Para n ∈ N, se denomina sucesión de n ensayos de Bernoulli a todo experimento


aleatorio que consiste en repetir n veces un ensayo sujeto a las siguientes condiciones:

• Las n repeticiones son independientes entre sı́.

• Cada ensayo tiene sólo dos posibles resultados, digamos E (”éxito”) y F (”fracaso”).

• La probabilidad de E es la misma en cada uno de los n ensayos.

Prof.J.Gastón Argeri 38
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 39

Es frecuente denotar la probabilidad de fracaso en cada ensayo individual por q. De modo que
p + q = 1, es decir q = 1 − p. El espacio muestral asociado a una sucesión de n ensayos de Bernoulli
es Ω = {(ω1 , · · · , ωn ) : ωi ∈ {E, F } , 1 ≤ i ≤ n}. Ası́, el experimento consta de 2n posibles
resultados. Notemos que, salvo cuando p = 1/2, los eventos elementales no son equiprobables. De
hecho:
P ({ω}) = pr · q n−r sii ω posee exactamente r éxitos
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale 3”, de modo
que F = ”no sale 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli con probabilidad de
éxito p = 1/6 en cada ensayo. Entonces, por ejemplo:
µ ¶2 µ ¶3
1 5
P ({(3, 1, 1, 3, 6)}) = ·
6 6
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale múltiplo de 3”,
de modo que F = ”no sale múltiplo de 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli
con probabilidad de éxito p = 1/3 en cada ensayo. Entonces, por ejemplo:
µ ¶3 µ ¶2
1 2
P ({(3, 1, 1, 3, 6)}) = ·
3 3
Ejemplo: Dada un sucesión de n ensayos de Bernoulli, con probabilidad de éxito p en cada ensayo,
sea X = ”cantidad de éxitos en los n ensayos”. Esta variable aleatoria tiene R X = {0, 1, 2, · · · , n}.
El evento {X = k} estará formado por todos aquellos resultados elementales que consten exac-
tamente de k ”éxitos” y n − k ”fracasos”. Dado que cada uno de ellos tiene probabilidad
individual pk (1 − p)n−k, para calcular la probabilidad de {X = k} bastará multiplicar dicha
probabilidad individual por la cantidad total
¡n¢ de resultados elementales que consten¡n¢dekexactamente
k ”éxitos” y n − k ”fracasos”, es decir k . Entonces se tiene: P (X = k) = k p (1 − p)n−k
(k = 0, 1, · · · , n)

Ejemplo: Consideremos un ensayo aleatorio con dos resultados posibles ”éxito” y ”fracaso”, donde la
probabilidad de ”éxito” es 0 < p < 1. Nuestro experimento aleatorio consiste en repetir el ensayo en
forma independiente hasta obtener el primer ”éxito”. El espacio muestral puede representarse como
Ω = {E, F E, F F E, F F F E, · · · }. Los resultados elementales no son equiprobables. De hecho:
 
 
P  |F ·{z · · F} E  = (1 − p)k p
 
k

Sea X = ”cantidad de ensayos hasta obtener éxito”, de modo que RX = N. Se tiene: P (X = k) =


(1 − p)k−1p , k = 1, 2, · · · Hallemos la fda de la variable aleatoria X. Para x ≥ 0 se tiene:
[x]
X 1 − q [x]
FX (x) = P (X ≤ x) = (1 − p)k−1p = p · = 1 − q [x]
k=1
1−q

donde [x] simboliza la ”parte entera de x”, es decir el mayor entero que es menor o igual que x. Por
ejemplo: [4] = 4 , [4, 1] = 4 , [3, 9] = 3. Entonces:
½
0 si x < 1
FX (x) =
1 − q [x] si x ≥ 1

Definición 21 Dada una variable aleatoria X se denomina función de probabilidad puntual o función
de masa de probabilidad (fmp) de X a la función

pX : R → R dada por pX (x) = P (X = x)

Prof.J.Gastón Argeri 39
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 40

Nota: Cuando la variable aleatoria X es discreta, con rango RX = {xn }, la fmp pX de


X queda unı́vocamente determinada conociendo los valores pn = pX (xn ). Por este motivo nos
referiremos indistintamente a pX o a {pn } cuando X sea discreta. Ejemplo: Consideremos
una sucesión de n ensayos de Bernoulli con probabilidad de éxito p en cada ensayo. Sea X =
”cantidad de éxitos en los n ensayos”. En este caso RX = {0, 1, · · · , n}. La fmp de X es:
½ ¡n¢ x
x
p (1 − p)n−x si x ∈ {0, 1, · · · , n}
pX (x) =
0 si x 6∈ {0, 1, · · · , n}

Grafiquemos esta fdp en el caso n = 10, para p = 1/2 y luego para p = 1/4

p=0.5 p=0.25
0.30

0.30
0.25

0.25
0.20

0.20
fdp(x)

fdp(x)
0.15

0.15
0.10

0.10
0.05

0.05
0.0

0.0

0 2 4 6 8 10 0 2 4 6 8 10

x x

Propiedad 31 Para toda variable aleatoria X se cumple: ∀x ∈ R , pX (x) = FX (x) − FX (x−)



S © ª
1
Dem: Podemos escribir {X < x} = X ≤x−
. Esta unión es creciente de manera que
n
n=1 ¡ ¢
1
por propiedades de las funciones de probabilidad vale: P (X < x) = lim P X ≤ x − n =
¡ ¢ n →∞
1
lim FX x − n = FX (x−). Entonces pX (x) = P (X = x) = P (X ≤ x) − P (X < x) =
n →∞
FX (x) − FX (x−) ¥

Nota: Obsérvese que FX (xo ) − FX (xo −) representa el valor del ”salto” de la fda de X en el punto
x = xo . Cuando FX es continua en xo entonces no hay salto allı́ y en consecuencia la fmp de X es
nula en x = xo .

Propiedad 32 Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad.


Se verifica: X e Y son idénticamente distribuidas sii ∀x ∈ R , FX (x) = FY (x)
Dem: ⇒) Supongamos X e Y idénticamente distribuidas. Sea x ∈ R arbitrario. Entonces
(−∞, x] ∈ B de modo que FX (x) = P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) = FY (x). Luego,
X e Y poseen la misma fda.
⇐) Supongamos que FX = FY . Consideremos la clase G de todos los miembros de B donde
PX coincide con PY , es decir:

G = {B ∈ B : PX (B) = PY (B)} = {B ∈ B : P (X ∈ B) = P (Y ∈ B)}

Prof.J.Gastón Argeri 40
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 41

Por construcción es G ⊆ B. Además por hipótesis, tomando B = (−∞, x] se tiene PX (B) =


FX (x) = FY (x) = PY (B), de modo que G contiene a todos los subconjuntos de R de la forma
(−∞, x] con x ∈ R. Pero dado que B es la mı́nima σ-álgebra de subconjuntos de R que contiene
a todos los conjuntos de la forma (−∞, x], resulta G ⊇ B. Por lo tanto: G = B. Esto significa que
∀B ∈ B , PX (B) = PY (B) ¥

Ejemplo: Se arroja una moneda normal 3 veces. Sean X = ”cantidad de caras obtenidas” e Y =
”cantidad de cecas obtenidas”. Veamos que X e Y son idénticamente distribuidas. En efecto, dado
que en cada ensayo la probabilidad de cara es igual a la probabilidad de ceca, se tiene:
[x] µ ¶ µ ¶3
X 3 1
FX (x) = = FY (x)
k=0
k 2

Observemos, de paso, que X 6= Y . Por ejemplo, para ω = (C, C, S) es X(Ω) = 2 en tanto que
Y (ω) = 1

Propiedad 33 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X verifica
las propiedades siguientes:
i) ∀x ∈ R , pX (x) ≥ 0

P
ii) pX (xn ) = 1
n=1

Dem:

S
Ω = {X ∈ RX } = {X = xn } siendo la unión disjunta. Por lo tanto: 1 = P (Ω) =
n=1

P ∞
P
P ({X = xn }) = pX (xn ) ¥
n=1 n=1

Propiedad 34 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X determina
unı́vocamente su fda. En efecto:
 
∞ ∞ ∞
 [  X X
FX (x) = P (X ≤ x) = P  {X = xn } = P (X = xn ) = pX (xn )
n=1 n=1 n=1
xn ≤x xn ≤x xn ≤x

Ejemplo: Se lanzan dos dados. Consideremos la variable aleatoria Xi = ”número del dado i” (i =
1, 2). Sea X = ”máximo número en los dos dados”. Es decir: X = max {X1 , X2 }. Hallemos la
fmp y la fda de X.
Hallemos primeramente las fmp de X1 y X2 . Se tiene: RX1 = RX2 = {1, 2, · · · , 6} y por
equiprobabilidad vale:
pX1 (k) = pX2 (k) = 1/6 (k = 1, 2, · · · , 6)
Por lo tanto:
6
X 1 [x]
FX1 (x) = FX2 (x) = =
k=1
6 6
k≤x

Observemos ahora que


{X ≤ x} = {X1 ≤ x} ∩ {X2 ≤ x}
Por lo tanto y teniendo en cuenta la independencia de ambos lanzamientos:
FX (x) = P (X ≤ x) = P ({X1 ≤ x} ∩ {X2 ≤ x}) =
³ ´2
[x] [x]2
= P (X1 ≤ x)P (X2 ≤ x) = FX1 (x)FX2 (x) = 6
= 36

Prof.J.Gastón Argeri 41
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 42

Luego, para k = 1, 2, · · · , 6 se tiene:

k2 − (k − 1)2 2k − 1
pX (k) = P (X ≤ k) − P (X ≤ k − 1) = FX (k) − FX (k − 1) = =
36 36
Generalicemos esta situación para el experimento que consiste en arrojar una dado normal n-veces.
Definamos:
Xi = ”número obtenido en el i-ésimo lanzamiento”

X = ”máximo número obtenido en los n lanzamientos”


n
T
Como antes: {X ≤ k} = {Xi ≤ k} Por lo tanto, teniendo en cuenta la independencia de los
i=1
n lanzamientos, resulta:
µ n
¶ n
T Q
P (X ≤ x) = P {Xi ≤ x} = P (Xi ≤ x) =
i=1 i=1

n
Q n
Q ³ ´n
[x] [x]
= FXi (x) = 6
= 6
i=1 i=1

Luego, para k = 1, 2, · · · , 6 se tiene:


µ ¶n µ ¶n
k k−1 kn − (k − 1)n
pX (k) = FX (k) − FX (k − 1) = − =
6 6 6n
La propiedad anterior no es válida para variables aleatorias no discretas. De hecho, existen fda que son
funciones continuas en todo R. Si X una tal variable aleatoria entonces ∀x ∈ R , F X (x) = FX (x−).
Por lo tanto:

P (X = x) = P (X ≤ x) − P (X < x) = FX (x) − FX (x−) = 0

Es decir, para variables aleatorias continuas la fmp carece por completo de interés dado que es
idénticamente nula.

Propiedad 35 Sea {pn } una sucesión tal que:

i) ∀n ∈ N , pn ≥ 0

P
ii) pn = 1
x=1

Entonces {pn } es una fmp.


Dem:

P
Definamos F (x) = pn . Dejo a cargo de ustedes verificar que F satisface las condiciones para
n=1
n≤x
ser una fda (Teorema 1) ¥

Motivaremos ahora la noción de variable aleatoria continua.

Ejemplo: Consideremos una población formada por un gran número N = 1000 de personas. Supong-
amos que nos interesa la distribución de la variable aleatoria X que mide la altura de un individuo
seleccionado al azar dentro de esta población. Supongamos para fijar ideas que las alturas se miden
en cm y que se encuentran en el intervalo [150, 190] Dado el gran número de personas en la población
podemos tener una idea aproximada de la distribución de alturas dividiendo el intervalo [150, 190]

Prof.J.Gastón Argeri 42
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 43

en cuatro subintervalos de igual longitud [150, 160) , [160, 170) , [170, 180) , [180, 190) y de-
terminando las frecuencias, es decir la cantidad de individuos cuyas alturas caen en el respectivo
subintervalo. Para fijar ideas, supongamos que tales frecuencias resulten como muestra la tabla:
Intervalo f (frecuencia) f r(frecuencia relativa) f r/(longitud subintervalo)
[150, 160) 80 0.10 0.01
[160, 170) 150 0.25 0.025
[170, 180) 500 0.50 0.05
[180, 190) 150 0.15 0.015
Si tomamos el extremo izquierdo de cada subintervalo como representativo de un valor en dicho subin-
tervalo, la tabla anterior provee una variable aleatoria discreta D que aproxima a la variable aleatoria
X y que toma los cuatro valores 150, 160, 170, 180 con probabilidades dadas por la columna f r y
que podemos resumir en esta otra tabla:
k pD (k) pD (k)/(long.subintervalo)
150 0.10 0.01
160 0.25 0.025
170 0.50 0.05
180 0.15 0.015
Para obtener una variable aleatoria discreta cuya distribución represente más fielmente la distribución
de X podemos refinar nuestra partición del intervalo original [150, 190] y recalcular la fmp de la
variable discreta obtenida. Siguiendo de este modo, aumentando cada vez la cantidad de subinterva-
los y reduciendo la longitud de los mismos (norma tendiendo a cero) e imaginando que la población
es tan grande que puede suponerse ”infinita” y por ende este proceso podrı́a segir indefinidamente,
obtendrı́amos por lo general una situación como se muestra en los gráficos siguientes, en la que se
grafica pD /(long.subintervalo) versus x para particiones con norma cada vez menor. Comente-
mos algunas caracterı́sticas interesantes acerca de estos gráficos:

• Permiten ”reconstruir” la fmp de la v.a.discreta simplemente hallando el área de cada rectángulo.

• Dado que hemos considerado únicamente particiones regulares, los rectángulos más altos y los
más bajos permiten visualizar los valores más probables y los menos probables de la variable
discreta y, como la discreta aproxima a la v.a. X, también podemos localizar los intervalos
donde X cae con mayor y con menor probabilidad.

• Cuidado: Las alturas de los rectángulos no dan probabilidades sino probabilidades por unidad
de longitud.

• Si la variable aleatoria X es discreta, el proceso deja de ser informativo dado que a partir de
cierto momento habrá una enorme cantidad de subintervalos donde f r/L (L la long. del
subintervalo) será nula y algunos otros (a lo sumo tantos como valores tome la v.a. X) donde
f r/L será muy grande (pues L tiende a cero en tanto que f r permanecerá fija). En el lı́mite
podrı́amos decir que las gráficas tienden a ser nulas salvo en una cantidad a lo sumo numerable
de ”picos infinitos”.

• La suma de las áreas de los rectángulos es 1

• Las gráficas de las alturas de los rectángulos se asemejan cada vez más a la gráfica de una
función, digamos f (x), de argumento continuo.

Prof.J.Gastón Argeri 43
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 44

0.05

0.05
0.03

0.03
0.0 0.01

0.0 0.01
150 160 170 180 190 150 160 170 180 190

x x
0.05

0.05
0.03

0.03
0.0 0.01

0.0 0.01
150 160 170 180 190 150 160 170 180 190

x x

Este ejemplo motiva la definición que sigue.

Definición 22 Se dice que una variable aleatoria X es continua (o más precisamente absolutamente
continua) sii existe al menos una función fX : R → R tal que:

i) ∀x ∈ R , fX (x) ≥ 0
R
ii) ∀A ∈ B , P (X ∈ A) = fX (x) dx
A

Una tal función fX se denomina una función de densidad de probabilidad (fdp) de X o de F X .


Nota:

• Dado que la integral involucrada en esta definición puede ser impropia, se presupone su conver-
gencia.
Rx
• Tomando A = (−∞, x] se tiene que FX (x) = fX (t) dt
−∞
En particular, si fX sea una función continua en el intervalo (a, b) resulta FX derivable en
0 (x) = f (x).
(a, b) y vale ∀x ∈ (a, b) , FX X


R
• Observemos que fX (x) dx = P (X ∈ R) = 1. Es decir, el área bajo la curva y =
−∞
fX (x) es igual a 1. Esto implica que una fdp, a diferencia de una fda, no puede ser monótona
puesto que para la convergencia de esta integral impropia es necesario que se verifique:

lim fX (x) = 0 y lim fX (x) = 0


x → −∞ x →∞

• Si X es variable aleatoria continua entonces para cualquier intervalo I ⊆ R de extremos a y


b se tiene
Zb Za Zb
P (X ∈ I) = FX (b) − FX (a) = fX (x) dx − fX (x) dx = fX (x) dx
−∞ −∞ a

Prof.J.Gastón Argeri 44
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 45

0 (x)
• Si fX es continua en x, entonces fX (x) = FX de modo que se tiene la siguiente
interpretación de la fdp:
fX (x+h)−FX (x) P (X≤x+h)−P (X≤x)
fX (x) = lim h
= lim h
=
h → 0+ h → 0+

P (x<X<x +h)
= lim h
h → 0+

Es decir que fX (x) representa la probabilidad de que X pertenezca al intervalo (x, x +


h) dividida por la longitud de dicho intervalo. De ahı́ el nombre ”densidad” de probabilidad.

Ejemplo: Sea F : R → R dada por F (x) = 1+e1− x . Comprueben que F satisface las condiciones
de una fda, es decir que existe una variable aleatoria X tal que F = FX . Esta va es continua.
Hallemos su fdp:
0 (x) = d 1 e− x ex
fX (x) = FX dx 1+e− x
= 2 = (1+ex )2
(1+e− x )

Propiedad 36 Sea f : R → R una función satisfaciendo las siguientes condiciones:

i) ∀x ∈ R , f (x) ≥ 0

R
ii) f (x) dx = 1
−∞

Entonces f una fdp.


Rx
Dem: Definamos F : R → R por F (x) = f (t) dt. Vamos a verificar que esta F es una fda.
−∞

• F es no decreciente pues si x, y ∈ R con x < y se tiene:


Zx Zy
F (x) = f (t) dt ≤ f (t) dt = F (y)
−∞ −∞

ya que f ≥ 0 y (−∞, x) ⊆ (−∞, y)

• Para cualquier x ∈ R es F continua en x. Sólo demostraremos esto en el caso partirular en


que f es continua en x. En tal caso el teorema fundamental del cálculo asegura que:
x+h
Z
1
lim f (t) dt = f (x)
h→0 h
x

Entonces:
à !
x+h
R Rx x+h
R
lim F (x + h) − F (x) = lim f (t) dt − f (t) dt = lim f (t) dt =
h→0 h→0 −∞ −∞ h→0 x

à !
x+h
R
1
= lim h· h
f (t) dt = 0 · f (x) = 0
h→0 x

Por lo tanto lim F (x + h) − F (x) = 0. Es decir: lim F (x + h) = F (x)


h→0 h→0

Prof.J.Gastón Argeri 45
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 46

• Finalmente:
Rx −∞
R
lim F (x) = lim f (t) dt = f (t) dt = 0
x → −∞ x → −∞ −∞ −∞

Rx ∞
R
lim F (x) = lim f (t) dt = f (t) dt = 1
x →∞ x → ∞ −∞ −∞

Esto demuestra que F es una fda. Entonces por teorema 1 existe una variable aleatoria con fda F (y
por ende, con fdp f ) ¥

Definición 23 Sea f una fdp. Se denomina soporte de f al menor conjunto cerrado que contiene
al conjunto {x ∈ R : f (x) > 0}. Anotaremos RX al soporte de f .

Propiedad 37 Sean X v.a. continua con fdp fX y sea B ∈ B. Entonces: P (X ∈ B) = P (X ∈


B ∩ RX )
Dem: R R R R
P (X ∈ B) = B fX (x) dx = B∩RX fX (x) dx + B∩Rc fX (x) dx = B∩RX fX (x) dx =
R R X
P (X ∈ B ∩ RX ) puesto que B∩Rc fX (x) dx = B∩Rc 0 dx = 0 ¥
X X

2 /2
Propiedad 38 La función f (x) = √1 · e− x es una fdp.

Dem:
Claramente: ∀x ∈ R , f (x) > 0. Por otra parte:
à !2 à ! à !

R ∞
R ∞
R
1 2 1 2 − y2 /2
√ · e− x /2 dx = √ · e− x /2 dx · √1 ·e dy =
2π 2π 2π
−∞ −∞ −∞


R ∞
R R 2π
∞ R
1 2 +y 2 )/2 1 2 /2
= 2π
· e− (x dy dx = 2π
· e− r r dθ dr =
−∞ −∞ 0 0


R ∞
R ¯∞
2 /2
= e− r r dr = e− t dt = − e− t¯0 = 1
0 0

En lo anterior hemos utilizado coordenadas polares (se multiplicó por r, el módulo del jacobiano).
Luego, el cuadrado de la integral es 1. Pero siendo positiva la integral (pues f es positiva), resulta
necesariamente:
Z∞
1 2
√ · e− x /2 dx = 1

−∞

Esta fdp es sumamente importante en estadı́stica y se denomina densidad gaussiana (es frecuente
llamarla también densidad normal standard). Suele anotarse ϕ(x).

Ejemplo: Sea ½
kx si 0<x<1
f (x) =
0 si x ≤ 0 ∨ x ≥ 1
Determinar el valor de la constante k de modo que f resulte ser una fdp. Hallar también la fda.

R
En primer lugar debe ser f (x) dx = 1. En este caso:
−∞

Z1 ¯1
x2 ¯¯ k
1= kx dx = k =
2 0 ¯ 2
0

Prof.J.Gastón Argeri 46
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 47

Por lo tanto k = 2. Hallemos la fda asociada:



Zx  0 si x≤0 

 Rx  0 si x≤0
F (x) = f (t) dt = 2t dt si 0 < x < 1 = 2
x si 0 < x < 1
 0 
−∞

 1 si x≥1
1 si x≥1

Nota: El soporte de f en este ejemplo es [0, 1].

Ejemplo: El tiempo T en horas que funciona una computadora antes de descomponerse es una v.a.
continua con fdp dada por: 
 λe− t/100 si t ≥ 0
fT (t) =

0 si t < 0
Calcular la probabilidad de que una computadora funcione entre 50 y 150 horas antes de descompon-
erse. Calcular también la probabilidad de que funciones menos de 100 horas.
Rta: Primero debemos hallar λ. Siendo fT una fdp se tiene:
Z ∞ Z ∞ ¯∞
λe− t/100 dt = −100λ e− t/100¯ = 100λ
¯
1= fT (t) dt =
−∞ 0 0

Luego λ = 1/100. Entonces la probabilidad de funcionar entre 50 y 150 horas es:


Z 150 1 ¯150
e− t/100 dt = − e− t/100¯ = e−0.5 − e−1.5 ≈ 0.384
¯
P (50 < T < 150) =
50 100 50

La probabilidad de que funcione menos de 100 horas viene dada por:


Z 100
1 − t/100 ¯100
dt = − e− t/100¯ = 1 − e−1 ≈ 0.633
¯
P (T < 100) = e
0 100 0

18 Cuantiles de una distribución


Definición 24 Sea X una variable aleatoria con fda FX . Dado α ∈ R , 0 < α < 1, un número
real xα se dice un α-cuantil de FX o de X sii se verifican:

P (X < xα) ≤ α y P (X > xα) ≤ 1 − α

Equivalentemente, xα es un α-cuantil de FX sii se cumplen:

P (X < xα) ≤ α y P (X ≤ xα) ≥ α

Suponiéndolos únicos, cuando α = 0.5 hablamos de la mediana de FX , cuando α = 0.25 hablamos


del primer cuartil de FX y para α = 0.75 hablamos del tercer cuartil de X. Cuando se consideran
cuantiles asociados a una división del intervalo (0, 1) en cien partes iguales es frecuente hablar de
percentiles de FX .
Nota: Cuando X es variable aleatoria continua (es decir que FX es función continua) la condición
anterior se expresa de manera más simple:
Z xα
xα es cuantil α de FX sii F (xα) = α sii fX (x) dx = α sii P (X ≤ xα) = α
−∞

De manera más gráfica, el cuantil α de una distribución continua es el punto del eje de abscisas que
deja a su izquierda y por debajo de la gráfica de fX (obviamente por encima del eje de abscisas) un

Prof.J.Gastón Argeri 47
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 48

área exactamente igual a α. Equivalentemente si se grafica FX (siempre supuesta continua), hallar


el cuantil α de FX es hallar la abscisa del punto de la gráfica que posee ordenada igual a α

Ejemplo: Si X es una variable aleatoria con distribución gaussiana standard entonces la mediana es
x0.5 = 0 pues debido a la paridad de la fdp ϕ se tiene:
Z0 Z∞
1
FX (0) = ϕ(x) dx = ϕ(x) dx = 0.5
2
−∞ −∞

El cuantil α = 0.05 se determina planteando Φ(x0.05 ) = 0.05. Entonces x0.05 = Φ−1(0.05). Para
calcularlo en forma concreta podemos utilizar tablas normales acumulativas o podemos por ejemplo
recurrir al SPlus. Para ilustrar un poco más, veamos la siguiente tabla (junto con los comandos
utilizados):
p_c(0.01,0.05,0.1)
alfa_c(p,0.5,1-rev(p))
round(qnorm(alfa),3)

α xα
0.01 −2.326
0.05 −1.645
0.1 −1.282
0.5 0.000
0.9 1.282
0.95 1.645
0.99 2.326
Ejemplo: Sea X ≈ Bi(n, 0.5). Veamos que la mediana es única cuando n par pero deja de serlo
cuando n es impar.
• Si n = 2r entonces x0.5 = r pues:
r−1
P ¡2r¢ ¡ 1 ¢2r ¡ 1 ¢2r r−1
P ¡2r¢
P (X < r) = k 2
= 2 k
k=0 k=0

2r
P ¡2r¢ ¡ 1 ¢2r ¡ 1 ¢2r 2r
P ¡2r¢
P (X > r) = j 2
= 2 j
=
j=r+1 j=r+1

¡ 1 ¢2r 2r
P ¡ 2r ¢ ¡ 1 ¢2r r−1
P ¡2r¢
= 2 2r−j
= 2 k
j=r+1 k=0

Entonces P (X < r) = P (X > r). Pero P (X < r) + P (X = r) + P (X > r) = 1. Luego:


P (X < r) = 1−P (X=r)
2
≤ 0.5 y P (X > r) = P (X < r) ≤ 0.5 = 1 − 0.5
• Si n = 2r − 1 entonces cualquier punto del intervalo (r − 1, r] es una posible mediana de X.
En efecto: Sea x∗ ∈ (r − 1, r]. Se tiene
r−1 ¡ 1 ¢2r−1 r−1
P ¡ 2r−1¢ ¡ 1 ¢2r−1 P ¡2r−1¢
P (X < x∗) = k 2
= 2 k
k=0 k=0

2r−1 ¡ 1 ¢2r−1 2r−1


P ¡ 2r−1¢ ¡ 1 ¢2r−1 P ¡2r−1¢
P (X > x∗) = j 2
= 2 j
=
j=r j=r

¡ 1 ¢2r−1 2r−1
P ¡ 2r−1 ¢ ¡ 1 ¢2r−1 r−1
P ¡2r−1¢
= 2 2r−1−j
= 2 k
j=r k=0

Prof.J.Gastón Argeri 48
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 49

Luego: P (X < x∗) = P (X > x∗). Pero como P (X < x∗) + P (X > x∗) = 1,
necesariamente es P (X < x∗) = P (X > x∗) = 1/2. Luego: P (X < x∗) ≤ 0.5 y
P (X > x∗) ≤ 1 − 0.5 = 0.5

Prof.J.Gastón Argeri 49
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 50

Familias paramétricas de distribuciones univariadas

19 Distribuciones discretas
19.1 Distribución uniforme discreta
Dado N ∈ N, se dice que una v.a. tiene distribución uniforme discreta en {1, · · · , N } sii su fmp
viene dada por:
1
pX (X = k) = (1 ≤ k ≤ N )
N
Obsérvese que RX = {1, · · · , N } y esta distribución de probabilidades es uniforme en el sentido
que deposita la misma masa de probabilidad en cada uno de los N posibles valores 1, · · · , N de X.
Podemos comprobar que pX verifica los axiomas de una fmp:

• ∀k ∈ RX , pX (k) = 1/N ≥ 0
N
P N
P 1 1
• pX (k) = N
=N· N
=1
k=1 k=1

Ejemplo: Se arroja un dado equilibrado. Sea X el puntaje obtenido. En este caso X posee
distribución uniforme discreta en {1, · · · , 6}

Ejemplo: Se extrae una carta al azar de un mazo de cartas españolas. Sea X la v.a. definida por


 1 si sale carta de oro

2 si sale carta de copa
X=

 3 si sale carta de espada

4 si sale carta de basto

Entonces X posee distribución uniforme discreta en {1, 2, 3, 4}

Ejemplo: Un sereno tiene un llavero con n llaves y sólo una de ellas abre la puerta de su habitación,
pero no recuerda cuál. Decide probarlas una por una (separando las que no abren) hasta lograr
abrir la puerta. Sea X el número de ensayos que necesita hasta abrir la puerta, de manera que
RX = {1, 2, · · · , n}. Veamos que X posee distribución uniforme discreta en {1, 2, · · · , n}. En
efecto:
1
P (X = 1) = n

(n−1)1 1
P (X = 2) = n(n−1)
= n

(n−1)(n−2)1 1
P (X = 3) = n(n−1)(n−2)
= n
.. .. .. .. ..
. . . . .
(n−1)(n−2)···2·1 1
P (X = n) = n!
= n

19.2 Distribución binomial


Una variable aleatoria X se dice con distribución binomial de parámetros n, p, siendo n ∈ N y
p ∈ R , 0 < p < 1, sii su fmp viene dada por:
µ ¶
n
pX (k) = pk (1 − p)n−k (0 ≤ k ≤ n)
k
En tal caso anotamos X ∼ Bi(n, p). Obsérvese que RX = {0, 1, · · · , n}. Comprobemos que
pX verifica los axiomas de una fmp:

Prof.J.Gastón Argeri 50
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 51

¡n¢ k
• ∀k ∈ RX , pX (k) = k
p (1 − p)n−k ≥ 0
n
P n ¡ ¢
P n k
• pX (k) = k
p (1 − p)n−k = (p + (1 − p))n = 1
k=0 k=0

Además la fda de X viene dada por:


[x] µ ¶
X n
FX (x) = pk (1 − p)n−k
k=0
k

Cuando p = 1/2 la fmp resulta simétrica con centro de simetrı́a x∗ = n/2. En efecto: Consideremos
por separado los casos n par e impar.

• n impar. Anotemos n = 2r − 1. En este


¡ caso ¢ el simétrico de x = r − j respecto de
∗ ∗ 1
x = r − 1/2 es x = 2x − (r − j) = 2 r − 2 − (r − j) = 2r − 1 − r + j = r + j − 1
µ ¶ µ ¶n
2r − 1 1
pX (r − j) =
r−j 2
µ ¶ µ ¶n
2r − 1 1
pX (r + j − 1) =
r+j−1 2
Pero µ ¶ µ ¶ µ ¶
2r − 1 2r − 1 2r − 1
= =
r−j (2r − 1) − (r − j) r+j−1

• n par. Anotemos n = 2r. En este caso el simétrico de x = r − j respecto de x∗ = r es


x = 2x∗ − (r − j) = 2 2r
2
− (r − j) = 2r − (r − j) = r + j
µ ¶ µ ¶n
2r 1
pX (r − j) =
r−j 2
µ ¶ µ ¶n
2r 1
pX (r + j) =
r+j 2
Pero µ ¶ µ ¶ µ ¶
2r 2r 2r
= =
r−j (2r) − (r − j) r+j

La distribución binomial Bi(n, p) frecuentemente surge cuando se mide la cantidad de éxitos en


una sucesión de n ensayos de Bernoulli con probabilidad de éxito p en cada ensayo individual.
Nótese que en tal caso la distribución del número de fracasos es una variable aleatoria con distribución
Bi(n, 1 − p).

Ejemplo: Se lanza 8 veces un dado equilibrado. Sea

X = ”cantidad de ensayos en los que se obtiene múltiplo de 3”

Se trata de una sucesión de 8 ensayos de Bernoulli, donde en cada ensayo: ”exito”=”sale múltiplo
de 3”. la probabilidad de éxito en cada ensayo es pues p = 1/3. La distribución de X es entonces
Bi(8, 1/3). Calculemos las probabilidades de los siguientes eventos:

a) ”Cinco veces sale múltiplo de 3”


¡ ¢ ¡ ¢5 ¡ 2 ¢3
Rta: P (X = 5) = 85 13 3
= 0.0683

Prof.J.Gastón Argeri 51
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 52

b) ”Al menos dos veces sale múltiplo de 3”


¡ ¢ ¡ ¢8 ¡ ¢ ¡ ¢7
Rta: P (X ≥ 2) = 1−P (X < 2) = 1−P (X = 0)−P (X = 1) = 1− 80 32 − 81 31 · 23

c) ”A lo sumo cinco veces sale múltiplo de 3”


Rta: P (X ≤ 5) = 1 − P (X > 5) = 1 − P (X = 6) − P (X = 7) − P (X = 8) =
¡ ¢ ¡ ¢6 ¡ ¢2 ¡ ¢ ¡ ¢7 ¡ ¢ ¡ ¢8
1 − 86 13 · 23 − 87 31 · 23 − 88 31

Propiedad 39 La fmp de una v.a. con distribución Bi(n, p) alcanza un máximo en el punto
x∗ = [(n + 1)p]
Dem:
Dado que la fmp es discontinua, no es posible aplicar técnicas de cálculo (derivada) para obtener
su máximo. Sin embargo el siguiente procedimiento es viable: Calculemos el cociente C(k) =
pX (k)/pX (k − 1) Mientras este cociente se mantenga mayor que la unidad será pX creciente como
función de k. En cambio mientras el cociente permanezca menor que la unidad entonces p X será
decreciente. Ante todo hallemos este cociente:
¡n¢
k ¢ n!(k − 1)!(n − k + 1)!pk q n−k (n − k + 1)p
C(k) = ¡ n = k−1 n−k+1
=
k−1
k!(n − k)!n!p q kq

Luego:
C(k) > 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k < (n + 1)p

C(k) = 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k = (n + 1)p

C(k) < 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k > (n + 1)p


Si (n + 1)p no es entero, lo anterior muestra que la fmp alcanza su máximo en un único punto
(unimodal), a saber x∗ = [(n + 1)p]. Si, en cambio, (n + 1)p es entero, lo anterior muestra que la
fmp alcanza su máximo en dos puntos (bimodal), a saber: x∗ = (n + 1)p y x∗∗ = x∗ − 1 ¥
Esta situación se puede comprobar en los siguientes gráficos:

fmp de una Bi(6,1/3) fmp de una Bi(8,1/3)


0.25
0.3

0.20
0.2

0.15
0.10
0.1

0.05
0.0

0.0

0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8

Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ Bi(n, p). Sea k un vector, k =
(k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).

dbinom(k,n,p)
da como resultado el vector (pX (k1 ), · · · pX (ks )).
Por ejemplo:

Prof.J.Gastón Argeri 52
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 53

> n <- 8
> p <- 0.25
> k <- c(3, 4, 6, 7)
> dbinom(k, n, p)
[1] 0.2076416016 0.0865173340 0.0038452148 0.0003662109
> round(dbinom(k, n, p), 5)
[1] 0.20764 0.08652 0.00385 0.00037
> k <- 0:8
> dbinom(k, n, p)
[1] 0.10011291504 0.26696777344 0.31146240234 0.20764160156 0.08651733398
[6] 0.02307128906 0.00384521484 0.00036621094 0.00001525879
> round(dbinom(k, n, p), 5)
[1] 0.10011 0.26697 0.31146 0.20764 0.08652 0.02307 0.00385 0.00037 0.00002

pbinom(k,n,p)
da como resultado el vector (FX (k1 ), · · · FX (ks )).

19.3 Distribución geométrica


Dado p ∈ (0, 1), una v.a. X se dice con distribución geométrica de parámetro p sii su fmp viene
dada por:
pX (k) = (1 − p)k−1 · p (k ∈ N)
En tal caso anotamos X ∼ G(p). Observemos que RX = N. Verifiquemos que pX satisface los
axiomas de una fmp. Para abreviar anotemos q = 1 − p:
• ∀k ∈ N , pX (k) = q k−1p ≥ 0

P ∞
P ∞
P p p
• pX (k) = q k−1p = p q k−1 = 1−q
= p
=1
k=1 k=1 k=1

Calculemos su fda:
[x]
P [x]−1
P
FX (x) = P (X ≤ x) = (1 − p)k−1p = p (1 − p)j =
k=1 j=0

1−(1−p)[x]
= p· 1−(1−p)
= 1 − (1 − p)[x] = 1 − q [x]

Algunas de estas gráficas se muestran en la figura siguiente: Graficamos también algunas fmp:

Una propiedad interesante de esta distribución es la siguiente.

Propiedad 40 (”Ausencia de memoria”) Sea X una v.a. con distribución geométrica de


parámetro p ∈ (0, 1). Sean s, t ∈ N con s > t. Se verifica:
P (X > s|X > t) = P (X > s − t)
Dem:
En efecto, anotemos q = 1 − p. Como s > t resulta {X > s} ⊆ {X > t}. Por lo tanto:
{X > s} ∩ {X > t} = {X > s}
Luego:
P (X>s , X>t ) P (X>s ) 1−FX (s) qs ¡ ¢
P (X > s|X > t) = P (X>t )
= P (X>t )
= 1−FX (t)
= qt
= q s−t = 1 − 1 − q s−t =

= 1 − FX (s − t) = P (X > s − t) ¥

Prof.J.Gastón Argeri 53
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 54

0.0 0.2 0.4 0.6 0.8 1.0 fda de una G( 0.2 ) fda de una G( 0.4 )

0.0 0.2 0.4 0.6 0.8 1.0


P( X = k )

P( X = k )
0 5 10 15 20 0 2 4 6 8 10 12

k k

fda de una G( 0.6 ) fda de una G( 0.8 )


0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0


P( X = k )

P( X = k )
0 2 4 6 8 0 1 2 3 4 5

k k

fmp de una G( 0.2 ) fmp de una G( 0.4 )


0.20

0.4
0.15

0.3
P( X = k )

P( X = k )
0.10

0.2
0.05

0.1
0.0

0.0

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

k k

fmp de una G( 0.6 ) fmp de una G( 0.8 )


0.6

0.8
0.6
0.4
P( X = k )

P( X = k )

0.4
0.2

0.2
0.0

0.0

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

k k

Ejemplo: La distribución geométrica surge también en el contexto de ensayos de Bernoulli con proba-
bilidad de éxito p en cada ensayo. Si X = ”cantidad de ensayos hasta obtener el primer éxito” entonces
X posee distribución geométrica con parámetro p. Por ejemplo, si se arroja un dado equilibrado hasta
que sale el número 6 y X representa la cantidad de lanzamientos necesarios, entonces R X = N y
X = k sii en los primeros k − 1 lanzamientos no sale 6 y en el k-ésimo sale 6. Dado que los
lanzamientos son independientes entre sı́, es claro que P (X = k) = (1 − p)k−1p, siendo p = 1/6.

Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ G(p). Sea k un vector, k =
(k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dgeom(k,p)
da como resultado el vector (pX (k1 ), · · · pX (ks )).
Por ejemplo:

> p <- 0.25


> k <- c(1, 4, 6, 7)
> dgeom(k, p)
[1] 0.18750000 0.07910156 0.04449463 0.03337097
> round(dgeom(k, p), 5)
[1] 0.18750 0.07910 0.04449 0.03337

Prof.J.Gastón Argeri 54
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 55

> k <- 4:10


> dgeom(k, p)
[1] 0.07910156 0.05932617 0.04449463 0.03337097 0.02502823 0.01877117
[7] 0.01407838
> round(dgeom(k, p), 5)
[1] 0.07910 0.05933 0.04449 0.03337 0.02503 0.01877 0.01408

pgeom(k,p)
da como resultado el vector (FX (k1 ), · · · FX (ks )).

19.4 Distribución hipergeométrica


Dados n, D, N ∈ N con n < N , D < N , se dice que una v.a. X posee distribución hiper-
geométrica con parámetros n, D, N sii su fmp viene dada por:
¡D¢¡N −D¢
k n−k
pX (k) = ¡N ¢ para max {0, D − (N − n)} ≤ k ≤ min {n, D}
n

En tal caso anotaremos X ∼ H(n, D, N ). Observemos que cuando n ≤ min {D, N − D} resulta
RX = {0, 1, · · · , n} .

Ejemplo: Un lote de tamaño N de cierta clase de artı́culos contiene D artı́culos defectuosos (y


N − D artı́culos no defectuosos). Se extrae al azar una muestra de artı́culos de tamaño n, sin
reposición. Sea X la cantidad de artı́culos defectuosos presentes en dicha muestra. Evidentemente
el rango de X es de la forma RX = {m, · · · , M }, donde m = max {n − (N − D), 0} y
M = min {D, n}. Dado k ∈ RX calculemos P (X = k). Abreviemos In = {1, · · · , n}. El
espacio muestral puede pensarse como
Ω = {A ⊆ {M1 , · · · , MD , B1 , · · · , BN −D} : #(A) = n}
donde M indica defectuoso y B indica no defectuoso. Puesto que la extracción se realiza al azar,
resulta natural considerar a los eventos elementales en este espacio muestral como equiprobables.
Entonces:
# {X = k}
P (X = k) =
#Ω
Contar la cantidad de elementos en Ω equivale a contar¡ la¢cantidad de posibles subconjuntos de
tamaño n elegidos entre N elementos diferentes. Hay N n
formas diferentes. Contemos ahora
en cuántas de ellas hay exactamente k objetos defectuosos. Para ello debemos ¡ ¢ contar de cuántas
formas es posible elegir los k objetos defectuosos que participarán, a saber D k
, y por cada una de
estas elecciones habrá que determinar¡ de cuántas formas es posible elegir los otros n ¢− k elementos
N −D¢ ¡D¢¡N −D
participantes no defectuosos, a saber n−k . Por lo tanto # {X = k} = k n−k . Por lo tanto:
¡D¢¡N −D¢
k n−k
P (X = k) = ¡N ¢
n

Es decir, efectivamente X posee distribución hipergeométrica de parámetros n, D, N . Anotaremos


esta distribución como H(n, D, N ).

Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ H(n, D, N ). Sea k un vector,
k = (k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dhyper(k,D,N-D,n)
da como resultado el vector (pX (k1 ), · · · pX (ks )).
Por ejemplo:

Prof.J.Gastón Argeri 55
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 56

> D <- 6
> ND <- 8
> n <- 4
> k <- 0:3
> round(dhyper(k, D, ND, n), 4)
[1] 0.0699 0.3357 0.4196 0.1598

phyper(k,D,N-D,n)
da como resultado el vector (FX (k1 ), · · · FX (ks )).
h i
(n+1)(D+1)
La fmp de una v.a. H(n, D, N ) alcanza un máximo cuando k = k ∗ = N +2
, como puede
(n+1)(D+1)
demostrarse y comprobarse en los siguientes gráficos. Nótese que si N +2
no es entero, el
∗ (n+1)(D+1)
máximo se alcanza únicamente en k (unimodal), mientras que si N +2
es entero, entonces
(n+1)(D+1)
pX alcanza su máximo en los dos puntos k ∗ = N +2
y k∗∗ = k∗ − 1 (bimodal)

fmp de H(10,12,26) fmp de H(7,6,10)


0.30

0.4
0.25

0.3
0.20
P( X=k )

P( X=k )
0.15

0.2
0.10

0.1
0.05
0.0

0.0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7

k k

19.5 Distribución de Poisson - Procesos de Poisson


Dado λ ∈ R , λ > 0, se dice que una v.a. X posee distribución de Poisson con parámetro λ sii su
fmp viene dada por:
λk
pX (k) = e− λ · (k = 0, 1, 2, · · · )
k!
En tal caso anotaremos X ∼ P(λ). El parámetro λ suele llamarse intensidad. Observemos que
RX = N ∪ {0}. Verifiquemos que efectivamente pX es una fmp:
λk
• ∀k ∈ N ∪ {0} , pX (k) = e− λ · k!
≥0
∞ ∞ ∞
P P λk P λk
• pX (k) = e− λ · k!
= e− λ k!
= e− λeλ = e0 = 1
k=0 k=0 k=0

Cuando λ no es entero, la distribución P(λ) alcanza su máximo en el único (unimodal) punto


k = [λ]. En cambio cuando λ es entero, la distribución alcanza su máximo en dos puntos (bimodal),
a saber k = λ y k = λ − 1. Grafiquemos algunas fmp de v.a. Poisson:

Uno de los contextos donde surgen naturalmente variables Poisson es en situaciones en las que deter-
minado evento de interés ocurre aleatoriamente en puntos del eje temporal. Por ejemplo, si estamos
en una parada de micros y el evento es la llegada de un micro a la parada, tal eventos ocurrirá en de-
terminados instantes (horas). Supongamos que para cierta constante λ > 0 se verifican las siguientes
suposiciones:

Prof.J.Gastón Argeri 56
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 57

fmp de una P( 1.5 ) fmp de una P( 3 )

0.0 0.05 0.10 0.15 0.20


0.3
0.2
P( X = k )

P( X = k )
0.1
0.0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

k k

fmp de una P( 4.5 ) fmp de una P( 6 )

0.15
0.05 0.10 0.15

0.10
P( X = k )

P( X = k )

0.05
0.0

0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

k k

1. La probabilidad de que ocurra exactamente un evento en un intervalo de tiempo dado y de


longitud h es de la forma: λh + o(h)

2. La prbabilidad de que dos o más eventos ocurran en un intervalo de tiempo dado y de longitud
h de la forma: o(h)

3. Dados cualesquiera números n ∈ N , j1 , · · · , jn ∈ N∪{0} y cualquier conjunto de n intervalos


temporales disjuntos dos a dos, si se define Ei como el suceso que exactamente ji de los eventos
bajo consideración ocurran en el i-ésimo intervalo temporal (i = 1, · · · , n), entonces los sucesos
E1 , · · · , En son mutuamente independientes.

Intuitivamente hablando, el supuesto 1 significa que para valores pequeños de h, la probabilidad de


ocurrencia de exactamente uno de los eventos en un lapso de duración h es λh más una cantidad
despreciable respecto de h. Obsérvese que podemos interpretar λ como la tasa o razón instantánea
de ocurrencia de un evento. El supuesto 2 significa que la probabilidad de que ocurran dos o más
eventos en un lapso de tiempo de duración h es despreciable respecto de h. El supuesto 3 significa
que la cantidad de ocurrencias de eventos en un intervalo temporal no afecta ni es influenciada por la
cantidad de ocurrencias del evento en intervalos de tiempo disjuntos con el primero.
Antes de continuar vamos a establecer un lema que nos resultará útil dentro de poco.

Lema 1 Sea {αn } una sucesión de números reales tal que existe α ∈ R con lim αn = α.
n →∞
Entonces se cumple: µ ¶
αn n
lim 1 − = e− α
n →∞ n
Dem:
Sea f (x) = ln (1 − x). Desarrollemos por Taylor de primer orden alrededor de x = 0. Se obtiene:

x2 1
f (x) = −x − · con c entre 0 y x
2 (1 − c)2

Evaluando en x = αn /n y multiplicando por n se obtiene:


µ ¶
αn α2 1
n · ln 1 − = −αn − n · (3)
n 2n (1 − cn )2

Dado que cn se encuentra entre 0 y αn /n y como lim αn = α, resulta lim cn = 0. Luego,


n →∞ n →∞
tomando lı́mite para n → ∞ en (3) vemos que la sucesión (3) tiene lı́mite − α. Tomando exponencial
y teniendo en cuenta que esta función es continua, resulta lo afirmado en el teorema ¥

Prof.J.Gastón Argeri 57
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 58

Teorema 7 Bajo los supuestos 1,2 y 3, la cantidad de ocurrencias de eventos en un lapso de tiempo
de duración h es una variable aleatoria con distribución de Poisson de parámetro λh.
Dem:
Designemos N (t) el número de ocurrencias de eventos en el intervalo [0, t). Formemos una par-
tición regular del intervalo [0, t] en n subintervalos: [0, t/n) , [t/n, 2t/n) · · · [(n − 1)t/n, t) .
Consideremos los siguientes sucesos:
A = ”k de los subint. contienen exact. un evento y n-k contienen 0 eventos”
Bi = ”el subint. i-ésimo contiene dos o más eventos” (i = 1, · · · , n)
B = ”al menos uno de los subint. contiene dos o más eventos”
C = {N (t) = k} ∩ B
Entonces claramente:
n
S
B= Bi (unión no disjunta)
i=1

P (N (t) = k) = P (A ∪ C) = P (A) + P (C) pues A y C son disjuntos


Pero:
n n µ ¶ µ ¶ µ ¶
X X t t o(t/n)
P (C) ≤ P (B) ≤ P (Bi ) = o =n·o =t·
i=1 i=1
n n t/n

Para cada t fijo es lim o(t/n) = 0. Luego: lim P (C) = 0. Por otra parte, si I es un intervalo
n → ∞ t/n n →∞
de duración h, los supuestos 1 y 2 implican que:
P (”ocurren 0 eventos en I”) = 1 − P (”ocurre exact. un evento en I”)−
−P (”ocurren dos o más eventos en I”) =
= 1 − (λh + o(h)) − o(h) = 1 − λh − o(h)
Además en virtud del supuesto 3 se tiene:
¡ ¢ h λt ¡ t ¢ik h ¡ t ¢in−k
P (A) = n k n
+ o n
1 − λt
n
− o n
=

n h ¡ t ¢iok n h ¡ t ¢ion−k
n(n−1)···(n−k+1)
= k!
· n1k n λt
n
+ o n
1 − λt
n
+ o n
=

n h (4)
n(n−1)···(n−k+1) 1 ¡ t ¢iok n h ¡ t ¢ion−k
= nk
· k! n λt
n
+ o n
1 − λt
n
+ o n
=

n h ¡ t ¢iok n h ¡ t ¢ion n h k ³
¡ t ¢io−k Q ´
1 i−1
= k!
n λt
n
+ o n
1 − λt
n
+ o n
1 − λt
n
+ o n
1− n
i=1

Pero como · µ ¶¸ · ¸
λt t o(t/n)
lim n = λt + lim t
+o = λt
n →∞ n n n →∞ t/n
h ¡ ¢ i
se deduce del lema 1 con αn = n λtn
+ o nt que:
½ · µ ¶¸¾n
λt t
lim 1 − +o = e− λt
n →∞ n n
La primera expresión entre llaves en la última de las expresiones en (4) tiende a λ k y la tercera
expresión entre llaves tiende a 0. La productoria consta de un número fijo de factores y cada uno de
ellos tiende a 1. Por lo tanto:
(λt)k
lim P (A) = e− λt · ¥
n →∞ k!

Prof.J.Gastón Argeri 58
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 59

Nota: Definamos para cada t > 0 la variable aleatoria

Xt = ”cantidad de ocurrencias del evento en el intervalo de tiempo [0,t)”

La colección de variables aleatorias {Xt : t > 0} se denomina porceso de Poisson de parámetro


λ. Nótese que para cada t > 0 es Xt ∼ P(λt). Volveremos a los procesos de Poisson cuando
presentemos las distribuciones exponencial y gama.

Corolario 4 (Aproximación de Poisson a la distribución binomial)


Sea λ ∈ R , λ > 0. Para cada k ∈ N ∪ {0} se verifica:
µ ¶ µ ¶k µ ¶
n λ λ n−k λk
lim 1− = e− λ ·
n →∞ k n n k!

Nota: Este corolario suele utilizarse de la manera siguiente. Sea X ∼ Bi(n, p). Supongamos
n grande, p pequeño y np es moderado. Entonces la fmp de X es aproximadamente igual a la
fmp de Y , siendo Y ∼ P(np). La recomendación suele ser el uso de la aproximación cuando:

n ≥ 100 ; p ≤ 0, 01 ; np ≤ 20

Mencionemos que las variables Poisson no ocurren únicamente contando ocurrencias de eventos en el
tiempo. Damos algunos ejemplos de otras v.a. que usualmente tienen distribución de Poisson:

• La cantidad de errores de impresión en cierta/s página/s de un libro.

• La cantidad de bacterias en cierta región de cierto cultivo.

Ejemplo: Supongamos que la cantidad de errores tipográficos por página de apuntes teórico-prácticos
tipeados por Gastón Argeri posee distribución P(0.25) (i.e. en promedio Gastón comete un error
de tipeo cada cuatro páginas). Si se escoge al azar un apunte teórico-práctico de Gastón, calcular la
probabilidad de que la primera página presente al menos un error tipográfico.
Rta: Si anotamos X a la cantidad de errores en la primera página entonces:

P (X ≥ 1) = 1 − P (X = 0) = 1 − e−0.25 ≈ 0.221

Ejemplo: Supongamos que en promedio uno de cada diez artı́culos producidos por cierta máquina
resultan defectuosos. Se eligen al azar 20 artı́culos producidos por la máquina. Hallar la probabilidad
de que al menos 3 de ellos resulten defectuosos.
Rta: Se trata de una sucesión de n = 20 ensayos de Bernoulli, donde ”éxito=se produce artı́culo
defectuoso”, con p = 1/10 = 0.1 en cada ensayo. Si X representa la cantidad de defectuosos entre
20, entonces X ∼ Bi(20, 0.1) de modo que la probabilidad pedida es:

P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) =
¡20¢ ¡ ¢ ¡ ¢
= 1− 0
(0.9)20 − 20
1
(0.1)(0.9)19 − 20
2
(0.1)2 (0.9)18 ≈

≈ 1 − 0.1215767 − 0.2701703 − 0.2851798 ≈ 0.3231

Utilizando la aproximación de Poisson con λ = np = 20(0.1) = 2 se obtiene:


2
X 2k
P (X ≥ 3) ≈ 1 − e− 2 · ≈ 1 − 0.1353353 − 0.2706706 − 0.2706706 ≈ 0.3233
k=0
k!

En este caso la aproximación ha resultado muy buena.

Prof.J.Gastón Argeri 59
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 60

19.6 Distribución binomial negativa


Dados r ∈ N y p ∈ (0, 1), se dice que una variable aleatoria X posee distribución binomial negativa
con parámetros r y p sii su fmp está dada por:
µ ¶
k−1 r
pX (k) = p (1 − p)k−r (k = r, r + 1, · · · )
r−1

En tal caso anotaremos X ∼ BN (r, p). Obseérvese que RX = {r, r + 1, · · · }. Verifiquemos que
efectivamente pX es una fmp:
¡ ¢ r
• pX (k) = k−1
r−1
p (1 − p)k−r ≥ 0 (k = r, r + 1, · · · )
∞ ∞ ¡ ∞ ¡
P P k−1¢ P k−1¢
• pX (k) = r−1
pr (1 − p)k−r = pr r−1
(1 − p)k−r
k=r k=r k=r

P 1
Consideremos la función g(q) = qj = 1−q
Si la derivamos r − 1 veces obtenemos:
j=0


P 1
jq j−1 = (1−q)2
j=1


P 2
j(j − 1)q j−2 = (1−q)3
j=2

··· ···


P (r−1)!
j(j − 1) · · · (j − r + 2)q j−r+1 = (1−q)r
j=r−1

∞ ¡
P j ¢ j−r+1 (r−1)!
Es decir (r − 1)! r−1
q = (1−q)r
Por lo tanto, tomando q = 1 − p se tiene:
j=r−1

∞ µ ¶ ∞ µ ¶
X k−1 X j pr
pr (1 − p)k−r = pr (1 − p)j−r+1 = r = 1
k=r
r−1 j=r−1
r−1 p

La distribuciń binomial negativa surge naturalmente en el contexto de ensayos de Bernoulli con prob-
abilidad de éxito p en cada ensayo individual. Recordemos que en dicho contexto la Bi(n, p) es la
distribución de la cantidad de éxitos en los n ensayos. En cambio, la BN (r, p) es la distribución
de la v.a. X definida como la cantidad de ensayos necesarios hasta obtener el r-ésimo éxito (es
decir, la cantidad de ensayos es ahora aleatoria). En efecto, decir que X = k equivale a decir que
el r-ésimo éxito ocurre en el k-ésimo ensayo. Por lo tanto en los k − 1 ensayos anteriores debe
haber exactamente r − 1 éxitos y k − r fracasos. Entonces para calcular la probabilidad ¡ ¢ del evento
{X = k} utilizamos asignación de probabilidad por ensayos independientes: Hay k−1 r−1
maneras
de ubicar los r − 1 éxitos entre los k − 1 primeros ensayos (los lugares para los fracasos quedan
automáticamente determinados). Cada ¡ ordenamiento
¢ r de r éxitos y k − r fracasos tiene probabilidad
pr (1 − p)k−r . Luego P (X = k) = k−1 r−1
p (1 − p) k−r Es decir X ∼ BN (r, p).

Nota: Comandos útiles eb SPlus son dnbinom , pnbinom


i negativas: Obsérvese que la fmp de una v.a. BN (r, p)
Presentamos algunos ejemplos de fmp binomiales
h
r+p−1

alcanza su máximo en el punto k = p
. Cuando r+p−1
p
no es entero, el máximo se alcanza
r+p−1
únicamente (unimodal) en k = k∗. En cambio, cuando p
es entero, el máximo se alcanza en
k = k∗ y en k = k∗ − 1 (bimodal).

Prof.J.Gastón Argeri 60
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 61

fmp de BN( 3 , 0.25 ) fmp de BN( 3 , 0.45 ) fmp de BN( 3 , 0.7 )


0.08

0.15

0.3
0.06

0.10

0.2
P( X=k )

P( X=k )

P( X=k )
0.04

0.05

0.1
0.02
0.0

0.0

0.0
3 4 5 6 7 8 9 10 11 12 13 14 15 3 4 5 6 7 8 9 10 11 12 13 14 15 3 4 5 6 7 8 9 10 11 12 13 14 15

k k k

20 Distribuciones continuas
20.1 Distribución uniforme
Sean a, b ∈ R con a < b. Se dice que una variable aleatoria X posee distribución uniforme en el
intervalo [a, b] sii X posee fdp fX dada por
½ 1
b−a
si a ≤ x < b
fX (x) =
0 si x < a ∨ x ≥ b

Anotamos X ∼ U (a, b) para indicar que X posee distribución uniforme en [a, b]. Verifiquemos
que fX es realmente un fdp:

• ∀x ∈ R , fX (x) ≥ 0

R Rb Rb
1 1 b−a
• fX (x) dx = b−a
dx = b−a
dx = b−a
=1
−∞ a a

Rx
Obtengamos la fda. FX (x) = fX (t) dt. Debemos distinguir tres casos, según el valor de x:
−∞

• Si x < a: FX (x) = 0
Rx 1 x−a
• Si a ≤ x < b: FX (x) = a b−a
dt = b−a
Rb 1
• Si x ≥ b: FX (x) = a b−a dt = 1

Es decir: 
 0 si x < a
x−a
FX (x) = b−a
si a ≤ x < b

1 si x ≥ b

Las gráficas de la fdp y la fda tienen el siguiente aspecto:

20.2 Distribución gaussiana


Sean µ, σ ∈ R , σ > 0. Se dice que una variable aleatoria X posee distribución gaussiana (también
llamada distribución normal) de parámetros µ, σ sii X posee fdp dada por
1 1 2 /σ 2
fX (x) = √ · e− 2 (x−µ) ; x∈R
2π σ

Prof.J.Gastón Argeri 61
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 62

fdp de U(a,b) fda de U(a,b)

1.2
0.8

1.0
1 / ( b - a )

0.8
0.6

0.6
y

y
0.4

0.4
0.2

0.2
0.0

0.0
a b
0 1 2 0 1 2

x x

Para indicar que X posee distribución gaussiana de parámetros µ, σ anotamos X ∼ N (µ, σ). En
particular, cuando µ = 0 y σ = 1 se habla de la distribución gaussiana (o normal) standard. Su
fdp suele anotarse con la letra ϕ. Ası́, la fdp gaussiana standard está dada por
1 1 2
ϕ(x) = √ · e− 2 x ; x∈R

Mediante cálculo es posible estudiar las caracterı́sticas de la gráfica de ϕ. Resulta simétrica respecto
del eje de ordenadas (función par), con máximo en el origen. Además tiene la conocida forma de
”campana de Gauss”. Volviendo al caso general, obsérvese que:
µ ¶
1 x−µ
fX (x) = √ ϕ
2π σ σ
Es decir que fX se puede obtener a partir de ϕ mediante una traslación paralela al eje de abscisas
y cambios de escala en los ejes coordenados. Tales transformaciones conservan la forma acampanada
de la fdp. Grafiquemos algunos ejemplos de fdp gaussianas:

La fda asociada viene dada por:


Zx
1 1 2 2
FX (x) = √ e− 2 (t−µ) /σ dt
2π σ
−∞

La fda de una v.a. gaussiana standard suele anotarse Φ y viene dada por:
Zx
1 1 2
Φ(x) = √ e− 2 x dt

−∞

Dado que esta función no es elemental (no puede expresarse elementalmente la integral indefinida
correspondiente), para evaluarla en un punto se debe recurrir a tablas o se debe utilizar algún software
o fórmula que aproxime sus valores. En el caso general, observemos que:
µ ¶
x−µ
FX (x) = Φ si X ∼ N (µ, σ)
σ
Nota: Comandos de SPlus dnorm , pnorm , qnorm. Ver el help del SPlus. Por ejemplo: help(dnorm)
o simplemente resaltando ”dnorm” y clickeando sobre la flechita ”run”.

Prof.J.Gastón Argeri 62
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 63

Familia de densidades gaussianas


misma sigma, distintas mu

N(4,1.5)

0.5
N(2,1.5)
N(7,1.5)

0.4
0.3
y

0.2
0.1
0.0

-2 0 2 4 6 8 10 12

misma mu, distintas sigma

N(4,1.5)
0.5

N(4,3)
N(4,0.75)
0.4
0.3
y

0.2
0.1
0.0

-2 0 2 4 6 8 10 12

20.3 Distribución exponencial


Dado λ ∈ R , λ > 0, se dice que una variable aleatoria X posee distribución exponencial con
parámetro λ sii su fdp vien dada por:

fX (x) = λe− λx (x > 0)

En tal caso anotaremos X ∼ E(λ). El parámetro λ suele denominarse parámetro de intensidad.


Verifiquemos que fX es efectivamente una fdp:
• Para todo x ∈ R, fX (x) = λe− λx ≥ 0

• Efectuando el cambio de variables t = λx se obtiene:


Z ∞ Z ∞
¯c
λe− λx dx = e−t dt = − lim e−t¯0 = − lim (e− c − 1) = 1
0 0 c →∞ c →∞

Hallemos al fda de X:
Rx
• Si x ≤ 0 entonces FX (x) = −∞ fX (t) dt = 0 pues fX (t) = 0 si t ≤ 0
Rx Rx ¯x
• Si x > 0 se tiene: FX (x) = −∞ fX (t) dt = 0 λe− λt dt = − e− λt¯0 = 1 − e− λx
Por lo tanto la fda viene dada por:
½
0 si x ≤ 0
FX (x) = − λt
1−e si x > 0

Prof.J.Gastón Argeri 63
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 64

Familia de densidades exponenciales


fdp fda
0.6

1.0
0.5

lambda=0.2

0.8
lambda=0.4
lambda=0.6
0.4

0.6
0.3
y

0.4
0.2

lambda=0.2

0.2
lambda=0.4
0.1

lambda=0.6
0.0

0.0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14

x x

Para observar las caracterı́sticas más importantes de la distribución exponencial, grafiquemos algunos
ejemplos de fdp y fda en el caso exponencial:

Propiedad 41 (”Ausencia de memoria”) Supongamos que X ∼ E(λ). Sean s, t ∈ R , s > t ≥


0. Se verifica:
P (X > s | X > t) = P (X > s − t)
Dem:
P (X>s , X>t ) P (X>s ) 1−FX (s) e− λs
P (X > s|X > t) = P (X>t )
= P (X>t )
= 1−FX (t)
= e− λt
= e− λ(s−t) = P (X > s − t) ¥

Ejemplo: Consideremos un proceso de conteo (de ocurrencias de cierto evento) tipo Poisson {X t : t > 0}
de parámetro λ, es decir que Xt ∼ E(λ). Definamos la variable aleatoria:
T1 = ”tiempo hasta la primera ocurrencia del evento”
Hallemos la fda de T1 . Para ello calculemos:
P (T1 ≥ t) = P (”la primera ocurrencia se produce luego del instante t”) =

(λt)0
= P (”no hay ocurrencias en [0, t]”) = P (Xt = 0) = e− λt · 0!
= e− λt
Por lo tanto FT1 (t) = 1 − e− λt si t > 0. Naturalmente FT1 (t) = 0 si t ≤ 0. Por lo tanto la
variable aleatoria T1 tiene distribución exponencial de parámetro λ.
Nota: Comandos de SPlus dexp , pexp , qexp

20.4 Distribución gamma


Se denomina función gama a la función Γ : (0, ∞) → R definida por:
Z∞
Γ(x) = tx−1e−t dt (5)
0

Para ver que esta función está correctamente definida es necesario demostrar que la integral impropia
en (5) es convergente. Obsérvese que el integrando es positivo y que cuando x ≥ 1 la integral es
impropia en el infinito, en tanto que si 0 < x < 1 la integral es impropia tanto en el infinito como
en el origen.

Prof.J.Gastón Argeri 64
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 65

Lema 2 Para cada u ∈ R , u ≥ 0 y para cada n ∈ N se verifica

u2 u3 un
eu ≥ 1 + u + + + ··· + (6)
2! 3! n!
Dem:
Por inducción sobre n
Paso base: Ru
Dado que ∀u ≥ 0 , eu ≥ 0, la monotonı́a de la integral definida garantiza que 0 eu du ≥ 0. Luego:
eu − 1 ≥ 0. Por lo tanto eu ≥ 1
Hipótesis inductiva (HI): Consiste en suponer que para todo u ≥ 0 la desigualdad (6) es verdadera.
En base a la HI queremos probar que:

u2 u3 un+1
eu ≥ 1 + u + + + ··· + (u ≥ 0)
2! 3! (n + 1)!

Pero integrando ambos miembros de (6) en el intervalo [0, u] y teniendo en cuenta la monotonı́a de
la integral, se deduce que

u2 u3 un+1
eu − 1 ≥ u + + + ··· +
2! 3! (n + 1)!

que es precisamente lo que queremos demostrar. Luego, la desigualdad es verdadera para tono
n natural ¥

Corolario 5 Para cada u ≥ 0 y cada n natural (o cero) se verifica la siguiente desigualdad

un
eu ≥
n!
Dem:
Siendo u ≥ 0, todos los términos en el mienbro de la derecha de la desigualdad (6) son no negativos.
Luego, la suma de los mismos es mayor o igual que cualquiera de ellos. En particular es mayor o igual
que el último término. Este hecho, junto con la desigualdad (6) terminan de demostrar este lema ¥

Propiedad 42 Para cada x ∈ R , x > 0, la integral en (5) es convergente.


Dem:
Consideramos dos casos por separado.

• Caso x ≥ 1
En el corolario anterior tomemos n = 1 + [x] de manera que n − x + 1 > 1. Entonces para
t > 0 se verifica
tx−1 tx−1n! n!
tx−1e−t = t
≤ n
= n−x+1
e t t
R∞ n!
Como la integral impropia 1 tn−x+1 dt es convergente, por criterio de comparación resulta
R ∞ x−1 −t R1
1 Rt e dt también convergente. Puesto que 0 tx−1e−t dt es propia (finita), se deduce

que 0 tx−1e−t dt es convergente.

• Caso 0 < x < 1

Prof.J.Gastón Argeri 65
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 66

– Para t ≥ 1 resulta t1−x = e(1−x) ln t ≥ 1 dado que (1 − x) ln t > 0. Entonces:


1 1
tx−1e−t = ≤ = e−t
t1−xet et
R∞ R∞
Pero como 1 e−t dt es convergente, por criterio de comparación resulta 1 tx−1e−t dt
convergente.
1
– Para 0 < t < 1 resulta e−t ≤ 1. Luego tx−1e−t ≤ tx−1 = t1−x . Puesto que
R1 1
1−x dt es convergente por ser 0 < x < 1, el criterio de comparación asegura que
R01 tx−1 −t
0 t e dt es convergente ¥

Propiedad 43 La función gama verifica:

i) ∀x ∈ R, x > 0, Γ(x + 1) = xΓ(x)

ii) ∀n ∈ N , Γ(n) = (n − 1)!

Dem:

i) Integrando por partes con u = e−t, dv = tx−1 se tiene du = − e−t, v = tx /x


Z Z µ Z ¶
x−1 −t tx e−t 1 x −t 1 x −t (x+1)−1 −t
t e dt = + t e dt = t e + t e dt
x x x
Entonces: Rh ³ ¯h R h ´
1
1 tx−1e−t dt = x
tx e−t¯1 + 1 t(x+1)−1e−t dt =
³ Rh ´
1
= x
hx e−h − e−1 + 1 t(x+1)−1e−t dt
Tomando lı́mite para h → ∞ se obtiene:
Z ∞ µ Z ∞ ¶
x−1 −t 1 −1 (x+1)−1 −t
t e dt = −e + t e dt (7)
1 x 1

Análogamente:
R1 ³ ¯1 R1 ´
1
h tx−1e−t dt = x
tx e−t¯h + h t(x+1)−1e−t dt =
³ R1 ´
1
= x
e−1 − hx e−h + h t(x+1)−1e−t dt

Tomando lı́mite para h → 0+ se obtiene:


Z 1 µ Z 1 ¶
x−1 −t 1 −1 (x+1)−1 −t
t e dt = e + t e dt (8)
0 x 0

1
Juntando los resultados (7) y (8) se tiene Γ(x) = x
Γ(x + 1) como se querı́a demostrar.

ii) Para n ∈ N podemos aplicar repetidamente el resultado probado en el item anterior. Más
formalmente, utilicemos inducción completa:

• Paso base:
Z ∞ Z 1 Z ∞
−t −t
Γ(1) = e dt = e dt + e−t dt = lim e−h + lim e−k = 1 = 0!
0 0 1 h → 0+ k →∞

• Hipótesis inductiva (HI): Suponemos Γ(n) = (n − 1)!

Prof.J.Gastón Argeri 66
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 67

• En base a la HI queremos demostrar que Γ(n + 1) = n!. Para ello:


Γ(n + 1) = nΓ(n) = n(n − 1)! = n!

Por lo tanto Γ(n) = (n − 1)! es verdadera para todo n ∈ N ¥


Dados α, λ ∈ R , α, λ > 0 se dice que una variable aleatoria X posee distribución gama de
parámetros α, λ sii posee fdp dada por
λα
fX (x) = xα−1e− λx (x > 0)
Γ(α)
En tal caso anotaremos X ∼ Γ(α, λ). El parámetro α suele llamarse parámetro de forma (”shape”)
y el parámetro λ se suele denominar parámetro de intensidad (”rate”). Verifiquemos que f X es
efectivamente una fdp:
λα
• Para todo x ∈ R es fX (x) = Γ(α)
xα−1e− λx ≥ 0

• Debemos verificar que la integral de fX sobre R es 1. Si en la integral se realiza el cambio de


variables t = λx se tendrá:
Z ∞ Z ∞
λα α−1 − λx 1 Γ(α)
x e dx = tα−1e−t dt = =1
0 Γ(α) Γ(α) 0 Γ(α)

Grafiquemos algunos ejemplos de densidades gama:

Familia de densidades gama


alfa= 0.5 alfa= 1 alfa= 1.5
0.30
14

lambda=0.2 lambda=0.2 lambda=0.2


0.6

lambda=0.4 lambda=0.4 lambda=0.4


lambda=0.6 lambda=0.6 lambda=0.6
0.25
12

0.5
10

0.20
0.4
8

0.15
0.3
y

y
6

0.10
0.2
4

0.05
0.1
2

0.0

0.0
0

0.0 0.02 0.04 0.06 0.08 0.10 0 2 4 6 0 5 10 15

x x x

Examinando los distintos gráficos se dará cuenta porque α y λ se dicen parámetros de ”forma” e
”intensidad” (para α ≥ 1, λ controla la rapidez con la cual la cola a derecha de la fdp tiende a cero
para x → ∞), respectivamente.
Observemos que la distribución Γ(1, λ) es precisamente la distribución exponencial de parámetro λ.
En efecto, sea X ∼ Γ(1, λ):
λ1
fX (x) = x1−1e− λx = λe− λx
Γ(1)
Nota: Comandos de SPlus dgamma , pgamma , qgamma
Vamos a vincular las distribuciones gamma y Poisson.

Prof.J.Gastón Argeri 67
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 68

Propiedad 44 Sean n ∈ N, x > 0. Sea X ∼ Γ(n, λ). Si Y ∼ P(λx) entonces se cumple:

FX (x) = P (X ≤ x) = P (Y ≥ n) = 1 − FY (n − 1)

Dem:
Mediante integración por partes, con u = tn−1 y dv = e− λtdt, se tiene:
Z ½ Z ¾
n−1 − λt −1 n−1 − λt n−2 − λt
t e dt = −λ t e + (n − 1) t e dt

Rx
Aplicando la regla de Barrow entre t = 0 y t = x y anotando In (x) = 0 tn−1e− λt dt resulta:

λIn (x) = (n − 1)In−1(x) − xn−1e− λx (9)

Queremos demostrar (lo haremos por inducción sobre n):


Z n−1
x λn n−1 − λt
X (λx)k
∀n ∈ N , ∀x > 0 , t e dt = 1 − e− λx
0 (n − 1)! k=0
k!

En otro términos, queremos probar que:


n−1
λn X (λx)k
In (x) = 1 − e− λx (10)
(n − 1)! k=0
k!

Entonces:
Rx ¯x
• Paso base: I1 (x) = 0 λe− λt dt = 1 − e− λt¯0 = 1 − e− λx Esto es precisamente (10) cuando
n=1

• Hipótesis inductiva (HI): Supongamos (10) es verdadera.

• Utilizando (9) junto con (HI) se tiene:


λn+1 λn
¡ ¢ λn (λx)n − λx
n!
In+1 (x) = n!
nIn (x) − xn e− λx = I (x)
(n−1)! n
− n!
e =

n−1 n
P (λx)k (λx)n − λx P (λx)k
= 1− k!
e− λx − n!
e =1− k!
e− λx ¥
k=0 k=0

20.5 Distribución chi cuadrado


Esta distribución es un caso particular de la distribución gama. Si en la familia de distribuciones gama
se considera α = n/2, siendo n natural, y se toma λ = 1/2 se obtiene la llamada distribución chi
cuadrado con n grados de libertad (g.l.). Es decir:
Dado n ∈ N, se dice que una variable aleatoria X posee distribución chi cuadrado con n grados de
libertad sii posee fdp dada por:
1
fX (x) = x(n/2)−1e− x/2 (x > 0)
2n/2 Γ(n/2)

En tal caso anotamos X ∼ χ2 (n). La distribución chi cuadrado con g.l.=2 tambiénse denomina
distribución de Raleygh y la chi cuadrado con g.l.=3 también se llama distribución de Maxwell-
Boltzman (Estos términos son más frecuentes en mecánica estadı́stica).
Presentamos algunos ejemplos de fdp chi cuadrado con distintos grados de libertad asociados:
Nota: En SPlus los comandos útiles son dchisq , pchisq , qchisq.

Prof.J.Gastón Argeri 68
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 69

Familia de densidades chi cuadrado

0.25
g.l=1 g.l=3
g.l=2 g.l=4
g.l=8
1.5

0.20
0.15
1.0
y

0.10
0.5

0.05
0.0

0.0
0.0 0.5 1.0 1.5 2.0 0 5 10 15

x x

20.6 Distribución beta


Se denomina función beta la fuención B : (0, ∞) × (0, ∞) → R dada por
Z 1
B(α, β) = xα−1(1 − x)β−1 dx
0

Obsérvese que según los valores de α, β la integral que define a la función beta puede ser impropia
en el origen (cuando 0 < α < 1) y/o en x = 1 (cuando 0 < β < 1), o directamente ser propia.
Una aplicación trivial del creiterio de comparación muestra que la integral impropia es convergente
para cualesquiera α, β > 0. Mencionemos dos propiedades útiles de la función beta.

Propiedad 45 Para cualesquiera α, β ∈ R, α > 0, β > 0 se verifican:


Γ(α)Γ(β)
i) B(α, β) = Γ(α+β)

ii) B(β, α) = B(α, β)

Dados α, β ∈ R , α > 0, β > 0 se dice que una variable aleatoria X posee distribución beta con
parámteros α, β si posee fdp dada por:
1
fX (x) = xα−1(1 − x)β−1 (0 < x < 1)
B(α, β)

En tal caso anotaremos X ∼ B(α, β). Verifiquemos que fX es realmente una fdp:
1
• Para x ∈ (0, 1) , B(α,β) xα−1(1 − x)β−1 ≥ 0
R1 1 1
• 0 B(α,β)
xα−1(1 − x)β−1 dx = B(α,β)
B(α, β) = 1

Grafiquemos algunos ejemplos de fdp para distribuciones beta:

Prof.J.Gastón Argeri 69
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 70

Familia de densidades beta


alfa= 0.5 alfa= 0.7

5
4

beta= 0.4 beta= 0.4


beta= 1 beta= 1

4
beta= 1.5 beta= 1.5
3

3
y

y
2

2
1

1
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x

alfa= 1 alfa= 1.3


6

beta= 0.4 beta= 0.4

6
beta= 1 beta= 1
5

beta= 1.5 beta= 1.5


4

4
y

y
3
2

2
1
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x

Cuando α = β la distribución beta es simétrica respecto de x = 0.5 Un caso particular (evidente)


de la distribución beta es la U (0, 1). Esto también se aprecia en el gráfico correspondiente a los
valores α = 1 , β = 1

20.7 Distribución de Cauchy


Dados λ ∈ R, θ ∈ R, θ > 0, se dice que una variable aleatoria tiene distribución de Cauchy con
parámetros λ, θ sii posee fdp dada por:
θ 1
fX (x) = (x ∈ R)
π θ 2 + (x − λ)2

En tal caso anotamos X ∼ C(λ, θ). Se dice que λ es el parámetro de posición y θ el parámetro de
escala. La fdp tiene forma similar a la gaussiana (acampanada) pero sus colas son mucho más pesadas,
como veremos posteriormente. Esta familia de distribuciones es importante en estudios teóricos y de
simulación. En la gráfica se observan fdp Cauchy para distintos valores de los parámetros: Nota: En
SPlus los comandos interesantes son dcauchy , pcauchy , qcauchy.

Prof.J.Gastón Argeri 70
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 71

Familia de densidades Cauchy


misma theta, distintas lambda

0.0 0.05 0.10 0.15 0.20


C(4,1.5)
C(2,1.5)
C(7,1.5)
y

-2 0 2 4 6 8 10 12

misma lambda, distintas theta

C(4,0.75)
0.4

C(4,1.5)
C(4,2.25)
0.3
0.2
y

0.1
0.0

0 2 4 6 8

20.8 Distribución lognormal


Sean µ, σ ∈ R , σ > 0. Se dice que una variable aleatoria X tiene distribución lognormal con
parámetros µ, σ sii ln X posee distribución N (µ, σ 2 ). Para hallar la fdp de X, llamemos Y =
ln X de manera que Y ∼ N (µ, σ 2 ), y procedamos como sigue:

FX (x) = P (X ≤ x) = P (eY ≤ x) = P (Y ≤ ln x) = FY (ln x)

Derivando ambos miembros respecto de x (usamos la regla de la cadena) obtenemos:


1 1 1 2 /σ 2
fX (x) = fY (ln x) · = √ e− 2 (ln x−µ)
x 2π σx
Las caracterı́sticas salientes de la gráfica de una fdp lognormal puede estudiarse analı́ticamente. Pre-
sentamos algunos ejemplos: Nota: Los comandos útiles en SPlus son dlnorm , plnorm , qlnorm.

Familia de densidades lognormales


misma mu,distintas sigma

logN(1,0.25)
0.3

logN(1,1)
logN(1,2.25)
0.2
y

0.1
0.0

0 1 2 3 4 5 6

misma sigma,distintas mu

logN(0.7,1)
0.30

logN(1,1)
logN(1.3,1)
0.20
y

0.10
0.0

0 1 2 3 4 5 6

Prof.J.Gastón Argeri 71
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 72

20.9 Distribución t doble exponencial o de Laplace


Dados µ, λ ∈ R , σ > 0, se dice que una variable aleatoria tiene distribución doble exponencial con
parámetros µ, λ sii posee fdp dada por:
1
fX (x) = e− λ|x−µ| (x ∈ R)

En tal caso anotamos X ∼ DE(µ, λ). Obsérvese que, para µ = 0, esta fdp se obtiene al dividir por
dos la fdp exponencial de parámetro λ y simetrizando por paridad con respecto al eje de ordenadas
(Cada mitad encierra área 0.5 por debajo, de modo que el área total por debajo es la unidad).
También notemos que ambas mitades se han ”pegado” de manera no suave en el origen, resultando
una fdp no diferenciable allı́. En la gráfica se observa este hecho como un ”pico” en forma angulosa
(en el origen duando µ = 0 y en x = µ en general). La doble exponencial resulta interesante puesto
que posee colas más pesadas que la distribución normal. Entre otras razones resulta útil cuando se
estudia la eficiencia asintótica de ciertos estimadores, como veremos posteriormente.

Familia de densidades doble exponencial


misma lambda, distintas mu
0.6

DE(3,0.6)
DE(2,0.6)
DE(5,0.6)
0.4
y

0.2
0.0

-2 0 2 4 6 8 10

misma mu, distintas lambda

DE(3,0.3)
0.8

DE(3,0.6)
DE(3,0.9)
0.6
y

0.4
0.2
0.0

-2 0 2 4 6 8 10

Nota: La distribución doble exponencial no está disponible mediante comandos de SPlus, dada su
sencilla vinculación con la distribución exponencial.

20.10 Distribución t de Student


Dado n ∈ N, se dice que una variable aleatoria tiene distribución t de Student con n grados de
libertad (g.l) sii posee fdp dada por:
¡ ¢ µ ¶− (n+1)/2
Γ n+1 2 x2
fX (x) = ¡ n ¢ √ 1+ (x ∈ R)
Γ 2 nπ n

En tal caso anotaremos X ∼ t(n). Esta distribución es de aspecto acampanado, semejante a primera
vista a la N (0, 1), pero es de colas más pesadas que ésta y cobrará importancia a medida que
avancemos en este curso, cuando nos avoquemos a temas de inferencia. Un comentario interesante:
La distribución C(0, 1) es precisamente la misma que t(1). Presentamos algunas fdp t de Student:
Se observa que a medida que aumentan los grados de libertad, la distribución t de Student se aproxima
cada vez más a la N (0, 1).

Nota: Los comandos útiles en SPlus son dt , pt , qt.

Prof.J.Gastón Argeri 72
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 73

Familia de densidades t de Student

0.4
t(2)
t(5)
t(12)
N(0,1)

0.3
0.2
y

0.1
0.0
-4 -2 0 2 4

20.11 Distribución F de Fisher


Dados m, n ∈ N, se dice que una variable aleatoria X tiene distribución Fisher con m, n grados de
libertad (g.l) sii posee fdp expresada por:
¡ ¢ µ ¶m/2 µ ¶
Γ m+n2 (m/2)−1 m mx − (m+n)/2
fX (x) = ¡ m ¢ ¡ n ¢ x 1+ (x > 0)
Γ 2 Γ 2 n n

En tal caso se anota X ∼ F (m, n). Esta distribución cobrará importancia cuando estudiemos prob-
lemas de inferencia más adelante.

Nota: Los comandos de SPlus que utilizaremos son df , pf , qf.

Familia de densidades F de Fisher Familia de densidades F de Fisher

F(3,4) F(4,3)
F(5,4) F(4,5)
F(12,4) F(4,12)
0.6

0.6
0.4

0.4
y

y
0.2

0.2
0.0

0.0

0 1 2 3 4 5 6 0 1 2 3 4 5 6

x x

Prof.J.Gastón Argeri 73
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 74

20.12 Distribución Weibull


Dados α, β ∈ R , α > 0, β > 0, se dice que una variable aleatoria X tiene distribución Weibull de
parámetros α, β si posee fdp dada por:
1 α
fX (x) = xα−1 e− (x/β ) (x > 0)
βα

En tal caso anotamos X ∼ W(α, β). La distribución Weibull es importante en el estudio de tiempos
de sobrevida. El aspecto de la gráfica de una fdp Weibull puede observarse en las siguientes figuras:

Familia de densidades Weibull

W(0.5,1) W(1,0.5)
W(1,1) W(1,1)
W(1.5,1) W(1,1.5)

1.5
1.5

1.0
1.0
y

0.5
0.5
0.0

0.0

0 1 2 3 4 0 1 2 3 4

x x

Nota: Como caso particular, observemos que tomando α = 1 y λ = β −1 se obtiene la distribución


exponencial de parámetro λ.

20.13 Distribución logı́stica


Dados θ, λ ∈ R , θ > 0, se dice que una variable aleatoria X tiene distribución logı́stica de
parámetros λ, θ si posee fdp dada por:

1 e− (x−λ)/θ
fX (x) = £ ¤
θ 1 + e− (x−λ)/θ 2

En tal caso anotamos X ∼ L(λ, θ). Las gráficas de las fdp logı́sticas asemejan a la gaussiana, pero
con colas más pesadas. Presentemos algunas figuras comparativas:

Prof.J.Gastón Argeri 74
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 75

Familia de densidades logisticas


misma theta, distintas lambda misma lambda, distintas theta
0.4

L(2,1) L(0,0.5)

0.5
L(3,1) L(0,1)
L(5,1) L(0,1.5)
N(0,1) N(0,1)

0.4
0.3

0.3
0.2
y

0.2
0.1

0.1
0.0

0.0

-4 -2 0 2 4 6 8 -4 -2 0 2 4 6 8

x x

Prof.J.Gastón Argeri 75
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 76

Funciones de variables aleatorias

21 Transformaciones de variables aleatorias


21.1 Distribución de una función de una variable aleatoria
Supongamos que un experimento aleatorio está diseñado para estudiar el área de la sección transver-
sal de una población de tubos cilı́ndricos (circulares). Posiblemente cuando se estudia una muestra
aleatoria de tubos se mida el radio de su sección transversal, en lugar del área de dicha sección. Del
mismo modo, podrı́amos conocer la distribución poblacional del radio de un tubo y estar interesados
en investigar la distribución poblacional del área de la sección transversal del mismo. Si anotamos
X a la variable aleatoria ”radio del tubo” e Y a la variable aleatoria ”área de la sección transver-
sal del tubo”, existe una relación funcional determinı́stica entre ambas variables aleatorias, a saber:
Y = πX 2 . Dado que la distribución de X queda determinada por FX , es de esperar que ésta
también determine la distribución FY .

Definición 25 Sean Σ una σ-álgebra de subconjuntos de Ω, X una variable aleatoria sobre


g g(X)
(Ω, Σ) con rango RX y D → R una función con RX ⊆ D. Definimos Ω → R como
def
la función compuesta g(X) = g ◦ X. Es decir, para cada ω ∈ Ω se define (g(X)) (ω) =
(g ◦ X) (ω) = g (X(ω))
Recordemos que B designa la σ-álgebra de Borel en R, es decir la mı́nima σ-álgebra de subconjuntos
de R que contiene a todos los abiertos.
Nos preguntamos qué caracterı́stica debe tener la función g en la def. anterior de modo que g(X) sea
una variable aleatoria sobre (Ω, Σ). Para responder a esta pregunta necesitamos una definición previa.
g
Definición 26 Diremos que una función D → R, con D ⊆ R, es boreliana sii se verifica:

∀B ∈ B , g −1(B) ∈ B

Las funciones continuas son sólo un ejemplo de la amplı́sima variedad de funciones borelianas.

Propiedad 46 Sean X , g como en la primera definición. Anotemos Y = g(X). Si g es una


función boreliana entonces Y es una variable aleatoria sobre (Ω, Σ).
Dem:
Sea B ∈ B. Para ver que Y es variable aleatoria sobre (Ω, Σ) debemos verificar que Y −1(B) ∈ Σ.
Pero:
{Y ∈ B} = Y −1(B) = {ω ∈ Ω : Y (ω) ∈ B} = {ω ∈ Ω : g (X(ω)) ∈ B} =
© ª © ¡ ¢ª
= ω ∈ Ω : X(ω) ∈ g −1(B) = ω ∈ Ω : ω ∈ X −1 g −1(B)
© ª
= X ∈ g −1(B)

Siendo g boreliana y B ∈ ¡B se cumple


¢ g −1(B) ∈ B. Pero puesto que X es variable aleatoria
sobre (Ω, Σ) resulta X −1 g (B) ∈ Σ. Esto demuestra que Y −1(B) ∈ Σ, como deseábamos
−1

ver ¥

Investiguemos la relación entre la fda de X y la fda de Y = g(X) (suponiéndola v.a.). Notemos


ante todo que RY = g (RX ) = {g(x) : x ∈ RX }. Fijado y ∈ R hemos visto que
© ª
{Y ≤ y} = X ∈ g −1 ((− ∞, y])

Prof.J.Gastón Argeri 76
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 77

Por lo tanto: ¡ ¢
FY (y) = P X ∈ g −1 ((− ∞, y])
Ası́, cuando X es v.a.discreta, digamos con RX = {xn }, resulta también Y discreta con RY =
{g(xn )} (Notar que como g no necesita ser 1-1, los valores g(xn ) pueden estar repetidos). Si
anotamos RY = {yn } se tiene:

P ∞
P ∞
P ¡ ¢
FY (y) = pY (yn ) = P (Y = yn ) = P X ∈ g −1 ({yn }) =
n=1 n=1 n=1
yn ≤y yn ≤y yn ≤y


P
= pX (xn )
n=1
g(xn )≤y

Análogamente:
¡ ¢ ∞
P
pY (yn ) = P (Y = yn ) = P X ∈ g −1(yn ) = P (X = xn ) =
n=1
g(xn )=yn


P
= pX (xn )
n=1
g(xn )=yn

En cambio, si X es v.a. continua con fdp fX , resulta:


¡ ¢ R
FY (y) = P X ∈ g −1 ((− ∞, y]) = fX (x) dx
g −1 ((− ∞,y])

En este caso no queda claro si Y posee fdp. Esta situación se analizará más adelante. Por ahora nos
dedicaremos a presentar algunos ejemplos concretos de lo que acabamos de ver.
Nota: Cuando X discreta, la función g no necesita ser boreliana puesto que en este caso es
Σ = P(Ω).

Ejemplo: Sea X ≈ Bi(n, p). Para fijar ideas podemos pensar en n lanzamientos independientes e
idénticos de una moneda, con probabilidad de salir cara en cada lanxamiento igual a p, donde X mide
la cantidad de caras que salen. Sea Y la cantidad de cecas que se obtienen. Entonces Y = n − X.
Acá g(x) = n − x. Como RX = {0, 1, · · · , n} resulta RY = RX . Para k ∈ RY se tiene:

pY (k) = P (Y = k) = P (n − X = k) =
¡ n ¢ n−k ¡n¢
= P (X = n − k) = pX (n − k) = n−k
p (1 − p)k = k
(1 − p)k pn−k

Esto muestra (aunque es obvio) que Y ≈ Bi(n, 1 − p).


1
Ejemplo: Sea X ≈ E(λ). Determinemos la distribución de Y = X
. Evidentemente RY = (0, ∞).
Se tiene para y > 0:
¡1 ¢ ³ ´
1
FY (y) = P (Y ≤ y) = P X
≤y =P X≥ y
=


R ¯∞
= λe− λx dx = − e− λx¯1/y = e− λ/y
1/y

Por lo tanto:
λe− λ/y
fY (y) = FY0 (y) = (para Y > 0)
y2

Prof.J.Gastón Argeri 77
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 78

Ejemplo: Sea X ≈ N (0, 1). Definamos Y = X 2 . Hallemos la fda de Y . Naturalmente RY =


(0, ∞). Fijado y > 0 se tiene:
p √ √
FY (y) = P (Y ≤ y) = P (X 2 ≤ y) = P (|X| ≤ (y)) = P (− y ≤ X ≤ y) =

Ry 2 /2 √ √ √
= √1 · e− x dx = Φ( y) − Φ(− y) = 2Φ( y) − 1
√ 2π
− y

Luego: √ √
¡ √ ¢0 2ϕ( y) ϕ( y)
fY (y) = FY0 (y) = 2Φ( y) − 1 = √
2 y
= √
y
=

= √1 · y − 1/2e−y/2 (para y > 0)


Habrán reconocido que ésta es la fdp de una v.a. chi-cuadrado con 1 grado de libertad, verdad? Es
decir:
X ≈ N (0, 1) ⇒ X 2 ≈ χ2 (1)

Hay dos casos donde la relación entre FX y FY es muy sencilla: Cuando la función g es estrictamente
g −1
monótona sabemos que existe la función inversa g(D) → D la cual verifica:

• ∀x ∈ D , g −1 (g(x)) = x
¡ ¢
• ∀y ∈ g(D) , g g −1(y) = y

Consideremos por separado los casos g creciente y g decreciente:

• Cuando g es creciente también g −1 lo es. En efecto: Si y, u ∈ g(D) , y < u entonces


no puede ser g −1(y) ≥ g −1(u) porque en tal caso, sabiendo que g crece resultarı́a la con-
tradicción y = g(g −1(y)) ≥ g(g −1(u)) = u. Luego, necesariamente es g −1(y) < g −1(u).
Por lo tanto podemos reescribir:

X ∈ g −1 ((− ∞, y]) ⇔ g(X) ∈ (− ∞, y] ⇔ g(X) ≤ y ⇔ g −1 (g(X)) ≤ g −1(y)

⇔ X ≤ g −1(y)

Entonces se obtiene:

FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1(y)) = FX (g −1(y))

Dicho de otro modo: FY = FX ◦ g −1

• Cuando g es decreciente también g −1 lo es (sencillo de demostrar) y en tales casos la relación


entre FX y FY viene dada por: FY (y) = 1 − lim FX (t). Si además FX es continua
t % g −1 (y)
en el punto x = g −1(y) esto se simplifica aún más: FY (y) = 1 − FX (g −1(y))

Teorema 8 Sea X ∼ N (µ, σ 2 ) y sean a, b ∈ R , a 6= 0. Entonces:

Y = aX + b ∼ N (aµ + b, a2 σ 2 )

Prof.J.Gastón Argeri 78
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 79

Dem:
Consideremos primeramente el ³caso a > ´ ³ F´Y (y) = P (Y ≤ y) = P (aX + b ≤
0. Se tiene:
y−b
y) = P (aX ≤ y − b) = P X ≤ a = FX y−b a
. Esto mismo se podı́a obtener a partir
de g(x) = ax + b hallando la inversa: g³−1(y)´ = (y − b)/a. Entonces según las observaciones
anteriores es FY (y) = FX (g −1(y)) = FX y−b
a
.
Luego, derivando respecto de y se obtiene:
µ y−b ¶2
³ ´ a −µ y−(aµ+b) 2
³ ´
y−b − 1/2 − 1/2
1 0 1 √1 σ
√ 1
fY (y) = a
FX a
= a
e = e aσ
2π σ 2π aσ

Pero esta es precisamente la fdp N (aµ + b, a2 σ 2 )


Ahora consideremos
³ el caso ´ FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤
´ a < 0. Se³ tiene:
y−b y−b
y − b) = P X ≥ a = 1 − FX a
. Por lo tanto, derivando respecto de y se tiene:
µ y−b ¶2
³ ´ a −µ y−(aµ+b) 2
³ ´
y−b − 1/2 − 1/2
− a1 1 √1 √ 1
0 σ
fY (y) = FX a
= |a|
e = e |a|σ
2π σ 2π |a|σ

Reconocemos aquı́ nuevamente la fdp N (aµ + b, (|a| σ)2 ) es decir N (aµ + b, a2 σ 2 ) ¥

Corolario 6
X −µ
X ∼ N (µ, σ 2 ) ⇔ ∼ N (0, 1)
σ
Nota: A partir de una variable aleatoria X ∼ N (µ, σ 2 ), el proceso de restarle mu y dividir el
resultado por σ, es decir obtener la nueva variable aleatoria Z = X−µ
σ
, se denomina standarizar X.
O sea, Z es la standarización de X.

Ejemplo: Si X ∼ N (2, 9) calcular:

a) P (1 < X < 5)
Rta: ³ ´
P (1 < X < 5) = P 1−2 3
< X−2
3
< 5−2
3
= P (− 1/3 < Z < 1) = Φ(1) − Φ(− 1/3) ≈
0.841 − 0.369 = 0.472

b) P (|X − 3| > 6)
Rta:
P (|X − 3| > 6) = 1 − P (|X − 3| ≤ 6) = 1 − P (−6 ≤ X − 3 ≤ 6) =
³ ´
−3−2 X−2 9−2
= 1 − P (−6 + 3 ≤ X ≤ 6 + 3) = 1 − P 3
≤ 3
≤ 3
=

= 1 − P (−5/3 ≤ Z ≤ 7/3) = 1 − [Φ(7/3) − Φ(−5/3)] ≈

≈ 1 − 0.990 + 0.048 = 0.058

g
Teorema 9 (Teorema de cambio de variables) Sea [c, d] → R diferenciable con continuidad
en [c, d] (es decir g 0 existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verifica:
Z g(d) Z d
f (x) dx = f (g(t)) g 0 (t) dt
g(c) c

Prof.J.Gastón Argeri 79
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 80

Nota: Siendo g continua en [c, d] resulta g ([c, d]) intervalo. Este intervalo contiene al intervalo
de extremos g(c) y g(d).
Dem:
g 0 ,f ◦g G F
Por hipótesis las funciones [c, d] −→ R son continuas. Definamos [c, d] → R y g ([c, d]) → R por
Rt Rx
G(t) = c f (g(s)) g 0 (s) ds ; F (x) = g(c) f (w) dw

Por el teorema fundamental del cálculo se tiene:


G0 (t) = f (g(t)) g 0 (t) para todo t ∈ [c, d]
F 0 (x) = f (x) para todo x ∈ g ([c, d])

Las funciones G y F ◦ g son dos primitivas de (f ◦ g)g 0 en [c, d]. Por lo tanto existe alguna
constante k tal que G = F ◦ g + k. Pero evaluando en t = c resulta G(c) = 0 = F (g(c)). Luego
k = 0. Entonces G = F ◦ g. En particular, tomando t = d se obtiene lo deseado ¥

Corolario 7 Sea X una v.a. continua con fdp fX . Anotemos SX al soporte de fX y supongamos
que es un intervalo. Sea g una función continua y estrictamente monótona en § X . Definamos
def
SY = g(SX ). Supongamos que g −1 es diferenciable con continuidad en SY Entonces la variable
aleatoria Y = g(X) es continua y su fdp viene dada por:
 ¯ ¢¯¯
¯d ¡
 fX (g −1(y)) · ¯ dy g −1(y) ¯ si y ∈ RY

fY (y) =


0 si y 6∈ RY

Dem:
Consideremos el caso en que g es estrictamente decreciente en RX Como g es continua re-
sulta que g(RX ) es un intervalo. Anotemos IX e IY a las funciones indicadoras de SX y
de SY respectivamente. Entonces:

FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (g(X) ≤ y, X ∈ RX ) = P (X ≥ g −1(y)) =


R∞ R −∞ ¡ ¢¡ ¢0
= g −1 (y) fX (x)IX (x) dx = y fX g −1(y) g −1 (y)IY (y) dy =
Ry ¡ ¢ d
¡ −1 ¢
= − −∞ fX g −1(y) dy
g (y) IY (y) dy =

Ry ¡ ¢h d
¡ ¢i
= −∞ fX g −1(y) − dy
g −1(y) IY (y) dy =

Ry ¡ ¢ ¯¯ d ¡ −1 ¢¯¯
= −∞ fX g −1(y) ¯ dy g (y) ¯ IY (y) dy

El otro caso es similar ¥

Ejemplo: Veamos que si X ∼ U (0, 1) entonces Y = − ln(1 − X) ∼ E(1)


Notemos que SX = (0, 1) Además en este caso Y = g(X) siendo y = g(x) = − ln(1 − x) Esta
función es estrictamente creciente en SX como puede comprobarse vı́a gráfica o evaluando el signo
g
de g 0 en S¡X Se tiene:
¢ (0, 1) → (0, ∞) , g −1(y) = 1 − e− y es diferenciable con continuidad,
d
siendo dy g −1(y) = e− y Por el teorema resulta:

fY (y) = fX (1 − e− y )e−y I(0,∞) (y) = e−y I(0,∞) (y)

que es precisamente la densidad de una E(1)

Ejemplo: Mostrar que si X ∼ U (0, 1) entonces Y = βX 1/α ∼ W(α, β)

Prof.J.Gastón Argeri 80
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 81

g
Se tiene SX = (0, ∞) En este caso (0, ∞) → ¡(0, ∞) es ¢ estrictamente creciente con inversa
d
continuamente diferenciable: g −1(y) = (y/β)α , dy g −1(y) = βαα y α−1 Por el teorema se tiene:

α α
fY (y) = fX ((y/β)α) · y α−1I(0,∞) (y) = y α−1I(0,∞) (y)
βα βα

que es precisamente la densidad W(α, β)

Ejemplo: Si X ∼ U (0, 1) y si Φ es la fda normal standard entonces Y = Φ−1(X) ∼ N (0, 1)


Por ejemplo con Splus o R podrı́amos generar n = 100 observaciones normales standard del modo
siguiente:
x_runif(100)
y_qnorm(x)
y
qqnorm(y)
qqline(y)
cuyo resultado es:
> y
[1] 1.439656209 -0.153820818 -0.973364545 -2.670822995 1.573157002
[6] -1.515236540 -0.017587315 -0.277855490 1.522914668 0.805903825
[11] 1.390965278 1.081745384 -0.940007847 1.806211842 1.385184211
[16] 0.789081143 -0.572512513 -0.426706851 -1.619519525 -0.163684787
[21] 0.363264580 3.509691190 -0.358246089 -0.618651099 -0.440391503
[26] -0.463496951 -0.528399068 0.343278381 -0.798728454 -0.858057270
[31] -0.114529089 0.014408313 0.711339651 -0.702370373 1.151716769
[36] 1.222205661 0.553613844 -1.291154983 1.576725352 1.274922705
[41] 2.373343271 0.023516669 -1.179085855 0.376860986 0.837743375
[46] 0.638265270 0.200955245 -1.227181790 0.226847841 0.092363984
[51] -0.202351448 -1.194020555 -0.031555431 -0.276199872 -0.522546189
[56] -0.821240291 -0.829233179 -1.420151004 -0.018863978 1.071702472
[61] 0.952116827 -0.481977529 0.013052120 2.576981022 -0.240945446
[66] 1.061576194 -0.429587065 1.177723298 1.517133775 0.747041757
[71] -0.302776745 -0.606648062 0.159249318 -0.727483736 -0.209902629
[76] -1.468940054 -0.384172801 -1.107982526 1.475101839 0.794312989
[81] -1.684586480 -0.847926953 0.244018386 -0.143598695 0.614903554
[86] 0.592337464 0.417235128 1.225940136 1.156041361 0.214837671
[91] -0.005689715 -0.291107554 1.142520415 -0.036015666 1.284851222
[96] 0.343150051 0.431397104 -0.260146350 -0.297678363 0.857941106
3
2
1
y

0
-1
-2

-2 -1 0 1 2

Quantiles of Standard Normal

Prof.J.Gastón Argeri 81
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 82

El teorema anterior tiene el inconveniente de requerir la monotonı́a de g Presentamos a continuación


una versión menos restrictiva del mismo teorema.

Teorema 10 ddd

Prof.J.Gastón Argeri 82
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 83

Esperanza y varianza

22 Valor esperado de una variable aleatoria


22.1 Motivación
Los ejemplos siguientes aclaran la situación que vamos a considerar.

Ejemplo: Una prueba es calificada en una escala de puntajes 0, 1, 2, 3. Un curso de 35 alumnos


realiza la prueba, con los siguientes resultados (en la tabla X indica el puntaje):

Al. X Al. X Al. X Al. X Al. X


1 2 8 1 15 2 22 1 29 0
2 1 9 2 16 2 23 1 30 1
3 1 10 1 17 1 24 2 31 1
4 0 11 1 18 2 25 1 32 2
5 2 12 1 19 1 26 1 33 2
6 2 13 0 20 1 27 2 34 2
7 2 14 3 21 0 28 1 35 1

Supongamos que se extrae al azar un alumno entre los 35 evaluados ¿ Qué puntaje se espera observar?
Dicho en otro términos, ¿ qué número podemos tomar como representativo del puntaje del curso?
Naturalmente esperamos que el puntaje promedio del curso sirva a tales efectos. Sea X la variable
aleatoria que mide el puntaje (de un alumno, en nuestro experimento aleatorio de extraer un alumno
al azar y observar su puntaje). El rango de X es RX = {0, 1, 2, 3}. El puntaje promedio del curso
es (n = 35):
2+1+1+0+2+2+2+1+2+1+1+1+0+3+2+2+1+2+1+1+0+1+1+2+1+1+2+2+1+1
X̄ = 35

Para calcular el numerador de esta expresión podemos agrupar puntajes iguales, es decir que podemos
agrupar de acuerdo a los distintos valores de la variable aleatoria X. Entonces el cálculo anterior
adopta la forma:
X̄ = 0·f (X=0)+1·f (X=1)+2·f35
(X=2)+3·f (X=3)
=

0·4+1·18+2·12+3·1
= 35
En los cálculos f (k) = f (X = k) representa la frecuencia del valor X = k (k = 0, 1, 2, 3). Si
ahora distribuimos el denominador, se obtiene:
0·4+1·18+2·12+3·1 4 18 12 1
X̄ = 35
=0· 35
+1· 35
+2· 35
+3· 35
=

= 0 · f (X=0)
35
+1· f (X=1)
35
+2· f (X=2)
35
+3· f (X=3)
35
=
=
Pn
= k · f (X=k)
n
k=0

Ahora bien, los números f (X=k)


n
vienen dados precisamente por la fmp de X, es decir pX (k) =
P (X = k). Entonces obtenemos el siguiente resultado:
n
P n
P P
X̄ = k · pX (k) = k · P (X = k) = k · P (X = k)
k=0 k=0 k∈RX

Ejemplo: Supongamos (para modelizar) que la altura X de un individuo adulto de cierta población

Prof.J.Gastón Argeri 83
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 84

sigue una distribución N (1.70, 0.01). Si se extrae un individuo al azar de esta población, ¿ qué
altura esperada tendrá? Es decir, ¿ qué número podrı́amos tomar como representativo de la altura de
un individuo en dicha población? A diferencia del ejemplo anterior, en este caso la variable aleatoria
X es continua. Podemos considerar un rango razonable [L, U ] de alturas (por ejemplo podrı́amos
tomar L = 1, U = 2 por decir algo). Dividamos este intervalo [L, U ] en cierta cantidad n de
subintervalos, mediante una partición regular:

L = x o < x1 < · · · < x n = U

y llamemos h a la norma de esta partición, es decir h = (U − L)/n. Recordemos que:

P (x ≤ X < x + h)
fX (x) = lim
h → 0+ h
Por lo tanto podemos escribir:

P (x ≤ X < x + h) = hfX (x) + o(h) para h → 0+

o aproximadamente para h pequeño: P (x ≤ X < x + h) ≈ hfX (x). En cada subintervalo


[x, x + h) es razonable considerar a x o a cualquier otro valor en tal intervalo, como represetativo
de las alturas allı́ (h pequeño). Luego, imitando los cálculos del ejemplo anterior, tomarı́amos como
altura representativa aproximada:
n
X n
X n
X
xk P (xk−1 ≤ X < xk ) ≈ xk fX (xk )h = xk fX (xk ) · h
k=1 k=1 k=1

El cálculo resultará más representativo cuanto más pequeño sea h. En el lı́mite el cálculo resultará
exacto. Pero de acuerdo a la definición de integral definida se tiene:
n
X Z U
lim xk fX (xk ) · h = xfX (x) dx
h → 0+ L
k=1

Pero hemos introducido un intervalo ”razonable” de alturas posibles. Si nos atenemos estrictamente
a nuestro modelo N (1.70, 0.01), no hay razones por las cuales no debamos considerar cualesquiera
posibles valores de X en su rango RX = R (recordemos que esto es sólo un modelo para la población
real). Entonces lo lógico será tomar como representativo de la altura de la población al número:
Z ∞
xfX (x) dx
−∞

22.2 Definición y ejemplos


Definición 27 Sea X una variable aleatoria discreta con rango RX = {xk } (finito o infinito
numerable) y sea pX su fmp. Se define el valor esperado o la esperanza de X como el número real:
X X
E(X) = xP (X = x) = xpX (x)
x∈RX x∈RX

siempre y cuando la serie converja absolutamente. En caso contrario se dice que X no posee esperanza
o que la esperanza de X no está definda. Al hablar de convergencia absoluta queremos significar que
la serie de los valores absolutos debe converger (suma finita), es decir:
X
|x| pX (x) < ∞
x∈RX

Prof.J.Gastón Argeri 84
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 85

Nota: Cuando RX es finito siempre existirá E(X) puesto que la serie en cuestión sólo consta de
un número finito de términos.

Definición 28 Sea X una variable aleatoria continua y sea fX su fdp. Se define el valor esperado
o la esperanza de X como el número real:
Z∞
E(X) = xfX (x) dx
−∞

siempre y cuando la integral converja absolutamente. En caso contrario se dice que X no posee
esperanza o que la esperanza de X no está definda.
Nota: La integral puede ser propia o impropia, dependiendo de las caracterı́sticas y del soporte de f X .
En todo caso, siempre debe analizarse su covergencia. Al hablar de convergencia absoluta queremos
significar que la integral del valor absoluto debe converger (valor finito), es decir:
Z∞
|x| fX (x) dx < ∞
−∞

Vamos a ilustrar estas definiciones calculando la esperanza de algunas de las distribuciones que hemos
introducido anteriormente. Calcularemos también la esperanza del cuadrado de cada variable aleatoria,
dado que nos resultará útil en el futuro (cuando definamos el concepto de varianza de una variable
aleatoria)

Ejemplo: Geométrica
Sea X ∼ G(p). En este caso RX = N. Anotemos q = 1 − p. La esperanza se calcula como:

X ∞
X ∞
X
E(X) = kP (X = k) = kq k−1p = p kq k−1
k=1 k=1 k=1

Para sumar esta serie podemos recurrir al truco siguiente (que ya hemos utilizado):

X 1
S(q) = qk = (11)
k=0
1−q

Derivado respecto de q (justificarán el intercambio de derivada con suma en alguno de los cursos de
Análisis Matemático) se obtiene:
∞ µ ¶
0
X
k−1 d 1 1 1
S (q) = kq = = 2
= 2
k=1
dq 1 − q (1 − q) p

Luego:
1 1
E(X) = p =
p2 p
Por otra parte:

X ∞
X ∞
X
E(X 2 ) = k2 P (X = k) = k2 q k−1p = p k2 q k−1
k=1 k=1 k=1

Para hallar la suma de esta serie, derivemos (11) pero en este caso dos veces:
∞ µ ¶
00
X
k−2 d 1 2 2
S (q) = k(k − 1)q = 2
= 3
= 3
k=2
dq (1 − q) (1 − q) p

Prof.J.Gastón Argeri 85
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 86

Si separamos la suma obtenemos:


∞ ∞
µ ∞ ∞

P P P P
S 00 (q) = k2 q k−2 − kq k−2 = q −1 k2 q k−1 −1− kq k−1 =
k=2 k=2 k=1 k=2
· ∞
¸
P
= q −1 k2 q k−1 −1− (S 0 (q) − 1) =
k=1
µ ∞

P
= q −1 k2 q k−1 − S 0 (q)
k=1

Despejando:

X 2q 1 2q + p
k2 q k−1 = qS 00 (q) + S 0 (q) = + =
k=1
p3 p2 p3
Por lo tanto:

X 2q + p
E(X 2 ) = p k2 q k−1 =
k=1
p2
Ejemplo: Binomial
Sea X ∼ Bi(n, p). En este caso RX = {0, 1, · · · , n}. Anotemos q = 1 − p. Entonces:
n
P ¡n¢ n
P n
P
kn! n(n−1)!
E(X) = k k
pk q n−k = k!(n−k)!
pk q n−k = (k−1)!(n−k)!
pk q n−k =
k=0 k=1 k=1

n ¡ n ¡
P n−1¢ P n−1¢
= np k−1
pk−1q n−k = np k−1
pk−1q n−k =
k=1 k=1

= np(p + q)n−1 = np

Para calcular la esperanza del cuadrado de una binomial:


n ¡n¢ k n−k n ¡ ¢ k n−k n
P P P k2 n!
E(X 2 ) = k2 k
p q = k2 n
k
p q = k!(n−k)!
pk q n−k =
k=0 k=1 k=1

n
P n
P ¡n−1¢ k−1 n−k
nk(n−1)!
= (k−1)!(n−k)!
pk q n−k = np k k−1
p q =
k=1 k=1
· n n ¡
¸
P ¡n−1¢ P n−1¢ k−1 n−k
= np (k − 1) k−1
pk−1q n−k + k−1
p q =
k=1 k=1

· n
¸ ·n−1 ¸
P ¡n−1¢ P ¡n−1¢ s n−1−s
= np (k − 1) k−1
pk−1q n−k + 1 = np s s p q +1 =
k=1 s=0

= np [(n − 1)p + 1] = np(np + 1 − p) = np(np + q)

donde hemos utilizado que la última suma entre corchetes es la expresión de la esperanza de una
Bi(n − 1, p), es decir (n − 1)p.

Ejemplo: Poisson S
Sea X ∼ P(λ) de modo que RX = N {0}. Calculemos su esperanza:
∞ ∞ ∞
X λk −λ −λ
X λk−1 −λ
X λs
E(X) = k e = λe = λe = λe− λeλ = λ
k=0
k! k=1
(k − 1)! s=0
s!

Prof.J.Gastón Argeri 86
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 87

Calculemos la esperanza de su cuadrado:


∞ ∞ ∞
P λk P λk−1 P λs
E(X 2 ) = k2 k!
e− λ = λe− λ k (k−1)!
= λe− λ (s + 1) s!
=
k=0 k=1 s=0
· ∞ ∞
¸
P λs P λs
¡ ¢
= λ s s!
e− λ + e− λ s!
= λ λ + e− λeλ = λ(1 + λ)
s=0 s=0

Ejemplo: Gaussiana standard


Sea X ∼ N (0, 1). Su esperanza se calcula como:
Z ∞ Z ∞
1 2 1 2
E(X) = x√ e− x /2 dx = √ x e− x /2 dx
−∞ 2π 2π − ∞

Afortunadamente el integrando posee primitiva elemental. En efecto: Sustituyendo t = −x 2 /2 se


tiene dt = − x dx
Z Z
− x2 /2 2
xe dx = − et dt = −et + C = −e− x /2 + C

Por lo tanto: Rb 2 /2 2 /2
0 x e− x dx = 1 − e− b −→ 1
b →∞

R0 2 /2 2 /2
a x e− x dx = e− a − 1 −→ −1
a →− ∞
R∞ − x2 /2
De manera que: − ∞ x e dx = −1 + 1 = 0. Esto muestra que E(X) = 0
2
Calculemos ahora E(X ), es decir:
Z ∞ Z ∞
1 2 1 2
E(X 2 ) = x2 √ e− x /2 dx = √ x2 e− x /2 dx
−∞ 2π 2π − ∞
2
RPlanteamos la integral indefinida por partes: u = x , dv = xe− x /2 dx. Entonces: du = dx , v =
− x2 /2 2
xe dx = −e− x /2 . Luego:
Z Z
2 − x2 /2 − x2 /2 2
x e dx = xe + e− x /2 dx

Por lo tanto:
Z b ¯b Z b Z b
2 2 2 /2 2 /2 2 /2 2 /2
x2 e− x /2 dx = xe− x /2 ¯ + e− x dx = be− b − ae− a e− x
¯
+ dx
a a a a

Luego: R0 R0
2 /2 2 /2
a x2 e − x dx −→ + −∞ e− x dx
a →− ∞

Rb 2 /2 R∞ 2 /2
0 x2 e − x dx −→ + 0 e− x dx
b →∞

Por lo tanto: Z Z

2 − x2 /2

2 /2 √
x e dx = e− x dx = 2π
−∞ −∞

Finalmente: Por lo tanto:


Z
21 ∞
2 /2 1 √
E(X ) = √ x2 e − x dx = √ 2π = 1
2π −∞ 2π

Prof.J.Gastón Argeri 87
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 88

Ejemplo: Exponencial
Sea X ∼ E(λ). Calculemos su esperanza:
Z ∞ Z ∞
− λx
E(X) = xλe dx = λ xe− λx dx
0 0

Planteamos la integral indefinida por partes: u = x , dv = λe− λx dx


Z Z
1
xe− λx dx = −x e− λx + e− λx dx = −x e− λx − e− λx
λ
Entonces: ¯∞ 1 − λx¯¯∞ 1
E(X) = − x e− λx¯ −
¯
e ¯ =
0 λ 0 λ
En cuanto a la esperanza del cuadrado, planteamos:
Z ∞ Z ∞
2 2 − λx
E(X ) = x λe dx = λ x2 e− λx dx
0 0

Nuevamente acá planteamos la integral indefinida por partes: u = x2 , dv = λe− λx dx


Z Z
2 − λx 2 − λx
x e dx = −x e +2 xe− λx dx

Entonces:
R∞ ¯∞ R∞ R∞
E(X 2 ) = 0 x2 e− λx dx = − x2 e− λx¯0 + 2 0 xe− λx dx = 2 0 xe− λx dx =

E(X)
= 2 λ
= 2/λ2

Ejemplo: Binomial negativa


Sea X ∼ BN (r, p). Su esperanza se calcula como:

P ¡k−1¢ ∞
P k(k−1)!
E(X) = k r−1
pr q k−r = (r−1)!(k−r)!
pr q k−r =
k=r k=r


P ∞ ¡ ¢
P
k! k
= r r!(k−r)!
pr q k−r = r r
pr q k−r =
k=r k=r

∞ µ ¶
r
∞ ¡ ¢
P k r
X s−1 r
= p r
pr+1 q k−r = p
pr+1 q s−(r+1) = p
k=r s=r+1
(r + 1) − 1
| {z }
1

Para hallar la esperanza del cuadrado:



P ¡k−1¢ r k−r ∞
P rkk!
E(X 2 ) = k2 r−1
p q = r!(k−r)!
pr q k−r =
k=r k=r


P ¡k ¢ ∞
P ¡s−1¢
= r k r
pr q k−r = r (s − 1) r
pr+1 q s−r−1 =
k=r s=r+1

 
 ∞ µ ¶ ∞ µ ¶ 
r
 X s − 1 X s − 1 
r
³
r+1
´
pr+1 q s−r−1 − pr+1 q s−r−1 =
 
= p  s p p
−1
 r r 
s=r+1 s=r+1 
| {z } | {z }
(r+1)/p 1

Prof.J.Gastón Argeri 88
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 89

Ejemplo: Gama
Sea X ∼ Γ(α, λ). Calculemos su esperanza:
R∞ λα
R∞ λα
E(X) = 0 x Γ(α) xα−1 e− λx dx = 0 Γ(α)
x(α+1)−1 e− λx dx =

α
R∞ λα+1 α
= λ 0 Γ(α+1)
x(α+1)−1 e− λx dx = λ

En cuanto a la esperanza del cuadrao, los cálculos son similares:


R∞ λα
R ∞ λα (α+2)−1 − λx
E(X 2 ) = 0 x2 Γ(α) xα−1 e− λx dx = 0 Γ(α) x e dx =

α(α+1) R∞ λα+2 α(α+1)


= λ2 0 Γ(α+2)
x(α+2)−1 e− λx dx = λ2

Ejemplo: Beta
Sea X ∼ Be(α, β). Su esperanza viene dada por:
R1 1
R1 1
E(X) = 0 x B(α,β)
xα−1 (1 − x)β−1 dx = 0 B(α,β)
x(α+1)−1 (1 − x)β−1 dx =
R1 1 α
R1 1 α
= 0 B(α,β)
x(α+1)−1 (1 − x)β−1 dx = α+β 0 B(α+1,β)
x(α+1)−1 (1 − x)β−1 dx = α+β

Calculemos la esperanza de su cuadrado:


R1 1
R1 1
E(X 2 ) = 0 x2 B(α,β) xα−1 (1 − x)β−1 dx = 0 B(α,β)
x(α+2)−1 (1 − x)β−1 dx =

α(α+1) R1 1 α(α+1)
= (α+β)(α+β+1) 0 B(α+2,β)
x(α+2)−1 (1 − x)β−1 dx = (α+β)(α+β+1)

Ejemplo: Hipergeométrica
Sea X ∼ H(n, D, N ). Sean m = max {0, n − N + D} , M = min {n, D}. Entonces si anota-
mos m∗ = max {0, (n − 1) − (N − 1) + (D − 1)} , M ∗ = min {n − 1, D − 1} resulta:
½
∗ 0 si m = 0
m = = max {m − 1, 0} = max {m, 1} − 1 ; M∗ = M − 1
m − 1 si m ≥ 1

La esperanza de X viene dada por:


M
P (Dk)(Nn−k
−D
) M
P (Dk)(Nn−k
−D
)
E(X) = k N = k N =
k=m (n) k=max{m,1}
(n)

M (N −1)−(D−1) M (N −1)−(D−1)
n P D (D−1
k−1 )( (n−1)−(k−1) ) nD P (D−1
k−1 )( (n−1)−(k−1) )
= = =
N
k=max{m,1}
(N −1
n−1 )
N
k=max{m,1}
(N −1
n−1 )

nD
MP
−1 (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) D
= = =n
N
s=max{m,1}−1
(N −1
n−1 ) N
s=m∗ (N −1
n−1 ) N

Prof.J.Gastón Argeri 89
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 90

Calculemos la esperanza de su cuadrado:


M
P (Dk)(Nn−k
−D
) M
P (Dk)(Nn−k
−D
)
E(X 2 ) = k2 N = k2 N =
k=m (n) k=max{m,1}
(n)

M (N −1)−(D−1) M (N −1)−(D−1)
n P D (D−1
k−1 )( (n−1)−(k−1) ) nD P (D−1
k−1 )( (n−1)−(k−1) )
= k N −1 = k =
N
k=max{m,1}
( n−1 ) N
k=max{m,1}
(N −1
n−1 )

nD
MP
−1 (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s )
= N
(s + 1) N −1 = N
(s + 1) N −1 =
s=max{m,1}−1
( n−1 ) s=m∗ ( n−1 )

· ¸
nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) P∗ (D−1
M
s )(
(N −1)−(D−1)
(n−1)−s )
= s + =
N
s=m∗ (N −1
n−1 ) s=m∗ (N −1
n−1 )

h i ³ ´
nD D−1 nD (n−1)(D−1)+(N −1) D D−1
= N
(n − 1) N −1
+1 = N N −1
=n N
1 + (n − 1) N −1
=
³ ´ ³ ´
N n(D−1) D D
= N −1
1+ N −D
n N
1− N

Ejemplo: Chi cuadrado


¡ 1¢
Sea X ∼ χ2 (n) = Γ n , . Entonces por lo visto para la gamma, se tiene:
2 2
n
n/2 ( n2 +1)
E(X) = 1/2
=n ; E(X 2 ) = 2
(1/2)2
= n(n + 2)

Ejemplo: Uniforme
Sea X ∼ U (a, b). En este caso:
Rb Rb ¯b
1 1 1 x2 ¯ b2 −a2 (b−a)(b+a) a+b
E(X) = a x b−a
dx = b−a a x dx = b−a 2 ¯a
= 2(b−a)
= 2(b−a)
= 2

¯b
Rb 1 1
Rb 1 x3 ¯ b3 −a3 (b−a)(a2 +ab+b2 ) a2 +ab+b2
E(X 2 ) = a x2 b−a
dx = b−a a x2 dx = b−a 3 ¯a
= 3(b−a)
= 3(b−a)
= 3

Ejemplo: t de Student
Sea X ∼ t(n). Para calcular su esperanza observemos antes algunas particularidades. Debemos
analizar ante todo la convergencia de la integral impropia. Por simetrı́a y dado que dicha integral

es propia en el origen, vamos a estudiarla en [ n, ∞). De hecho, para que nos sirva después,
estudiaremos la convergencia de la siguiente (un poco más general):
Z ∞ xk
Ik,n = √ ³ ´ dx
n x 2 (n+1)/2
1+ n

Hacemos el cambio de variables (para deshacernos del n ”molesto”): t = x/ n. Entonces dt =

dx/ n. Luego:
Z ∞
(k+1)/2 tk
Ik,n = n dt
1 (1 + t2 )(n+1)/2
Pero si t ≥ 1 se cumple:
tk tk 1
• ≤ tn+1
= tn+1−k
pues 1 + t2 ≥ t2
(1+t2 )(n+1)/2

tk tn tn 1
• tk
≥ ≥ = pues 1 + t2 ≤ t2 + t2 = 2t2
(1+t2 )(n+1)/2 (2t2 )(n+1)/2 2(n+1)/2 t
(1+t2 )(n+1)/2

Prof.J.Gastón Argeri 90
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 91

Luego: Ik,n es convergente sii n + 1 − k > 1 sii k < n. Deducimos inmediatamente que si
X ∼ t(1) entonces X carece de esperanza (finita). Si X ∼ t(2) entonces E(X) existe pero
E(X 2 ) no existe. En cambio si X ∼ t(n) con n ≥ 3 entonces existen E(X) y E(X 2 ).
Γ( n+1 )
Vamos a calcularlas: Para alivianar notación denotemos An = Γ n 2√nπ . Tengamos presente que
(2)
por definición de fdp (su integral sobre toda la recta es 1 ) se tiene para n ∈ N:
Z ∞ Z ∞
dt − 1/2 dx ³
1/2
´−1
(n+1)/2
= n ³ ´ = n A n
−∞ (1 + t2 ) 2 (n+1)/2
−∞
1 + xn

Entonces usando consecutivamente las sustituciones t = x/ n , s = 1 + t2 se obtiene para n ≥ 2:
R∞ x
R∞ t
E(X) = An − ∞ ³ 2
´ (n+1)/2 dx = nA n −∞ 2 (n+1)/2
dt =
1+ xn (1+t )

hR R∞ i
0 t t
= nAn − ∞ (1+t2 )(n+1)/2 dt + 0 dt =
(1+t2 )(n+1)/2

hR R∞ i h R R∞ i
1 0 ds ds 1 ∞ ds ds
= 2
nAn ∞ s(n+1)/2 + 0 s(n+1)/2
= 2
nAn − 0 s(n+1)/2
+ 0 s(n+1)/2
=0

Análogamente, para n ≥ 3 se tiene:


R∞ x2
R∞ t2
E(X 2 ) = An −∞ ³ 2
´ (n+1)/2 dx = n3/2 An − ∞ (1+t2 )(n+1)/2 dt =
1+ xn

R∞ (1+t2 )−1
= n3/2 An − ∞ (1+t2 )(n+1)/2 dt =

hR R∞ i
∞ 1 1
= n3/2 An − ∞ (1+t2 )(n−1)/2 dt − − ∞ (1+t2 )(n+1)/2 dt =

h i
1 1
= n3/2 An (n−2)1/2 An−2
− n1/2 An
=
·³ ´1/2 ¸
n An
= n n−2 An−2
−1

Utilizando
£ las propiedades
¤ de la función gamma se puede verificar fácilmente que A n /An−2 = (n −
1)/ n(n − 2)1/2 . Reemplazando resulta:
½³ ´1/2 ¾ ³ ´
n n−1 n−1 n
E(X 2 ) = n n−2 1/2 − 1 = n n−2
− 1 = n−2
[n(n−2)]

Ejemplo: F de Fisher-Snedecor
El cálculo de E(X) y E(X 2 ) es un poco engorroso y lo omitiremos. El resultado es el siguiente:
n
E(X) = n−2
para n ≥ 3
³ ´2 h i
n m+n−2
E(X 2 ) = n−2
1 + 2 m(n−4) para n ≥ 5

Ejemplo: Lognormal
Sea X ∼ logN (µ, σ). Calculemos su esperanza: Para la integral realizamos la sustitución t = ln x.

Prof.J.Gastón Argeri 91
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 92

Luego: dt = dx/x , x = et . Entonces:


R∞ 2 /(2σ2 ) R∞ 2 /(2σ2 )
E(X) = √ x e− (ln x−µ) dx = √1 e− (ln x−µ) dx =
0 2π σx 2π σ 0

R −∞ 2 /(2σ2 ) R∞ 2 −2µt+µ2 −2σ2 t)/(2σ2 )


= = √1 e− (t−µ) et dt = √1 e−(t dt =
2π σ ∞ 2π σ −∞

R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+σ2 )t
= √1 e− µ
2π σ −∞

R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+σ2 )t+(µ+σ2 )2 −(µ+σ2 )2
= √1 e− µ
2π σ −∞

R∞ 2
e−[t−(µ+σ )]
2 /(2σ2 ) 2 /(2σ2 ) (µ+σ2 )2 /(2σ2 )
= √1 e− µ e dt =
2π σ −∞

R∞ 2
e−[t−(µ+σ )]
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /(2σ2 )
= e− µ e(µ+σ √1 dt =
−∞ 2π σ

2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /2
= e− µ e(µ+σ = eµ+σ

El cálculo de la esperanza del cuadrado es completamente similar:


R∞ 2 2 /(2σ2 ) R∞ 2 /(2σ2 )
E(X 2 ) = √x e− (ln x−µ) dx = √1 x e− (ln x−µ) dx =
0 2π σx 2π σ 0

R −∞ 2 /(2σ2 ) R∞ 2 −2µt+µ2 −4σ2 t)/(2σ2 )


= = √1 e− (t−µ) e2t dt = √1 e−(t dt =
2π σ ∞ 2π σ −∞

R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+2σ2 )t
= √1 e− µ
2π σ −∞

R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+2σ2 )t+(µ+2σ2 )2 −(µ+2σ2 )2
= √1 e− µ
2π σ −∞

R∞ 2
e−[t−(µ+2σ )]
2 /(2σ2 ) 2 /(2σ2 ) (µ+2σ2 )2 /(2σ2 )
= √1 e− µ e dt =
2π σ −∞

R∞ 2
e−[t−(µ+2σ )]
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /(2σ2 )
= e− µ e(µ+2σ √1 dt =
−∞ 2π σ

2 /(2σ2 ) 2 )2 /(2σ2 ) 2)
= e− µ e(µ+2σ = e2(µ+σ

22.3 Propiedades de la esperanza


Propiedad 47 (Linealidad de la esperanza) Sean X e Y variables aleatorias definidas sobre
un mismo espacio de probabilidad. Supongamos además que E(X) , E(Y ) están definidas. Entonces
para cualesquiera constantes a, b ∈ R la esperanza E(aX + bY ) existe y se verifica:

E(aX + bY ) = aE(X) + bE(Y )

Dem: Esta demostración se dará más adelante, cuando desarrollemos la teorı́a de vectores aleatorios. ¥

Propiedad 48 Sea X una variable aleatoria. Dados m, n ∈ N , m < n se cumple:

E(X n ) existe ⇒ E(X m ) existe

Dem:
Sólo demostramos el caso discreto (El caso continuo se demustra de manera completamente análoga,

Prof.J.Gastón Argeri 92
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 93

reemplazando sumas por integrales). Tengamos en cuenta que: ∀x ≥ 0 , xm ≤ xn ⇔ x ≥ 1


P P P
E (|X m |) = |x|m pX (x) = |x|m pX (x) + |x|m pX (x) ≤
x∈RX x∈RX x∈RX
|x|>1 |x|≤1

P P
≤ |x|n pX (x) + pX (x) ≤
x∈RX x∈RX
|x|>1 |x|≤1

P P
≤ |x|n pX (x) + pX (x) = E (|X n |) + 1
x∈RX x∈RX

Por lo tanto si E(X n ) existe entonces E (|X n |) < ∞ por lo cual E (|X m |) < ∞ de manera que
E(X m ) existe. ¥

Propiedad 49 Sea X una variable aleatoria tal que E(X) existe. Se cumple:
P (X ≥ 0) = 1 ⇒ E(X) ≥ 0
Dem:
Caso discreto:
pX (x) = P (X = x) = P (X = x, X ≥ 0) + P (X = x, X < 0)
Pero: P (X < 0) = 1 − P (X ≥ 0) = 1 − 1 = 0 Entonces como {X = x, X < 0} ⊆
{X < 0} resulta P (X = x, X < 0) = 0 Por lo tanto: pX (x) = P (X = x, X ≥ 0) =
pX (x)I[0,∞) (x) Entonces:
X X X
E(X) = xpX (x) = xpX (x)I[0,∞) (x) = xpX (x) ≥ 0
x∈RX x∈RX x∈RX
x≥0

El caso continuo es similar. ¥

Corolario 8 Sean X, Y variables aleatorias tales que existen E(X), E(Y ) Se cumple:
P (X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y )
Dem: Consideremos Z = X − Y Aplicándole directamente la propiedad anterior y utilizando luego
la linealidad de la esperanza, se deduce el resultado a probar. ¥

Propiedad 50 (Desigualdad de Markov) Sea X una variable aleatoria tal que X ≥ 0 y E(X)
existe. Entonces para cualquier número real c > 0 se verifica:
E(X)
P (X ≥ c) ≤
c
Dem: Sea A = [c, ∞) La función indicadora de A es
½
1 si x ∈ A
IA (x) =
0 si x 6∈ A
La variable aleatoria IA (X) es discreta con rango {0, 1} Calculemos su esperanza:
E(IA (X)) = 0·P (IA (X) = 0)+1·P (IA (X) = 1) = P (IA (X) = 1) = P (X ∈ A) = P (X ≥ c)
Además: x ∈ A ⇒ x ≥ c ⇒ x/c ≥ 1 Por lo tanto:
x x
∀x ∈ R , IA (x) ≤ IA (x) ≤
c c
X
Luego: IA (X) ≤ c
Tomando esperanzas y utilizando el corolario anterior se tiene:
µ ¶
X E(X)
P (X ≥ c) = E(IA (X)) ≤ E = ¥
c c

Prof.J.Gastón Argeri 93
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 94

Propiedad 51 Sea X una variable aleatoria. Se verifica:

X≥0 y E(X) = 0 ⇒ P (X = 0) = 1

Dem: Fijemos x > 0 Por la desigualdad de Markov y utilizando que E(X) = 0 se tiene:
P (X ≥ x) ≤ E(X)
x
=0
Entonces: ∀x > 0 , P (X ≥ x) = 0 Por lo tanto, si x > 0 vale: FX (x) = 1 puesto que:
 

FX (x) = P (X ≤ x) = lim P (X < x + 1/n) = lim 1 − P (X ≥ x + 1/n) = 1


n →∞ n →∞ | {z }
0

Utilizando que X ≥ 0 también se tiene: ∀x > 0 , FX (−x) = 0 Por lo tanto:


 

P (X = 0) = lim FX (x) − FX (−x) = 1


x → 0+ | {z } | {z }
1 0

como querı́amos demostrar. ¥

23 Varianza de una variable aleatoria


23.1 Motivación y definición
Consideremos una variable aleatoria X que representa una caracterı́stica numérica de los individuos
de cierta población. Supongamos además que existe E(X 2 ) Elijamos al azar un individuo dentro de
tal población e intentemos ”predecir” el valor que tomará la variable aleatoria X en dicho individuo.
Lo más razonable serı́a predecir el valor de X mediante el número E(X) ¿ Porqué? Supongamos
que decidimos predecir el valor de X mediante un número c Tal predicción tendrá asociado un error
(absoluto) aleatorio expresado por |X − c| Naturalmente ningún número c minimizará este error para
todos los valores posibles de X precisamente por ser aleatorio el error. Pero podemos intentar buscar
el número c que minimice la esperanza del error. Para evitar valores absolutos, busquemos el número
c que minimice la esperanza del cuadrado del error, denominada error cuadrático medio(ECM):
¡ ¢
ECM (c) = E (X − c)2 = E(X 2 − 2cX + c2 ) = E(X 2 ) − 2cE(X) + c2

La expresión anterior es cuadrática en c Podemos reexpresarla como:


¡ ¢ n o
E (X − c)2 = E [(X − E(X)) + (E(X) − c)]2 =
¡ ¢ ¡ ¢
= E (X − E(X))2 + 2 (E(X) − c) E (X − E(X)) + E (X − E(X))2 =
¡ ¢ ¡ ¢
= E (X − E(X))2 + E (E(X) − c)2

Como el primer término en esta expresión no depende de c y el segundo término se hace mı́nimo
tomando c = E(X) deducimos que el mejor predictor ¡ constante de¢X es el número E(X) Además, el
ECM de E(X) como predictor de X resulta ser E (X − E(X))2 Esta magnitud es tan importante
en probabilidades y estadı́stica que recibe un nombre especial.

Definición 29 Dada una variable aleatoria X se define la varianza de X como:


¡ ¢
V (X) = E (X − E(X))2

Prof.J.Gastón Argeri 94
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 95

siempre y cuando tal esperanza exista.


Otras notaciones comunes para la varianza de X son V ar(X) , σXX , σX 2

El desvı́o standard o tı́pico de X se define como la raı́z cuadrada de su varianza:


p
SD(X) = V (X)

El desvı́o standard de X también se anota σX


Obsérvese que:

• Si E(X 2 ) existe entonces V (X) existe puesto que por propiedades vistas anteriormente se
deduce que E(X) ¡existe y por lo tanto,
¢ utilizando la propiedad de linealidad de la esperanza
tiene: V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) existe.

• Siendo V (X) la esperanza de un cuadrado, resulta siempre: V (X) ≥ 0

• Por propiedades vistas anteriormente se deduce que: V (X) = 0 ⇔ P (X = E(X)) = 1

• Si X se expresa en ciertas unidades, entonces V (X) se expresa en dichas unidades al cuadrado.


Por ejemplo, si X representa altura y se expresa en cm entonces V (X) queda expresada en
cm2 En cambio SD(X) queda espresada en las mismas unidades que X

Tanto V (X) como SD(X) miden en cierto sentido cuán alejados se encuentran, en promedio, los
valores de la variable aleatoria X respecto de su ”centro” o valor esperado E(X) Por ello decimos
que V (X) y SD(X) representan medidas de dispersión de la variable aleatoria.

23.2 Cálculo y propiedades


Propiedad 52 Sea X una variable aleatoria con E(X 2 ) finita. Se cumple:

V (X) = E(X 2 ) − E 2 (X)

Dem: Notemos que como E(X 2 ) < ∞ entonces por una propiedad anterior E(X) existe. Por lo
tanto, utilizando
¡ la linealidad¢ de la esperanza se obtiene:
V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) = E(X 2 ) − 2E 2 (X) + E 2 (X) =
E(X 2 ) − E 2 (X) ¥

Ejemplo: X ∼ Bi(n, p)
Ya calculamos E(X) = np , E(X 2 ) = np(q + np) de modo que se tiene: V (X) = np(q + np) −
(np)2 = npq = np(1 − p)

Ejemplo: X ∼ G(p)
En este caso sabemos que E(X) = 1/p y E(X 2 ) = (2q + p)/p2 Por lo tanto V (X) =
(2q + p)/p2 − 1/p2 = q/p2 = (1 − p)/p2

Ejemplo: X ∼ H(n, D, N ) ³ ´ ³ ´
D N n(D−1) D D
Vimos que E(X) = n N y E(X 2 ) = N −1
1+ N −D
nN 1− N
³ ´ N −n
D D
Entonces luego de operar se obtiene: V (X) = n N
1− N
N −1
| {z }
(∗)
El factor (∗) se denomina factor de corrección por población finita, en tanto que los tres primeros
factores coinciden con la esperanza de una variable aleatoria con distribución Bi(n, D/N ) Esto no
debe sorprendernos ya que la hipergeométrica surgió al contar la cantidad de objetos distinguidos
en una muestra sin reposición de tamaño n de una población de N individuos entre los que hay un
total de D distinguidos. Entonces cuando N es grande respecto de n y éste es pequeño respecto

Prof.J.Gastón Argeri 95
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 96

de D es razonable que la no reposición afecte muy poco el resultado, de manera que contar la can-
tidad de distinguidos entre los n deberı́a dar resultados similares ya sea que la extracción se realice
con o sin reposición. Pero si se realiza con reposición, la cantidad de distinguidos posee distribución
Bi(n, D/N )

Ejemplo: X ∼ P(λ)
En este caso vimos que E(X) = λ , E(X 2 ) = λ(λ + 1) Luego: V (X) = λ(λ + 1) − λ2 = λ

Ejemplo: X ∼ N (µ, σ 2 )
Vimos que E(X) = µ , E(X 2 ) = µ2 + σ 2 Por lo tanto: V (X) = µ2 + σ 2 − µ2 = σ 2

Ejemplo: X ∼ Γ(λ, α)
Probamos antes que E(X) = λ/α , E(X 2 ) = λ(λ + 1)/α2 Luego: V (X) = λ(λ + 1)/α2 −
(λ/α)2 = λ/α

Propiedad 53 Sea X una variable aleatoria tal que V (X) es finita y sean a, b constantes. Vale:

V (aX + b) = a2 V (X)

Dem:
¡ ¢
V (aX + b) = E (aX + b)2 − E 2 (aX + b) = E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2 =

= a2 E(X 2 ) + 2abE(X) + b2 − a2 E 2 (X) − 2abE(X) − b2 =


¡ ¢
= a2 E(X 2 ) − a2 E 2 (X) = a2 E(X 2 ) − E 2 (X) = a2 V (X) ¥

24 Esperanza y varianza de una función de una variable aleatoria


Propiedad 54 Sea X una variable aleatoria y sea SX el soporte de su distribución. La esperanza de
la variable aleatoria g(X) puede calcularse, siempre que exista, como:
i) Caso discreto: X
E(g(X)) = g(x)pX (x)
x∈SX

ii) Caso continuo: Z


E(g(X)) = g(x)fX (x) dx
SX

Dem: P
Caso discreto: La fmp de Y = g(X) viene dada por pY (y) = pX (x) Por lo tanto:
x∈RX
g(x)=y

P P P P P
E(Y ) = ypY (y) = y pX (x) = ypX (x) =
y∈RY y∈RY x∈RX y∈RY x∈RX
g(x)=y g(x)=y

P P P
= g(x)pX (x) = g(x)pX (x)
y∈RY x∈RX x∈RX
g(x)=y

En el caso continuo la demostración es similar a la del teorema de cambio de variables que se demostró
cuando se dedujo, bajo condiciones de regularidad, que Y = g(X) posee densidad. Omitimos la
prueba. ¥

Prof.J.Gastón Argeri 96
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 97

Ejemplo: Calculemos E(− ln X) siendo X ∼ U (0, 1)


Sea Y = − ln X Anotando SX = (0, 1) y SY = (0, ∞) los soportes de X e Y respectivamente,
se tiene:
Z 1 Z 1 Z 1
E(Y ) = (− ln x) fX (x) dx = − ln x dx = − x ln x|10 + dx = 1
0 0 0

Prof.J.Gastón Argeri 97

También podría gustarte