Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Completo PDF
Completo PDF
Combinatoria
1 Principios básicos
La combinatoria es una disciplina que se ocupa de estudiar técnicas de conteo y enumeración de
conjuntos, en especial cuando la cantidad de elementos que poseen es muy grande (de modo que una
lista extensiva serı́a imposible o impráctica). Aplicada a la teorı́a de probabilidades permite en muchos
casos determinar la cantidad de elementos de un espacio muestral finito y la cantidad de elementos de
algún evento de interés.
Presentamos dos reglas básicas de la combinatoria:
Principio de la multiplicación
Supongamos que un experimento consta de dos etapas. Si como resultado de la primera etapa pueden
darse n resultados posibles y si, independientemente del resultado particular de la primera etapa, la
segunda etapa puede dar lugar a m resultados posibles, entonces la cantidad de posibles resultados
del experimento es n · m
El principio se extiende de manera natural a un experimento en r etapas, donde la i-ésima etapa
tiene una cantidad ni de posibles resultados (independientemente de los resultados particulares
de las etapas anteriores), donde i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del
r
Q
experimento es ni
i=1
Ejemplo: Una caja contiene 5 cartas distintas de una baraja española. Se extraen dos cartas al azar.
Si se realiza la extracción con reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5·
5 = 25 maneras distintas.
Si se realiza la extracción sin reposición ¿ De cuántas maneras distintas es posible realizarlo? Rta: 5 ·
4 = 20 maneras distintas.
Principio de la adición
Un experimento puede llevarse a cabo de dos formas. Cuando se lo realiza de una forma conduce
a n resultados posibles. Cuando se lo realiza de la otra forma conduce a m resultados posibles.
Entonces eligiendo una u otra forma para realizarlo, el experimento da lugar a n + m resultados
posibles.
El principio de la adición también se generaliza a un experimento que se realiza de una entre r maneras
posibles, siendo ni la cantidad de posibles resultados cuando se lo realiza de la i-ésima forma, donde
Pr
i = 1, 2, · · · , r. Entonces la cantidad de posibles resultados del experimento es ni
i=1
Ejemplo: Para viajar de Buenos Aires a San Pablo se puede optar por tres compañı́as aéreas o por
cinco empresas de omnibus ¿ Cuántas maneras diferentes existen para contratar el viaje? Rta: 3 +
5 = 8 maneras distintas.
2 Variaciones
Se tienen n objetos diferentes y se quiere ordenar k de ellos en fila, siendo k ≤ n. Cada posible
ordenamiento se denomina una variación de los n objetos tomados de a k. Para calcular la cantidad
total de variaciones utilizamos el principio de la multiplicación: Para el primer lugar de la fila hay
n posibles maneras de llenarlo con un objeto. Independientemente de cuál sea el objeto que ocupe
el primero lugar, para llenar el segundo lugar de la fila disponemos ahora de n − 1 objetos dado que
uno de los objetos ya fue utilizado para cubrir el primer lugar. Independientemente de cuáles hayan
sido los objetos que llenan los dos primeros lugares de la fila, para cubrir el tercer lugar disponemos de
n − 2 objetos pues dos ya han sido utilizados. Ası́ sicesivamente de modo que aplicando el principio
Prof.J.Gastón Argeri 1
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 2
Ejemplo: En un club se postulan cinco miembros, digamos A,B,C,D y E, para ocupar las posiciones de
presidente y secretario. Para identificar todas las posibles maneras de elegir entre ellos un presidente
y un secretario, formamos las variaciones de 5 tomadas de a 2. En este caso la ”fila” tiene en primer
lugar al presidente y en segundo lugar al secretario. El listado de las 5 · 4 = 20 variaciones es el
siguiente:
AB AC AD AE
BA BC BD BE
CA CB CD CE
DA DB DC DE
EA EB EC ED
3 Permutaciones
Un caso particular de variaciones de n objetos tomados de a k se presenta cuando k = n. En tal
caso las variaciones reciben el nombre de permutaciones de n objetos y corresponden a las diferentes
maneras de ordenar en fila n objetos diferentes. La cantidad de permutaciones de n objetos resulta
entonces ser:
n · (n − 1) · (n − 2) · · · · · [n − (n − 1)] = n!
Ejemplo: La cantidad de números de cuatro cifras que pueden formarse a partir de los dı́gitos
3, 5, 6, 8 sin repetir ninguno de ellos resulta ser 4! = 24. Damos un listado de dichos números:
4 Combinaciones
Dados n objetos diferentes, cada conjunto formado por k de los n elementos se dice una combinación
de los n elementos tomados de a k. La diferencia entre variaciones y combinaciones reside en el hecho
que las combinaciones no tienen en cuenta el orden relativo entre los elementos (ya no podemos pensar
en un ”fila”). Por ejemplo, si se tienen cuatro objetos A,B,C y D las posibles combinaciones de a 2
son:
AB AC AD
BC BD
CD
Compárese esto con las posibles variaciones de 4 tomados de a 2:
AB BA AC CA AD DA
BC CB BD DB
CD DC
Prof.J.Gastón Argeri 2
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 3
lugar a filas con diferentes configuraciones, dado que diferirán en al menos uno de los objetos presentes.
De esta manera, tomando todas las posibles combinaciones y ordenando en fila los k objetos en cada
una de ellas, obtendremos la totalidad de posibles ordenamientos en fila de k de los n objetos, es
n!
decir la totalidad de variaciones de n tomados de a k. Por lo tanto: x · k! = (n−k)!
Despejando x resulta que la cantidad de posibles¡n¢ combinaciones de n objetos tomados de a k,
número que representaremos con el sı́mbolo k es:
µ ¶
n n!
=
k k!(n − k)!
Este número se denomina número combinatorio n sobre k.
En
¡4¢ el ejemplo precedente n = 4 , k = 2 de modo que la cantidad de posibles combinaciones es
4! 4!
2
= 2!2!
= 4
= 3! = 6
Propiedad 1 µ ¶ µ ¶
n n
=
k n−k
Dem:
La demostración queda a cargo del lector.
Propiedad 2 µ ¶ µ ¶ µ ¶
n n n+1
+ =
j−1 j j
Dem:
¡ n ¢ ¡n¢ n! n!
j−1
+ j
= (j−1)!(n−j+1)!
+ j!(n−j)!
=
n! n!
= (j−1)!(n−j)!(n−j+1)
+ (j−1)!j(n−j)!
=
³ ´
n! 1 1
= (j−1)!(n−j)! n−j+1
+ j
=
n! j+n−j+1
= (j−1)!(n−j)!
· j(n−j+1)
=
5 Binomio de Newton
Dados números a, b ∈ R sabemos que el desarrollo del cuadrado del binomio a + b viene dado por:
(a + b)2 = a2 + 2ab + b2
Prof.J.Gastón Argeri 3
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 4
La fórmula del binomio de Newton generaliza lo anterior al desarrollo de cualquier potencia natural
de un binomio y se expresa de la siguiente manera.
Dem:
Por inducción respecto de n demostraremos que la proposición
n µ ¶
n
X n
p(n) : ∀a, b ∈ R, (a + b) = ak bn−k
k=0
k
Prof.J.Gastón Argeri 4
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 5
procedemos ası́:
n ¡ ¢
P n
(a + b)n+1 = (a + b)(a + b)n = (a + b) k
ak bn−k =
k=0
n ¡ ¢
P n ¡ ¢
P
n n
= a k
ak bn−k + b k
ak bn−k =
k=0 k=0
n ¡ ¢
P n ¡ ¢
P
n n
= k
ak+1 bn−k + k
ak bn−k+1 =
k=0 k=0
n+1 ¡ n ¡ ¢
P n ¢ j n−j+1 P n
= j−1
a b + j
aj bn−j+1 =
j=1 j=0
¡n¢ n ¡ n ¡ ¢
P n ¢ j n−j+1 ¡n¢ P n
= n
an+1 + j−1
a b + 0
bn+1 + j
aj bn−j+1 =
j=1 j=1
( )
¡n¢ n h¡ ¡n¢i
P n ¢ ¡n¢
= 0
bn+1 + j−1
+ j
aj bn−j+1 + n
an+1 =
j=1
¡n¢ n ¡
P n+1¢ ¡n¢
= 0
bn+1 + j
aj bn−j+1 + n
an+1 =
j=1
¡n+1¢ n ¡
P n+1¢ ¡n+1¢
= 0
a0 bn+1 + j
aj bn−j+1 + n+1
an+1 b0 =
j=1
n+1
P ¡n+1¢
= j
aj bn+1−j
j=0
que muestra que p(n + 1) es verdadera. Luego, por inducción completa p(n) es verdadera para
todo n ∈ N ¥
Prof.J.Gastón Argeri 5
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 6
Prof.J.Gastón Argeri 6
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 7
¡n−1¢
puede realizarse de r−1
maneras distintas.
Ejemplo: Distribuir seis bolillas idénticas en tres urnas diferentes, sin permitir urnas vacı́as. Listamos
las posibilidades:
∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗| ∗ ∗∗ ∗| ∗ ∗ ∗ | ∗ ∗ ∗| ∗ ∗ ∗ ∗|∗ ∗ ∗ | ∗ | ∗ ∗∗
∗ ∗ | ∗ ∗| ∗ ∗ ∗ ∗ | ∗ ∗ ∗ |∗ ∗ ∗ ∗| ∗ | ∗ ∗ ∗ ∗ ∗| ∗ ∗|∗ ∗ ∗ ∗ ∗ | ∗ |∗
Ejemplo: Hallar todas las descomposiciones del número 8 como suma de tres números naturales.
Considerar que el orden relativo de los tres términos en la descomposición es relevante.
Se tendrán las siguientes posibles descomposiciones:
Prof.J.Gastón Argeri 7
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 8
• El proceso es repetible en idénticas condiciones una cantidad ilimitada de veces. Cada realización
particular del proceso conduce a un único resultado.
• Se conoce a priori (es decir previamente a cualquier realización particular) todos los posibles
resultados del experimento.
• El resultado del experimento está sujeto al azar. Es decir que es imposible determinar a priori
(es decir previamente a cualquier realización particular) cuál de todos los resultados posibles del
experimento ocurrirá.
Ejemplo:
1) Se arroja un dado una vez y se observa el número que sale. Claramente es un experimento
aleatorio pues cada realización particular conduce a un único número saliente (es imposible que
arrojemos el dado y salgan simultáneamente dos o más números) y además:
2) Se arroja un dado dos veces y se anota el puntaje total (suma de los números obtenidos en ambos
lanzamientos). En este caso un espacio muestral es Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
3) Se arroja un dado hasta obtener por primera vez un 1 y se registra la cantidad de lanzamientos
necesarios. En este ejemplo un espacio muestral es Ω = N
4) Desde una distancia de 3 metros se arroja un dardo a un blanco circular de radio 0, 25 metros.
Suponiendo que el dardo da en el blanco, se registra la distancia desde el punto de impacto hasta
el centro del blanco. En este caso un espacio muestral es Ω = [0 ; 0, 25]
Un conjunto infinito A se dice numerable si sus elementos pueden ponerse en correspondencia 1-1
f
con los números naturales, es decir si existe alguna función N → A con las propiedades siguientes:
Prof.J.Gastón Argeri 8
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 9
Ejemplo: Mostremos que los siguientes conjuntos infinitos son numerables: N, Z, 2N, Q
f
• Basta considerarla función identidad N → N
f £n¤
• Por ejemplo tomando la función N → Z dada por f (n) = (−1)n 2
f
• Tomando N → 2N dada por f (n) = 2n
• En este caso es más engorroso encontrar una fórmula explı́tica para una fución de N sobre Q.
Es más secillo presentar un gráfico ilustrativo de tal función:
²²
1/1 // 1/2 1/3 // 1/4 1/5 // · · ·
z z << z z << { {
z z z z {
zzz zzz zzz zzz {{{
z z z z {
||zz zz ||zz zz }}{{
2/1 // 2/2 2/3 2/4 2/5 ·== · ·
zz zz<< zz {{{
zz zz zz {{
zzz zzz zzz {{{
||z z ||z {
3/1 oo 3/2 3/3 3/4 3/5 ···
zz<< zz zz<< {{{
zz zz zz {{
zzz zzz zzz {{{
²² z ||z z }}{
4/1 // 4/2 4/3 4/4 4/5 ···
<< {==
zzz zzz zzz {{{
z z z {
zz zz zz {{
||zz zz ||zz {{
5/1 oo 5/2 5/3 5/4 5/5 ···
{{== {{ {{== |||
{ { { ||
{{ {{ {{ ||
²² {{{ {{{ {{{ |
{ { { |
.. // .. { .. }}{ .. { .. ~~|
. . . . .
Vamos a distinguir dos tipos de espacios muestrales de acuerdo a su cardinalidad (es decir su cantidad
de elementos):
Finito o infinito numerable
Ω
Infinito no numerable
En los ejemplos 1) y 2) los espacios muestrales considerados son finitos. En el ejemplo 3) el espacio
muestral es infinito numerable. En el ejemplo 4) el espacio muestral es infinito no numerable.
Momentáneamente llamaremos evento o suceso a cualquier subconjunto del espacio muestral Ω. Más
adelante precisaremos este concepto. Dos eventos de particular interés son el evento Ω (denominado
evento seguro o cierto) y el evento ∅ (denominado evento vacı́o o imposible). Los elementos ω ∈ Ω del
Prof.J.Gastón Argeri 9
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 10
espacio muestral dan lugar a los denominados eventos simples, que son los eventos de la forma {ω}.
Todo evento no simple se dice compuesto. Los eventos suelen anotarse empleando las primeras letras
del alfabeto en mayúsculas: A, B, C, D, etc.
Ejemplo:
3) Arrojar una moneda hasta obtener ”cara” por primera vez y registrar la cantidad de lanzamientos
que fueron necesarios. Eventos que podrı́an interesarnos:
3) Lanzamiento del dardo descrito anteriormente. Un evento en el que podemos estar interesados
es A = {x ∈ Ω : x ≤ 0, 2}
Ejemplo: Un experimento consiste en lanzar una moneda dos veces de modo que
9 Álgebra de eventos
Sean A, B eventos. A partir de ellos construimos nuevos eventos del modo siguiente:
Prof.J.Gastón Argeri 10
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 11
A ∩ B = {(C, S)}
Más generalmente aún necesitaremos definir uniones e intersecciones de una cantidad numerable de
eventos: Sea {An } una sucesión de eventos.
• La unión de dichos eventos es el evento que ocurre cuando ocurre al menos uno de los eventos
de la sucesión:
∞
[
An = {ω ∈ Ω : ∃n ∈ N , ω ∈ An }
n=1
• La intersección de dichos eventos es el evento que ocurre cuando ocurren simultáneamente todos
y cada uno de los eventos de la sucesión:
∞
\
An = {ω ∈ Ω : ∀n ∈ N , ω ∈ An }
n=1
Ejemplo: Un experimento aleatorio consistente en arrojar una moneda tantas veces como sea necesario
hasta obtener por primera vez ”cara”. Podemos considerar:
Prof.J.Gastón Argeri 11
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 12
∀m, n ∈ N , m 6= n ⇒ A m ∩ An = ∅
∞
S U∞
Para destacar tal situación anotaremos la unión An como n=1 An
n=1
Dados eventos A, B se dice que A está contenido o incluido en B o también que B contiene o
incluye a A sii cada vez que ocurre A también ocurre B (pero no necesariamente a la inversa). Tal
relación entre eventos se simboliza A ⊆ B o también B ⊇ A. En otras palabras: A ⊆ B sii todo
resultado favorable a A es también favorable a B. En la práctica para demostrar que A ⊆ B es
frecuente tomar un elemento genérico (es decir, no un elemento particular) de A y demostrar que
necesariamente también pertenece a B. Naturalmente, dos eventos son iguales sii A ⊆ B y B ⊆ A.
Por lo tanto una manera de probar la igualdad entre dos eventos consiste en probar que cada uno de
ellos está contenido en el otro.
Damos a continuación un listado de propiedades muy sencillas cuyas demostraciones formales omiti-
mos:
A⊆A
A∩A=A ; A∪A=A
A ∪ (B ∪ C) = (A ∪ B) ∪ C ; A ∩ (B ∩ C) = (A ∩ B) ∩ C
∅⊆A⊆Ω
A∩B ⊆A⊆A∪B
∅∩A=∅ ; ∅∪A=A
Ω∩A=A ; Ω∪A=Ω
(Ac )c = A
(A ∪ B)c = Ac ∩ B c ; (A ∩ B)c = Ac ∪ B c
A ∪ B = A ∪ (B \ A)
B = (B ∩ A) ] (B \ A)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) ; A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
n
µ n ¶
S U c c
Ai = A 1 ] A1 · · · An−1An
i=1 i=2
µ ∞
¶c ∞
µ ∞
¶c ∞
S T T S
An = Acn ; An = Acn
n=1 n=1 n=1 n=1
Prof.J.Gastón Argeri 12
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 13
Ejemplo: Sea Ω cualquier rectángulo no vacı́o. Definamos, como vimos anteriormente, la siguiente
clase de subconjuntos de Ω:
Prof.J.Gastón Argeri 13
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 14
Consideremos ahora un ejemplo que nos servirá para generalizar la definición de álgebra de subcon-
juntos de Ω.
Ejemplo: Supongamos que se tiene una secuencia {Rn } de rectángulos contenidos en el gran
rectángulo Ω. Más aún, supongamos que los Rn son disjuntos dos a dos. Parece intuitivamente
∞
U
claro que también se le puede asignar un área al conjunto Rn , de la manera siguiente:
n=1
lim A(Sn )
n →∞
n
P ∞
P
= lim A(Ri ) = A(Rn )
n → ∞ i=1 n=1
Este ejemplo muestra que podemos ampliar la definición de álgebra de conjuntos para permitir que
no sólo las uniones finitas de conjuntos medibles sean medibles, sino también las uniones infinitas
numerables. Esto conduce a la definición siguiente.
Prof.J.Gastón Argeri 14
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 15
i) Ω ∈ Σ
ii) ∀A ∈ Σ , Ac ∈ Σ
∞
S
iii) ∀ {An } sucesión en Σ , An ∈ Σ
n=1
Ejemplo: Consideremos un conjunto no vacı́o Ω. La clase que consta de todos los subconjuntos de
Ω se denomina el conjunto de ”partes” de Ω y se suele anotar P(Ω). Claramente es una σ-álgebra
de subconjuntos de Ω. De hecho es la más grande de todas.
Dem:
Definamos An+1 = An+2 = · · · = ∅. Entonces la secesión {Ai } está en Σ. Se tiene pues:
n
[ ∞
[
Ai = Ai ∈ Σ ¥
i=1 i=1
Dem: Ã !c
∞
\ ∞
[
An = Acn ∈ Σ dado que cada Acn ∈ Σ ¥
n=1 n=1
Dem:
Definamos An+1 = An+2 = · · · = Ω. Tenemos ası́ una sucesión {An } en Σ. Por la propiedad
anterior resulta:
n
\ ∞
\
Ai = Ai ∈ Σ ¥
i=1 i=1
Prof.J.Gastón Argeri 15
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 16
Propiedad 8 Sean Ω un conjunto no vacı́o y T{Σi }i∈I una familia no vacı́a, donde cada Σi es
una σ-álgebra de subconjuntos de Ω. Entonces Σi es una σ-álgebra de subconjuntos de Ω.
i∈I
T
Dem: Anotemos Σ = Σi . Debemos probar que Σ satisface los axiomas de σ-álgebra de
i∈I
subconjuntos de Ω. Sabiendo que cada Σi satisface dichos axiomas, se deduce que:
• Ω ∈ Σ pues ∀i ∈ I , Ω ∈ Σi
• Si A ∈ Σ entonces ∀i ∈ I , A ∈ Σi . Luego: ∀i ∈ I , Ac ∈ Σi . Entonces Ac ∈ Σ
• Sea {An } sucesión en Σ. Entonces ∀i ∈ I , {An } es una sucesión en Σi . Por lo tanto
∞
S ∞
S
∀i ∈ I , An ∈ Σi . Luego: An ∈ Σ ¥
n=1 n=1
Nota: Parte del supuesto en esta igualdad es que la serie en el miembro de la derecha sea
convergente.
Un espacio de probabilidad es una terna ordenada (Ω, Σ, P ) donde P es una probabilidad sobre Σ.
Ejemplo: Sea Ω un conjunto no vacı́o a lo sumo numerable, que podemos anotar Ω = {ω n }. Sea
Σ una σ-álgebra de subconjuntos de Ω tal que ∀n , {ωn } ∈ Σ. Como vimos antes esto implica que
Σ = P(Ω). Si P es una probabilidad sobre Σ notemos que:
• Las probabilidades pn = P ({ωn }) determinan
U la probabilidad de cualquier evento aleatorio.
En efecto: Sea A ⊆ Ω. Entonces A = {ωn }. Por lo tanto:
ωn ∈A
à !
] X X
P (A) = P {ωn } = P ({ωn }) = pn
ωn ∈A ωn ∈A ωn ∈A
Prof.J.Gastón Argeri 16
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 17
11 Espacios de equiprobabilidad
1
Si Ω = {ω1 , · · · , ωN } es finito y si definimos ∀n ∈ {1, · · · , N } , pn = N entonces se cumplen
las condiciones a) y b) del item anterior, de manera que queda definida una única probabilidad sobre
1 1
Σ = P(Ω) tal que ∀n ∈ {1, · · · , N } , P {ωn } = N = #(Ω) . Esta manera de asignar probabili-
dades sobre un espacio muestral finito es lo que se conoce como espacio de equiprobabilidad. En
un espacio de equiprobabilidad se tiene para cuanlquier evento A ⊆ Ω
à !
] X X 1 #(A)
P (A) = P {ω} = P ({ω}) = =
ω∈A ω∈A ω∈A
#(Ω) #(Ω)
Esta manera de asignar probabilidades en un espacio muestral finito suele resumirse del modo siguiente:
En la práctica cuando asociamos determinado espacio muestral Ω a un experimento aleatorio con una
cantidad finita de resultados posibles, la asignación de probabilidades a dichos eventos elementales no
siempre se reduce a considerar resultados equiprobables. Volviendo a uno de nuestros primeros ejem-
plos: Se lanzan dos dados ”normales” y se anota el puntaje total obtenido. En este caso podrı́amos
tomar como espacio muestral Ω = {2, 3, 4, · · · , 12}. Sin embargo no es correcto asignar probabili-
dades del modo siguiente:
1
∀n ∈ {2, · · · , 12} , P ({n}) =
11
¿ Qué inconvenientes observa acerca de esta asignación de probabilidad?
El mismo experimento aleatorio podrı́a modelizarse mediante el siguiente espacio muestral:
Ω = {(i, j) : 1 ≤ i, j ≤ 6}
Con este espacio muestral sı́ es adecuada la asignación de probabilidad en forma equiprobable:
1
∀(i, j) tal que 1 ≤ i, j ≤ 6 , P ({(i, j)}) =
36
Calculemos en este ejemplo la probabilidad de que el puntaje total obtenido sea 7. En este caso
A = {(i, j) : 1 ≤ i, j ≤ 6 ; i + j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Por lo
tanto P (A) = #(A)
#(Ω)
6
= 36 = 16
Ejemplo: Una urna contiene 3 bolillas blancas y 2 bolillas negras. Se extraen al azar dos bolillas sin
reposición. Calculemos P (A) y P (C) siendo:
A = ”ambas bolillas son blancas” y C = ”ambas bolillas son negras”
Una posible representación del espacio muestral asociado a este experimento aleatorio podrı́a ser Ω =
{BB, BN, N B, N N }. Sin embargo, dada esta representación es evidente que no resulta natural
considerar los cuatro posibles resultados como equiprobables puesto que hay más bolillas blancas que
negras. De hecho, si utilizáramos el artificio de numerar las bolillas blancas como B 1 , B2 , B3 y
numerar las bolillas negras como N1 , N2 resulta claro que el resultado A se da en más casos que el
resultado C. De hecho:
A = {(B1 , B2 ), (B1 , B3 ), (B2 , B1 ), (B2 , B3 ), (B3 , B1 ), (B3 , B2 )} tiene 6 elementos
C = {(N1 , N2 ), (N2 , N1 )} tiene 2 elementos
Lo natural entonces es elegir una representación del espacio muestral en la que resulte natural la
equiprobabilidad. Tal representación podrı́a ser la siguiente:
Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y}
Prof.J.Gastón Argeri 17
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 18
#(C) 2·1 1
P (C) = #(Ω)
= 5·4
= 10
= 0, 1
Otra posible representación del espacio muestral es la siguiente, que prescinde del orden en que se
extraen las bolillas:
Ω = {{x, y} : x, y ∈ {B1 , B2 , B3 , N1 , N2 } , x 6= y}
#(A) (32) 3
P (A) = = = = 0, 3
#(Ω) (52) 10
#(C) (22) 1
P (C) = = = = 0, 1
#(Ω) (52) 10
Como era de esperar, se obtienen las mismas probabilidades que cuando se tiene en cuenta el orden de
extracción. Ejemplo: Nuevamente consideremos una urna con 3 bolillas blancas y dos bolillas negras.
Se extraen al azar dos bolillas, pero esta vez con reposición. Calculemos las probabilidades de los
mismos eventos A y C del ejemplo anterior.
En este caso conviene representar el espacio muestral como:
Ω = {(x, y) : x, y ∈ {B1 , B2 , B3 , N1 , N2 }}
Entonces:
P (A) = #(A)
#(Ω)
= 3·3
5·5
= 9
25
= 0, 36
#(C) 2·2 4
P (C) = #(Ω)
= 5·5
= 25
= 0, 16
Propiedad 10 P (∅) = 0
Dem:
Definamos ∀n , An = ∅. Claramente estos eventos son dos a dos disjuntos, de manera que:
à ∞ ! ∞ ∞
] X X
P (∅) = P An = P (An ) = P (∅)
n=1 n=1 n=1
Prof.J.Gastón Argeri 18
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 19
Dem:
Definamos An+1 = An+2 = · · · = ∅. Se tiene:
à n ! Ã∞ ! ∞ n
] ] X X
P Ai = P Ai = P (Ai ) = P (Ai ) ¥
i=1 i=1 i=1 i=1
P (A ∪ B ∪ C) = P (A ∪ B) + P (C) − P ((A ∪ B) C) =
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n (1)
+ .................................................... +
+ (−1)n+1 P (A1 A2 · · · An )
Prof.J.Gastón Argeri 19
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 20
Dem:
Por inducción sobre n.
• Supongamos A1 , · · · , An+1 ∈ Σ.
n
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n
n+1
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n
n
P P
+ (−1)n+1 P (A1 A2 · · · An ) − { P (Ai An+1 ) − P (Ai1 Ai2 An+1 ) + · · ·
i=1 1≤i1 <i 2 ≤n
n+1
P P
= P (Ai ) − P (Ai1 Ai2 ) + · · ·
i=1 1≤i1 <i 2 ≤n+1
P
+ (−1)r+1 P (Ai1 Ai2 · · · Air ) + · · · +
1≤i1 <i 2 <···<ir ≤n+1
Dem:
Puesto que Ω = A ] Ac resulta 1 = P (Ω) = P (A) + P (Ac ) ¥
Prof.J.Gastón Argeri 20
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 21
13 Propiedades de continuidad
Propiedad 18 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es creciente,
es decir: A1 ⊆ A2 ⊆ A3 ⊆ · · · . Se verifica:
à ∞ !
[
P An = lim P (An )
n →∞
n=1
Dem:
Definamos los siguientes eventos:
B1 = A1
B2 = A 2 \ A1
B3 = A 3 \ A2
··· ··· ···
Bn = An \ An−1
··· ··· ···
Se tiene ası́ una sucesión {Bn } en Σ tal que:
n
S n
U ∞
S ∞
U
Ai = Bi y Ai = Bi
i=1 i=1 i=1 i=1
n
P n
P
= P (Ai \ Ai−1) = (P (Ai ) − P (Ai−1)) =
i=1 i=1
Propiedad 19 Sea {An } una sucesión en Σ. Supongamos dicha sucesión de eventos es decreciente,
es decir: A1 ⊇ A2 ⊇ A3 ⊇ · · · . Se verifica:
à ∞ !
\
P An = lim P (An )
n →∞
n=1
Dem:
Notemos que dado que los An decrecen entonces los Acn crecen.
µ ∞ ¶ µ· ∞ ¸c ¶
T T
P An = 1−P An =
n=1 n=1
µ ∞
¶
S
= 1−P Acn = 1 − lim P (Acn ) =
n=1 n →∞
¡ ¢
= lim 1 − P (Acn ) = lim P (An ) ¥
n →∞ n →∞
Prof.J.Gastón Argeri 21
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 22
14 Probabilidad condicional
Seguramente al lector no se le habrá pasado por alto, cuando definimos los axiomas de una probabili-
dad, la relación intuitiva que existe entre éstos y lo que se conoce como el enfoque ”frecuentista” de
las probabilidades, que pasamos a explicar someramente.
Supongamos, en el contexto de un experimento aleatorio concreto, que se desea asignar probabilidad a
cierto evento A. El enfoque frecuentista consiste en repetir el experimento un número finito y grande
de veces, digamos N veces. A continuación determina lo que se conoce como frecuencia relativa del
evento A en esas N realizaciones del experimento. Dicha frecuencia relativa, que anotaremos f A ,
se define por:
número de veces que ha ocurrido A en las N realizaciones
fA =
número total N de realizaciones
Intuitivamente fA es un reflejo de la chance de ocurrencia de A en dichas repeticiones del
experimento. En otro capı́tulo formalizaremos esta idea intuitiva. Por el momento nos conformamos
con admitirla como natural y motivadora. Esta frecuencia relativa posee las siguientes propiedades:
Dados eventos A, B se verifica
i) fA ≥ 0
ii) fΩ = 1
Las propiedades anteriores nos hacen recordar propiedades análogas a las de la definición axiomática
de probabilidad.
Basados intuitivamente en esta idea frecuentista vamos a introducir el concepto de probabilidad condi-
cional. La importancia de este concepto se debe a dos motivos principales:
• Aún en situaciones en las cuales no disponemos de tal información parcial adicional, es frecuente
el uso de la probabilidad condicional como herramienta que permite calcular las probabilidades
deseadas de un modo más sencillo.
Ejemplo: Se arrojan dos dados normales, de manera que cada uno de los 36 resultados posibles son
equiprobables. Supongamos que se observa además que el primer dado es un 3. Con esta información
adicional, ¿ cuál es la probabilidad de que el puntaje total obtenido sea 8 ?
Primeramente observemos que ”el primer dado es un 3” es un evento, que podemos anotar H. Dado
que ha ocurrido H, el experimento se limita a arrojar el segundo dado y determinar el número que
sale. Sabemos que los posibles resultados de este experimento parcial seran sólo seis y definirán un
espacio muestral parcial: ΩH = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}. Es natural considerar
estos seis resultados como equiprobables, es decir que podemos definir una probabilidad P H de modo
que ∀j ∈ {1, · · · , 6} , PH ({(3, j)}) = 1/6. Esta probabilidad sobre el espacio muestral Ω∗ puede
pensarse como una probabilidad ”condicional a H” en el espacio muestral Ω asociado al experimento
original, definiendo:
• La probabilidad condicional de {(3, j)} como 1/6. Anotamos P ({(3, j)} |H) = 1/6
Prof.J.Gastón Argeri 22
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 23
Definición 6 Sean (Ω, Σ, P ) un espacio de probabilidad y H ∈ Σ tal que P (H) > 0. Dado un
evento E ∈ Σ se define la probabilidad de E condicional a F como:
P (EF )
P (E|F ) =
P (F )
Ejemplo: Se lanza dos veces una moneda normal. Calculemos:
b) La probabilidad condicional de que ambas salgan cara dado que la primera sale cara.
Para responder a) consideramos el espacio muestral Ω = {CC, CS, SC, SS} y naturalmente
asignamos probabilidades uniformemente, de modo que cada uno de los cuatro resultados elementales
tiene probabilidad 1/4. Luego:
1
P (”ambas salen cara”) = P ({CC}) =
4
Para responder a b) utilizamos la definición de probabilidad condicional. Sean E = ”ambas salen cara” y
H = ”la primera sale cara”. Entonces:
P (EF ) P ({CC}) 1/4 1
P (E|H) = = = =
P (F ) P ({CC, CS}) 1/2 2
Prof.J.Gastón Argeri 23
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 24
ii) Supongamos que B ∈ ΣH . Luego, existe cierto E ∈ Σ tal que B = EH. Dado que tanto
E como H son miembros de Σ también lo es B. Luego, también B c ∈ Σ. Entonces el
complemento de B relativo a H es H \ B = B c H. Por ende este complemento pertenece a
ΣH , siendo este complemento la intersección entre H y un miembro de Σ.
iii) Sea {Bn } una sucesión en ΣH . Luego, existe una sucesión {En } en Σ tal que ∀n , Bn =
En H. Luego: Ã ∞ !
∞
[ ∞
[ [
Bn = En H = En ∩ H
n=1 n=1 n=1
∞
S
Sea E = En . Dado que los En son miembros de Σ resulta E ∈ Σ. Pero como
n=1
∞
S ∞
S
Bn = EH resulta que Bn ∈ Σ H ¥
n=1 n=1
Propiedad 22 Dados (Ω, Σ, P ) espacio de probabilidad y H ∈ Σ tal que P (H) > 0, la función
PH
Σh −→ R definida por
P (B)
PH (B) =
P (H)
es una probabilidad sobre (H, ΣH ). Más aún, se verifica: ∀E ∈ Σ , PH (EH) = P (E|H)
Dem:
La demostración se propone como ejercicio al final del capı́tulo ¥
Dem:
Por inducción sobre n.
Paso base: n = 1
Este caso corresponde a demostrar i). Sean A1 , A2 ∈ Σ con P (A) > 0. Se tiene:
P (A1 A2 )
Como P (A2 |A1 ) = se deduce P (A1 A2 ) = P (A1 )P (A2 |A1 )
P (A1 )
Prof.J.Gastón Argeri 24
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 25
HI
= P (A1 )P (A2 |A1 ) · · · P (An+1 |A1 · · · An )P (An+2 |A1 · · · An+1 )
Esto demuestra que la propiedad es verdadera para n + 1 bajo el supuesto que sea verdadera para
n. Luego, por inducción es válida para todo n ∈ N ¥
Ejemplo: Una urna contiene inicialmente r bolillas rojas y b bolillas blancas. Se realiza el siguiente
experimento aleatorio: Se extrae una bolilla al azar y se completa la urna con c bolillas de ese mismo
color. Se extrae nuevamente una bolilla al azar y se completa la urna con c bolillas del mismo
color, etc. Se quiere calcular la probabilidad de que las tres primeras extracciones resulten en bolillas
rojas. Para resolverlo, dado que el experimento se lleva a cabo en tres etapas y cada etapa afecta la
composición de la urna de extracción, es adecuado condicionar una extracción a los resultados de las
extracciones previas.
Definamos Ri = ”la i-ésima extracción resulta bolilla roja” (i = 1, 2, 3). Entonces lo que pretende-
mos calcular es precisamente P (R1 R2 R3 ). Planteamos la regla del producto:
Definición 9 Sea (Ω, Σ, P ) un espacio de probabilidad. Una sucesión {An } en Σ se dice una
partición de Ω sii se verifican:
i) ∀n ∈ N , P (An ) > 0
∞
S
ii) Ω = An
n=1
iii) ∀n, n ∈ N , n 6= m ⇒ A n ∩ Am = ∅
Prof.J.Gastón Argeri 25
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 26
Dem:
∞
S
Dado que {Hn } es una partición de Ω, sabemos que An = Ω. Por lo tanto
n=1
à ∞
! ∞
[ [
B =B∩Ω=B∩ Hn = BHn
n=1 n=1
Además esta unión es disjunta dos a dos:
n 6= m ⇒ (BHn )(BHm ) = BHn Hm = B∅ = ∅
Luego:
∞
X
P (B) = P (BHn )
n=1
Pero como ∀n ∈ N , P (Hn ) > 0 podemos escribir P (BHn ) = P (B|Hn )P (Hn ). Entonces:
∞
X ∞
X
P (B) = P (BHn ) = P (B|Hn )P (Hn ) ¥
n=1 n=1
Nota: El teorema de la probabilidad total es también válido para particiones finitas.
Ejemplo: Una caja C1 contiene n1 fichas marcadas con un 1 y n2 fichas marcadas con un 2.
Se extrae una ficha al azar. Si sale 1 se extrae una bolilla al azar de una urna U 1 que contiene
r1 bolillas rojas y b1 bolillas blancas. En cambio, si sale 2 se extrae una bolilla al azar de una urna
U2 que contiene r2 bolillas rojas y b2 bolillas blancas. Calcular la probabilidad de extraer una
bolilla roja.
La composición de la urna de la que se extrae la bolilla depende de la primera etapa del experimento
(extracción de ficha). Por lo tanto es de esperar que necesitemos condicionar al resultado de la primera
etapa. Definamos F1 = ”sale ficha 1” y F2 = ”sale ficha 2”. Entonces {F1 , F2 } es claramente una
partición de Ω. Definamos también R = ”sale bolilla roja”. Por lo tanto:
2
X
P (R) = P (R|Fn )P (Fn ) = P (R|F1 )P (F1 ) + P (R|F2 )P (F2 )
n=1
Es claro que
n1 n2
P (F1 ) = n1 +n2
; P (F2 ) = n1 +n2
También es claro que:
r1 r2
P (R|F1 ) = r1 +b1
; P (R|F2 ) = r2 +b2
Por lo tanto: r1 n1 r2 n2
P (R) = · + ·
r1 + b1 n1 + n 2 r2 + b2 n1 + n 2
Teorema 5 (Regla de Bayes)
Sean (Ω, Σ, P ) un espacio de probabilidad y {Hn } una partición de Ω. Para cualquier B ∈ Σ tal
que P (B) > 0 y para cualquier j ∈ N se verifica:
P (B|Hj )P (Hj )
P (Hj |B) = ∞
P
P (B|Hn )P (Hn )
n=1
Prof.J.Gastón Argeri 26
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 27
Dem:
Se tiene:
P (BHj ) P (B|Hj )P (Hj )
P (Hj |B) = = ∞ ¥
P (B) P
P (B|Hn )P (Hn )
n=1
Nota: La regla de Bayes también es válida para particiones finitas.
Ejemplo: Una caja contiene N = n1 + n2 + n3 fichas, de las cuales n1 están numeradas con
”1”, n2 están numeradas con ”2” y n3 están numeradas con ”3”. Se dispone además de tres urnas
U1 , U2 , U3 . La urna Ui contiene ri bolillas rojas y bi bolillas blancas (i = 1, 2, 3). Se extrae al
azar una ficha de la caja. Acto seguido se elige al azar una bolilla de la urna rotulada con el mismo
número que la ficha extraida. Sabiendo que la bolilla extraida fue roja, ¿ cuál es la probabilidad de
que haya provenido de la urna U2 ?
Sean
Fi = ”sale ficha i” ; i = 1, 2, 3
R = ”sale bolilla roja” y B = ”sale bolilla blanca”
Se pretende calcular P (F2 |R). Acá se quiere averiguar la probabilidad de un evento que ocurrió
en una etapa previa del experimento basados en infromación de una etapa posterior. Es natural
entonces ”revertir” este condicionamiento, para lo cual utilizamos el teorema de Bayes. Notemos que
{F1 , F2 , F3 } es una partición de Ω. Entonces:
P (R|F2 )P (F2 )
P (F2 |R) = P (R|F1 )P (F1 )+P (R|F2 )P (F2 )+P (R|F3 )P (F3 )
=
r2 n2
·
r2 +b2 n1 +n2 +n3
= r1
·
n1 r2 n r3
+ r +b · n +n2 +n + r +b ·
n3 =
r1 +b1 n1 +n2 +n3 2 2 1 2 3 3 3 n1 +n2 +n3
r2 n 2
r2 +b2
= r1 n 1 r n r n
+ r 2+b2 + r 3+b3
r1 +b1 2 2 3 3
Ejemplo: Un procedimiento llamado fluoroscopı́a cardı́aca (FC) se utiliza para determinar si existe
calcificación en las arterias coronarias. El test permite detectar si hay 0,1,2,ó 3 arterias coronarias
calcificadas. Anotemos:
Ti+ : la FC detecta i arterias calcificadas (i = 0, 1, 2, 3)
i P (Ti+ |D + ) P (Ti+ |D −)
0 0.41 0.96
1 0.24 0.02
2 0.20 0.02
3 0.15 0.00
P (Ti+ |D + )P (D + )
P (D + |Ti+ ) =
P (Ti+ |D + )P (D + ) + P (Ti+ |D −)P (D −)
Prof.J.Gastón Argeri 27
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 28
donde P (D −) = 1 − P (D + )
Se obtienen los resultados siguientes:
15 Independencia estocástica
Sean A, B eventos con P (A) > 0 y P (B) > 0. Intuitivamente podemos decir que dichos eventos
son independientes (entre sı́) si el hecho que ocurra A no influye sobre la chance de ocurrir B y
recı́procamente, el hecho que ocurra B no influye sobre la chance de ocurrir A. Es decir si la
ocurrencia de A ni afecta ni es afectada por la ocurrencia de B. Podemos expresar esta idea intuitiva
diciendo que A y B son independientes sii P (B|A) = P (B) y P (A|B) = P (A). Expresando
mediante intersecciones podemos reducir estas dos condiciones a una sola, con la ventaja adicional
de no requerir que los eventos tengan probabilidades positivas. Esta idea es la base de la siguiente
definición.
Ejemplo: Se elige al azar una carta de un mazo de 52 cartas francesas. Consideremos los eventos
1 4 13
P (AC) = 52
= 52
· 52
= P (A)P (C)
Por lo tanto A y C son independientes.
Ejemplo: Se arrojan dos dados equilibrados, uno blanco y otro rojo. Consideremos los eventos
1 5 1
P (AB) = 36
6= 36
· 36
= P (A)P (B)
Por lo tanto A y C no son independientes.
Propiedad 23 Los eventos A y B son independientes sii los eventos A y B 0 son independientes
Dem:
⇒) Supongamos A y B independientes. Luego: P (AB) = P (A)P (B). Entonces:
P (AB 0 ) = P (A\B) = P (A)−P (AB) = P (A)−P (A)P (B) = P (A)(1−P (B)) = P (A)P (B 0 )
Prof.J.Gastón Argeri 28
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 29
Entonces:
1 1 1
P (A) = 2
, P (B) = 2
, P (C) = 2
1 1 1
P (AB) = 4
= P (A)P (B) , P (AC) = 4
= P (A)P (C) , P (BC) = 4
= P (B)P (C)
1 1
P (ABC) = 4
6= 8
= P (A)P (B)P (C)
Entonces:
1 1 1
P (A) = 2
, P (B) = 2
, P (C) = 2
1 1 1 1
P (AB) = 4
= P (A)P (B) , P (BC) = 4
= P (B)P (C) , P (AC) = 8
6= 4
= P (A)P (C)
1
P (ABC) = 8
= P (A)P (B)P (C)
Definición 12 Se dice que los eventos A1 , · · · , An son independientes sii para cualquier secuencia
estrictamente creciente 1 ≤ i1 < · · · < ir ≤ n de enteros, se verifica
r
Q
P (Ai1 · · · Air ) = P (Aij )
j=1
Prof.J.Gastón Argeri 29
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 30
Prof.J.Gastón Argeri 30
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 31
16 Funciones
X
Sea Ω → C una función. Recordemos que esto significa que X establece una correspondencia entre
elementos de Ω y elementos de C con la caracterı́stica que a cada elemento de Ω le asigna uno y sólo
un elemento de C. Si dicha correspondencia asigna al elemento ω ∈ Ω el elemento c ∈ C decimos
que c es el valor de X en ω o la imagen de ω por X, situación que se anota X(ω) = c.
El conjunto Ω se denomina dominio de la función y suele anotarse Dom(X). La imagen o rango (o
a veces el recorrido) de X es el conjunto de todos los valores de X, es decir el conjunto formado por
todos los valores X(ω) cuando ω recorre Ω. Anotaremos la imagen de X como R X . Es decir:
RX = {X(ω) : ω ∈ Ω} = {c ∈ C : ∃ω ∈ Ω , c = X(ω)}
Dado B ⊆ C definimos la imagen inversa de B por X como el conjunto de todos los elementos de
Ω cuyas imágenes por X pertenecen a B. Si anotamos X −1(B) a la imagen inversa de B por
X esta definición establece que
X −1(B) = {ω ∈ Ω : X(ω) ∈ B}
X
Ejemplo: Sea R → R dada por X(t) = t2 . En este caso la imagen o rango de X es RX = [0, ∞).
Por otra parte:
X −1 ({4}) = {2, −2} , X −1 ([4, ∞)) = (−∞, −2] ∪ [2, ∞)
n √ √ o
X −1 ({0}) = {0} , X −1 ({0, 2, 4, 7}) = 0, ± 2, ±2, ± 7
ω X(ω)
ω1 2 X −1 ({2}) = {ω1 } X −1 ({1}) = {ω2 , ω3 }
ω2 1 Entonces por ejemplo: X −1 ({0}) = {ω4 } X −1 ((−∞, 0]) = {ω4 }
ω3 1 X −1 ((−∞, 1]) = {ω2 , ω3 , ω4 } X −1 ((−∞, −1]) = ∅
ω4 0
Dado A ⊆ R se denomina función indicadora o función caracterı́stica de A a la función I A : R →
R dada por
1 si x ∈ A
IA (x) =
0 si x 6∈ A
Prof.J.Gastón Argeri 31
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 32
Definición 14 Sea X v.a. definida sobre un espacio de probabilidad (Ω, Σ, P ). Se dice que X es
discreta sii existe A ∈ Σ, A a lo sumo numerable y tal que P (X ∈ A) = 1.
Observemos que cuando el espacio muestral es finito cualquier variable aleatoria es discreta, pues basta
tomar A = Ω.
Propiedad 25 Dada una v.a. discreta X existe un mı́nimo A ∈ Σ con la propiedad que P (X ∈
A) = 1
Dem:
Siendo X discreta, sea A ∈ Σ tal que A es a lo sumo numerable y P (X ∈ A) = 1. Definamos
SX = {x ∈ R : P (X = x) > 0}. Entonces:
A = SX ] (A \ SX )
de manera que 1 = PX (A) = PX (SX ) + PX (A \ SX ). Mostraremos que PX (A \ SX ) = 0. En
c resulta ∀x ∈ B , P ({x}) = 0.
efecto: Anotemos B = A \ SX . En primer lugar, como B ⊆ SX X
Dado que A es a lo sumo numerable resulta B a lo sumo numerable. Luego:
à !
] X
PX (B) = PX {x} = PX ({x}) = 0
x∈B x∈B
Prof.J.Gastón Argeri 32
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 33
P (X ∈ SX ) = 1
Definición 15 Dada una variable aleatoria discreta X se denomina soporte (o rango esencial o
simplemente rango) de X al mı́nimo A tal que P (X ∈ A) = 1. Anotaremos RX al rango de X.
Cuando un experimento conduce a medir cantidades como ”peso”, ”altura”, ”temperatura”, ”du-
ración”, etc, es de esperar que dichas variables aleatorias no estén restringidas a un rango a lo sumo
numerable. Una posible clasificación de las variables aleatorias es la siguiente:
discretas
variables aleatorias continuas
mixtas
Son discretas aquellas variables aleatorias cuyo rango es a lo sumo numerable. Son continuas aquellas
que poseen una ”densidad” (concepto que precisaremos más adelante). Las mixtas son aquellas que
ni son discretas ni son continuas.
Ejemplo: Se lanza una moneda tantas veces como sea necesario hasta que sale ”cara”. En este caso
Ω = {C, SC, SSC, SSSC, · · · } y consideramos Σ = P(Ω).
Sea X = ”lanzamientos necesarios hasta obtener cara”. Esta va. discreta tiene rango R X = N. Para
familiarizarnos con la notación de imagen inversa vemos como ejemplo que:
Ejemplo: Se lanza una moneda. Se tiene Ω = {C, S}. Consideramos Σ = P(Ω). Sea X =
”cantidad de caras obtenidas”. Entonces RX = {0, 1}. En este caso:
∅ si x<0
{X ≤ x} = {S} si 0 ≤ x < 1
{C, S} si x≥1
Recordemos que una bola abierta en Rn es el conjunto de todos los puntos de Rn que distan de un
xo ∈ Rn (llamado el centro de dicha bola) en menos que una cantidad ² > 0 (el radio de
punto fijo ~
la bola). Es decir
B²(~xo ) = {~x ∈ Rn : k~ x−~ xo k < ²}
Un subconjunto A ⊆ Rn se dice abierto sii para cada ~
x = (x1 , · · · , xn ) ∈ A existe al menos una
n−bola abierta en Rn centrada en ~
x y completamente contenida en A. Formalmente: A ⊆ Rn es
abierto sii se verifica
∀~ y ∈ Rn , k~
x ∈ A , ∃² > 0 , ∀~ y−~
xk < ² ⇒ y ∈ A
Prof.J.Gastón Argeri 33
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 34
Dem: ¡ ¢
c
Como B = (B ∩ RX ) ] B ∩ RX se deduce que:
c
PX (B) = PX (B ∩ RX ) + PX (B ∩ RX )
c ) = 0. Luego: P (B ∩ Rc ) = 0, de manera que
Pero como PX (RX ) = 1 entonces PX (RX X X
X
PX (B) = PX (B ∩ RX ) = P (X = x)
x∈B∩RX
Grafiquemos los valores de X sobre el eje de abscisas y las probabilidades halladas anteriormente
sobre el eje de ordenadas:
Prof.J.Gastón Argeri 34
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 35
1.0
0.14
0.12
0.8
0.10
0.6
0.08
P(X<=k)
P(X=k)
0.06
0.4
0.04
0.2
0.02
0.0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
k k
Ejemplo: Se arroja tres veces una moneda normal. Sea X = cantidad de caras obtenidas. Entonces
RX = {0, 1, 2, 3}. La función de distribución acumulada de X es
0 si x<0
1/8 si 0 ≤ x < 1
FX (x) = 1/2 si 1 ≤ x < 2
7/8 si 2 ≤ x < 3
1 si x≤3
)
0.8
0.6
F(x)
)
0.4
0.2
)
0.0
-1 0 1 2 3 4
Prof.J.Gastón Argeri 35
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 36
Propiedad 28 Sea X una variable aleatoria con función de distribución acumulada F X . Se cumple:
i) ∀x ∈ R , 0 ≤ FX (x) ≤ 1
Dem:
iii) Siendo FX no decreciente sabemos que para todo x ∈ R , lim FX (t) existe (es finito). Como
© ª t → x+ ¡ ¢
1 1
x+ n es una sucesión de términos a la derecha de x y tal que lim x + n = x, en-
n →∞
¡ ¢ ∞
T © ª
1 1
tonces lim FX (t) = lim FX x + n . Pero: {X ≤ x} = X ≤x+ n . Como esta
t→x + n → ∞ n=1
n o © ª
1 1
intersección es decreciente, pues X ≤ x + n+1 ⊆ X ≤x+ n , entonces por propiedad
¡ 1
¢
de una función de probabilidad es P (X ≤ x) = lim P X ≤ x + n . Luego:
n →∞
µ ¶ µ ¶
1 1
FX (x) = P (X ≤ x) = lim P X ≤ x + = lim FX x + = lim FX (t)
n →∞ n n →∞ n t → x+
∞
S
iv) Dado que Ω = {X ∈ R} = {X ≤ n} y siendo la unión creciente, por propiedad de una
n=1
función de probabilidad se tiene lim FX (n) = lim P (X ≤ n) = P (Ω) = 1. Pero siendo
n →∞ n →∞
FX no decreciente y acotada resulta lim FX (x) = lim FX (n). Entonces:
x →∞ n →∞
i) F es no decreciente en R.
Prof.J.Gastón Argeri 36
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 37
El teorema anterior permite demostrar la existencia de una variable aleatoria X (definida en cierto
espacio de probabilidad) tal que F = FX . En efecto:
F es no decreciente.
Se tiene
¡ ¢
lim F (x) = lim 0=0 y lim F (x) = lim 1 − e− x = 1
x → −∞ x → −∞ x →∞ x →∞
0.4
0.2
0.0
-2 0 2 4 6 8 10
i) FX (xo ) − FX (xo −) = P (X = xo )
Prof.J.Gastón Argeri 37
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 38
Dem:
i) Utilizando las propiedades de continuidad de una probabilidad resulta:
µ ∞
¶
S
= P {X ≤ xo − 1/n} = P (X < xo )
n=1
Bastará entonces mostrar que los Ak son finitos. Supongamos por el absurdo que existiera k tal
que Ak fuera infinito. Entonces existirı́a una sucesión de términos todos distintos {x n } tal que
∀n , xn ∈ Ak . Luego:
à ∞ ! ∞
] X
P (A) ≥ P {xn } = P ({xn }) = ∞
n=1 n=1
dado que la serie posee término general que no tiende a cero. Absurdo. Luego los A k son todos
finitos, con lo cual A es a lo sumo numerable ¥
Dem:
Demostremos i):
{a < X ≤ b} = {X ≤ b} \ {X ≤ a}
Entonces
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a) ¥
• Cada ensayo tiene sólo dos posibles resultados, digamos E (”éxito”) y F (”fracaso”).
Prof.J.Gastón Argeri 38
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 39
Es frecuente denotar la probabilidad de fracaso en cada ensayo individual por q. De modo que
p + q = 1, es decir q = 1 − p. El espacio muestral asociado a una sucesión de n ensayos de Bernoulli
es Ω = {(ω1 , · · · , ωn ) : ωi ∈ {E, F } , 1 ≤ i ≤ n}. Ası́, el experimento consta de 2n posibles
resultados. Notemos que, salvo cuando p = 1/2, los eventos elementales no son equiprobables. De
hecho:
P ({ω}) = pr · q n−r sii ω posee exactamente r éxitos
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale 3”, de modo
que F = ”no sale 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli con probabilidad de
éxito p = 1/6 en cada ensayo. Entonces, por ejemplo:
µ ¶2 µ ¶3
1 5
P ({(3, 1, 1, 3, 6)}) = ·
6 6
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = ”sale múltiplo de 3”,
de modo que F = ”no sale múltiplo de 3”. Se trata de una sucesión de n = 5 ensayos de Bernoulli
con probabilidad de éxito p = 1/3 en cada ensayo. Entonces, por ejemplo:
µ ¶3 µ ¶2
1 2
P ({(3, 1, 1, 3, 6)}) = ·
3 3
Ejemplo: Dada un sucesión de n ensayos de Bernoulli, con probabilidad de éxito p en cada ensayo,
sea X = ”cantidad de éxitos en los n ensayos”. Esta variable aleatoria tiene R X = {0, 1, 2, · · · , n}.
El evento {X = k} estará formado por todos aquellos resultados elementales que consten exac-
tamente de k ”éxitos” y n − k ”fracasos”. Dado que cada uno de ellos tiene probabilidad
individual pk (1 − p)n−k, para calcular la probabilidad de {X = k} bastará multiplicar dicha
probabilidad individual por la cantidad total
¡n¢ de resultados elementales que consten¡n¢dekexactamente
k ”éxitos” y n − k ”fracasos”, es decir k . Entonces se tiene: P (X = k) = k p (1 − p)n−k
(k = 0, 1, · · · , n)
Ejemplo: Consideremos un ensayo aleatorio con dos resultados posibles ”éxito” y ”fracaso”, donde la
probabilidad de ”éxito” es 0 < p < 1. Nuestro experimento aleatorio consiste en repetir el ensayo en
forma independiente hasta obtener el primer ”éxito”. El espacio muestral puede representarse como
Ω = {E, F E, F F E, F F F E, · · · }. Los resultados elementales no son equiprobables. De hecho:
P |F ·{z · · F} E = (1 − p)k p
k
donde [x] simboliza la ”parte entera de x”, es decir el mayor entero que es menor o igual que x. Por
ejemplo: [4] = 4 , [4, 1] = 4 , [3, 9] = 3. Entonces:
½
0 si x < 1
FX (x) =
1 − q [x] si x ≥ 1
Definición 21 Dada una variable aleatoria X se denomina función de probabilidad puntual o función
de masa de probabilidad (fmp) de X a la función
Prof.J.Gastón Argeri 39
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 40
Grafiquemos esta fdp en el caso n = 10, para p = 1/2 y luego para p = 1/4
p=0.5 p=0.25
0.30
0.30
0.25
0.25
0.20
0.20
fdp(x)
fdp(x)
0.15
0.15
0.10
0.10
0.05
0.05
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Nota: Obsérvese que FX (xo ) − FX (xo −) representa el valor del ”salto” de la fda de X en el punto
x = xo . Cuando FX es continua en xo entonces no hay salto allı́ y en consecuencia la fmp de X es
nula en x = xo .
Prof.J.Gastón Argeri 40
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 41
Ejemplo: Se arroja una moneda normal 3 veces. Sean X = ”cantidad de caras obtenidas” e Y =
”cantidad de cecas obtenidas”. Veamos que X e Y son idénticamente distribuidas. En efecto, dado
que en cada ensayo la probabilidad de cara es igual a la probabilidad de ceca, se tiene:
[x] µ ¶ µ ¶3
X 3 1
FX (x) = = FY (x)
k=0
k 2
Observemos, de paso, que X 6= Y . Por ejemplo, para ω = (C, C, S) es X(Ω) = 2 en tanto que
Y (ω) = 1
Propiedad 33 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X verifica
las propiedades siguientes:
i) ∀x ∈ R , pX (x) ≥ 0
∞
P
ii) pX (xn ) = 1
n=1
Dem:
∞
S
Ω = {X ∈ RX } = {X = xn } siendo la unión disjunta. Por lo tanto: 1 = P (Ω) =
n=1
∞
P ∞
P
P ({X = xn }) = pX (xn ) ¥
n=1 n=1
Propiedad 34 Sea X una variable aleatoria discreta con rango RX = {xn }. La fmp de X determina
unı́vocamente su fda. En efecto:
∞ ∞ ∞
[ X X
FX (x) = P (X ≤ x) = P {X = xn } = P (X = xn ) = pX (xn )
n=1 n=1 n=1
xn ≤x xn ≤x xn ≤x
Ejemplo: Se lanzan dos dados. Consideremos la variable aleatoria Xi = ”número del dado i” (i =
1, 2). Sea X = ”máximo número en los dos dados”. Es decir: X = max {X1 , X2 }. Hallemos la
fmp y la fda de X.
Hallemos primeramente las fmp de X1 y X2 . Se tiene: RX1 = RX2 = {1, 2, · · · , 6} y por
equiprobabilidad vale:
pX1 (k) = pX2 (k) = 1/6 (k = 1, 2, · · · , 6)
Por lo tanto:
6
X 1 [x]
FX1 (x) = FX2 (x) = =
k=1
6 6
k≤x
Prof.J.Gastón Argeri 41
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 42
k2 − (k − 1)2 2k − 1
pX (k) = P (X ≤ k) − P (X ≤ k − 1) = FX (k) − FX (k − 1) = =
36 36
Generalicemos esta situación para el experimento que consiste en arrojar una dado normal n-veces.
Definamos:
Xi = ”número obtenido en el i-ésimo lanzamiento”
n
Q n
Q ³ ´n
[x] [x]
= FXi (x) = 6
= 6
i=1 i=1
Es decir, para variables aleatorias continuas la fmp carece por completo de interés dado que es
idénticamente nula.
i) ∀n ∈ N , pn ≥ 0
∞
P
ii) pn = 1
x=1
Ejemplo: Consideremos una población formada por un gran número N = 1000 de personas. Supong-
amos que nos interesa la distribución de la variable aleatoria X que mide la altura de un individuo
seleccionado al azar dentro de esta población. Supongamos para fijar ideas que las alturas se miden
en cm y que se encuentran en el intervalo [150, 190] Dado el gran número de personas en la población
podemos tener una idea aproximada de la distribución de alturas dividiendo el intervalo [150, 190]
Prof.J.Gastón Argeri 42
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 43
en cuatro subintervalos de igual longitud [150, 160) , [160, 170) , [170, 180) , [180, 190) y de-
terminando las frecuencias, es decir la cantidad de individuos cuyas alturas caen en el respectivo
subintervalo. Para fijar ideas, supongamos que tales frecuencias resulten como muestra la tabla:
Intervalo f (frecuencia) f r(frecuencia relativa) f r/(longitud subintervalo)
[150, 160) 80 0.10 0.01
[160, 170) 150 0.25 0.025
[170, 180) 500 0.50 0.05
[180, 190) 150 0.15 0.015
Si tomamos el extremo izquierdo de cada subintervalo como representativo de un valor en dicho subin-
tervalo, la tabla anterior provee una variable aleatoria discreta D que aproxima a la variable aleatoria
X y que toma los cuatro valores 150, 160, 170, 180 con probabilidades dadas por la columna f r y
que podemos resumir en esta otra tabla:
k pD (k) pD (k)/(long.subintervalo)
150 0.10 0.01
160 0.25 0.025
170 0.50 0.05
180 0.15 0.015
Para obtener una variable aleatoria discreta cuya distribución represente más fielmente la distribución
de X podemos refinar nuestra partición del intervalo original [150, 190] y recalcular la fmp de la
variable discreta obtenida. Siguiendo de este modo, aumentando cada vez la cantidad de subinterva-
los y reduciendo la longitud de los mismos (norma tendiendo a cero) e imaginando que la población
es tan grande que puede suponerse ”infinita” y por ende este proceso podrı́a segir indefinidamente,
obtendrı́amos por lo general una situación como se muestra en los gráficos siguientes, en la que se
grafica pD /(long.subintervalo) versus x para particiones con norma cada vez menor. Comente-
mos algunas caracterı́sticas interesantes acerca de estos gráficos:
• Dado que hemos considerado únicamente particiones regulares, los rectángulos más altos y los
más bajos permiten visualizar los valores más probables y los menos probables de la variable
discreta y, como la discreta aproxima a la v.a. X, también podemos localizar los intervalos
donde X cae con mayor y con menor probabilidad.
• Cuidado: Las alturas de los rectángulos no dan probabilidades sino probabilidades por unidad
de longitud.
• Si la variable aleatoria X es discreta, el proceso deja de ser informativo dado que a partir de
cierto momento habrá una enorme cantidad de subintervalos donde f r/L (L la long. del
subintervalo) será nula y algunos otros (a lo sumo tantos como valores tome la v.a. X) donde
f r/L será muy grande (pues L tiende a cero en tanto que f r permanecerá fija). En el lı́mite
podrı́amos decir que las gráficas tienden a ser nulas salvo en una cantidad a lo sumo numerable
de ”picos infinitos”.
• Las gráficas de las alturas de los rectángulos se asemejan cada vez más a la gráfica de una
función, digamos f (x), de argumento continuo.
Prof.J.Gastón Argeri 43
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 44
0.05
0.05
0.03
0.03
0.0 0.01
0.0 0.01
150 160 170 180 190 150 160 170 180 190
x x
0.05
0.05
0.03
0.03
0.0 0.01
0.0 0.01
150 160 170 180 190 150 160 170 180 190
x x
Definición 22 Se dice que una variable aleatoria X es continua (o más precisamente absolutamente
continua) sii existe al menos una función fX : R → R tal que:
i) ∀x ∈ R , fX (x) ≥ 0
R
ii) ∀A ∈ B , P (X ∈ A) = fX (x) dx
A
• Dado que la integral involucrada en esta definición puede ser impropia, se presupone su conver-
gencia.
Rx
• Tomando A = (−∞, x] se tiene que FX (x) = fX (t) dt
−∞
En particular, si fX sea una función continua en el intervalo (a, b) resulta FX derivable en
0 (x) = f (x).
(a, b) y vale ∀x ∈ (a, b) , FX X
∞
R
• Observemos que fX (x) dx = P (X ∈ R) = 1. Es decir, el área bajo la curva y =
−∞
fX (x) es igual a 1. Esto implica que una fdp, a diferencia de una fda, no puede ser monótona
puesto que para la convergencia de esta integral impropia es necesario que se verifique:
Prof.J.Gastón Argeri 44
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 45
0 (x)
• Si fX es continua en x, entonces fX (x) = FX de modo que se tiene la siguiente
interpretación de la fdp:
fX (x+h)−FX (x) P (X≤x+h)−P (X≤x)
fX (x) = lim h
= lim h
=
h → 0+ h → 0+
P (x<X<x +h)
= lim h
h → 0+
Ejemplo: Sea F : R → R dada por F (x) = 1+e1− x . Comprueben que F satisface las condiciones
de una fda, es decir que existe una variable aleatoria X tal que F = FX . Esta va es continua.
Hallemos su fdp:
0 (x) = d 1 e− x ex
fX (x) = FX dx 1+e− x
= 2 = (1+ex )2
(1+e− x )
i) ∀x ∈ R , f (x) ≥ 0
∞
R
ii) f (x) dx = 1
−∞
Entonces:
à !
x+h
R Rx x+h
R
lim F (x + h) − F (x) = lim f (t) dt − f (t) dt = lim f (t) dt =
h→0 h→0 −∞ −∞ h→0 x
à !
x+h
R
1
= lim h· h
f (t) dt = 0 · f (x) = 0
h→0 x
Prof.J.Gastón Argeri 45
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 46
• Finalmente:
Rx −∞
R
lim F (x) = lim f (t) dt = f (t) dt = 0
x → −∞ x → −∞ −∞ −∞
Rx ∞
R
lim F (x) = lim f (t) dt = f (t) dt = 1
x →∞ x → ∞ −∞ −∞
Esto demuestra que F es una fda. Entonces por teorema 1 existe una variable aleatoria con fda F (y
por ende, con fdp f ) ¥
Definición 23 Sea f una fdp. Se denomina soporte de f al menor conjunto cerrado que contiene
al conjunto {x ∈ R : f (x) > 0}. Anotaremos RX al soporte de f .
2 /2
Propiedad 38 La función f (x) = √1 · e− x es una fdp.
2π
Dem:
Claramente: ∀x ∈ R , f (x) > 0. Por otra parte:
à !2 à ! à !
∞
R ∞
R ∞
R
1 2 1 2 − y2 /2
√ · e− x /2 dx = √ · e− x /2 dx · √1 ·e dy =
2π 2π 2π
−∞ −∞ −∞
∞
R ∞
R R 2π
∞ R
1 2 +y 2 )/2 1 2 /2
= 2π
· e− (x dy dx = 2π
· e− r r dθ dr =
−∞ −∞ 0 0
∞
R ∞
R ¯∞
2 /2
= e− r r dr = e− t dt = − e− t¯0 = 1
0 0
En lo anterior hemos utilizado coordenadas polares (se multiplicó por r, el módulo del jacobiano).
Luego, el cuadrado de la integral es 1. Pero siendo positiva la integral (pues f es positiva), resulta
necesariamente:
Z∞
1 2
√ · e− x /2 dx = 1
2π
−∞
Esta fdp es sumamente importante en estadı́stica y se denomina densidad gaussiana (es frecuente
llamarla también densidad normal standard). Suele anotarse ϕ(x).
Ejemplo: Sea ½
kx si 0<x<1
f (x) =
0 si x ≤ 0 ∨ x ≥ 1
Determinar el valor de la constante k de modo que f resulte ser una fdp. Hallar también la fda.
∞
R
En primer lugar debe ser f (x) dx = 1. En este caso:
−∞
Z1 ¯1
x2 ¯¯ k
1= kx dx = k =
2 0 ¯ 2
0
Prof.J.Gastón Argeri 46
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 47
Ejemplo: El tiempo T en horas que funciona una computadora antes de descomponerse es una v.a.
continua con fdp dada por:
λe− t/100 si t ≥ 0
fT (t) =
0 si t < 0
Calcular la probabilidad de que una computadora funcione entre 50 y 150 horas antes de descompon-
erse. Calcular también la probabilidad de que funciones menos de 100 horas.
Rta: Primero debemos hallar λ. Siendo fT una fdp se tiene:
Z ∞ Z ∞ ¯∞
λe− t/100 dt = −100λ e− t/100¯ = 100λ
¯
1= fT (t) dt =
−∞ 0 0
De manera más gráfica, el cuantil α de una distribución continua es el punto del eje de abscisas que
deja a su izquierda y por debajo de la gráfica de fX (obviamente por encima del eje de abscisas) un
Prof.J.Gastón Argeri 47
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 48
Ejemplo: Si X es una variable aleatoria con distribución gaussiana standard entonces la mediana es
x0.5 = 0 pues debido a la paridad de la fdp ϕ se tiene:
Z0 Z∞
1
FX (0) = ϕ(x) dx = ϕ(x) dx = 0.5
2
−∞ −∞
El cuantil α = 0.05 se determina planteando Φ(x0.05 ) = 0.05. Entonces x0.05 = Φ−1(0.05). Para
calcularlo en forma concreta podemos utilizar tablas normales acumulativas o podemos por ejemplo
recurrir al SPlus. Para ilustrar un poco más, veamos la siguiente tabla (junto con los comandos
utilizados):
p_c(0.01,0.05,0.1)
alfa_c(p,0.5,1-rev(p))
round(qnorm(alfa),3)
α xα
0.01 −2.326
0.05 −1.645
0.1 −1.282
0.5 0.000
0.9 1.282
0.95 1.645
0.99 2.326
Ejemplo: Sea X ≈ Bi(n, 0.5). Veamos que la mediana es única cuando n par pero deja de serlo
cuando n es impar.
• Si n = 2r entonces x0.5 = r pues:
r−1
P ¡2r¢ ¡ 1 ¢2r ¡ 1 ¢2r r−1
P ¡2r¢
P (X < r) = k 2
= 2 k
k=0 k=0
2r
P ¡2r¢ ¡ 1 ¢2r ¡ 1 ¢2r 2r
P ¡2r¢
P (X > r) = j 2
= 2 j
=
j=r+1 j=r+1
¡ 1 ¢2r 2r
P ¡ 2r ¢ ¡ 1 ¢2r r−1
P ¡2r¢
= 2 2r−j
= 2 k
j=r+1 k=0
¡ 1 ¢2r−1 2r−1
P ¡ 2r−1 ¢ ¡ 1 ¢2r−1 r−1
P ¡2r−1¢
= 2 2r−1−j
= 2 k
j=r k=0
Prof.J.Gastón Argeri 48
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 49
Luego: P (X < x∗) = P (X > x∗). Pero como P (X < x∗) + P (X > x∗) = 1,
necesariamente es P (X < x∗) = P (X > x∗) = 1/2. Luego: P (X < x∗) ≤ 0.5 y
P (X > x∗) ≤ 1 − 0.5 = 0.5
Prof.J.Gastón Argeri 49
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 50
19 Distribuciones discretas
19.1 Distribución uniforme discreta
Dado N ∈ N, se dice que una v.a. tiene distribución uniforme discreta en {1, · · · , N } sii su fmp
viene dada por:
1
pX (X = k) = (1 ≤ k ≤ N )
N
Obsérvese que RX = {1, · · · , N } y esta distribución de probabilidades es uniforme en el sentido
que deposita la misma masa de probabilidad en cada uno de los N posibles valores 1, · · · , N de X.
Podemos comprobar que pX verifica los axiomas de una fmp:
• ∀k ∈ RX , pX (k) = 1/N ≥ 0
N
P N
P 1 1
• pX (k) = N
=N· N
=1
k=1 k=1
Ejemplo: Se arroja un dado equilibrado. Sea X el puntaje obtenido. En este caso X posee
distribución uniforme discreta en {1, · · · , 6}
Ejemplo: Se extrae una carta al azar de un mazo de cartas españolas. Sea X la v.a. definida por
1 si sale carta de oro
2 si sale carta de copa
X=
3 si sale carta de espada
4 si sale carta de basto
Ejemplo: Un sereno tiene un llavero con n llaves y sólo una de ellas abre la puerta de su habitación,
pero no recuerda cuál. Decide probarlas una por una (separando las que no abren) hasta lograr
abrir la puerta. Sea X el número de ensayos que necesita hasta abrir la puerta, de manera que
RX = {1, 2, · · · , n}. Veamos que X posee distribución uniforme discreta en {1, 2, · · · , n}. En
efecto:
1
P (X = 1) = n
(n−1)1 1
P (X = 2) = n(n−1)
= n
(n−1)(n−2)1 1
P (X = 3) = n(n−1)(n−2)
= n
.. .. .. .. ..
. . . . .
(n−1)(n−2)···2·1 1
P (X = n) = n!
= n
Prof.J.Gastón Argeri 50
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 51
¡n¢ k
• ∀k ∈ RX , pX (k) = k
p (1 − p)n−k ≥ 0
n
P n ¡ ¢
P n k
• pX (k) = k
p (1 − p)n−k = (p + (1 − p))n = 1
k=0 k=0
Cuando p = 1/2 la fmp resulta simétrica con centro de simetrı́a x∗ = n/2. En efecto: Consideremos
por separado los casos n par e impar.
Se trata de una sucesión de 8 ensayos de Bernoulli, donde en cada ensayo: ”exito”=”sale múltiplo
de 3”. la probabilidad de éxito en cada ensayo es pues p = 1/3. La distribución de X es entonces
Bi(8, 1/3). Calculemos las probabilidades de los siguientes eventos:
Prof.J.Gastón Argeri 51
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 52
Propiedad 39 La fmp de una v.a. con distribución Bi(n, p) alcanza un máximo en el punto
x∗ = [(n + 1)p]
Dem:
Dado que la fmp es discontinua, no es posible aplicar técnicas de cálculo (derivada) para obtener
su máximo. Sin embargo el siguiente procedimiento es viable: Calculemos el cociente C(k) =
pX (k)/pX (k − 1) Mientras este cociente se mantenga mayor que la unidad será pX creciente como
función de k. En cambio mientras el cociente permanezca menor que la unidad entonces p X será
decreciente. Ante todo hallemos este cociente:
¡n¢
k ¢ n!(k − 1)!(n − k + 1)!pk q n−k (n − k + 1)p
C(k) = ¡ n = k−1 n−k+1
=
k−1
k!(n − k)!n!p q kq
Luego:
C(k) > 1 ⇔ (n − k + 1)p > k(1 − p) ⇔ k < (n + 1)p
0.20
0.2
0.15
0.10
0.1
0.05
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8
Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ Bi(n, p). Sea k un vector, k =
(k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dbinom(k,n,p)
da como resultado el vector (pX (k1 ), · · · pX (ks )).
Por ejemplo:
Prof.J.Gastón Argeri 52
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 53
> n <- 8
> p <- 0.25
> k <- c(3, 4, 6, 7)
> dbinom(k, n, p)
[1] 0.2076416016 0.0865173340 0.0038452148 0.0003662109
> round(dbinom(k, n, p), 5)
[1] 0.20764 0.08652 0.00385 0.00037
> k <- 0:8
> dbinom(k, n, p)
[1] 0.10011291504 0.26696777344 0.31146240234 0.20764160156 0.08651733398
[6] 0.02307128906 0.00384521484 0.00036621094 0.00001525879
> round(dbinom(k, n, p), 5)
[1] 0.10011 0.26697 0.31146 0.20764 0.08652 0.02307 0.00385 0.00037 0.00002
pbinom(k,n,p)
da como resultado el vector (FX (k1 ), · · · FX (ks )).
Calculemos su fda:
[x]
P [x]−1
P
FX (x) = P (X ≤ x) = (1 − p)k−1p = p (1 − p)j =
k=1 j=0
1−(1−p)[x]
= p· 1−(1−p)
= 1 − (1 − p)[x] = 1 − q [x]
Algunas de estas gráficas se muestran en la figura siguiente: Graficamos también algunas fmp:
= 1 − FX (s − t) = P (X > s − t) ¥
Prof.J.Gastón Argeri 53
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 54
0.0 0.2 0.4 0.6 0.8 1.0 fda de una G( 0.2 ) fda de una G( 0.4 )
P( X = k )
0 5 10 15 20 0 2 4 6 8 10 12
k k
P( X = k )
0 2 4 6 8 0 1 2 3 4 5
k k
0.4
0.15
0.3
P( X = k )
P( X = k )
0.10
0.2
0.05
0.1
0.0
0.0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
k k
0.8
0.6
0.4
P( X = k )
P( X = k )
0.4
0.2
0.2
0.0
0.0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
k k
Ejemplo: La distribución geométrica surge también en el contexto de ensayos de Bernoulli con proba-
bilidad de éxito p en cada ensayo. Si X = ”cantidad de ensayos hasta obtener el primer éxito” entonces
X posee distribución geométrica con parámetro p. Por ejemplo, si se arroja un dado equilibrado hasta
que sale el número 6 y X representa la cantidad de lanzamientos necesarios, entonces R X = N y
X = k sii en los primeros k − 1 lanzamientos no sale 6 y en el k-ésimo sale 6. Dado que los
lanzamientos son independientes entre sı́, es claro que P (X = k) = (1 − p)k−1p, siendo p = 1/6.
Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ G(p). Sea k un vector, k =
(k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dgeom(k,p)
da como resultado el vector (pX (k1 ), · · · pX (ks )).
Por ejemplo:
Prof.J.Gastón Argeri 54
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 55
pgeom(k,p)
da como resultado el vector (FX (k1 ), · · · FX (ks )).
En tal caso anotaremos X ∼ H(n, D, N ). Observemos que cuando n ≤ min {D, N − D} resulta
RX = {0, 1, · · · , n} .
Nota: Los siguientes comandos de SPlus son útiles: Sea X ∼ H(n, D, N ). Sea k un vector,
k = (k1 , · · · , ks ) (cuando s = 1 es un vector de longitud 1, o sea un número).
dhyper(k,D,N-D,n)
da como resultado el vector (pX (k1 ), · · · pX (ks )).
Por ejemplo:
Prof.J.Gastón Argeri 55
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 56
> D <- 6
> ND <- 8
> n <- 4
> k <- 0:3
> round(dhyper(k, D, ND, n), 4)
[1] 0.0699 0.3357 0.4196 0.1598
phyper(k,D,N-D,n)
da como resultado el vector (FX (k1 ), · · · FX (ks )).
h i
(n+1)(D+1)
La fmp de una v.a. H(n, D, N ) alcanza un máximo cuando k = k ∗ = N +2
, como puede
(n+1)(D+1)
demostrarse y comprobarse en los siguientes gráficos. Nótese que si N +2
no es entero, el
∗ (n+1)(D+1)
máximo se alcanza únicamente en k (unimodal), mientras que si N +2
es entero, entonces
(n+1)(D+1)
pX alcanza su máximo en los dos puntos k ∗ = N +2
y k∗∗ = k∗ − 1 (bimodal)
0.4
0.25
0.3
0.20
P( X=k )
P( X=k )
0.15
0.2
0.10
0.1
0.05
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7
k k
Uno de los contextos donde surgen naturalmente variables Poisson es en situaciones en las que deter-
minado evento de interés ocurre aleatoriamente en puntos del eje temporal. Por ejemplo, si estamos
en una parada de micros y el evento es la llegada de un micro a la parada, tal eventos ocurrirá en de-
terminados instantes (horas). Supongamos que para cierta constante λ > 0 se verifican las siguientes
suposiciones:
Prof.J.Gastón Argeri 56
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 57
P( X = k )
0.1
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
k k
0.15
0.05 0.10 0.15
0.10
P( X = k )
P( X = k )
0.05
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
k k
2. La prbabilidad de que dos o más eventos ocurran en un intervalo de tiempo dado y de longitud
h de la forma: o(h)
Lema 1 Sea {αn } una sucesión de números reales tal que existe α ∈ R con lim αn = α.
n →∞
Entonces se cumple: µ ¶
αn n
lim 1 − = e− α
n →∞ n
Dem:
Sea f (x) = ln (1 − x). Desarrollemos por Taylor de primer orden alrededor de x = 0. Se obtiene:
x2 1
f (x) = −x − · con c entre 0 y x
2 (1 − c)2
Prof.J.Gastón Argeri 57
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 58
Teorema 7 Bajo los supuestos 1,2 y 3, la cantidad de ocurrencias de eventos en un lapso de tiempo
de duración h es una variable aleatoria con distribución de Poisson de parámetro λh.
Dem:
Designemos N (t) el número de ocurrencias de eventos en el intervalo [0, t). Formemos una par-
tición regular del intervalo [0, t] en n subintervalos: [0, t/n) , [t/n, 2t/n) · · · [(n − 1)t/n, t) .
Consideremos los siguientes sucesos:
A = ”k de los subint. contienen exact. un evento y n-k contienen 0 eventos”
Bi = ”el subint. i-ésimo contiene dos o más eventos” (i = 1, · · · , n)
B = ”al menos uno de los subint. contiene dos o más eventos”
C = {N (t) = k} ∩ B
Entonces claramente:
n
S
B= Bi (unión no disjunta)
i=1
Para cada t fijo es lim o(t/n) = 0. Luego: lim P (C) = 0. Por otra parte, si I es un intervalo
n → ∞ t/n n →∞
de duración h, los supuestos 1 y 2 implican que:
P (”ocurren 0 eventos en I”) = 1 − P (”ocurre exact. un evento en I”)−
−P (”ocurren dos o más eventos en I”) =
= 1 − (λh + o(h)) − o(h) = 1 − λh − o(h)
Además en virtud del supuesto 3 se tiene:
¡ ¢ h λt ¡ t ¢ik h ¡ t ¢in−k
P (A) = n k n
+ o n
1 − λt
n
− o n
=
n h ¡ t ¢iok n h ¡ t ¢ion−k
n(n−1)···(n−k+1)
= k!
· n1k n λt
n
+ o n
1 − λt
n
+ o n
=
n h (4)
n(n−1)···(n−k+1) 1 ¡ t ¢iok n h ¡ t ¢ion−k
= nk
· k! n λt
n
+ o n
1 − λt
n
+ o n
=
n h ¡ t ¢iok n h ¡ t ¢ion n h k ³
¡ t ¢io−k Q ´
1 i−1
= k!
n λt
n
+ o n
1 − λt
n
+ o n
1 − λt
n
+ o n
1− n
i=1
Pero como · µ ¶¸ · ¸
λt t o(t/n)
lim n = λt + lim t
+o = λt
n →∞ n n n →∞ t/n
h ¡ ¢ i
se deduce del lema 1 con αn = n λtn
+ o nt que:
½ · µ ¶¸¾n
λt t
lim 1 − +o = e− λt
n →∞ n n
La primera expresión entre llaves en la última de las expresiones en (4) tiende a λ k y la tercera
expresión entre llaves tiende a 0. La productoria consta de un número fijo de factores y cada uno de
ellos tiende a 1. Por lo tanto:
(λt)k
lim P (A) = e− λt · ¥
n →∞ k!
Prof.J.Gastón Argeri 58
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 59
Nota: Este corolario suele utilizarse de la manera siguiente. Sea X ∼ Bi(n, p). Supongamos
n grande, p pequeño y np es moderado. Entonces la fmp de X es aproximadamente igual a la
fmp de Y , siendo Y ∼ P(np). La recomendación suele ser el uso de la aproximación cuando:
n ≥ 100 ; p ≤ 0, 01 ; np ≤ 20
Mencionemos que las variables Poisson no ocurren únicamente contando ocurrencias de eventos en el
tiempo. Damos algunos ejemplos de otras v.a. que usualmente tienen distribución de Poisson:
Ejemplo: Supongamos que la cantidad de errores tipográficos por página de apuntes teórico-prácticos
tipeados por Gastón Argeri posee distribución P(0.25) (i.e. en promedio Gastón comete un error
de tipeo cada cuatro páginas). Si se escoge al azar un apunte teórico-práctico de Gastón, calcular la
probabilidad de que la primera página presente al menos un error tipográfico.
Rta: Si anotamos X a la cantidad de errores en la primera página entonces:
P (X ≥ 1) = 1 − P (X = 0) = 1 − e−0.25 ≈ 0.221
Ejemplo: Supongamos que en promedio uno de cada diez artı́culos producidos por cierta máquina
resultan defectuosos. Se eligen al azar 20 artı́culos producidos por la máquina. Hallar la probabilidad
de que al menos 3 de ellos resulten defectuosos.
Rta: Se trata de una sucesión de n = 20 ensayos de Bernoulli, donde ”éxito=se produce artı́culo
defectuoso”, con p = 1/10 = 0.1 en cada ensayo. Si X representa la cantidad de defectuosos entre
20, entonces X ∼ Bi(20, 0.1) de modo que la probabilidad pedida es:
P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) =
¡20¢ ¡ ¢ ¡ ¢
= 1− 0
(0.9)20 − 20
1
(0.1)(0.9)19 − 20
2
(0.1)2 (0.9)18 ≈
Prof.J.Gastón Argeri 59
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 60
En tal caso anotaremos X ∼ BN (r, p). Obseérvese que RX = {r, r + 1, · · · }. Verifiquemos que
efectivamente pX es una fmp:
¡ ¢ r
• pX (k) = k−1
r−1
p (1 − p)k−r ≥ 0 (k = r, r + 1, · · · )
∞ ∞ ¡ ∞ ¡
P P k−1¢ P k−1¢
• pX (k) = r−1
pr (1 − p)k−r = pr r−1
(1 − p)k−r
k=r k=r k=r
∞
P 1
Consideremos la función g(q) = qj = 1−q
Si la derivamos r − 1 veces obtenemos:
j=0
∞
P 1
jq j−1 = (1−q)2
j=1
∞
P 2
j(j − 1)q j−2 = (1−q)3
j=2
··· ···
∞
P (r−1)!
j(j − 1) · · · (j − r + 2)q j−r+1 = (1−q)r
j=r−1
∞ ¡
P j ¢ j−r+1 (r−1)!
Es decir (r − 1)! r−1
q = (1−q)r
Por lo tanto, tomando q = 1 − p se tiene:
j=r−1
∞ µ ¶ ∞ µ ¶
X k−1 X j pr
pr (1 − p)k−r = pr (1 − p)j−r+1 = r = 1
k=r
r−1 j=r−1
r−1 p
La distribuciń binomial negativa surge naturalmente en el contexto de ensayos de Bernoulli con prob-
abilidad de éxito p en cada ensayo individual. Recordemos que en dicho contexto la Bi(n, p) es la
distribución de la cantidad de éxitos en los n ensayos. En cambio, la BN (r, p) es la distribución
de la v.a. X definida como la cantidad de ensayos necesarios hasta obtener el r-ésimo éxito (es
decir, la cantidad de ensayos es ahora aleatoria). En efecto, decir que X = k equivale a decir que
el r-ésimo éxito ocurre en el k-ésimo ensayo. Por lo tanto en los k − 1 ensayos anteriores debe
haber exactamente r − 1 éxitos y k − r fracasos. Entonces para calcular la probabilidad ¡ ¢ del evento
{X = k} utilizamos asignación de probabilidad por ensayos independientes: Hay k−1 r−1
maneras
de ubicar los r − 1 éxitos entre los k − 1 primeros ensayos (los lugares para los fracasos quedan
automáticamente determinados). Cada ¡ ordenamiento
¢ r de r éxitos y k − r fracasos tiene probabilidad
pr (1 − p)k−r . Luego P (X = k) = k−1 r−1
p (1 − p) k−r Es decir X ∼ BN (r, p).
Prof.J.Gastón Argeri 60
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 61
0.15
0.3
0.06
0.10
0.2
P( X=k )
P( X=k )
P( X=k )
0.04
0.05
0.1
0.02
0.0
0.0
0.0
3 4 5 6 7 8 9 10 11 12 13 14 15 3 4 5 6 7 8 9 10 11 12 13 14 15 3 4 5 6 7 8 9 10 11 12 13 14 15
k k k
20 Distribuciones continuas
20.1 Distribución uniforme
Sean a, b ∈ R con a < b. Se dice que una variable aleatoria X posee distribución uniforme en el
intervalo [a, b] sii X posee fdp fX dada por
½ 1
b−a
si a ≤ x < b
fX (x) =
0 si x < a ∨ x ≥ b
Anotamos X ∼ U (a, b) para indicar que X posee distribución uniforme en [a, b]. Verifiquemos
que fX es realmente un fdp:
• ∀x ∈ R , fX (x) ≥ 0
∞
R Rb Rb
1 1 b−a
• fX (x) dx = b−a
dx = b−a
dx = b−a
=1
−∞ a a
Rx
Obtengamos la fda. FX (x) = fX (t) dt. Debemos distinguir tres casos, según el valor de x:
−∞
• Si x < a: FX (x) = 0
Rx 1 x−a
• Si a ≤ x < b: FX (x) = a b−a
dt = b−a
Rb 1
• Si x ≥ b: FX (x) = a b−a dt = 1
Es decir:
0 si x < a
x−a
FX (x) = b−a
si a ≤ x < b
1 si x ≥ b
Prof.J.Gastón Argeri 61
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 62
1.2
0.8
1.0
1 / ( b - a )
0.8
0.6
0.6
y
y
0.4
0.4
0.2
0.2
0.0
0.0
a b
0 1 2 0 1 2
x x
Para indicar que X posee distribución gaussiana de parámetros µ, σ anotamos X ∼ N (µ, σ). En
particular, cuando µ = 0 y σ = 1 se habla de la distribución gaussiana (o normal) standard. Su
fdp suele anotarse con la letra ϕ. Ası́, la fdp gaussiana standard está dada por
1 1 2
ϕ(x) = √ · e− 2 x ; x∈R
2π
Mediante cálculo es posible estudiar las caracterı́sticas de la gráfica de ϕ. Resulta simétrica respecto
del eje de ordenadas (función par), con máximo en el origen. Además tiene la conocida forma de
”campana de Gauss”. Volviendo al caso general, obsérvese que:
µ ¶
1 x−µ
fX (x) = √ ϕ
2π σ σ
Es decir que fX se puede obtener a partir de ϕ mediante una traslación paralela al eje de abscisas
y cambios de escala en los ejes coordenados. Tales transformaciones conservan la forma acampanada
de la fdp. Grafiquemos algunos ejemplos de fdp gaussianas:
La fda de una v.a. gaussiana standard suele anotarse Φ y viene dada por:
Zx
1 1 2
Φ(x) = √ e− 2 x dt
2π
−∞
Dado que esta función no es elemental (no puede expresarse elementalmente la integral indefinida
correspondiente), para evaluarla en un punto se debe recurrir a tablas o se debe utilizar algún software
o fórmula que aproxime sus valores. En el caso general, observemos que:
µ ¶
x−µ
FX (x) = Φ si X ∼ N (µ, σ)
σ
Nota: Comandos de SPlus dnorm , pnorm , qnorm. Ver el help del SPlus. Por ejemplo: help(dnorm)
o simplemente resaltando ”dnorm” y clickeando sobre la flechita ”run”.
Prof.J.Gastón Argeri 62
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 63
N(4,1.5)
0.5
N(2,1.5)
N(7,1.5)
0.4
0.3
y
0.2
0.1
0.0
-2 0 2 4 6 8 10 12
N(4,1.5)
0.5
N(4,3)
N(4,0.75)
0.4
0.3
y
0.2
0.1
0.0
-2 0 2 4 6 8 10 12
Hallemos al fda de X:
Rx
• Si x ≤ 0 entonces FX (x) = −∞ fX (t) dt = 0 pues fX (t) = 0 si t ≤ 0
Rx Rx ¯x
• Si x > 0 se tiene: FX (x) = −∞ fX (t) dt = 0 λe− λt dt = − e− λt¯0 = 1 − e− λx
Por lo tanto la fda viene dada por:
½
0 si x ≤ 0
FX (x) = − λt
1−e si x > 0
Prof.J.Gastón Argeri 63
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 64
1.0
0.5
lambda=0.2
0.8
lambda=0.4
lambda=0.6
0.4
0.6
0.3
y
0.4
0.2
lambda=0.2
0.2
lambda=0.4
0.1
lambda=0.6
0.0
0.0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14
x x
Para observar las caracterı́sticas más importantes de la distribución exponencial, grafiquemos algunos
ejemplos de fdp y fda en el caso exponencial:
Ejemplo: Consideremos un proceso de conteo (de ocurrencias de cierto evento) tipo Poisson {X t : t > 0}
de parámetro λ, es decir que Xt ∼ E(λ). Definamos la variable aleatoria:
T1 = ”tiempo hasta la primera ocurrencia del evento”
Hallemos la fda de T1 . Para ello calculemos:
P (T1 ≥ t) = P (”la primera ocurrencia se produce luego del instante t”) =
(λt)0
= P (”no hay ocurrencias en [0, t]”) = P (Xt = 0) = e− λt · 0!
= e− λt
Por lo tanto FT1 (t) = 1 − e− λt si t > 0. Naturalmente FT1 (t) = 0 si t ≤ 0. Por lo tanto la
variable aleatoria T1 tiene distribución exponencial de parámetro λ.
Nota: Comandos de SPlus dexp , pexp , qexp
Para ver que esta función está correctamente definida es necesario demostrar que la integral impropia
en (5) es convergente. Obsérvese que el integrando es positivo y que cuando x ≥ 1 la integral es
impropia en el infinito, en tanto que si 0 < x < 1 la integral es impropia tanto en el infinito como
en el origen.
Prof.J.Gastón Argeri 64
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 65
u2 u3 un
eu ≥ 1 + u + + + ··· + (6)
2! 3! n!
Dem:
Por inducción sobre n
Paso base: Ru
Dado que ∀u ≥ 0 , eu ≥ 0, la monotonı́a de la integral definida garantiza que 0 eu du ≥ 0. Luego:
eu − 1 ≥ 0. Por lo tanto eu ≥ 1
Hipótesis inductiva (HI): Consiste en suponer que para todo u ≥ 0 la desigualdad (6) es verdadera.
En base a la HI queremos probar que:
u2 u3 un+1
eu ≥ 1 + u + + + ··· + (u ≥ 0)
2! 3! (n + 1)!
Pero integrando ambos miembros de (6) en el intervalo [0, u] y teniendo en cuenta la monotonı́a de
la integral, se deduce que
u2 u3 un+1
eu − 1 ≥ u + + + ··· +
2! 3! (n + 1)!
que es precisamente lo que queremos demostrar. Luego, la desigualdad es verdadera para tono
n natural ¥
un
eu ≥
n!
Dem:
Siendo u ≥ 0, todos los términos en el mienbro de la derecha de la desigualdad (6) son no negativos.
Luego, la suma de los mismos es mayor o igual que cualquiera de ellos. En particular es mayor o igual
que el último término. Este hecho, junto con la desigualdad (6) terminan de demostrar este lema ¥
• Caso x ≥ 1
En el corolario anterior tomemos n = 1 + [x] de manera que n − x + 1 > 1. Entonces para
t > 0 se verifica
tx−1 tx−1n! n!
tx−1e−t = t
≤ n
= n−x+1
e t t
R∞ n!
Como la integral impropia 1 tn−x+1 dt es convergente, por criterio de comparación resulta
R ∞ x−1 −t R1
1 Rt e dt también convergente. Puesto que 0 tx−1e−t dt es propia (finita), se deduce
∞
que 0 tx−1e−t dt es convergente.
Prof.J.Gastón Argeri 65
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 66
Dem:
Análogamente:
R1 ³ ¯1 R1 ´
1
h tx−1e−t dt = x
tx e−t¯h + h t(x+1)−1e−t dt =
³ R1 ´
1
= x
e−1 − hx e−h + h t(x+1)−1e−t dt
1
Juntando los resultados (7) y (8) se tiene Γ(x) = x
Γ(x + 1) como se querı́a demostrar.
ii) Para n ∈ N podemos aplicar repetidamente el resultado probado en el item anterior. Más
formalmente, utilicemos inducción completa:
• Paso base:
Z ∞ Z 1 Z ∞
−t −t
Γ(1) = e dt = e dt + e−t dt = lim e−h + lim e−k = 1 = 0!
0 0 1 h → 0+ k →∞
Prof.J.Gastón Argeri 66
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 67
0.5
10
0.20
0.4
8
0.15
0.3
y
y
6
0.10
0.2
4
0.05
0.1
2
0.0
0.0
0
x x x
Examinando los distintos gráficos se dará cuenta porque α y λ se dicen parámetros de ”forma” e
”intensidad” (para α ≥ 1, λ controla la rapidez con la cual la cola a derecha de la fdp tiende a cero
para x → ∞), respectivamente.
Observemos que la distribución Γ(1, λ) es precisamente la distribución exponencial de parámetro λ.
En efecto, sea X ∼ Γ(1, λ):
λ1
fX (x) = x1−1e− λx = λe− λx
Γ(1)
Nota: Comandos de SPlus dgamma , pgamma , qgamma
Vamos a vincular las distribuciones gamma y Poisson.
Prof.J.Gastón Argeri 67
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 68
FX (x) = P (X ≤ x) = P (Y ≥ n) = 1 − FY (n − 1)
Dem:
Mediante integración por partes, con u = tn−1 y dv = e− λtdt, se tiene:
Z ½ Z ¾
n−1 − λt −1 n−1 − λt n−2 − λt
t e dt = −λ t e + (n − 1) t e dt
Rx
Aplicando la regla de Barrow entre t = 0 y t = x y anotando In (x) = 0 tn−1e− λt dt resulta:
Entonces:
Rx ¯x
• Paso base: I1 (x) = 0 λe− λt dt = 1 − e− λt¯0 = 1 − e− λx Esto es precisamente (10) cuando
n=1
n−1 n
P (λx)k (λx)n − λx P (λx)k
= 1− k!
e− λx − n!
e =1− k!
e− λx ¥
k=0 k=0
En tal caso anotamos X ∼ χ2 (n). La distribución chi cuadrado con g.l.=2 tambiénse denomina
distribución de Raleygh y la chi cuadrado con g.l.=3 también se llama distribución de Maxwell-
Boltzman (Estos términos son más frecuentes en mecánica estadı́stica).
Presentamos algunos ejemplos de fdp chi cuadrado con distintos grados de libertad asociados:
Nota: En SPlus los comandos útiles son dchisq , pchisq , qchisq.
Prof.J.Gastón Argeri 68
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 69
0.25
g.l=1 g.l=3
g.l=2 g.l=4
g.l=8
1.5
0.20
0.15
1.0
y
0.10
0.5
0.05
0.0
0.0
0.0 0.5 1.0 1.5 2.0 0 5 10 15
x x
Obsérvese que según los valores de α, β la integral que define a la función beta puede ser impropia
en el origen (cuando 0 < α < 1) y/o en x = 1 (cuando 0 < β < 1), o directamente ser propia.
Una aplicación trivial del creiterio de comparación muestra que la integral impropia es convergente
para cualesquiera α, β > 0. Mencionemos dos propiedades útiles de la función beta.
Dados α, β ∈ R , α > 0, β > 0 se dice que una variable aleatoria X posee distribución beta con
parámteros α, β si posee fdp dada por:
1
fX (x) = xα−1(1 − x)β−1 (0 < x < 1)
B(α, β)
En tal caso anotaremos X ∼ B(α, β). Verifiquemos que fX es realmente una fdp:
1
• Para x ∈ (0, 1) , B(α,β) xα−1(1 − x)β−1 ≥ 0
R1 1 1
• 0 B(α,β)
xα−1(1 − x)β−1 dx = B(α,β)
B(α, β) = 1
Prof.J.Gastón Argeri 69
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 70
5
4
4
beta= 1.5 beta= 1.5
3
3
y
y
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
6
beta= 1 beta= 1
5
4
y
y
3
2
2
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
En tal caso anotamos X ∼ C(λ, θ). Se dice que λ es el parámetro de posición y θ el parámetro de
escala. La fdp tiene forma similar a la gaussiana (acampanada) pero sus colas son mucho más pesadas,
como veremos posteriormente. Esta familia de distribuciones es importante en estudios teóricos y de
simulación. En la gráfica se observan fdp Cauchy para distintos valores de los parámetros: Nota: En
SPlus los comandos interesantes son dcauchy , pcauchy , qcauchy.
Prof.J.Gastón Argeri 70
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 71
-2 0 2 4 6 8 10 12
C(4,0.75)
0.4
C(4,1.5)
C(4,2.25)
0.3
0.2
y
0.1
0.0
0 2 4 6 8
logN(1,0.25)
0.3
logN(1,1)
logN(1,2.25)
0.2
y
0.1
0.0
0 1 2 3 4 5 6
misma sigma,distintas mu
logN(0.7,1)
0.30
logN(1,1)
logN(1.3,1)
0.20
y
0.10
0.0
0 1 2 3 4 5 6
Prof.J.Gastón Argeri 71
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 72
DE(3,0.6)
DE(2,0.6)
DE(5,0.6)
0.4
y
0.2
0.0
-2 0 2 4 6 8 10
DE(3,0.3)
0.8
DE(3,0.6)
DE(3,0.9)
0.6
y
0.4
0.2
0.0
-2 0 2 4 6 8 10
Nota: La distribución doble exponencial no está disponible mediante comandos de SPlus, dada su
sencilla vinculación con la distribución exponencial.
En tal caso anotaremos X ∼ t(n). Esta distribución es de aspecto acampanado, semejante a primera
vista a la N (0, 1), pero es de colas más pesadas que ésta y cobrará importancia a medida que
avancemos en este curso, cuando nos avoquemos a temas de inferencia. Un comentario interesante:
La distribución C(0, 1) es precisamente la misma que t(1). Presentamos algunas fdp t de Student:
Se observa que a medida que aumentan los grados de libertad, la distribución t de Student se aproxima
cada vez más a la N (0, 1).
Prof.J.Gastón Argeri 72
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 73
0.4
t(2)
t(5)
t(12)
N(0,1)
0.3
0.2
y
0.1
0.0
-4 -2 0 2 4
En tal caso se anota X ∼ F (m, n). Esta distribución cobrará importancia cuando estudiemos prob-
lemas de inferencia más adelante.
F(3,4) F(4,3)
F(5,4) F(4,5)
F(12,4) F(4,12)
0.6
0.6
0.4
0.4
y
y
0.2
0.2
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x
Prof.J.Gastón Argeri 73
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 74
En tal caso anotamos X ∼ W(α, β). La distribución Weibull es importante en el estudio de tiempos
de sobrevida. El aspecto de la gráfica de una fdp Weibull puede observarse en las siguientes figuras:
W(0.5,1) W(1,0.5)
W(1,1) W(1,1)
W(1.5,1) W(1,1.5)
1.5
1.5
1.0
1.0
y
0.5
0.5
0.0
0.0
0 1 2 3 4 0 1 2 3 4
x x
1 e− (x−λ)/θ
fX (x) = £ ¤
θ 1 + e− (x−λ)/θ 2
En tal caso anotamos X ∼ L(λ, θ). Las gráficas de las fdp logı́sticas asemejan a la gaussiana, pero
con colas más pesadas. Presentemos algunas figuras comparativas:
Prof.J.Gastón Argeri 74
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 75
L(2,1) L(0,0.5)
0.5
L(3,1) L(0,1)
L(5,1) L(0,1.5)
N(0,1) N(0,1)
0.4
0.3
0.3
0.2
y
0.2
0.1
0.1
0.0
0.0
-4 -2 0 2 4 6 8 -4 -2 0 2 4 6 8
x x
Prof.J.Gastón Argeri 75
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 76
∀B ∈ B , g −1(B) ∈ B
Las funciones continuas son sólo un ejemplo de la amplı́sima variedad de funciones borelianas.
ver ¥
Prof.J.Gastón Argeri 76
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 77
Por lo tanto: ¡ ¢
FY (y) = P X ∈ g −1 ((− ∞, y])
Ası́, cuando X es v.a.discreta, digamos con RX = {xn }, resulta también Y discreta con RY =
{g(xn )} (Notar que como g no necesita ser 1-1, los valores g(xn ) pueden estar repetidos). Si
anotamos RY = {yn } se tiene:
∞
P ∞
P ∞
P ¡ ¢
FY (y) = pY (yn ) = P (Y = yn ) = P X ∈ g −1 ({yn }) =
n=1 n=1 n=1
yn ≤y yn ≤y yn ≤y
∞
P
= pX (xn )
n=1
g(xn )≤y
Análogamente:
¡ ¢ ∞
P
pY (yn ) = P (Y = yn ) = P X ∈ g −1(yn ) = P (X = xn ) =
n=1
g(xn )=yn
∞
P
= pX (xn )
n=1
g(xn )=yn
En este caso no queda claro si Y posee fdp. Esta situación se analizará más adelante. Por ahora nos
dedicaremos a presentar algunos ejemplos concretos de lo que acabamos de ver.
Nota: Cuando X discreta, la función g no necesita ser boreliana puesto que en este caso es
Σ = P(Ω).
Ejemplo: Sea X ≈ Bi(n, p). Para fijar ideas podemos pensar en n lanzamientos independientes e
idénticos de una moneda, con probabilidad de salir cara en cada lanxamiento igual a p, donde X mide
la cantidad de caras que salen. Sea Y la cantidad de cecas que se obtienen. Entonces Y = n − X.
Acá g(x) = n − x. Como RX = {0, 1, · · · , n} resulta RY = RX . Para k ∈ RY se tiene:
pY (k) = P (Y = k) = P (n − X = k) =
¡ n ¢ n−k ¡n¢
= P (X = n − k) = pX (n − k) = n−k
p (1 − p)k = k
(1 − p)k pn−k
∞
R ¯∞
= λe− λx dx = − e− λx¯1/y = e− λ/y
1/y
Por lo tanto:
λe− λ/y
fY (y) = FY0 (y) = (para Y > 0)
y2
Prof.J.Gastón Argeri 77
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 78
Luego: √ √
¡ √ ¢0 2ϕ( y) ϕ( y)
fY (y) = FY0 (y) = 2Φ( y) − 1 = √
2 y
= √
y
=
Habrán reconocido que ésta es la fdp de una v.a. chi-cuadrado con 1 grado de libertad, verdad? Es
decir:
X ≈ N (0, 1) ⇒ X 2 ≈ χ2 (1)
Hay dos casos donde la relación entre FX y FY es muy sencilla: Cuando la función g es estrictamente
g −1
monótona sabemos que existe la función inversa g(D) → D la cual verifica:
• ∀x ∈ D , g −1 (g(x)) = x
¡ ¢
• ∀y ∈ g(D) , g g −1(y) = y
⇔ X ≤ g −1(y)
Entonces se obtiene:
Y = aX + b ∼ N (aµ + b, a2 σ 2 )
Prof.J.Gastón Argeri 78
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 79
Dem:
Consideremos primeramente el ³caso a > ´ ³ F´Y (y) = P (Y ≤ y) = P (aX + b ≤
0. Se tiene:
y−b
y) = P (aX ≤ y − b) = P X ≤ a = FX y−b a
. Esto mismo se podı́a obtener a partir
de g(x) = ax + b hallando la inversa: g³−1(y)´ = (y − b)/a. Entonces según las observaciones
anteriores es FY (y) = FX (g −1(y)) = FX y−b
a
.
Luego, derivando respecto de y se obtiene:
µ y−b ¶2
³ ´ a −µ y−(aµ+b) 2
³ ´
y−b − 1/2 − 1/2
1 0 1 √1 σ
√ 1
fY (y) = a
FX a
= a
e = e aσ
2π σ 2π aσ
Corolario 6
X −µ
X ∼ N (µ, σ 2 ) ⇔ ∼ N (0, 1)
σ
Nota: A partir de una variable aleatoria X ∼ N (µ, σ 2 ), el proceso de restarle mu y dividir el
resultado por σ, es decir obtener la nueva variable aleatoria Z = X−µ
σ
, se denomina standarizar X.
O sea, Z es la standarización de X.
a) P (1 < X < 5)
Rta: ³ ´
P (1 < X < 5) = P 1−2 3
< X−2
3
< 5−2
3
= P (− 1/3 < Z < 1) = Φ(1) − Φ(− 1/3) ≈
0.841 − 0.369 = 0.472
b) P (|X − 3| > 6)
Rta:
P (|X − 3| > 6) = 1 − P (|X − 3| ≤ 6) = 1 − P (−6 ≤ X − 3 ≤ 6) =
³ ´
−3−2 X−2 9−2
= 1 − P (−6 + 3 ≤ X ≤ 6 + 3) = 1 − P 3
≤ 3
≤ 3
=
g
Teorema 9 (Teorema de cambio de variables) Sea [c, d] → R diferenciable con continuidad
en [c, d] (es decir g 0 existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verifica:
Z g(d) Z d
f (x) dx = f (g(t)) g 0 (t) dt
g(c) c
Prof.J.Gastón Argeri 79
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 80
Nota: Siendo g continua en [c, d] resulta g ([c, d]) intervalo. Este intervalo contiene al intervalo
de extremos g(c) y g(d).
Dem:
g 0 ,f ◦g G F
Por hipótesis las funciones [c, d] −→ R son continuas. Definamos [c, d] → R y g ([c, d]) → R por
Rt Rx
G(t) = c f (g(s)) g 0 (s) ds ; F (x) = g(c) f (w) dw
Las funciones G y F ◦ g son dos primitivas de (f ◦ g)g 0 en [c, d]. Por lo tanto existe alguna
constante k tal que G = F ◦ g + k. Pero evaluando en t = c resulta G(c) = 0 = F (g(c)). Luego
k = 0. Entonces G = F ◦ g. En particular, tomando t = d se obtiene lo deseado ¥
Corolario 7 Sea X una v.a. continua con fdp fX . Anotemos SX al soporte de fX y supongamos
que es un intervalo. Sea g una función continua y estrictamente monótona en § X . Definamos
def
SY = g(SX ). Supongamos que g −1 es diferenciable con continuidad en SY Entonces la variable
aleatoria Y = g(X) es continua y su fdp viene dada por:
¯ ¢¯¯
¯d ¡
fX (g −1(y)) · ¯ dy g −1(y) ¯ si y ∈ RY
fY (y) =
0 si y 6∈ RY
Dem:
Consideremos el caso en que g es estrictamente decreciente en RX Como g es continua re-
sulta que g(RX ) es un intervalo. Anotemos IX e IY a las funciones indicadoras de SX y
de SY respectivamente. Entonces:
Ry ¡ ¢h d
¡ ¢i
= −∞ fX g −1(y) − dy
g −1(y) IY (y) dy =
Ry ¡ ¢ ¯¯ d ¡ −1 ¢¯¯
= −∞ fX g −1(y) ¯ dy g (y) ¯ IY (y) dy
Prof.J.Gastón Argeri 80
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 81
g
Se tiene SX = (0, ∞) En este caso (0, ∞) → ¡(0, ∞) es ¢ estrictamente creciente con inversa
d
continuamente diferenciable: g −1(y) = (y/β)α , dy g −1(y) = βαα y α−1 Por el teorema se tiene:
α α
fY (y) = fX ((y/β)α) · y α−1I(0,∞) (y) = y α−1I(0,∞) (y)
βα βα
0
-1
-2
-2 -1 0 1 2
Prof.J.Gastón Argeri 81
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 82
Teorema 10 ddd
Prof.J.Gastón Argeri 82
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 83
Esperanza y varianza
Supongamos que se extrae al azar un alumno entre los 35 evaluados ¿ Qué puntaje se espera observar?
Dicho en otro términos, ¿ qué número podemos tomar como representativo del puntaje del curso?
Naturalmente esperamos que el puntaje promedio del curso sirva a tales efectos. Sea X la variable
aleatoria que mide el puntaje (de un alumno, en nuestro experimento aleatorio de extraer un alumno
al azar y observar su puntaje). El rango de X es RX = {0, 1, 2, 3}. El puntaje promedio del curso
es (n = 35):
2+1+1+0+2+2+2+1+2+1+1+1+0+3+2+2+1+2+1+1+0+1+1+2+1+1+2+2+1+1
X̄ = 35
Para calcular el numerador de esta expresión podemos agrupar puntajes iguales, es decir que podemos
agrupar de acuerdo a los distintos valores de la variable aleatoria X. Entonces el cálculo anterior
adopta la forma:
X̄ = 0·f (X=0)+1·f (X=1)+2·f35
(X=2)+3·f (X=3)
=
0·4+1·18+2·12+3·1
= 35
En los cálculos f (k) = f (X = k) representa la frecuencia del valor X = k (k = 0, 1, 2, 3). Si
ahora distribuimos el denominador, se obtiene:
0·4+1·18+2·12+3·1 4 18 12 1
X̄ = 35
=0· 35
+1· 35
+2· 35
+3· 35
=
= 0 · f (X=0)
35
+1· f (X=1)
35
+2· f (X=2)
35
+3· f (X=3)
35
=
=
Pn
= k · f (X=k)
n
k=0
Ejemplo: Supongamos (para modelizar) que la altura X de un individuo adulto de cierta población
Prof.J.Gastón Argeri 83
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 84
sigue una distribución N (1.70, 0.01). Si se extrae un individuo al azar de esta población, ¿ qué
altura esperada tendrá? Es decir, ¿ qué número podrı́amos tomar como representativo de la altura de
un individuo en dicha población? A diferencia del ejemplo anterior, en este caso la variable aleatoria
X es continua. Podemos considerar un rango razonable [L, U ] de alturas (por ejemplo podrı́amos
tomar L = 1, U = 2 por decir algo). Dividamos este intervalo [L, U ] en cierta cantidad n de
subintervalos, mediante una partición regular:
P (x ≤ X < x + h)
fX (x) = lim
h → 0+ h
Por lo tanto podemos escribir:
El cálculo resultará más representativo cuanto más pequeño sea h. En el lı́mite el cálculo resultará
exacto. Pero de acuerdo a la definición de integral definida se tiene:
n
X Z U
lim xk fX (xk ) · h = xfX (x) dx
h → 0+ L
k=1
Pero hemos introducido un intervalo ”razonable” de alturas posibles. Si nos atenemos estrictamente
a nuestro modelo N (1.70, 0.01), no hay razones por las cuales no debamos considerar cualesquiera
posibles valores de X en su rango RX = R (recordemos que esto es sólo un modelo para la población
real). Entonces lo lógico será tomar como representativo de la altura de la población al número:
Z ∞
xfX (x) dx
−∞
siempre y cuando la serie converja absolutamente. En caso contrario se dice que X no posee esperanza
o que la esperanza de X no está definda. Al hablar de convergencia absoluta queremos significar que
la serie de los valores absolutos debe converger (suma finita), es decir:
X
|x| pX (x) < ∞
x∈RX
Prof.J.Gastón Argeri 84
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 85
Nota: Cuando RX es finito siempre existirá E(X) puesto que la serie en cuestión sólo consta de
un número finito de términos.
Definición 28 Sea X una variable aleatoria continua y sea fX su fdp. Se define el valor esperado
o la esperanza de X como el número real:
Z∞
E(X) = xfX (x) dx
−∞
siempre y cuando la integral converja absolutamente. En caso contrario se dice que X no posee
esperanza o que la esperanza de X no está definda.
Nota: La integral puede ser propia o impropia, dependiendo de las caracterı́sticas y del soporte de f X .
En todo caso, siempre debe analizarse su covergencia. Al hablar de convergencia absoluta queremos
significar que la integral del valor absoluto debe converger (valor finito), es decir:
Z∞
|x| fX (x) dx < ∞
−∞
Vamos a ilustrar estas definiciones calculando la esperanza de algunas de las distribuciones que hemos
introducido anteriormente. Calcularemos también la esperanza del cuadrado de cada variable aleatoria,
dado que nos resultará útil en el futuro (cuando definamos el concepto de varianza de una variable
aleatoria)
Ejemplo: Geométrica
Sea X ∼ G(p). En este caso RX = N. Anotemos q = 1 − p. La esperanza se calcula como:
∞
X ∞
X ∞
X
E(X) = kP (X = k) = kq k−1p = p kq k−1
k=1 k=1 k=1
Para sumar esta serie podemos recurrir al truco siguiente (que ya hemos utilizado):
∞
X 1
S(q) = qk = (11)
k=0
1−q
Derivado respecto de q (justificarán el intercambio de derivada con suma en alguno de los cursos de
Análisis Matemático) se obtiene:
∞ µ ¶
0
X
k−1 d 1 1 1
S (q) = kq = = 2
= 2
k=1
dq 1 − q (1 − q) p
Luego:
1 1
E(X) = p =
p2 p
Por otra parte:
∞
X ∞
X ∞
X
E(X 2 ) = k2 P (X = k) = k2 q k−1p = p k2 q k−1
k=1 k=1 k=1
Para hallar la suma de esta serie, derivemos (11) pero en este caso dos veces:
∞ µ ¶
00
X
k−2 d 1 2 2
S (q) = k(k − 1)q = 2
= 3
= 3
k=2
dq (1 − q) (1 − q) p
Prof.J.Gastón Argeri 85
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 86
Despejando:
∞
X 2q 1 2q + p
k2 q k−1 = qS 00 (q) + S 0 (q) = + =
k=1
p3 p2 p3
Por lo tanto:
∞
X 2q + p
E(X 2 ) = p k2 q k−1 =
k=1
p2
Ejemplo: Binomial
Sea X ∼ Bi(n, p). En este caso RX = {0, 1, · · · , n}. Anotemos q = 1 − p. Entonces:
n
P ¡n¢ n
P n
P
kn! n(n−1)!
E(X) = k k
pk q n−k = k!(n−k)!
pk q n−k = (k−1)!(n−k)!
pk q n−k =
k=0 k=1 k=1
n ¡ n ¡
P n−1¢ P n−1¢
= np k−1
pk−1q n−k = np k−1
pk−1q n−k =
k=1 k=1
= np(p + q)n−1 = np
n
P n
P ¡n−1¢ k−1 n−k
nk(n−1)!
= (k−1)!(n−k)!
pk q n−k = np k k−1
p q =
k=1 k=1
· n n ¡
¸
P ¡n−1¢ P n−1¢ k−1 n−k
= np (k − 1) k−1
pk−1q n−k + k−1
p q =
k=1 k=1
· n
¸ ·n−1 ¸
P ¡n−1¢ P ¡n−1¢ s n−1−s
= np (k − 1) k−1
pk−1q n−k + 1 = np s s p q +1 =
k=1 s=0
donde hemos utilizado que la última suma entre corchetes es la expresión de la esperanza de una
Bi(n − 1, p), es decir (n − 1)p.
Ejemplo: Poisson S
Sea X ∼ P(λ) de modo que RX = N {0}. Calculemos su esperanza:
∞ ∞ ∞
X λk −λ −λ
X λk−1 −λ
X λs
E(X) = k e = λe = λe = λe− λeλ = λ
k=0
k! k=1
(k − 1)! s=0
s!
Prof.J.Gastón Argeri 86
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 87
Por lo tanto: Rb 2 /2 2 /2
0 x e− x dx = 1 − e− b −→ 1
b →∞
R0 2 /2 2 /2
a x e− x dx = e− a − 1 −→ −1
a →− ∞
R∞ − x2 /2
De manera que: − ∞ x e dx = −1 + 1 = 0. Esto muestra que E(X) = 0
2
Calculemos ahora E(X ), es decir:
Z ∞ Z ∞
1 2 1 2
E(X 2 ) = x2 √ e− x /2 dx = √ x2 e− x /2 dx
−∞ 2π 2π − ∞
2
RPlanteamos la integral indefinida por partes: u = x , dv = xe− x /2 dx. Entonces: du = dx , v =
− x2 /2 2
xe dx = −e− x /2 . Luego:
Z Z
2 − x2 /2 − x2 /2 2
x e dx = xe + e− x /2 dx
Por lo tanto:
Z b ¯b Z b Z b
2 2 2 /2 2 /2 2 /2 2 /2
x2 e− x /2 dx = xe− x /2 ¯ + e− x dx = be− b − ae− a e− x
¯
+ dx
a a a a
Luego: R0 R0
2 /2 2 /2
a x2 e − x dx −→ + −∞ e− x dx
a →− ∞
Rb 2 /2 R∞ 2 /2
0 x2 e − x dx −→ + 0 e− x dx
b →∞
Por lo tanto: Z Z
∞
2 − x2 /2
∞
2 /2 √
x e dx = e− x dx = 2π
−∞ −∞
Prof.J.Gastón Argeri 87
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 88
Ejemplo: Exponencial
Sea X ∼ E(λ). Calculemos su esperanza:
Z ∞ Z ∞
− λx
E(X) = xλe dx = λ xe− λx dx
0 0
Entonces:
R∞ ¯∞ R∞ R∞
E(X 2 ) = 0 x2 e− λx dx = − x2 e− λx¯0 + 2 0 xe− λx dx = 2 0 xe− λx dx =
E(X)
= 2 λ
= 2/λ2
∞
P ∞ ¡ ¢
P
k! k
= r r!(k−r)!
pr q k−r = r r
pr q k−r =
k=r k=r
∞ µ ¶
r
∞ ¡ ¢
P k r
X s−1 r
= p r
pr+1 q k−r = p
pr+1 q s−(r+1) = p
k=r s=r+1
(r + 1) − 1
| {z }
1
∞
P ¡k ¢ ∞
P ¡s−1¢
= r k r
pr q k−r = r (s − 1) r
pr+1 q s−r−1 =
k=r s=r+1
∞ µ ¶ ∞ µ ¶
r
X s − 1 X s − 1
r
³
r+1
´
pr+1 q s−r−1 − pr+1 q s−r−1 =
= p s p p
−1
r r
s=r+1 s=r+1
| {z } | {z }
(r+1)/p 1
Prof.J.Gastón Argeri 88
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 89
Ejemplo: Gama
Sea X ∼ Γ(α, λ). Calculemos su esperanza:
R∞ λα
R∞ λα
E(X) = 0 x Γ(α) xα−1 e− λx dx = 0 Γ(α)
x(α+1)−1 e− λx dx =
α
R∞ λα+1 α
= λ 0 Γ(α+1)
x(α+1)−1 e− λx dx = λ
Ejemplo: Beta
Sea X ∼ Be(α, β). Su esperanza viene dada por:
R1 1
R1 1
E(X) = 0 x B(α,β)
xα−1 (1 − x)β−1 dx = 0 B(α,β)
x(α+1)−1 (1 − x)β−1 dx =
R1 1 α
R1 1 α
= 0 B(α,β)
x(α+1)−1 (1 − x)β−1 dx = α+β 0 B(α+1,β)
x(α+1)−1 (1 − x)β−1 dx = α+β
α(α+1) R1 1 α(α+1)
= (α+β)(α+β+1) 0 B(α+2,β)
x(α+2)−1 (1 − x)β−1 dx = (α+β)(α+β+1)
Ejemplo: Hipergeométrica
Sea X ∼ H(n, D, N ). Sean m = max {0, n − N + D} , M = min {n, D}. Entonces si anota-
mos m∗ = max {0, (n − 1) − (N − 1) + (D − 1)} , M ∗ = min {n − 1, D − 1} resulta:
½
∗ 0 si m = 0
m = = max {m − 1, 0} = max {m, 1} − 1 ; M∗ = M − 1
m − 1 si m ≥ 1
M (N −1)−(D−1) M (N −1)−(D−1)
n P D (D−1
k−1 )( (n−1)−(k−1) ) nD P (D−1
k−1 )( (n−1)−(k−1) )
= = =
N
k=max{m,1}
(N −1
n−1 )
N
k=max{m,1}
(N −1
n−1 )
nD
MP
−1 (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) D
= = =n
N
s=max{m,1}−1
(N −1
n−1 ) N
s=m∗ (N −1
n−1 ) N
Prof.J.Gastón Argeri 89
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 90
M (N −1)−(D−1) M (N −1)−(D−1)
n P D (D−1
k−1 )( (n−1)−(k−1) ) nD P (D−1
k−1 )( (n−1)−(k−1) )
= k N −1 = k =
N
k=max{m,1}
( n−1 ) N
k=max{m,1}
(N −1
n−1 )
nD
MP
−1 (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s )
= N
(s + 1) N −1 = N
(s + 1) N −1 =
s=max{m,1}−1
( n−1 ) s=m∗ ( n−1 )
· ¸
nD P∗
M (D−1
s )(
(N −1)−(D−1)
(n−1)−s ) P∗ (D−1
M
s )(
(N −1)−(D−1)
(n−1)−s )
= s + =
N
s=m∗ (N −1
n−1 ) s=m∗ (N −1
n−1 )
h i ³ ´
nD D−1 nD (n−1)(D−1)+(N −1) D D−1
= N
(n − 1) N −1
+1 = N N −1
=n N
1 + (n − 1) N −1
=
³ ´ ³ ´
N n(D−1) D D
= N −1
1+ N −D
n N
1− N
Ejemplo: Uniforme
Sea X ∼ U (a, b). En este caso:
Rb Rb ¯b
1 1 1 x2 ¯ b2 −a2 (b−a)(b+a) a+b
E(X) = a x b−a
dx = b−a a x dx = b−a 2 ¯a
= 2(b−a)
= 2(b−a)
= 2
¯b
Rb 1 1
Rb 1 x3 ¯ b3 −a3 (b−a)(a2 +ab+b2 ) a2 +ab+b2
E(X 2 ) = a x2 b−a
dx = b−a a x2 dx = b−a 3 ¯a
= 3(b−a)
= 3(b−a)
= 3
Ejemplo: t de Student
Sea X ∼ t(n). Para calcular su esperanza observemos antes algunas particularidades. Debemos
analizar ante todo la convergencia de la integral impropia. Por simetrı́a y dado que dicha integral
√
es propia en el origen, vamos a estudiarla en [ n, ∞). De hecho, para que nos sirva después,
estudiaremos la convergencia de la siguiente (un poco más general):
Z ∞ xk
Ik,n = √ ³ ´ dx
n x 2 (n+1)/2
1+ n
√
Hacemos el cambio de variables (para deshacernos del n ”molesto”): t = x/ n. Entonces dt =
√
dx/ n. Luego:
Z ∞
(k+1)/2 tk
Ik,n = n dt
1 (1 + t2 )(n+1)/2
Pero si t ≥ 1 se cumple:
tk tk 1
• ≤ tn+1
= tn+1−k
pues 1 + t2 ≥ t2
(1+t2 )(n+1)/2
tk tn tn 1
• tk
≥ ≥ = pues 1 + t2 ≤ t2 + t2 = 2t2
(1+t2 )(n+1)/2 (2t2 )(n+1)/2 2(n+1)/2 t
(1+t2 )(n+1)/2
Prof.J.Gastón Argeri 90
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 91
Luego: Ik,n es convergente sii n + 1 − k > 1 sii k < n. Deducimos inmediatamente que si
X ∼ t(1) entonces X carece de esperanza (finita). Si X ∼ t(2) entonces E(X) existe pero
E(X 2 ) no existe. En cambio si X ∼ t(n) con n ≥ 3 entonces existen E(X) y E(X 2 ).
Γ( n+1 )
Vamos a calcularlas: Para alivianar notación denotemos An = Γ n 2√nπ . Tengamos presente que
(2)
por definición de fdp (su integral sobre toda la recta es 1 ) se tiene para n ∈ N:
Z ∞ Z ∞
dt − 1/2 dx ³
1/2
´−1
(n+1)/2
= n ³ ´ = n A n
−∞ (1 + t2 ) 2 (n+1)/2
−∞
1 + xn
√
Entonces usando consecutivamente las sustituciones t = x/ n , s = 1 + t2 se obtiene para n ≥ 2:
R∞ x
R∞ t
E(X) = An − ∞ ³ 2
´ (n+1)/2 dx = nA n −∞ 2 (n+1)/2
dt =
1+ xn (1+t )
hR R∞ i
0 t t
= nAn − ∞ (1+t2 )(n+1)/2 dt + 0 dt =
(1+t2 )(n+1)/2
hR R∞ i h R R∞ i
1 0 ds ds 1 ∞ ds ds
= 2
nAn ∞ s(n+1)/2 + 0 s(n+1)/2
= 2
nAn − 0 s(n+1)/2
+ 0 s(n+1)/2
=0
R∞ (1+t2 )−1
= n3/2 An − ∞ (1+t2 )(n+1)/2 dt =
hR R∞ i
∞ 1 1
= n3/2 An − ∞ (1+t2 )(n−1)/2 dt − − ∞ (1+t2 )(n+1)/2 dt =
h i
1 1
= n3/2 An (n−2)1/2 An−2
− n1/2 An
=
·³ ´1/2 ¸
n An
= n n−2 An−2
−1
Utilizando
£ las propiedades
¤ de la función gamma se puede verificar fácilmente que A n /An−2 = (n −
1)/ n(n − 2)1/2 . Reemplazando resulta:
½³ ´1/2 ¾ ³ ´
n n−1 n−1 n
E(X 2 ) = n n−2 1/2 − 1 = n n−2
− 1 = n−2
[n(n−2)]
Ejemplo: F de Fisher-Snedecor
El cálculo de E(X) y E(X 2 ) es un poco engorroso y lo omitiremos. El resultado es el siguiente:
n
E(X) = n−2
para n ≥ 3
³ ´2 h i
n m+n−2
E(X 2 ) = n−2
1 + 2 m(n−4) para n ≥ 5
Ejemplo: Lognormal
Sea X ∼ logN (µ, σ). Calculemos su esperanza: Para la integral realizamos la sustitución t = ln x.
Prof.J.Gastón Argeri 91
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 92
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+σ2 )t
= √1 e− µ
2π σ −∞
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+σ2 )t+(µ+σ2 )2 −(µ+σ2 )2
= √1 e− µ
2π σ −∞
R∞ 2
e−[t−(µ+σ )]
2 /(2σ2 ) 2 /(2σ2 ) (µ+σ2 )2 /(2σ2 )
= √1 e− µ e dt =
2π σ −∞
R∞ 2
e−[t−(µ+σ )]
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /(2σ2 )
= e− µ e(µ+σ √1 dt =
−∞ 2π σ
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /2
= e− µ e(µ+σ = eµ+σ
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+2σ2 )t
= √1 e− µ
2π σ −∞
R∞
e−[t ]/(2σ2 ) dt =
2 /(2σ2 ) 2 −2(µ+2σ2 )t+(µ+2σ2 )2 −(µ+2σ2 )2
= √1 e− µ
2π σ −∞
R∞ 2
e−[t−(µ+2σ )]
2 /(2σ2 ) 2 /(2σ2 ) (µ+2σ2 )2 /(2σ2 )
= √1 e− µ e dt =
2π σ −∞
R∞ 2
e−[t−(µ+2σ )]
2 /(2σ2 ) 2 )2 /(2σ2 ) 2 /(2σ2 )
= e− µ e(µ+2σ √1 dt =
−∞ 2π σ
2 /(2σ2 ) 2 )2 /(2σ2 ) 2)
= e− µ e(µ+2σ = e2(µ+σ
Dem: Esta demostración se dará más adelante, cuando desarrollemos la teorı́a de vectores aleatorios. ¥
Dem:
Sólo demostramos el caso discreto (El caso continuo se demustra de manera completamente análoga,
Prof.J.Gastón Argeri 92
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 93
P P
≤ |x|n pX (x) + pX (x) ≤
x∈RX x∈RX
|x|>1 |x|≤1
P P
≤ |x|n pX (x) + pX (x) = E (|X n |) + 1
x∈RX x∈RX
Por lo tanto si E(X n ) existe entonces E (|X n |) < ∞ por lo cual E (|X m |) < ∞ de manera que
E(X m ) existe. ¥
Propiedad 49 Sea X una variable aleatoria tal que E(X) existe. Se cumple:
P (X ≥ 0) = 1 ⇒ E(X) ≥ 0
Dem:
Caso discreto:
pX (x) = P (X = x) = P (X = x, X ≥ 0) + P (X = x, X < 0)
Pero: P (X < 0) = 1 − P (X ≥ 0) = 1 − 1 = 0 Entonces como {X = x, X < 0} ⊆
{X < 0} resulta P (X = x, X < 0) = 0 Por lo tanto: pX (x) = P (X = x, X ≥ 0) =
pX (x)I[0,∞) (x) Entonces:
X X X
E(X) = xpX (x) = xpX (x)I[0,∞) (x) = xpX (x) ≥ 0
x∈RX x∈RX x∈RX
x≥0
Corolario 8 Sean X, Y variables aleatorias tales que existen E(X), E(Y ) Se cumple:
P (X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y )
Dem: Consideremos Z = X − Y Aplicándole directamente la propiedad anterior y utilizando luego
la linealidad de la esperanza, se deduce el resultado a probar. ¥
Propiedad 50 (Desigualdad de Markov) Sea X una variable aleatoria tal que X ≥ 0 y E(X)
existe. Entonces para cualquier número real c > 0 se verifica:
E(X)
P (X ≥ c) ≤
c
Dem: Sea A = [c, ∞) La función indicadora de A es
½
1 si x ∈ A
IA (x) =
0 si x 6∈ A
La variable aleatoria IA (X) es discreta con rango {0, 1} Calculemos su esperanza:
E(IA (X)) = 0·P (IA (X) = 0)+1·P (IA (X) = 1) = P (IA (X) = 1) = P (X ∈ A) = P (X ≥ c)
Además: x ∈ A ⇒ x ≥ c ⇒ x/c ≥ 1 Por lo tanto:
x x
∀x ∈ R , IA (x) ≤ IA (x) ≤
c c
X
Luego: IA (X) ≤ c
Tomando esperanzas y utilizando el corolario anterior se tiene:
µ ¶
X E(X)
P (X ≥ c) = E(IA (X)) ≤ E = ¥
c c
Prof.J.Gastón Argeri 93
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 94
X≥0 y E(X) = 0 ⇒ P (X = 0) = 1
Dem: Fijemos x > 0 Por la desigualdad de Markov y utilizando que E(X) = 0 se tiene:
P (X ≥ x) ≤ E(X)
x
=0
Entonces: ∀x > 0 , P (X ≥ x) = 0 Por lo tanto, si x > 0 vale: FX (x) = 1 puesto que:
Como el primer término en esta expresión no depende de c y el segundo término se hace mı́nimo
tomando c = E(X) deducimos que el mejor predictor ¡ constante de¢X es el número E(X) Además, el
ECM de E(X) como predictor de X resulta ser E (X − E(X))2 Esta magnitud es tan importante
en probabilidades y estadı́stica que recibe un nombre especial.
Prof.J.Gastón Argeri 94
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 95
• Si E(X 2 ) existe entonces V (X) existe puesto que por propiedades vistas anteriormente se
deduce que E(X) ¡existe y por lo tanto,
¢ utilizando la propiedad de linealidad de la esperanza
tiene: V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) existe.
Tanto V (X) como SD(X) miden en cierto sentido cuán alejados se encuentran, en promedio, los
valores de la variable aleatoria X respecto de su ”centro” o valor esperado E(X) Por ello decimos
que V (X) y SD(X) representan medidas de dispersión de la variable aleatoria.
Dem: Notemos que como E(X 2 ) < ∞ entonces por una propiedad anterior E(X) existe. Por lo
tanto, utilizando
¡ la linealidad¢ de la esperanza se obtiene:
V (X) = E (X − E(X))2 = E(X 2 − 2E(X)X + E 2 (X)) = E(X 2 ) − 2E 2 (X) + E 2 (X) =
E(X 2 ) − E 2 (X) ¥
Ejemplo: X ∼ Bi(n, p)
Ya calculamos E(X) = np , E(X 2 ) = np(q + np) de modo que se tiene: V (X) = np(q + np) −
(np)2 = npq = np(1 − p)
Ejemplo: X ∼ G(p)
En este caso sabemos que E(X) = 1/p y E(X 2 ) = (2q + p)/p2 Por lo tanto V (X) =
(2q + p)/p2 − 1/p2 = q/p2 = (1 − p)/p2
Ejemplo: X ∼ H(n, D, N ) ³ ´ ³ ´
D N n(D−1) D D
Vimos que E(X) = n N y E(X 2 ) = N −1
1+ N −D
nN 1− N
³ ´ N −n
D D
Entonces luego de operar se obtiene: V (X) = n N
1− N
N −1
| {z }
(∗)
El factor (∗) se denomina factor de corrección por población finita, en tanto que los tres primeros
factores coinciden con la esperanza de una variable aleatoria con distribución Bi(n, D/N ) Esto no
debe sorprendernos ya que la hipergeométrica surgió al contar la cantidad de objetos distinguidos
en una muestra sin reposición de tamaño n de una población de N individuos entre los que hay un
total de D distinguidos. Entonces cuando N es grande respecto de n y éste es pequeño respecto
Prof.J.Gastón Argeri 95
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 96
de D es razonable que la no reposición afecte muy poco el resultado, de manera que contar la can-
tidad de distinguidos entre los n deberı́a dar resultados similares ya sea que la extracción se realice
con o sin reposición. Pero si se realiza con reposición, la cantidad de distinguidos posee distribución
Bi(n, D/N )
Ejemplo: X ∼ P(λ)
En este caso vimos que E(X) = λ , E(X 2 ) = λ(λ + 1) Luego: V (X) = λ(λ + 1) − λ2 = λ
Ejemplo: X ∼ N (µ, σ 2 )
Vimos que E(X) = µ , E(X 2 ) = µ2 + σ 2 Por lo tanto: V (X) = µ2 + σ 2 − µ2 = σ 2
Ejemplo: X ∼ Γ(λ, α)
Probamos antes que E(X) = λ/α , E(X 2 ) = λ(λ + 1)/α2 Luego: V (X) = λ(λ + 1)/α2 −
(λ/α)2 = λ/α
Propiedad 53 Sea X una variable aleatoria tal que V (X) es finita y sean a, b constantes. Vale:
V (aX + b) = a2 V (X)
Dem:
¡ ¢
V (aX + b) = E (aX + b)2 − E 2 (aX + b) = E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2 =
Dem: P
Caso discreto: La fmp de Y = g(X) viene dada por pY (y) = pX (x) Por lo tanto:
x∈RX
g(x)=y
P P P P P
E(Y ) = ypY (y) = y pX (x) = ypX (x) =
y∈RY y∈RY x∈RX y∈RY x∈RX
g(x)=y g(x)=y
P P P
= g(x)pX (x) = g(x)pX (x)
y∈RY x∈RX x∈RX
g(x)=y
En el caso continuo la demostración es similar a la del teorema de cambio de variables que se demostró
cuando se dedujo, bajo condiciones de regularidad, que Y = g(X) posee densidad. Omitimos la
prueba. ¥
Prof.J.Gastón Argeri 96
UNQ/Dip.CyT/Probabilidades y Estadı́stica/Primer Cuatrimestre de 2007 pág. 97
Prof.J.Gastón Argeri 97