Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
En un espacio de probabilidades (Ω, A, P ) los elementos del espacio muestral
om
Ω no tienen por qué ser números. En la tirada de una moneda al aire, los
sucesos elementales, cara y cruz, no son valores numéricos. No obstante, siem-
pre podemos hacer corresponder el número 1 a la cara, y el 0 a la cruz. Esta
.c
asignación de valores numéricos a los sucesos elementales de un espacio de prob-
abilidades es la base para definir el concepto de variable aleatoria. En efecto,
es
una variable aleatoria será una aplicación X definida sobre el espacio muestral
Ω tal que a cada suceso elemental ω le hace corresponder un valor numérico
X(ω). Este número puede ser real o complejo, e incluso un vector cuando las
d
variables aleatorias son n-dimensionales. No obstante, aquí sólo estudiaremos el
caso real, tratando con detalle las variables aleatorias unidimensionales y bidi-
en
Sin embargo, para estudiar las variables aleatorias no sólo hay que conocer los
valores que puede tomar sino que también es necesario conocer la probabilidad
con que toma estos valores. Por ejemplo, si la variable aleatoria X fuera el
número de éxitos en n pruebas de Bernoulli, será preciso conocer la probabilidad
de que la variable aleatoria sea menor, igual o mayor que un determinado número
k; si la variable aleatoria X fuera la intensidad de corriente que pasa por un
circuito eléctrico, sabiendo que fluctúa entre 1 y 2 amperios, habrá que conocer
probabilidades tales como la de que la intensidad esté comprendida entre 1 y
1.2 amperios.
Por definición de probabilidad, sólo los sucesos de la σ-álgebra A tienen asig-
nada probabilidad. Esto significa que para calcular la probabilidad de que una
1
variable aleatoria X tome valores de un cierto intervalo real [x1 , x2 ] habrá que
traducir esta información en términos de sucesos de A. Para ello, introducimos
la siguiente notación: designaremos por [x1 ≤ X ≤ x2 ] el suceso formado por
todos los ω ∈ Ω que hacen que X(ω) tome un valor real del intervalo [x1 , x2 ], es
decir,
[x1 ≤ X ≤ x2 ] = {ω ∈ Ω : x1 ≤ X(ω) ≤ x2 }
Del mismo modo, tenemos
[X = x] = {ω ∈ Ω : X(ω) = x}
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x}
y, en general, si M es un subconjunto de la recta real, entonces
[X ∈ M ] = {ω ∈ Ω : X(ω) ∈ M }
om
Para poder asignar probabilidades a todos estos sucesos debemos primero asegu-
rarnos de que son sucesos de la σ-álgebra A. Si el espacio muestral Ω es discreto
y A = P(Ω), entonces cualquier suceso es un suceso de la σ-álgebra y, por tanto,
todos estos subconjuntos de Ω tendrán probabilidades bien asignadas. Sin em-
.c
bargo, si el espacio muestral es continuo, no podemos asegurar que sucesos tales
como [X ∈ M ] sean sucesos de A, y, en consecuencia, no podemos asegurar
es
que tengan asignada una probabilidad. Sin embargo, se puede demostrar que si
imponemos la condición de que
d
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A (1)
en
es este caso particular, cualquier función real definida sobre Ω es una variable
aleatoria.
w
2
Definición de variable aleatoria
Sea (Ω, A, P ) un espacio de probabilidades, se dice que una aplicación
X:Ω → R
es una variable aleatoria (real) si para todo x ∈ R se cumple
{ω ∈ Ω : X(ω) ≤ x} ∈ A
En tal caso, como ya hemos visto en la introducción, este suceso se escribe
abreviadamente como [X ≤ x]. Obsérvese que designamos por letras mayús-
culas X, Y, Z, ... las variables aleatorias, y por letras minúsculas x, y, z, ... sus
correspondientes valores.
Ejemplo 1 1. En el lanzamiento de una moneda al aire tenemos Ω = {c, +},
om
en donde hemos simbolizado cara por c y cruz por +, y tomamos A =
P(Ω). Entonces la aplicación X "número de veces que sale cara" es una
variable aleatoria. En efecto, es claro que X(c) = 1 y X(+) = 0, y además
se cumple
.c
∅∈A si x < 0
es
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = {+} ∈ A si 0 ≤ x < 1
Ω∈A si x ≥ 1
d
2. El tipo más simple de variable aleatoria es el que sirve para indicar si se
realizó un suceso. Sea (Ω, A, P ) un espacio de probabilidades y considere-
en
IA (ω) =
0 si ω ∈/A
es una variable aleatoria que se llama indicador del suceso A. En efecto,
.a
se cumple
∅ ∈ A si x < 0
w
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = A ∈ A si 0 ≤ x < 1
w
Ω ∈ A si x ≥ 1
3. Sea Ω el conjunto de resultados en la tirada de un dado y A = {∅, {2, 4, 6}, {1, 3, 5}, Ω}
w
3
Ejemplo 2 Consideremos el experimento aleatorio de lanzar dos dados al aire.
Expresar su espacio muestral. Definimos la aplicación X "suma de los puntos
obtenidos en los dos dados", ¿es X una variable aleatoria? ¿Cuáles son los
sucesos [X = 7], [X ≤ 1], [X > 12] y [2 < X ≤ 7]?
Solución: Es claro que
Ω = {(1, 1), (1, 2), ...(1, 6), ..., (6, 1), (6, 2), ..., (6, 6)}
Definimos
X: Ω −→ R
(i, j) 7−→ i + j
Si sobre Ω consideramos la σ-álgebra dada por A = P (Ω), es fácil comprobar
que para todo x ∈ R se cumple
{(i, j) ∈ Ω : X(i, j) = i + j ≤ x} ∈ A
om
Tenemos
[X = 7] = {(i, j) ∈ Ω : i + j = 7}
= {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}
.c
[X ≤ 1] = {(i, j) ∈ Ω : i + j ≤ 1} = ∅
es
[X > 12] = {(i, j) ∈ Ω : i + j > 12} = Ω
(4, 1), (1, 5), (2, 4), (3, 3), (4, 2), (5, 1), (1, 6), (2, 5),
(3, 4), (4, 3), (5, 2), (6, 1)}
pr
son los sucesos [X = 1.5], [X ≤ 1], [X > 1] y [0.5 < X < 1.5]?
Solución: Es claro que
w
4
Operaciones con variables aleatorias
El propósito de esta sección es definir las operaciones algebraicas entre vari-
ables aleatorias y demostrar que las nuevas aplicaciones formadas son también
variables aleatorias.
para cada ω ∈ Ω.
om
Teorema 1 Si X, Y son variables aleatorias sobre un espacio de probabilidades
(Ω, A, P ), X + Y también lo es.
Demostración: Sea x ∈ R y consideremos el conjunto
[
.c
A= ([X ≤ r] ∩ [Y < x − r])
r∈Q
es
Como Q es numerable, A ∈ A. Es claro que
d
A ⊂ [X + Y < x]
en
Entonces
X(ω) < r0 y Y (ω) < x − r0
w
A = [X + Y < x] ∈ A
y, en consecuencia,
\∞ · ¸
1
X + Y < x + n = [X + Y ≤ x] ∈ A
n=1
2
5
Producto de un número real por una variable aleatoria
El producto de un número real k por una variable aleatoria X definida
sobre un espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por
kX, que satisface
(kX)(ω) = k · X(ω)
para cada ω ∈ Ω.
Caso 1 k = 0
En este caso, evidentemente tenemos
om
½
∅ si x < 0
[kX ≤ x] =
Ω si x ≥ 0
.c
Caso 2 k > 0
En este caso, para todo x ∈ R tenemos
es
h xi
[kX ≤ x] = X ≤ ∈A
k
d
Caso 3 k < 0
en
ya que
h ∞ · ¸
xi [ x 1
.a
X< = X≤ − n ∈A
k n=1
k 2
w
pues, · ¸
x 1
X≤ − n ∈A (n = 1, 2, 3, ...)
w
k 2
para cada ω ∈ Ω.
6
Supongamos ahora que x ≥ 0, entonces tenemos
£ 2 ¤ £ √ √ ¤ £ √ ¤ £ √ ¤
X ≤x = − x≤X ≤ x = X ≤ x ∩ X ≥− x ∈A
pues
£ √ ¤ £ √ ¤
X ≥− x = X <− x ∈A
y
[∞ · ¸
£ √ ¤ √ 1
X<− x = X ≤− x− n ∈A
n=1
2
om
Demostración: Aplicando el teorema 1, deducimos que X − Y y X + Y
son variables aleatorias. Por el teorema 3, deducimos que (X + Y )2 y (X − Y )2
también lo son. Por último, por los teoremas 1 y 2
.c
(X + Y )2 − (X − Y )2
= XY
4
es
es también una variable aleatoria.
d
Cociente de variables aleatorias
en
X X(ω)
( )(ω) =
Y Y (ω)
.a
¡X ¢
para todo ω ∈ Ω, supuesto que Y (ω) 6= 0; obsérvese que Dom Y = [Y 6= 0].
w
X X X
≤x = ≤ x ∩ [Y < 0] ∪ ≤ x ∩ [Y > 0]
Y Y Y
= ([X ≥ xY ] ∩ [Y < 0]) ∪ ([X ≤ xY ] ∩ [Y > 0])
= ([X − xY ≥ 0] ∩ [Y < 0]) ∪ ([X − xY ≤ 0] ∩ [Y > 0])
Cada una de estas cuatro últimas clases de sucesos son también sucesos como
puede comprobarse enseguida utilizando la técnica usada en las demostraciones
de los teoremas 1, 2 o 3.
7
para todo ω ∈ Ω. Del mismo modo, se define la función mínimo de X, Y ,
denotada por min{X, Y }, mediante
para todo ω ∈ Ω.
[max{X, Y } ≤ x] = [X ≤ x] ∩ [Y ≤ x] ∈ A
y
[min{X, Y } ≤ x] = [X ≤ x] ∪ [Y ≤ x] ∈ A
om
Puede también probarse que
min{X, Y } = − max{−X, −Y }
.c
y de aquí, demostrar que min es una variable aleatoria.
es
Funciones de distribución. Propiedades
Si X es una variable aleatoria sobre un espacio de probabilidades (Ω, A, P ), se
d
llama función de distribución de X a la función real de variable real FX
en
definida por
FX (x) = P ([X ≤ x])
para todo x ∈ R.
pr
ria y de función de distribución. Dada una variable aleatoria, tenemos los val-
w
ores reales asignados a cada uno de los elementos del espacio muestral, o como
también se dice a menudo, tenemos una variabilidad del espacio de probabil-
idades. Mientras que, dada una función de distribución, tenemos únicamente
cuáles son estos valores reales y cómo se reparten, o sea, tenemos la distribución
de estos valores. Al pasar de una variable aleatoria a su distribución se pierde
la información relacionada con los objetos que dan lugar a estos valores reales
y que se recoge en el espacio de probabilidades. Es importante observar que dos
variables aleatorias distintas pueden tener la misma función de distribución. En
estos casos, decimos que las variables aleatorias son equivalentes (ver ejemplo
4, apartado 1).
8
Consideremos dos variables aleatorias X, Y definidas por
½ ½
0 si ω = ω 1 1 si ω = ω 1
X(ω) = y Y (ω) =
1 si ω = ω 2 0 si ω = ω 2
X(ω) 6= Y (ω)
om
0 si x < 0
1
FX (x) = P (X ≤ x) = 2 si 0 ≤ x < 1
1 si x ≥ 1
.c
y
es
0 si y < 0
1
FY (y) = P (Y ≤ y) = 2 si 0 ≤ y < 1
1 si y ≥ 1
d
donde por ejemplo cxc significa "salir cara, cruz y cara en las tres tiradas".
Indicamos por X "número de caras obtenidas en las tres tiradas". Es claro
que X es una variable aleatoria cuando A = P(Ω) y se cumple
w
X(ccc) = 3
w
X(xxx) = 0
y
∅ si x<0
{xxx} si 0≤x<1
[X ≤ x] = {xxx, cxx, xxc, xcx} si 1≤x<2
{xxx, cxx, ..., xcc, cxc} si 2≤x<3
Ω si 3≤x
Entonces la función de distribución de X viene dada por
0 si −∞<x<0
1/8 si 0≤x<1
FX (x) = P (X ≤ x) = 1/2 si 1≤x<2
7/8 si 2≤x<3
1 si 3 ≤ x < +∞
9
La gráfica de esta función aparece en la siguiente figura
om
.c
es
Propiedades
d
tribución en general.
2. F es monótona no decreciente:
w
para todo x1 , x2 ∈ R
w
3. F (−∞) = 0 y F (+∞) = 1
4. P (a < X ≤ b) = F (b) − F (a) para todo a, b ∈ R con a ≤ b
5. F es continua por la derecha en cada punto de R
[X ≤ x2 ] = [X ≤ x1 ] ∪ [x1 < X ≤ x2 ]
10
y por definición, deducimos
F (x2 ) ≥ F (x1 )
F (+∞) = P (X ≤ +∞)
Ahora bien [X ≤ +∞] es el suceso seguro, ya que
X(ω) < +∞
para todo ω ∈ Ω, y por tanto, F (+∞) = 1. Como se cumple x < +∞ para todo
x ∈ R, del apartado (2) deducimos
F (x) ≤ F (+∞) = 1
om
Por otro lado, como que
X(ω) > −∞
para todo ω ∈ Ω, se tiene que [X > −∞] es el suceso seguro. Por definición
.c
F (−∞) = P (X ≤ −∞) = 1 − P (X > −∞) = 0
es
Finalmente, como se verifica −∞ < x para todo x ∈ R, del apartado (2) de-
ducimos
d
0 = F (−∞) ≤ F (x)
en
P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)
.a
(5) Sea a cualquier número real. Para ver que F es continua por la derecha
en a debemos demostrar que se cumple
w
o de forma equivalente,
1
lim F (a + ) = F (a)
n→∞ n
Definimos los siguientes sucesos
· ¸
1
An = a < X ≤ a +
n
Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
\∞ · ¸
1
lim An = a<X ≤a+ =∅
n→∞
n=1
n
11
Entonces, del apartado (4) deducimos
1
P (An ) = F (a + ) − F (a)
n
y pasando al límite, obtenemos
1
lim P (An ) = lim F (a + ) − F (a)
n→∞ n→∞ n
y por la propiedad de continuidad de la probabilidad, tenemos
om
lim F (a + ) = F (a)
n→∞ n
.c
izquierda. En efecto, si fuera continua por la izquierda en a debería cumplirse
es
1
lim F (a − ) = F (a)
n→∞ n
d
Ahora bien, consideremos la siguiente sucesión de sucesos (Bn ) definida medi-
ante · ¸
en
1
Bn = a − < X ≤ a
n
Es claro que es una sucesión decreciente y su límite viene dado por
pr
∞ ·
\ ¸
1
lim Bn = a − < X ≤ a = [X = a]
.a
n→∞
n=1
n
1
w
P (Bn ) = F (a) − F (a − )
n
w
lim P (Bn ) = P (X = a)
n→∞
12
Variables aleatorias y distribuciones discretas
Se dice que una variable aleatoria X es discreta, y asimismo se llama discreta a
su función de distribución F , si el conjunto de valores que toma con probabilidad
no nula es finito o numerable. Esto significa que existe una sucesión de números
reales x1 , x2 , ..., xn , ... tales que
P (X = xi ) = pi 6= 0 y P (X 6= xi ) = 0 (i = 1, 2, 3, ...)
en donde la suma se realiza sobre todos aquellos valores de i para los que xi ≤ x.
om
Asociada a una variable aleatoria discreta, o a su correspondiente distribu-
ción discreta, aparece una función a la que se le llama función de densidad
de probabilidad, o simplemente función de densidad, que denotamos por fX
o por f cuando no haya confusión, y se define por
.c
½
P (X = xi ) si x = xi
f (x) =
es
0 si x 6= xi para todo i = 1, 2, 3, ...
1. 0 ≤ f (x) ≤ 1
2.
pr
∞
X
f (xi ) = 1
i=1
.a
3. X
F (x) = f (xi )
w
xi ≤x
w
13
Ejemplo 5 1. Sea X la variable aleatoria que da el número de éxitos en n
pruebas de Bernoulli. Es claro que X es una variable aleatoria discreta,
pues sólo puede tomar los valores enteros que van de 0 a n. Además, se
cumple µ ¶
n k
P (X = k) = p (1 − p)n−k (k = 0, 1, 2, ..., n)
k
siendo p la probabilidad de éxito. Entonces, la función de distribución es
X µn¶
F (x) = pk (1 − p)n−k
k
k≤x
[x] µ ¶
X n k
= p (1 − p)n−k
k
k=0
om
siendo [x] la parte entera del número real x (es decir, el mayor número
entero menor que x). Esta distribución se llama distribución binomial
de parámetros n y p.
.c
2. Sea X una variable aleatoria discreta que puede tomar cualquier valor
entero no negativo. Entonces X tiene una distribución de Poisson de
es
parámetro λ > 0 si
λk −λ
d
P (X = k) = e (k = 0, 1, 2, ...)
k!
en
[x]
X λk
F (x) = e−λ
k!
k=0
.a
3. Sea X una variable aleatoria discreta que sólo puede tomar un número
w
1
P (X = xk ) = (k = 1, 2, ..., n)
w
n
La distribución uniforme es
X nx
F (x) = P (X = xk ) =
n
xk ≤x
14
om
.c
d es
en
pr
Ejemplo 6 Se sabe que X es una variable aleatoria discreta que puede tomar
.a
cualquier valor entero no negativo. Además, se sabe que existe un número real
0 < α < 1 para el que se cumple
w
P (X = k) = α · P (X = k − 1)
w
P (X = k) = α · P (X = k − 1)
= α2 · P (x = k − 2)
= ···
= αk · P (X = 0)
Sabemos que
∞
X
P (X = k) = 1
k=0
15
luego,
∞
X
1 = αk · P (X = 0)
k=0
∞
X
= P (X = 0) · αk
k=0
1
= P (X = 0) ·
1−α
y, por tanto,
P (X = 0) = 1 − α
y, como consecuencia,
P (X = k) = αk (1 − α) (k = 0, 1, 2, ...)
om
(2) Sea
A = [X = 1] ∪ [X = 3] ∪ · · · ∪ [X = 2n − 1] ∪ · · ·
.c
entonces la probabilidad pedida es P (A). Tenemos
∞
X
es
P (A) = P (X = 2n − 1)
n=1
X∞
d
= α2n−1 (1 − α)
en
n=1
∞
1 − α X 2n
= α
α n=1
pr
1 − α α2
=
α 1 − α2
.a
α
=
1+α
w
w
16
Es importante observar que la continuidad de F no implica la existencia de una
representación de la forma (2).
om
F (x) = f (t) dt
−∞
entonces se cumplen
.c
1. f (x) ≥ 0 para todo x ∈ R
es
2. F es continua
3. P (X = a) = 0 para todo a ∈ R
d
5. Z b
P (a < X ≤ b) = f (x) dx
pr
Demostración: (1) Por los apartados (3) y (4) del teorema 7, es inmediato
.a
Z a Z a−
F (a) − F (a − ) = f (x) dx − f (x) dx
w
−∞ −∞
Z a
= f (x) dx
a−
= f (θ)
17
Ahora bien, al ser F continua se cumple
1
lim F (a − ) = F (a)
n→∞ n
Por tanto,
P (X = a) = 0
para todo a ∈ R.
(4) Por el teorema fundamental del cálculo, para todo valor de x en el cual
f es continua, F es derivable y se cumple F 0 (x) = f (x).
(5) Por el apartado (4) del teorema 7, tenemos
om
= f (x) dx
a
.c
· ¸
F (x + h) − F (x)
lim − f (x) = 0
es
h→0 h
de donde, · ¸
d
P (x < X ≤ x + h)
lim − f (x) = 0
en
h→0 h
y, en consecuencia,
P (x < X ≤ x + dx) = f (x) dx
pr
18
P (X < a) = P (X ≤ a) − P (X = a) = lim− F (x)
x→a
om
b−a si x ∈ [a, b]
f (x) =
0 si x ∈
/ [a, b]
La función de distribución vendrá dada por
.c
Z x
F (x) = f (t) dt
es
−∞
−∞
Z a Z x
= f (t) dt + f (t) dt
pr
−∞ a
Z x
1 x−a
= dt =
b − a b−a
.a
Finalmente, si x ≥ b, entonces
w
Z x
F (x) = f (t) dt
w
−∞
Z a Z b Z x
= f (t) dt + f (t) dt + f (t) dt
w
−∞ a b
Z b
1
= dt = 1
a b−a
Por tanto,
0 si x < a
x−a
F (x) = b−a si a ≤ x < b
1 si x ≥ b
En la siguiente figura se muestra la distribución uniforme en el intervalo
[2, 4]
19
om
.c
d es
en
pr
.a
½
λe−λx si x ≥ 0
w
f (x) =
0 si x < 0
20
Luego ½
1 − e−λx si x ≥ 0
F (x) =
0 si x < 0
En la figura siguiente se muestra la distribución exponencial de parámetro
λ=2
om
.c
d es
en
pr
.a
w
w
21
tenemos
Z 0 Z x−µ
1 −u2 /2 1 σ 2
F (x) = √ e du + √ e−u /2
du
2π −∞ 2π 0
2
Ahora bien, al ser e−u /2 una función par, tenemos
Z 0 Z +∞
1 2 1 2
√ e−u /2 du = √ e−u /2 du
2π −∞ 2π 0
y sabemos que Z +∞
2 Γ(p)
u2p−1 e−au =
0 2ap
siendo Z
om
+∞
Γ(p) = xp−1 e−x dx
0
Luego
.c
Z +∞
2 Γ(1/2)
e−u /2
du = p
es
0 2 1/2
√
2π
=
d
2
en
2π 2 2π 0
µ ¶
1 x−µ
= +Φ
.a
2 σ
donde Z
w
x
1 2
Φ(x) = √ e−t /2
dt
2π 0
w
22
om
.c
d es
en
pr
.a
k(1 + x2 ) si x ∈ (0, 3)
f (x) =
0 si x ∈
/ (0, 3)
w
Luego,
Z +∞ Z 0 Z 3 Z +∞
f (x) dx = f (x) dx + f (x) dx + f (x) dx
−∞ −∞ 0 3
Z 3
= k (1 + x2 ) dx
0
· ¸3
x3
= k x+ = 12k
3 0
23
Por tanto, k = 1/12. Para hallar la función de distribución sabemos que
Z x
F (x) = f (t) dt
−∞
om
= t+ = x+
12 3 0 12 3
Por tanto, obtenemos
.c
0 ³ ´ si x ≤ 0
1 x3
F (x) = 12 x + si 0 < x < 3
es
3
1 si x ≥ 3
d
(2) Se pide la probabilidad del suceso [1 ≤ X ≤ 2]. Entonces,
Z 2
en
P (1 ≤ X ≤ 2) = f (x) dx
1
Z 2
1
pr
= (1 + x2 ) dx
12
1
· ¸2
1 x3 5
.a
= x+ =
12 3 1 18
w
1 1 1
P (X < 1) = F (1) = (1 + ) =
12 3 9
w
Y (ω) = g(X(ω))
24
om
En esta situación el problema que se nos plantea es el de encontrar las funciones
de densidad y de distribución de Y a partir de las de X. En el caso de vari-
ables aleatorias discretas la solución a este problema viene dada por el siguiente
.c
teorema.
es
Teorema 9 Sea X una variable aleatoria discreta y Y una variable aleatoria
definida por
d
Y = g(X)
en
g(x)≤y
que X
P (Y = y) = P (X = x)
w
g(x)=y
Por tanto,
w
FY (y) = P (Y ≤ y)
w
X
= P (X = x)
g(x)≤y
xi 0 2 5 7
pi 0.3 0.2 0.4 0.1
xi 0 2 5 7
yi 2 8 17 23
25
Entonces,
yi 2 8 17 23
pi 0.3 0.2 0.4 0.1
La función de distribución de Y viene dada por
X
F (y) = P (X = xi )
3xi +2≤y
Por tanto
0 si x<2
0.3 si 2≤y<8
F (y) = 0.5 si 8 ≤ y < 17
0.9 si 17 ≤ y < 23
1 si y ≥ 23
om
En el caso de que las variables sean absolutamente continuas, hay dos pro-
cedimientos. Uno consiste en calcular primero la función de distribución FY
.c
de Y = g(X) a partir de la de X y, después, si FY es derivable, determinar
la función de densidad fY mediante fY (y) = FY0 (y). La justificación de este
es
procedimiento se encuentra en el teorema siguiente.
la función de distribución de Y es
Z
FY (y) = fX (x) dx
pr
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
w
= P (X ∈ D)
w
ya que de la condición
g(X(ω)) ≤ y
se deduce X(ω) ∈ D. Por tanto,
Z
P (X ∈ D) = fX (x) dx
D
26
Ejemplo 10 Dada la variable aleatoria absolutamente continua X cuya función
de densidad viene dada por
½
2x si x ∈ (0, 1)
f (x) =
0 si x ∈/ (0, 1)
om
(1) Consideremos la transformación Y = 3X + 5. Tenemos
FY (y) = P (Y ≤ y)
.c
= P (3X + 5 ≤ y)
y−5
= P (X ≤ )
es
3
y−5
= F( )
3
d
Ahora bien,
en
y−5
0< 3 < 1 ⇐⇒ 5 < y < 8
Por tanto,
pr
0 si y < 5
1
FY (y) = 9 (y − 5)2 si 5 ≤ y < 8
1 si y ≥ 8
.a
½ 2
fY (y) = 9 (y − 5) si y ∈ (5, 8)
0 si y ∈
/ (5, 8)
w
FY (y) = P (Y ≤ y)
= P (X 2 ≤ y)
√ √
= P (− y ≤ X ≤ y)
√ √
= F ( y) − F (− y)
√
= F ( y)
Ahora bien
√
0< y < 1 ⇐⇒ 0 < y < 1
Por tanto,
0 si y < 0
FY (y) = y si 0 ≤ y < 1
1 si y ≥ 1
27
Es claro que FY es derivable en (0, 1) y, por tanto, la función de densidad de Y
viene dada por ½
1 si y ∈ (0, 1)
fY (y) =
0 si y ∈ / (0, 1)
(3) Consideremos la transformación Y = 2X 2 + 5. Entonces
FY (y) = P (Y ≤ y)
= P (2X 2 + 5 ≤ y)
à r r !
y−5 y−5
= P − ≤X≤
2 2
Ãr ! Ã r !
y−5 y−5
= F −F −
2 2
om
Ãr !
y−5
= F
2
.c
Ahora bien, q
y−5
0< < 1 ⇐⇒ 5 < y < 7
2
es
Por tanto,
0 si y < 5
d
y−5
FY (y) = 2 si 5 ≤ y < 7
1 si y ≥ 7
en
2 si y ∈ (5, 7)
fY (y) =
0 si y ∈ / (5, 7)
.a
FY (y) = FX (x)
si g es creciente, y
FY (y) = 1 − FX (x)
28
si g es decreciente.
Demostración: Supongamos que g es creciente y derivable. Por el teorema
de la inversa derivable, g es biyectiva sobre su recorrido, g −1 es derivable en su
dominio y se cumple
1
(g −1 )0 (y) = 0
g (x)
en donde g(x) = y. Entonces, puesto que
£ ¤
[g(X) ≤ y] = X ≤ g −1 (y)
se tiene
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
= P (X ≤ g −1 (y))
om
= FX (g −1 (y))
= FX (x)
.c
ya que g(x) = y equivale a x = g −1 (y). Como fX es continua, según el apartado
(4) del teorema 8, se tiene
es
0
fX (x) = FX (x)
= (FY ◦ g)0 (x)
d
= FY0 (g(x)) · g 0 (x)
en
g 0 (x) > 0
para todo x ∈ R. Por tanto,
.a
|g 0 (x)| = g 0 (x)
w
y, en consecuencia, obtenemos
1
w
29
Por otro lado, tenemos
0
fX (x) = FX (x)
= (1 − FY ◦ g)0 (x)
= −FY0 (g(x)) · g 0 (x)
= −FY0 (y) · g 0 (x)
Ahora bien, como g es decreciente tenemos g 0 (x) < 0 para todo x ∈ R. Por
tanto,
|g 0 (x)| = −g 0 (x)
y, en consecuencia, obtenemos
1
FY0 (y) = fX (x) ·
|g 0 (x)|
om
Por consiguiente, si la función de densidad de Y es continua, deducimos que
1
fY (y) = fX (x) ·
.c
|g 0 (x)|
En conclusión, si g es monótona, entonces
es
1
fY (y) = fX (x) ·
|g 0 (x)|
d
en
½
1 − 12 x si x ∈ (0, 2)
f (x) =
0 si x ∈
/ (0, 2)
.a
Y = eX y (2) Y = e−X .
Solución: La función de distribución de X es
w
0 si x < 0
F (x) = x2
x − 4 si 0 ≤ x < 2
w
1 si x ≥ 2
FY (y) = FX (x)
y
1
fY (y) = f (x) ·
|g 0 (x)|
De este modo, como x = ln y, obtenemos
0 si y < 1
ln2 y
FY (y) = FX (ln y) = ln y − si 1 ≤ y < e2
4
1 si x ≥ e2
30
y
1
1− 2 ln y 2 − ln y
fY (y) = =
y 2y
si 1 < y < e2 .
(2) Consideremos la transformación Y = e−X . En este caso g(x) = e−x es
una función decreciente y derivable. Por tanto, según el teorema 11, tenemos
FY (y) = 1 − FX (x)
y
1
fY (y) = f (x) ·
|g 0 (x)|
De este modo, como x = − ln y, obtenemos
0 si y > 0
om
ln2 y
FY (y) = 1 − Fx (− ln y) = 1 + ln y + 4 si 1 ≥ y > e−2
1 si y ≤ e−2
y
1 + 12 ln y 2 + ln y
.c
fY (y) = =
y 2y
−2
es
si 1 > y > e .
Introducción
Supongamos que tenemos dos variables aleatorias X, Y sobre el mismo espacio
pr
31
Al ser X, Y variables aleatorias, tenemos que
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A y [Y ≤ y] = {ω ∈ Ω : Y (ω) ≤ y} ∈ A
para todo x, y ∈ R. Por tanto,
[X ≤ x] ∩ [Y ≤ y] ∈ A
y, como consecuencia, estos sucesos tienen asignadas probabilidades.
om
.c
d es
Así, podemos introducir la función F definida por
en
32
por
FX (x, y) = P (X ≤ x, Y ≤ y)
en donde
[X ≤ x, Y ≤ y] = [X ≤ x] ∩ [Y ≤ y]
Propiedades
Teorema 12 La función de distribución conjunta FX de una variable aleatoria
bidimensional X = (X, Y ) satisface las siguientes propiedades:
om
y1 < y2 =⇒ FX (x, y1 ) ≤ FX (x, y2 )
.c
3. FX (+∞, +∞) = 1 y FX (−∞, y) = FX (x, −∞) = 0
4. P (a < X ≤ b, c < Y ≤ d) = FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c)
es
5. FX es continua por la derecha para cada argumento
d
Demostración: (1) Es evidente, ya que FX (x, y) = P (X ≤ x, Y ≤ y) y
en
0 ≤ P (X ≤ x, Y ≤ y) ≤ 1.
(2) Si x1 < x2 , podemos escribir
pr
[X ≤ x1 ] ∩ [Y ≤ y] ⊂ [X ≤ x2 ] ∩ [Y ≤ y]
y, por tanto,
.a
Por tanto,
[X ≤ −∞, Y ≤ y] = [X ≤ −∞] ∩ [Y ≤ y]
= ∅ ∩ [Y ≤ y]
= ∅
Por tanto,
FX (−∞, y) = P (X ≤ −∞, Y ≤ y) = P (∅) = 0
33
Análogamente, se prueba que FX (x, −∞) = 0.
(4) Definimos los siguientes sucesos
A = [a < X ≤ b, Y ≤ d]
B = [a < X ≤ b, Y ≤ c]
C = [a < X ≤ b, c < Y ≤ d]
om
.c
Es claro que B y C son incompatibles y se cumple A = B ∪ C. Por tanto,
es
P (A) = P (B) + P (C) (4)
A = [X ≤ b, Y ≤ d] − [X ≤ a, Y ≤ d]
en
B = [X ≤ b, Y ≤ c] − [X ≤ a, Y ≤ c]
luego
pr
£ ¤
An = a < X ≤ a + n1 , Y ≤ y
B = [X£ ≤ a, Y ≤ y] ¤
Cn = X ≤ a + n1 , Y ≤ y
entonces
Cn = B ∪ An
siendo B y An dos sucesos incompatibles para todo n ∈ N. Por tanto,
34
Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
∞ µ·
\ ¸ ¶
1
lim An = a<X ≤a+ ∩ [Y ≤ y]
n→∞
n=1
n
Ã∞ · ¸!
\ 1
= a<X ≤a+ ∩ [Y ≤ y]
n=1
n
= ∅ ∩ [Y ≤ y]
= ∅
Entonces, como
1
P (Cn ) = FX (a + , y) y P (B) = FX (a, y)
om
n
de (5), obtenemos
1
FX (a + , y) = FX (a, y) + P (An )
n
.c
y pasando al límite, deducimos
1
es
lim FX (a + , y) = FX (a, y) + lim P (An )
n→∞ n n→∞
n→∞
Como consecuencia,
1
lim FX (a +
, y) = FX (a, y)
pr
n→∞ n
Del mismo modo, se demuestra que FX es continua por la derecha respecto al
.a
segundo argumento.
Distribuciones marginales
w
35
Variables aleatorias bidimensionales discretas
Una variable aleatoria bidimensional X = (X, Y ) definida en el espacio de proba-
bilidades (Ω, A, P ) se llama discreta si X e Y son variables aleatorias discretas.
Supongamos que X e Y toman los valores xi e yj (i, j = 1, 2, 3, ...) con proba-
bilidades P (X = xi ) y P (Y = yj ), respectivamente. Definimos la función de
densidad de probabilidad conjunta de la variable aleatoria bidimensional
discreta X = (X, Y ) por
½
P (X = xi , Y = yj ) si x = xi y y = yj
f (x, y) =
0 si x 6= xi o y 6= yj para todo i, j = 1, 2, 3, ...
en donde
P (X = xi , Y = yj ) = P ([X = xi ] ∩ [Y = yj ]) (i, j = 1, 2, 3, ...)
om
y su función de distribución conjunta viene dada entonces por
X X
F (x, y) = P (X ≤ x, Y ≤ y) = P (X = xi , Y = yj )
xi ≤x yj ≤y
.c
Como consecuencias inmediatas de la definición y de los axiomas de probabili-
es
dad, tenemos las siguientes propiedades de la función de densidad conjunta
1. 0 ≤ f (xi , yj ) ≤ 1, para todo i, j = 1, 2, 3, ...
d
2. XX
en
f (xi , yj ) = 1
i j
3. X X
pr
F (x, y) = f (xi , yj )
xi ≤x yj ≤y
.a
Observamos que
X X XX
w
lim F (x, y) = P (X = xi , Y = yj ) = P (X = xi , Y = yj )
y→+∞
xi ≤x yj ≤+∞ xi ≤x yj
w
(6)
Ahora bien, por el teorema 13, sabemos que la distribución marginal viene dada
w
por X
lim F (x, y) = FX (x) = P (X = xi ) (7)
y→+∞
xi ≤x
que no es más que la suma de la densidad conjunta para todos los valores que
toma la variable Y . Del mismo modo se obtiene
X
fY (y) = P (Y = yj ) = P (X = xi , Y = yj )
xi
36
Ejemplo 12 Si tiran dos dados a la vez. Sea X la variable aleatoria "número
de puntos obtenidos por el primer dado", e Y la variable aleatoria "el número
mayor de los puntos obtenidos con los dos dados". Se pide la función de den-
sidad de la variable aleatoria bidimensional (X, Y ) y las funciones de densidad
marginales de (X, Y ).
Solución: Se trata de una variable aleatoria bidimensional discreta. Si f es
la función de densidad conjunta, entonces
f (1, 1) = P (X = 1, Y = 1) = 1/36
Además,
f (k, 1) = P (X = k, Y = 1) = 0
con k > 1, pues [X = k] ∩ [Y = 1] es el suceso imposible. Tenemos también que
f (2, 2) = P (X = 2, Y = 2) = 2/36
om
ya que [X = 2] ∩ [Y = 2] = {(2, 1), (2, 2)}. Y así sucesivamente, los valores de
la función de densidad se encuentran en la tabla siguiente
.c
d es
en
pr
.a
w
w
w
37
Variables aleatorias bidimensionales absolutamente contin-
uas
Se dice que una variable aleatoria bidimensional X = (X, Y ) es absolutamente
continua si existe una función real integrable de dos variables f , denominada
función de densidad de probabilidad conjunta, tal que la función de dis-
tribución conjunta de X puede expresarse en la forma siguiente
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞
om
f (x, y) dx dy = 1
−∞ −∞
.c
Z x Z y
F (x, y) = f (u, v) du dv
es
−∞ −∞
entonces se cumplen
d
1. Si f es continua, entonces
en
∂ 2 F (x, y)
= f (x, y)
∂y∂x
pr
Z Z
P ((X, Y ) ∈ D) = f (x, y) dx dy
w
D
Z b Z d
w
gu (v) = f (u, v)
es derivable y se cumple
Z y
∂
gu (v) dv = gu (y)
∂y −∞
38
En particular, Z y
h(u) = gu (v) dv
−∞
es derivable y se cumple
Z x Z y
∂
h(u) du = h(x) = gx (v) dv
∂x −∞ −∞
o sea Z x µZ y ¶ Z y
∂
om
gu (v) dv du = gx (v) dv
∂x −∞ −∞ −∞
.c
∂2 ∂
f (u, v) dv du = gx (v) dv = f (x, y)
∂y∂x −∞ −∞ ∂y −∞
es
luego
∂ 2 F (x, y)
= f (x, y) (8)
d
∂y∂x
en
(2) Vamos a interpretar (8). Esta ecuación puede escribirse de forma equiv-
alente como
· ¸
pr
F (x + h, y + k) − F (x + h, y) − F (x, y + k) + F (x, y)
lim − f (x, y) = 0
h→0 hk
k→0
.a
P (x < X ≤ x+h, y < Y ≤ y+k) = F (x+h, y+k)−F (x+h, y)−F (x, y+k)+F (x, y)
w
Por tanto,
· ¸
w
P (x < X ≤ x + h, y < Y ≤ y + k)
lim − f (x, y) = 0 (9)
h→0 hk
k→0
de donde
P (x < X ≤ x + h, y < Y ≤ y + k) ≥ 0
39
de la ecuación (9) se deduce que f es necesariamente una función no negativa
f (x, y) ≥ 0
om
P ((X, Y ) ∈ D) = f (x, y) dx dy
D
.c
Z b Z d
P (a < X ≤ b, c < Y ≤ d) = f (x, y) dx dy
d es a c
Z x
FX (x) = fX (t) dt (11)
pr
−∞
Por otro lado, según el teorema 13, las distribuciones marginales de X = (X, Y )
.a
son
lim FX (x, y) = FX (x) y lim FX (x, y) = FY (y)
y→+∞ x→+∞
w
En particular,
Z µZ ¶
w
x +∞
FX (x) = FX (x, +∞) = f (u, v) dv du
w
−∞ −∞
Del mismo modo, deducimos que la función de densidad de Y viene dada por
Z +∞
fY (y) = f (x, y) dx
−∞
40
(1) Determinar el valor de k. (2) Obtener la función de distribución conjunta.
(3) Calcular las funciones de densidad marginales.
Solución: (1) Si f es una función de densidad conjunta de una distribución
absolutamente continua, entonces se ha de cumplir que
Z +∞ Z +∞
f (x, y) dx dy = 1
−∞ −∞
om
0
Z 1
1
= k (x2 + ) dx
0 3
· 3 ¸1
.c
x x 2k
= k + =
3 3 0 3
es
Por tanto, k = 3/2.
(2) Para obtener la función de distribución conjunta debemos distinguir las
d
siguientes regiones numeradas, siendo la parte rayada la única en la que no se
anula la función de densidad conjunta.
en
pr
.a
w
w
w
41
Entonces, tenemos
om
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z x Z 1 Z x Z y
3 2
= 0 du dv + (u + v 2 ) du dv + 0 du dv
.c
−∞ −∞ 0 0 2 0 1
Z · ¸1
3 x 2 v3
es
= u v+ du
2 0 3 0
Z µ ¶
3 x 1
d
= u2 + du
2 0 3
· ¸x
en
3 u3 u x3 + x
= + =
2 3 3 0 2
pr
42
tenemos
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z x Z y
3 2
= 0 du dv + (u + v 2 ) du dv
−∞ −∞ 0 0 2
Z x· ¸y
3 2 v3
= u v+ du
2 0 3 0
Z xµ ¶
3 y3
= u2 y + du
2 0 3
· 3 ¸ x
3 u y y3 u x3 y + y 3 x
= + =
2 3 3 0 2
om
En la región 7, definida por x ≥ 1 e y ≥ 1,
.c
d es
en
pr
tenemos
Z x Z y
.a
F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z 1 Z 1 Z x Z y
w
3 2
= 0 du dv + (u + v 2 ) du dv + 0 du dv
−∞ −∞ 0 0 2 1 1
Z 1Z 1
w
3 2
= (u + v 2 ) du dv = 1
2
w
0 0
43
tenemos
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z 1 Z y Z x Z y
3 2
= 0 du dv + (u + v 2 ) du dv + 0 du dv
−∞ −∞ 0 0 2 1 0
Z · ¸y
3 1 2 v3
= u v+ du
2 0 3 0
Z 1 ¶
µ
3 y3 2
= u y+ du
2 0 3
· ¸1
3 u3 y y 3 u y + y3
= + =
2 3 3 0 2
om
En resumen, la función de distribución conjunta viene dada por la siguiente
función
0 si x ≤ 0 e y ≤ 0
x3 y+y3 x
.c
2 si 0 ≤ x < 1 y 0 ≤ y < 1
F (x, y) = x3 +x
si 0 ≤ x < 1 e y ≥ 1
2
es
y+y3
si x ≥ 1 y 0 ≤ y < 1
2
1 si x ≥ 1 e y ≥ 1
d
(3) La función de densidad marginal de X es
en
pr
.a
w
w
w
Z +∞
fX (x) = f (x, y) dy
−∞
Z 1
3 2
= (x + y 2 ) dy
02
· ¸1
3 2 y3
= x y+
2 3 0
µ ¶
3 2 1
= x +
2 3
Por tanto, ½ ¡ 2 1¢
3
2 x +3 si x ∈ (0, 1)
fX (x) =
0 si x ∈
/ (0, 1)
44
Análogamente, para la función de densidad marginal de Y , tenemos
om
+∞
fY (y) = f (x, y) dx
−∞
Z 1
3 2
= (x + y 2 ) dx
.c
0 2
· ¸1
3 x3 2
es
= +y x
2 3
µ ¶ 0
3 1
= + y2
d
2 3
en
Por tanto, ½ ¡1 ¢
3
2 3 + y2 si y ∈ (0, 1)
fY (y) =
0 si y ∈
/ (0, 1)
pr
.a
por
Y1 = g1 (X1 , X2 ) y Y2 = g2 (X1 , X2 )
w
Y1 = g1 (X1 , X2 )
Y2 = g2 (X1 , X2 )
45
Entonces la función de distribución de Y viene dada por
X
FY (y1 , y2 ) = P (X = x1 , X = x2 )
g1 (x1 ,x2 )≤y1
g2 (x1 ,x2 )≤y2
Por tanto,
FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 )
X
om
= P (X = x1 , X = x2 )
g1 (x1 ,x2 )≤y1
g2 (x1 ,x2 )≤y2
.c
Ejemplo 14 Sean X e Y dos variables aleatorias discretas con la siguiente
es
función de probabilidad conjunta
X\Y 1 2 3
d
1 0.1 0.1 0.2
en
U y V.
Solución: Encontremos en primer lugar los recorridos de las nuevas vari-
.a
ables. Es claro que U puede tomar los valores 2, 3, 4 y 5, mientras que V puede
tomar los valores −2, −1, 0 y 1
w
X\Y 1 2 3 X\Y 1 2 3
U =X +Y : 1 1 3 4 y V =X −Y : 1 0 −1 −2
w
2 3 4 5 2 1 0 −1
w
ya que ½
x+y =2
x − y = −2
si x = 0 e y = 2, pero P (X = 0, Y = 2) = 0 ya que X no toma el valor 0.
Análogamente,
X
P (U = 2, V = 0) = P (X = x, Y = y)
x+y=2
x−y=0
= P (X = 1, Y = 1) = 0.1
46
Y así sucesivamente, para obtener al final
U \V −2 −1 0 1
2 0 0 0.1 0
3 0 0.1 0 0.2
4 0.2 0 0.3 0
5 0 0.1 0 0
ui 2 3 4 5 vj −2 −1 0 1
y
pi 0.1 0.3 0.5 0.1 pj 0.2 0.2 0.4 0.2
om
En el caso de las variables aleatorias bidimensionales absolutamente con-
tinuas, hay dos procedimientos. Uno consiste en calcular primero la función de
distribución conjunta de Y a partir de la de X y, después, si FY es diferenciable,
.c
calcular la función de densidad conjunta fY mediante
∂ 2 FY (y1 , y2 )
es
= fY (y1 , y2 )
∂y2 ∂y1
d
La justificación de este procedimiento se encuentra en el teorema siguiente.
en
Y = (Y1 , Y2 ) es Z Z
FY (y1 , y2 ) = fX (x1 , x2 ) dx1 dx2
.a
D
donde D es el recinto plano de integración definido por gi (x1 , x2 ) ≤ yi (i = 1, 2).
Demostración: Por definición, tenemos
w
FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 )
w
= P ((X1 , X2 ) ∈ D)
ya que de la condición
47
Ejemplo 15 Dada la siguiente función de densidad conjunta
½
k(x + y) si 0 < x < 1 y 0 < y < 2 − 2x
f (x, y) =
0 en otro caso
om
f (x, y) dx dy = 0 dx dy + k(x + y) dy dx
−∞ −∞ −∞ −∞ 0 0
Z · 1 ¸2−2x
y2
= k xy + dx
.c
0 2 0
Z 1µ ¶
(2 − 2x)2
= k x(2 − 2x) + dx
es
0 2
Z 1
= k (2 − 2x) dx
d
0
= k
en
y, por tanto, k = 1.
(2) El recinto R es la parte de la región D, definida por las desigualdades
pr
x + y > 0.5
x − y < −0.5
.a
48
Es claro que
P (U > 0.5, V < −0.5) = P (X + Y > 0.5, X − Y < −0.5) = P ((X, Y ) ∈ D)
Además,
Z 0.5 µZ 2−2x ¶
P ((X, Y ) ∈ D) = (x + y) dy dx
0 0.5+x
Z 0.5 · ¸
2 2−2x
y
= xy + dx
0 2 0.5+x
Z 0.5
3 15
= (−3x − x2 + ) dx
0 2 8
· ¸0.5
3 2 1 3 15 1
= − x − x + x =
2 2 8 0
om
2
.c
fY de Y = g(X) a partir de la de X y, después, por integración doble, determinar
la función de distribución. Este procedimiento es más limitado que el anterior
es
porque se han de comprobar previamente que se cumplen las condiciones del
teorema del cambio de variables para integrales dobles. La justificación de este
procedimiento se halla en el siguiente teorema.
d
absolutamente continua y
¯ ¯
w
Demostración: Tenemos
w
¯ ¯
¯ ∂x1 ∂x1 ¯
¯ ¯
w
∂y1 ∂y2
Jg−1 =¯ ∂x2 ∂x2 ¯
¯ ∂y1 ∂y2 ¯
y las condiciones impuestas son suficientes para poder aplicar el teorema del
cambio de variables para integrales dobles. Entonces
P ((Y1 , Y2 ) ∈ g −1 (A)) = P ((X1 , X2 ) ∈ A)
Z Z
= fX (x1 , x2 ) dx1 dx2
Z ZA
¯ ¯
= fX (g1−1 (y1 , y2 ), g2−1 (y1 , y2 )) · ¯Jg−1 ¯ dy1 dy2
g −1 (A)
49
Ejemplo 16 La función de densidad conjunta de dos variables aleatorias con
distribución absolutamente continua es
½
2 si 0 < y < x < 1
f (x, y) =
0 en otro caso
La transformación inversa es
om
½
x = 12 (u + v)
y = 12 (u − v)
.c
y su jacobiano es ¯ ¯
¯ 1 1 ¯
J = ¯¯ 2 2 ¯ = −1
¯
1
es
2 − 12 2
luego |J| = 1/2 y, según el teorema 17, la función de densidad conjunta de
d
(U, V ) es
u+v u−v 1
g(u, v) = f ( , )· =1
en
2 2 2
en la imagen del recinto por la transformación. El recinto A, definido en el plano
xy por 0 < y < x < 1, se transforma en el recinto B en el plano uv.
pr
.a
w
w
w
50
Por tanto,
om
Z 0.75 µZ u ¶ Z 1.25 µZ 0.75 ¶
P (U < 1.5, V < 0.75) = 1 dv du + 1 dv
0 0 0.75 0
Z 1.5 µZ ¶
.c
2−u
+ 1 dv dv = 0.812 5
1.25 0
es
(3) Para calcular P (U < 1.5), antes determinaremos la función de densidad
marginal de U .
d
en
pr
.a
w
w
gU (u) = 1 dv = u
0
y si 1 ≤ u < 2, entonces
Z 2−u
gU (u) = 1 dv = 2 − u
0
Por tanto,
u si 0 < u < 1
gU (u) = 2 − u si 1 ≤ u < 2
0 en otro caso
Como consecuencia,
Z 1 Z 1.5
P (U < 1.5) = u du + (2 − u) du = 0.875
0 1
51
(4) Del mismo modo, para calcular P (V < 0.75) necesitamos la función de
densidad marginal de V .
om
Por definición, si 0 < v < 1, entonces
Z 2−v
gV (v) = 1 du = 2 − 2v
.c
v
Por tanto, ½
es
2 − 2v si 0 < v < 1
gV (v) =
0 en otro caso
d
Como consecuencia,
Z
en
0.75
P (V < 0.75) = (2 − 2v) dv = 0.937 5
0
pr
cionades
w
[X ∈ A] = {ω ∈ Ω : X(ω) ∈ A}
[Y ∈ B] = {ω ∈ Ω : Y (ω) ∈ B}
P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B) (12)
[X ∈ A] = [X ≤ x] y [Y ∈ B] = [Y ≤ y]
52
en donde FX es la función de distribución conjunta de X = (X, Y ) y FX , FY
son las distribuciones marginales de X e Y respectivamente. Recíprocamente,
si (13) se cumple también se satisface (12). En efecto, si se cumple
y, en consecuencia,
f (x, y) = fX (x) · fY (y)
Ahora bien, sabemos que
Z Z
om
P (X ∈ A) = fX (x) dx y P (Y ∈ B) = fY (y) dy
A B
y, por tanto,
.c
Z Z
P (X ∈ A, Y ∈ B) = f (x, y) dx dy
es
A×B
Z Z
= fX (x) · fY (y) dx dy
Z A×B
d
Z
= fX (x) dx fY (y) dy
en
A B
= P (X ∈ A) · P (Y ∈ B)
pr
P (X = x, Y = y) = P (X = x) · P (Y = y)
53
Solución: El recinto de definición viene dado por
om
.c
d es
en
Z 1
pr
fX (x) = 6x dy = 6x(1 − x)
x
y, por tanto, ½
.a
Z y
fY (y) = 6x dx = 3y 2
0
y, por tanto, ½
3y 2 si 0 < y < 1
fY (y) =
0 en otro caso
54
(2) Puesto que,
om
36 6 12
Por lo tanto, las variables no son independientes.
El siguiente teorema nos dice que las funciones de variables aleatorias inde-
.c
pendientes son independientes. Así, si X e Y son independientes, entonces las
variables g(X) = X 2 y h(Y ) = sin Y también lo son.
es
Teorema 18 Si X e Y son dos variables aleatorias independientes sobre el
d
espacio de probabilidades (Ω, A, P ), entonces las variables aleatorias U = g(X)
y V = h(Y ) son también independientes.
en
FU V (u, v) = P (U ≤ u, V ≤ v)
pr
= P (g(X) ≤ u, h(Y ) ≤ v)
.a
A = {x ∈ R : g(x) ≤ u}
w
B = {y ∈ R : h(y) ≤ v}
w
Entonces,
[g(X) ≤ u, h(Y ) ≤ v] = [X ∈ A, Y ∈ B]
w
FU V (u, v) = P (X ∈ A, Y ∈ B)
= P (X ∈ A) · P (Y ∈ B)
= P (g(X) ≤ u) · P (h(Y ) ≤ v)
= P (U ≤ u) · P (V ≤ v)
= FU (u) · FV (v)
55
Distribuciones condicionadas
Sea X una variable aleatoria definida sobre un espacio de probabilidades (Ω, A, P )
y sea B ∈ A con P (B) > 0. Se llama función de distribución condicionada
de la variable X a B, denotada por F ( |B), a la función definida por
P (X ≤ x, B)
F (x|B) = P (X ≤ x|B) =
P (B)
Como la función de distribución condicionada se define en términos de la prob-
abilidad condicionada y sabemos que ésta es una probabilidad sobre (Ω, A) al
igual que P , dicha función posee las mismas propiedades que cualquier función
de distribución de una variable aleatoria sobre (Ω, A, P ) . Por consiguiente, se
cumple:
om
1. 0 ≤ F (x|B) ≤ 1 para todo x ∈ R
2. F ( |B) es monótona no decreciente:
para todo x1 , x2 ∈ R
.c
es
3. F (−∞|B) = 0 y F (+∞|B) = 1
d
4. P (a < X ≤ b|B) = F (b|B) − F (a|B) para todo a, b ∈ R con a ≤ b
en
−∞
Esta función cumple propiedades análogas a las de las funciones de densidad de
w
1. Z +∞
f (x|B) dx = 1
w
−∞
f (x|B) = F 0 (x|B)
4. Z b
P (a < X ≤ b) = f (x) dx
a
56
Caso 4 Y es una variable aleatoria absolutamente continua sobre el mismo
espacio de probabilidades que X y B = [Y ≤ y], con P (B) > 0
om
1 ∂F (x, y)
=
FY (y) ∂x
Caso 5 Y es una variable aleatoria absolutamente continua sobre el mismo
.c
espacio de probabilidades que X y B = [Y = y] es
En este caso, al ser Y una variable aleatoria absolutamente continua, se
cumple
P (B) = P (Y = y) = 0
d
Bh = [y < Y ≤ y + h]
pr
F (x|y < Y ≤ y + h) =
P (y < Y ≤ y + h)
w
P (X ≤ x, Y ≤ y + h) − P (X ≤ x, Y ≤ y)
=
P (y < Y ≤ y + h)
F (x, y + h) − F (x, y)
=
FY (y + h) − FY (y)
de donde, pasando al límite, obtenemos
F (x,y+h)−F (x,y)
h
lim+ F (x|y < Y ≤ y + h) = lim+ FY (y+h)−FY (y)
h→0 h→0
h
1 ∂F (x, y)
=
FY0 (y) ∂y
es decir,
1 ∂F (x, y)
F (x|Y = y) =
FY0 (y) ∂y
57
Si fY es continua y fY (y) > 0, entonces FY0 (y) = fY (y), y, como consecuencia,
obtenemos
1 ∂F (x, y)
F (x|Y = y) = (14)
fY (y) ∂y
Si f ( |Y = y) es también continua, entonces
∂F (x|Y = y)
f (x|Y = y) =
∂x
y, por tanto, derivando (14) respecto a x, obtenemos
1 ∂ 2 F (x, y)
f (x|Y = y) =
fY (y) ∂x∂y
f (x, y)
=
om
fY (y)
ya que si f es continua, entonces
∂ 2 F (x, y)
.c
= f (x, y)
∂y∂x
es
Del mismo modo, se obtiene
f (x, y)
d
f (y|X = x) =
fX (x)
en
f (x|Y = y) = fY (y)
0 en otro caso
.a
y (
f (x,y)
fX (x) si fX (x) > 0
f (y|X = x) =
w
0 en otro caso
Finalmente, si X e Y son independientes, entonces
w
58
Ejemplo 19 Se considera la siguiente función de probabilidad conjunta de una
variable aleatoria bidimensional discreta (X, Y )
xi \yj 1 2
1 0.1 0.2
2 0.2 0.3
3 0.1 0.1
Calcular: (1) las funciones de probabilidad marginales; (2) las funciones de
probabilidad condicionadas de X a Y ; y (3) las funciones de probabilidad condi-
cionadas de Y a X.
Solución: (1) Las funciones de probabilidad marginales se definen, para X,
como X
P (X = xi ) = P (X = xi , Y = yj )
om
yj
y para Y , como X
P (Y = yj ) = P (X = xi , Y = yj )
xi
.c
Por tanto, tenemos es
xi P (X = xi )
1 P (X = 1, Y = 1) + P (X = 1, Y = 2) = 0.3
2 P (X = 2, Y = 1) + P (X = 2, Y = 2) = 0.5
d
3 P (X = 3, Y = 1) + P (X = 3, Y = 2) = 0.2
en
y
yj P (Y = yj )
pr
1 P (X = 1, Y = 1) + P (X = 2, Y = 1) + P (X = 3, Y = 1) = 0.4
2 P (X = 1, Y = 2) + P (X = 2, Y = 2) + P (X = 3, Y = 2) = 0.6
.a
P (X = xi |Y = yj ) =
P (Y = yj )
w
59
Ejemplo 20 Una variable aleatoria bidimensional (X, Y ) tiene una distribu-
ción uniforme en el recinto definido por las rectas y = x, y = −x y x = 1.
Calcular (1) las funciones de densidad marginales; (2) las funciones de densi-
dad condicionadas; y (3) P (Y > 1/4|X = 1/2) y P (X < 3/4|Y = 1/2).
Solución: Si (X, Y ) tiene una función de distribución uniforme quiere decir
que f (x, y) = k sobre el recinto de definición.
om
.c
es
Entonces se ha de cumplir que
Z +∞ Z +∞
d
f (x, y) dx dy = 1
en
−∞ −∞
Por tanto,
Z +∞ Z +∞ Z 1 µZ x ¶
pr
f (x, y) dx dy = k dy dx
−∞ −∞ 0 −x
Z 1
.a
= 2k x dx
0
· ¸1
x2
w
= 2k =k
2 0
w
luego, k = 1.
(1) La función de densidad marginal de X para 0 < x < 1 es
w
60
om
Figure 1:
Z x
.c
es
fX (x) = 1 dy = 2x
−x
Luego,
d
½
2x si 0 < x < 1
fX (x) =
en
0 en otro caso
Por otro lado, la función de densidad marginal de Y para −1 < y < 0 es
pr
Z 1
fY (y) = 1 dx = 1 + y
−y
.a
y para 0 ≤ y < 1, Z 1
w
fY (y) = 1 dx = 1 − y
y
w
Luego,
1+y si − 1 < y < 0
w
f (x, y)
f (x|y) = (fY (y) 6= 0)
fY (y)
y la de Y a X, como
f (x, y)
f (y|x) = (fX (x) 6= 0)
fX (x)
Por tanto, para −1 < y < 0 tenemos −y < x < 1 y
1
f (x|y) =
1+y
61
y, para 0 ≤ y < 1 tenemos y < x < 1 y
1
f (x|y) =
1−y
Por tanto, la función de densidad condicionada de X a Y viene dada por
1
1+y si − y < x < 1
1
f (x|y) = si y ≤ x < 1
1−y
0 en otro caso
om
1
f (x|Y = −1/2) = =2
1 − 1/2
es decir, X|Y = −1/2 tiene una distribución uniforme en el intervalo (1/2, 1).
.c
Del mismo modo, para 0 < x < 1 tenemos −x < y < x y
es
1
f (y|x) =
2x
d
Por ejemplo, si tomamos x = 1/2, se observa que Y toma los valores en
(−1/2, 1/2) y para este campo de valores la función de densidad condicionada
en
f (y|X = 1/2) = =1
2 · 1/2
f (y|X = 1/2) = 1
w
Luego
Z 1/2
1
P (Y > 1/4|X = 1/2) = 1 dy =
w
1/4 4
Análogamente, para Y = 1/2, tenemos que X toma valores en (1/2, 1) y
1
f (x|Y = 1/2) = =2
1 − 1/2
y, por tanto, Z 1
1
P (X < 3/4|Y = 1/2) = 2 dx =
3/4 2
62
Fórmulas de la probabilidad total y de Bayes
Sabemos que las fórmulas de la probabilidad total y de Bayes son consecuencia
inmediata de la definición de probabilidad condicionada. El siguiente teorema
da las fórmulas equivalentes para el caso de distribuciones condicionadas de
variables aleatorias absolutamente continuas.
y la fórmula de Bayes
om
f (x|y) · fY (y)
f (y|x) =
fX (x)
en donde hemos abreviado f (x|Y = y) por f (x|y).
.c
Demostración: Sabemos que
−∞
Sabemos que
f (x, y) = f (y|x) · fX (x) (16)
w
y
P (X = xi |Y = yj ) · P (Y = yj )
P (Y = yj |X = xi ) =
P (X = xi )
63
2. Estas dos fórmulas pueden generalizarse de la siguiente manera:
Z +∞
P (A) = f (A|x) · fX (x) dx
−∞
y
f (A|x) · fX (x)
f (x|A) =
P (A)
en donde A es un suceso cualquiera, X es una variable aleatoria absolu-
tamente continua con densidad fX y
P (A, x < X ≤ x + h)
f (A|x) = lim+
h→0 P (x < X ≤ x + h)
om
Ejemplo 21 El número de productos defectuosos fabricados al día por una em-
presa es una variable aleatoria X con función de densidad de probabilidad
.c
3x
P (X = x) = e−3 (x = 0, 1, 2, ...)
x!
es
Si un día se obtienen x productos defectuosos, el número de minutos que se
tarda en revisarlos y recomponerlos a no defectuosos es una variable aleatoria
d
Y de forma que
en
(x + 1)y
P (Y = y|X = x) = e−x−1 (y = 0, 1, 2, ...)
y!
pr
P (X = x, Y = y) = P (Y = y|X = x) · P (X = x)
w
3x (x + 1)y
= e−x−4 (x, y = 0, 1, 2, ...)
w
x!y!
P (Y = y|X = x) 6= P (Y = y)
P (Y = 3|X = 2) · P (X = 2)
P (X = 2|Y = 3) =
P (Y = 3)
64
y
27 −3
P (Y = 3|X = 2) = e
6
y, además, por la fórmula de la probabilidad total, obtenemos
∞
X
P (Y = 3) = P (Y = 3|X = x) · P (X = x)
X=0
∞
X 3x (x + 1)3
= e−x−4
x=0
x!3!
∞
X
1 3x (x + 1)3
e−x−4
6 x=0 x!
om
Por tanto,
81 −6
4 e 1 1
P (X = 2|Y = 3) = ∞ = ∞
X 3x (x+1)3
2X x−5 (x+1)3
e−x+2 3
.c
1
6 e−x−4 x! x!
x=0 x=0
d es
en
pr
.a
w
w
w
65