Está en la página 1de 65

Variables aleatorias

Teoría y ejemplos (Primera parte)


c 2000 CRESLINE
°

Introducción
En un espacio de probabilidades (Ω, A, P ) los elementos del espacio muestral

om
Ω no tienen por qué ser números. En la tirada de una moneda al aire, los
sucesos elementales, cara y cruz, no son valores numéricos. No obstante, siem-
pre podemos hacer corresponder el número 1 a la cara, y el 0 a la cruz. Esta

.c
asignación de valores numéricos a los sucesos elementales de un espacio de prob-
abilidades es la base para definir el concepto de variable aleatoria. En efecto,
es
una variable aleatoria será una aplicación X definida sobre el espacio muestral
Ω tal que a cada suceso elemental ω le hace corresponder un valor numérico
X(ω). Este número puede ser real o complejo, e incluso un vector cuando las
d
variables aleatorias son n-dimensionales. No obstante, aquí sólo estudiaremos el
caso real, tratando con detalle las variables aleatorias unidimensionales y bidi-
en

mensionales y dejando al lector la generalización al caso n-dimensional.


pr
.a
w
w
w

Sin embargo, para estudiar las variables aleatorias no sólo hay que conocer los
valores que puede tomar sino que también es necesario conocer la probabilidad
con que toma estos valores. Por ejemplo, si la variable aleatoria X fuera el
número de éxitos en n pruebas de Bernoulli, será preciso conocer la probabilidad
de que la variable aleatoria sea menor, igual o mayor que un determinado número
k; si la variable aleatoria X fuera la intensidad de corriente que pasa por un
circuito eléctrico, sabiendo que fluctúa entre 1 y 2 amperios, habrá que conocer
probabilidades tales como la de que la intensidad esté comprendida entre 1 y
1.2 amperios.
Por definición de probabilidad, sólo los sucesos de la σ-álgebra A tienen asig-
nada probabilidad. Esto significa que para calcular la probabilidad de que una

1
variable aleatoria X tome valores de un cierto intervalo real [x1 , x2 ] habrá que
traducir esta información en términos de sucesos de A. Para ello, introducimos
la siguiente notación: designaremos por [x1 ≤ X ≤ x2 ] el suceso formado por
todos los ω ∈ Ω que hacen que X(ω) tome un valor real del intervalo [x1 , x2 ], es
decir,
[x1 ≤ X ≤ x2 ] = {ω ∈ Ω : x1 ≤ X(ω) ≤ x2 }
Del mismo modo, tenemos
[X = x] = {ω ∈ Ω : X(ω) = x}
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x}
y, en general, si M es un subconjunto de la recta real, entonces
[X ∈ M ] = {ω ∈ Ω : X(ω) ∈ M }

om
Para poder asignar probabilidades a todos estos sucesos debemos primero asegu-
rarnos de que son sucesos de la σ-álgebra A. Si el espacio muestral Ω es discreto
y A = P(Ω), entonces cualquier suceso es un suceso de la σ-álgebra y, por tanto,
todos estos subconjuntos de Ω tendrán probabilidades bien asignadas. Sin em-

.c
bargo, si el espacio muestral es continuo, no podemos asegurar que sucesos tales
como [X ∈ M ] sean sucesos de A, y, en consecuencia, no podemos asegurar
es
que tengan asignada una probabilidad. Sin embargo, se puede demostrar que si
imponemos la condición de que
d
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A (1)
en

para todo x ∈ R, entonces todos los sucesos de la forma [X ∈ M ] tienen prob-


abilidad bien asignada. Es evidente que la condición (1) hace que no toda
pr

aplicación de Ω en R pueda considerarse automáticamente como una variable


aleatoria. No obstante, cuando Ω sea finito o numerable y se tome A = P(Ω),
entonces toda aplicación X : Ω → R cumplirá la condición (1). Por tanto,
.a

es este caso particular, cualquier función real definida sobre Ω es una variable
aleatoria.
w

Observación 1 Dado un espacio de probabilidades (Ω, A, P ) y una variable


aleatoria X, ésta induce sobre el espacio probabilizable (R, B), formado por la
w

recta real y la σ-álgebra de Borel sobre R, una probabilidad PX mediante la


cual (R, B, PX ) es un espacio de probabilidades. Entonces, se llama función de
w

distribución de la variable aleatoria X a la función FX : R → R definida por


FX (x) = PX ((−∞, x])
= P (X −1 (−∞, x])
= P ({ω ∈ Ω : X(ω) ≤ x})
= P ([X ≤ x])
De este modo, podríamos definir una variable aleatoria como una función real
X definida sobre Ω tal que para todo número real x está definida la probabilidad
P ([X ≤ x]) y, por tanto, su función de distribución. Es aquí cuando necesitamos
que [X ≤ x] ∈ A para todo x ∈ R, o sea la condición (1). Además, de las
propiedades de los borelianos sobre R se deduce el hecho de que esta condición
sea la única a imponer para que podamos calcular las probabilidades de otros
sucesos tales como [x1 ≤ X ≤ x2 ] , [X = x], o [X ∈ Q].

2
Definición de variable aleatoria
Sea (Ω, A, P ) un espacio de probabilidades, se dice que una aplicación
X:Ω → R
es una variable aleatoria (real) si para todo x ∈ R se cumple
{ω ∈ Ω : X(ω) ≤ x} ∈ A
En tal caso, como ya hemos visto en la introducción, este suceso se escribe
abreviadamente como [X ≤ x]. Obsérvese que designamos por letras mayús-
culas X, Y, Z, ... las variables aleatorias, y por letras minúsculas x, y, z, ... sus
correspondientes valores.
Ejemplo 1 1. En el lanzamiento de una moneda al aire tenemos Ω = {c, +},

om
en donde hemos simbolizado cara por c y cruz por +, y tomamos A =
P(Ω). Entonces la aplicación X "número de veces que sale cara" es una
variable aleatoria. En efecto, es claro que X(c) = 1 y X(+) = 0, y además
se cumple

.c

 ∅∈A si x < 0
es
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = {+} ∈ A si 0 ≤ x < 1

Ω∈A si x ≥ 1
d
2. El tipo más simple de variable aleatoria es el que sirve para indicar si se
realizó un suceso. Sea (Ω, A, P ) un espacio de probabilidades y considere-
en

mos un suceso A ∈ A, entonces la aplicación


½
1 si ω ∈ A
pr

IA (ω) =
0 si ω ∈/A
es una variable aleatoria que se llama indicador del suceso A. En efecto,
.a

se cumple

 ∅ ∈ A si x < 0
w

[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = A ∈ A si 0 ≤ x < 1

w

Ω ∈ A si x ≥ 1

3. Sea Ω el conjunto de resultados en la tirada de un dado y A = {∅, {2, 4, 6}, {1, 3, 5}, Ω}
w

el álgebra de sucesos. Definimos sobre (Ω, A) las siguientes aplicaciones:


½ ½
1 si i ∈ {1, 2, 3} 1 si i es par
X1 (i) = y X2 (i) =
2 si i ∈ {4, 5, 6} 2 si i es impar
Entonces, la aplicación X1 no es una variable aleatoria, pues

 ∅∈A si x < 1
[X1 ≤ x] = {ω ∈ Ω : X1 (ω) ≤ x} = {1, 2, 3} ∈
/ A si 1 ≤ x < 2

Ω∈A si x ≥ 2
mientras que X2 es una variable aleatoria, pues

 ∅∈A si x < 1
[X2 ≤ x] = {ω ∈ Ω : X2 (ω) ≤ x} = {2, 4, 6} ∈ A si 1 ≤ x < 2

Ω∈A si x ≥ 2

3
Ejemplo 2 Consideremos el experimento aleatorio de lanzar dos dados al aire.
Expresar su espacio muestral. Definimos la aplicación X "suma de los puntos
obtenidos en los dos dados", ¿es X una variable aleatoria? ¿Cuáles son los
sucesos [X = 7], [X ≤ 1], [X > 12] y [2 < X ≤ 7]?
Solución: Es claro que
Ω = {(1, 1), (1, 2), ...(1, 6), ..., (6, 1), (6, 2), ..., (6, 6)}
Definimos
X: Ω −→ R
(i, j) 7−→ i + j
Si sobre Ω consideramos la σ-álgebra dada por A = P (Ω), es fácil comprobar
que para todo x ∈ R se cumple
{(i, j) ∈ Ω : X(i, j) = i + j ≤ x} ∈ A

om
Tenemos
[X = 7] = {(i, j) ∈ Ω : i + j = 7}
= {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}

.c
[X ≤ 1] = {(i, j) ∈ Ω : i + j ≤ 1} = ∅
es
[X > 12] = {(i, j) ∈ Ω : i + j > 12} = Ω

[2 < X ≤ 7] = {(i, j) ∈ Ω : 2 < i + j ≤ 7}


d
= {(1, 2), (2, 1), (1, 3), (2, 2), (3, 1), (1, 4), (2, 3), (3, 2),
en

(4, 1), (1, 5), (2, 4), (3, 3), (4, 2), (5, 1), (1, 6), (2, 5),
(3, 4), (4, 3), (5, 2), (6, 1)}
pr

Ejemplo 3 Consideremos el experimento que consiste en tirar dos monedas al


aire. Representamos los sucesos ”sale cara” y ”sale cruz” mediante c y x, respec-
.a

tivamente. Expresar su espacio muestral. Definimos la aplicación X "número


de caras obtenidas en el lanzamiento", ¿es X una variable aleatoria? ¿Cuáles
w

son los sucesos [X = 1.5], [X ≤ 1], [X > 1] y [0.5 < X < 1.5]?
Solución: Es claro que
w

Ω = {cc, cx, xc, xx}


w

y que X(xx) = 0, X(cx) = X(xc) = 1 y X(cc) = 2. Además, si tomamos


A = P(Ω), se cumple


 ∅∈A si x<0

{xx} ∈ A si 0≤x<1
{ω ∈ Ω : X(ω) ≤ x} =

 {xx, cx, xc} ∈ A si 1≤x<2

Ω∈A si x≥2
y, por tanto, X es una variable aleatoria. Entonces, tenemos
[X = 1.5] = {ω ∈ Ω : X(ω) = 1.5} = ∅
[X ≤ 1] = {ω ∈ Ω : X(ω) ≤ 1} = {xx, cx, xc}
[X > 1] = [X ≤ 1] = {cc}
[0.5 < X < 1.5] = {ω ∈ Ω : 0.5 < X(ω) < 1.5} = {cx, xc}

4
Operaciones con variables aleatorias
El propósito de esta sección es definir las operaciones algebraicas entre vari-
ables aleatorias y demostrar que las nuevas aplicaciones formadas son también
variables aleatorias.

Suma de variables aleatorias


La suma de dos variables aleatorias X, Y definidas sobre un mismo espacio de
probabilidades (Ω, A, P ) es otra aplicación, denotada por X + Y , que cumple

(X + Y )(ω) = X(ω) + Y (ω)

para cada ω ∈ Ω.

om
Teorema 1 Si X, Y son variables aleatorias sobre un espacio de probabilidades
(Ω, A, P ), X + Y también lo es.
Demostración: Sea x ∈ R y consideremos el conjunto
[

.c
A= ([X ≤ r] ∩ [Y < x − r])
r∈Q
es
Como Q es numerable, A ∈ A. Es claro que
d
A ⊂ [X + Y < x]
en

Sea ω ∈ [X + Y < x], entonces

X(ω) + Y (ω) < x


pr

Consideremos cualquier número racional r0 tal que


.a

X(ω) < r0 < x − Y (ω)


w

Entonces
X(ω) < r0 y Y (ω) < x − r0
w

y, por tanto, ω ∈ [X ≤ r0 ] ∩ [Y < x − r0 ] ⊂ A. Como consecuencia, tenemos


w

A = [X + Y < x] ∈ A

para todo x ∈ R. De aquí,


· ¸
1
X +Y <x+ n ∈A
2

y, en consecuencia,
\∞ · ¸
1
X + Y < x + n = [X + Y ≤ x] ∈ A
n=1
2

5
Producto de un número real por una variable aleatoria
El producto de un número real k por una variable aleatoria X definida
sobre un espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por
kX, que satisface
(kX)(ω) = k · X(ω)
para cada ω ∈ Ω.

Teorema 2 Si k ∈ R y X es una variable aleatoria sobre un espacio de proba-


bilidades (Ω, A, P ), kX también lo es.
Demostración: Consideremos tres casos:

Caso 1 k = 0
En este caso, evidentemente tenemos

om
½
∅ si x < 0
[kX ≤ x] =
Ω si x ≥ 0

.c
Caso 2 k > 0
En este caso, para todo x ∈ R tenemos
es
h xi
[kX ≤ x] = X ≤ ∈A
k
d
Caso 3 k < 0
en

En este caso, para todo x ∈ R tenemos


h xi h xi
[kX ≤ x] = X ≥ = X< ∈A
k k
pr

ya que
h ∞ · ¸
xi [ x 1
.a

X< = X≤ − n ∈A
k n=1
k 2
w

pues, · ¸
x 1
X≤ − n ∈A (n = 1, 2, 3, ...)
w

k 2

La demostración de estos tres casos completa la prueba del teorema.


w

Producto de variables aleatorias


La producto de dos variables aleatorias X, Y definidas sobre un mismo espacio
de probabilidades (Ω, A, P ) es otra aplicación, denotada por XY , que cumple

(XY )(ω) = X(ω) · Y (ω)

para cada ω ∈ Ω.

Teorema 3 Si X es una variable aleatoria sobre (Ω, A, P ), también lo es X 2 .


Demostración: Es claro que si x < 0, entonces
£ 2 ¤
X ≤x =∅∈A

6
Supongamos ahora que x ≥ 0, entonces tenemos
£ 2 ¤ £ √ √ ¤ £ √ ¤ £ √ ¤
X ≤x = − x≤X ≤ x = X ≤ x ∩ X ≥− x ∈A

pues
£ √ ¤ £ √ ¤
X ≥− x = X <− x ∈A
y
[∞ · ¸
£ √ ¤ √ 1
X<− x = X ≤− x− n ∈A
n=1
2

Teorema 4 Si X, Y son variables aleatorias sobre un espacio de probabilidades


(Ω, A, P ), XY también lo es.

om
Demostración: Aplicando el teorema 1, deducimos que X − Y y X + Y
son variables aleatorias. Por el teorema 3, deducimos que (X + Y )2 y (X − Y )2
también lo son. Por último, por los teoremas 1 y 2

.c
(X + Y )2 − (X − Y )2
= XY
4
es
es también una variable aleatoria.
d
Cociente de variables aleatorias
en

El cociente de dos variables aleatorias X, Y definidas sobre un mismo espacio


de probabilidades (Ω, A, P ) es otra aplicación, denotada por X
Y , que satisface
pr

X X(ω)
( )(ω) =
Y Y (ω)
.a

¡X ¢
para todo ω ∈ Ω, supuesto que Y (ω) 6= 0; obsérvese que Dom Y = [Y 6= 0].
w

Teorema 5 Si X, Y son variables aleatorias sobre un espacio de probabilidades


(Ω, A, P ) y [Y = 0] = ∅, entonces X
Y también lo es.
w

Demostración: Podemos escribir


· ¸ µ· ¸ ¶ µ· ¸ ¶
w

X X X
≤x = ≤ x ∩ [Y < 0] ∪ ≤ x ∩ [Y > 0]
Y Y Y
= ([X ≥ xY ] ∩ [Y < 0]) ∪ ([X ≤ xY ] ∩ [Y > 0])
= ([X − xY ≥ 0] ∩ [Y < 0]) ∪ ([X − xY ≤ 0] ∩ [Y > 0])

Cada una de estas cuatro últimas clases de sucesos son también sucesos como
puede comprobarse enseguida utilizando la técnica usada en las demostraciones
de los teoremas 1, 2 o 3.

Máximo y mínimo de variables aleatorias


Dadas dos variables aleatorias X, Y definidas sobre un espacio de probabilidades
(Ω, A, P ), definimos la función máximo de X, Y , denotada por max{X, Y },
mediante
max{X, Y }(ω) = max{X(ω), Y (ω)}

7
para todo ω ∈ Ω. Del mismo modo, se define la función mínimo de X, Y ,
denotada por min{X, Y }, mediante

min{X, Y }(ω) = min{X(ω), Y (ω)}

para todo ω ∈ Ω.

Teorema 6 Si X, Y son variables aleatorias sobre un espacio de probabilidades


(Ω, A, P ), entonces max{X, Y } y min{X, Y } son también variables aleatorias.
Demostración: El teorema se sigue de los dos hechos siguientes

[max{X, Y } ≤ x] = [X ≤ x] ∩ [Y ≤ x] ∈ A

y
[min{X, Y } ≤ x] = [X ≤ x] ∪ [Y ≤ x] ∈ A

om
Puede también probarse que

min{X, Y } = − max{−X, −Y }

.c
y de aquí, demostrar que min es una variable aleatoria.
es
Funciones de distribución. Propiedades
Si X es una variable aleatoria sobre un espacio de probabilidades (Ω, A, P ), se
d
llama función de distribución de X a la función real de variable real FX
en

definida por
FX (x) = P ([X ≤ x])
para todo x ∈ R.
pr

Esta función se introduce para conocer cómo se reparte la probabilidad de


los valores que toma la variable aleatoria. Obsérvese que si [X ≤ x] no fuera
.a

un suceso de A, FX (x) no estaría definida (ver la observación 1). Escribiremos


F en lugar de FX cuando no haya confusión posible, y también P (X ≤ x) en
w

lugar de P ([X ≤ x]).

Observación 2 Es importante saber distinguir los conceptos de variable aleato-


w

ria y de función de distribución. Dada una variable aleatoria, tenemos los val-
w

ores reales asignados a cada uno de los elementos del espacio muestral, o como
también se dice a menudo, tenemos una variabilidad del espacio de probabil-
idades. Mientras que, dada una función de distribución, tenemos únicamente
cuáles son estos valores reales y cómo se reparten, o sea, tenemos la distribución
de estos valores. Al pasar de una variable aleatoria a su distribución se pierde
la información relacionada con los objetos que dan lugar a estos valores reales
y que se recoge en el espacio de probabilidades. Es importante observar que dos
variables aleatorias distintas pueden tener la misma función de distribución. En
estos casos, decimos que las variables aleatorias son equivalentes (ver ejemplo
4, apartado 1).

Ejemplo 4 1. Dado un espacio de probabilidades (Ω, A, P ) de manera que


Ω = {ω 1 , ω 2 }, A = P(Ω) y P viene dada por
1
P (ω 1 ) = P (ω 2 ) =
2

8
Consideremos dos variables aleatorias X, Y definidas por
½ ½
0 si ω = ω 1 1 si ω = ω 1
X(ω) = y Y (ω) =
1 si ω = ω 2 0 si ω = ω 2

Es claro que X 6= Y , pues

X(ω) 6= Y (ω)

para todo ω ∈ Ω. Se cumple


 
 ∅ si x < 0  ∅ si y < 0
[X ≤ x] = {ω 1 } si 0 ≤ x < 1 y [Y ≤ y] = {ω 2 } si 0 ≤ y < 1
 
Ω si x ≥ 1 Ω si y ≥ 1
y, por tanto,

om

 0 si x < 0
1
FX (x) = P (X ≤ x) = 2 si 0 ≤ x < 1

1 si x ≥ 1

.c
y 
es
 0 si y < 0
1
FY (y) = P (Y ≤ y) = 2 si 0 ≤ y < 1

1 si y ≥ 1
d

es decir, las dos variables aleatorias tienen la misma función distribución.


en

2. Consideremos el experimento que consiste en tirar tres veces una moneda


al aire. En este caso, Ω consta de 8 sucesos elementales
pr

Ω = {ccc, ccx, cxx, xxx, xxc, xcc, xcx, cxc}


.a

donde por ejemplo cxc significa "salir cara, cruz y cara en las tres tiradas".
Indicamos por X "número de caras obtenidas en las tres tiradas". Es claro
que X es una variable aleatoria cuando A = P(Ω) y se cumple
w

X(ccc) = 3
w

X(ccx) = X(xcc) = X(cxc) = 2


X(cxx) = X(xxc) = X(xcx) = 1
w

X(xxx) = 0
y 

 ∅ si x<0


 {xxx} si 0≤x<1
[X ≤ x] = {xxx, cxx, xxc, xcx} si 1≤x<2



 {xxx, cxx, ..., xcc, cxc} si 2≤x<3

Ω si 3≤x
Entonces la función de distribución de X viene dada por


 0 si −∞<x<0


 1/8 si 0≤x<1
FX (x) = P (X ≤ x) = 1/2 si 1≤x<2



 7/8 si 2≤x<3

1 si 3 ≤ x < +∞

9
La gráfica de esta función aparece en la siguiente figura

om
.c
es
Propiedades
d

A continuación vamos a demostrar algunas propiedades de las funciones dis-


en

tribución en general.

Teorema 7 Si F es la función distribución de una variable aleatoria X sobre


pr

un espacio de probabilidades (Ω, A, P ), entonces se cumplen:

1. 0 ≤ F (x) ≤ 1 para todo x ∈ R


.a

2. F es monótona no decreciente:
w

x1 < x2 =⇒ F (x1 ) ≤ F (x2 )


w

para todo x1 , x2 ∈ R
w

3. F (−∞) = 0 y F (+∞) = 1
4. P (a < X ≤ b) = F (b) − F (a) para todo a, b ∈ R con a ≤ b
5. F es continua por la derecha en cada punto de R

Demostración: (1) Es evidente ya que F (x) = P (X ≤ x) y 0 ≤ P (X ≤


x) ≤ 1.
(2) Si x1 < x2 , podemos escribir

[X ≤ x2 ] = [X ≤ x1 ] ∪ [x1 < X ≤ x2 ]

y entonces, tomando probabilidades en los dos miembros de la ecuación, obten-


emos
P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) ≥ P (X ≤ x1 )

10
y por definición, deducimos
F (x2 ) ≥ F (x1 )

(3) De la definición obtenemos

F (+∞) = P (X ≤ +∞)
Ahora bien [X ≤ +∞] es el suceso seguro, ya que

X(ω) < +∞

para todo ω ∈ Ω, y por tanto, F (+∞) = 1. Como se cumple x < +∞ para todo
x ∈ R, del apartado (2) deducimos

F (x) ≤ F (+∞) = 1

om
Por otro lado, como que
X(ω) > −∞
para todo ω ∈ Ω, se tiene que [X > −∞] es el suceso seguro. Por definición

.c
F (−∞) = P (X ≤ −∞) = 1 − P (X > −∞) = 0
es
Finalmente, como se verifica −∞ < x para todo x ∈ R, del apartado (2) de-
ducimos
d
0 = F (−∞) ≤ F (x)
en

(4) Si a = b, la fórmula es evidente. Supongamos que a < b, entonces


podemos escribir
[X ≤ b] = [X ≤ a] ∪ [a < X ≤ b]
pr

y entonces, tomando probabilidades en los miembros de la ecuación, obtenemos

P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)
.a

y, por definición, deducimos lo que queríamos


w

P (a < X ≤ b) = F (b) − F (a)


w

(5) Sea a cualquier número real. Para ver que F es continua por la derecha
en a debemos demostrar que se cumple
w

lim F (x) = F (a)


x→a+

o de forma equivalente,
1
lim F (a + ) = F (a)
n→∞ n
Definimos los siguientes sucesos
· ¸
1
An = a < X ≤ a +
n
Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
\∞ · ¸
1
lim An = a<X ≤a+ =∅
n→∞
n=1
n

11
Entonces, del apartado (4) deducimos
1
P (An ) = F (a + ) − F (a)
n
y pasando al límite, obtenemos
1
lim P (An ) = lim F (a + ) − F (a)
n→∞ n→∞ n
y por la propiedad de continuidad de la probabilidad, tenemos

lim P (An ) = P (∅) = 0


n→∞

Como consecuencia, se tiene


1

om
lim F (a + ) = F (a)
n→∞ n

Observación 3 La función de distribución F puede ser discontinua por la

.c
izquierda. En efecto, si fuera continua por la izquierda en a debería cumplirse
es
1
lim F (a − ) = F (a)
n→∞ n
d
Ahora bien, consideremos la siguiente sucesión de sucesos (Bn ) definida medi-
ante · ¸
en

1
Bn = a − < X ≤ a
n
Es claro que es una sucesión decreciente y su límite viene dado por
pr

∞ ·
\ ¸
1
lim Bn = a − < X ≤ a = [X = a]
.a

n→∞
n=1
n

Entonces, del apartado (4) del teorema deducimos


w

1
w

P (Bn ) = F (a) − F (a − )
n
w

y pasando al límite, obtenemos


1
lim P (Bn ) = F (a) − lim F (a − )
n→∞ n→∞ n
y por la propiedad de continuidad de la probabilidad, tenemos

lim P (Bn ) = P (X = a)
n→∞

Por tanto, tenemos


1
F (a) − lim F (a − ) = P (X = a)
n→∞ n
y, como consecuencia, si
P (X = a) 6= 0
entonces la función de distribución es discontinua por la derecha.

12
Variables aleatorias y distribuciones discretas
Se dice que una variable aleatoria X es discreta, y asimismo se llama discreta a
su función de distribución F , si el conjunto de valores que toma con probabilidad
no nula es finito o numerable. Esto significa que existe una sucesión de números
reales x1 , x2 , ..., xn , ... tales que

P (X = xi ) = pi 6= 0 y P (X 6= xi ) = 0 (i = 1, 2, 3, ...)

Para una variable aleatoria discreta la función de distribución viene dada


por X
F (x) = P (X = xi )
xi ≤x

en donde la suma se realiza sobre todos aquellos valores de i para los que xi ≤ x.

om
Asociada a una variable aleatoria discreta, o a su correspondiente distribu-
ción discreta, aparece una función a la que se le llama función de densidad
de probabilidad, o simplemente función de densidad, que denotamos por fX
o por f cuando no haya confusión, y se define por

.c
½
P (X = xi ) si x = xi
f (x) =
es
0 si x 6= xi para todo i = 1, 2, 3, ...

Como consecuencias inmediatas de la definición y de los axiomas de probabili-


d
dad, tenemos las siguientes propiedades de la función de densidad
en

1. 0 ≤ f (x) ≤ 1
2.
pr


X
f (xi ) = 1
i=1
.a

3. X
F (x) = f (xi )
w

xi ≤x
w

Debe observarse que cualquier variable aleatoria discreta puede representarse


mediante indicadores. Si In es el indicador del suceso [X = xn ], entonces X
w

puede escribirse en la siguiente forma


X
X= xn In
n

En efecto, si ω ∈ [X = xk ] (k = 1, 2, 3, ...), entonces


½
1 si n = k
In (ω) =
0 si n 6= k

y, por tanto, obtenemos


X
X(ω) = xn In (ω) = xk
n

que es lo que tenía que salir.

13
Ejemplo 5 1. Sea X la variable aleatoria que da el número de éxitos en n
pruebas de Bernoulli. Es claro que X es una variable aleatoria discreta,
pues sólo puede tomar los valores enteros que van de 0 a n. Además, se
cumple µ ¶
n k
P (X = k) = p (1 − p)n−k (k = 0, 1, 2, ..., n)
k
siendo p la probabilidad de éxito. Entonces, la función de distribución es
X µn¶
F (x) = pk (1 − p)n−k
k
k≤x
[x] µ ¶
X n k
= p (1 − p)n−k
k
k=0

om
siendo [x] la parte entera del número real x (es decir, el mayor número
entero menor que x). Esta distribución se llama distribución binomial
de parámetros n y p.

.c
2. Sea X una variable aleatoria discreta que puede tomar cualquier valor
entero no negativo. Entonces X tiene una distribución de Poisson de
es
parámetro λ > 0 si

λk −λ
d
P (X = k) = e (k = 0, 1, 2, ...)
k!
en

La función de distribución viene dada por


pr

[x]
X λk
F (x) = e−λ
k!
k=0
.a

3. Sea X una variable aleatoria discreta que sólo puede tomar un número
w

finito de valores x1 , x2 , ..., xn . Entonces X tiene una distribución uni-


forme (discreta) si
w

1
P (X = xk ) = (k = 1, 2, ..., n)
w

n
La distribución uniforme es
X nx
F (x) = P (X = xk ) =
n
xk ≤x

donde nx es el número de valores xk que son menores o iguales que x. En


la siguiente figura se muestra la distribución uniforme para n = 6

14
om
.c
d es
en
pr

Ejemplo 6 Se sabe que X es una variable aleatoria discreta que puede tomar
.a

cualquier valor entero no negativo. Además, se sabe que existe un número real
0 < α < 1 para el que se cumple
w

P (X = k) = α · P (X = k − 1)
w

(1) Encontrar la función de densidad de probabilidad de X. (2) Determinar la


w

probabilidad de que X tome valores impares.


Solución: (1) Aplicando sucesivamente la relación dada entre las probabil-
idades, se tiene

P (X = k) = α · P (X = k − 1)
= α2 · P (x = k − 2)
= ···
= αk · P (X = 0)

Sabemos que

X
P (X = k) = 1
k=0

15
luego,

X
1 = αk · P (X = 0)
k=0

X
= P (X = 0) · αk
k=0
1
= P (X = 0) ·
1−α
y, por tanto,
P (X = 0) = 1 − α
y, como consecuencia,
P (X = k) = αk (1 − α) (k = 0, 1, 2, ...)

om
(2) Sea
A = [X = 1] ∪ [X = 3] ∪ · · · ∪ [X = 2n − 1] ∪ · · ·

.c
entonces la probabilidad pedida es P (A). Tenemos

X
es
P (A) = P (X = 2n − 1)
n=1
X∞
d
= α2n−1 (1 − α)
en

n=1

1 − α X 2n
= α
α n=1
pr

1 − α α2
=
α 1 − α2
.a

α
=
1+α
w
w

Variables aleatorias y distribuciones absolutamente contin-


uas
w

Una variable aleatoria se llama continua si su función de distribución no tiene


discontinuidades y, por tanto, el conjunto de valores que toma con probabilidad
no nula es no numerable. Entre ellas, las más fáciles de estudiar son las absolu-
tamente continuas. Una variable aleatoria se llama absolutamente continua
si existe una función no negativa e integrable f , denominada función de den-
sidad de probabilidad, tal que su función de distribución puede ponerse en la
forma Z x
F (x) = f (t) dt (2)
−∞
para todo x ∈ R. Como consecuencia, es claro que la función de densidad ha de
cumplir también la siguiente condición
Z +∞
f (x) dx = 1
−∞

16
Es importante observar que la continuidad de F no implica la existencia de una
representación de la forma (2).

Observación 4 La clasificación de las variables aleatorias en discretas y con-


tinuas no implica que toda distribución de probabilidad haya de ser discreta o
bien continua. Las distribuciones discretas y las distribuciones continuas son
dos pequeñas clases disjuntas de distribuciones; son las más fáciles de estudiar,
sobretodo si no se está familiarizado con la teoría de la medida y de la integral
de Lebesgue. Es importante observar que hay muchas funciones de distribución
que no son discretas ni tampoco son continuas.

Teorema 8 Si f es la función de densidad de una variable aleatoria absoluta-


mente continua X y F es su función de distribución
Z x

om
F (x) = f (t) dt
−∞

entonces se cumplen

.c
1. f (x) ≥ 0 para todo x ∈ R
es
2. F es continua
3. P (X = a) = 0 para todo a ∈ R
d

4. F 0 (a) = f (a), si f es continua en a ∈ R


en

5. Z b
P (a < X ≤ b) = f (x) dx
pr

Demostración: (1) Por los apartados (3) y (4) del teorema 7, es inmediato
.a

comprobar que f (x) ≥ 0 para todo x ∈ R.


(2) Por el apartado (5) del teorema 7, F es continua por la derecha en cada
w

a ∈ R. Veamos ahora que F es continua por la izquierda. En efecto, sea > 0,


entonces
w

Z a Z a−
F (a) − F (a − ) = f (x) dx − f (x) dx
w

−∞ −∞
Z a
= f (x) dx
a−
= f (θ)

en donde θ ∈ [a − , a]. Luego

lim [F (a) − F (a − )] = 0 · f (θ) = 0


→0+

de donde se deduce que F es continua por la izquierda en a.


(3) Es consecuencia de la continuidad de F . En efecto, en la observación 3
hemos obtenido
1
F (a) − lim F (a − ) = P (X = a)
n→∞ n

17
Ahora bien, al ser F continua se cumple
1
lim F (a − ) = F (a)
n→∞ n
Por tanto,
P (X = a) = 0
para todo a ∈ R.
(4) Por el teorema fundamental del cálculo, para todo valor de x en el cual
f es continua, F es derivable y se cumple F 0 (x) = f (x).
(5) Por el apartado (4) del teorema 7, tenemos

P (a < X ≤ b) = F (b) − F (a)


Z b

om
= f (x) dx
a

ya que f tiene a lo sumo un número finito de discontinuidades evitables o de


salto finito. Obsérvese que por el apartado (3), se tiene

.c
· ¸
F (x + h) − F (x)
lim − f (x) = 0
es
h→0 h

de donde, · ¸
d
P (x < X ≤ x + h)
lim − f (x) = 0
en

h→0 h
y, en consecuencia,
P (x < X ≤ x + dx) = f (x) dx
pr

es decir, f (x) dx se interpreta como la probabilidad infinitesimal de que la


variable X tome valores dentro del intervalo (x, x + dx].
.a

Observación 5 1. Como consecuencia del apartado (4), la probabilidad es


w

igual al área bajo la gráfica de la función densidad f en el intervalo [a, b].


Además, como
w

[a, b] = {a} ∪ (a, b]


de los apartados (3) y (4) se deduce
w

P (a ≤ X ≤ b) = P (X = a) + P (a < X ≤ b) = F (b) − F (a)

Del mismo modo, tenemos

P (a ≤ X < b) = P (a < X < b) = F (b) − F (a)

Este hecho es diferente a la situación encontrada en el caso de una dis-


tribución discreta.
2. En general, si la variable aleatoria X no es continua (y por tanto F no
es continua por la izquierda), no se cumplen (3), (4) y las consecuencias
anteriores. En efecto, para estas variables se tiene

P (X = a) = F (a) − lim− F (x)


x→a

18
P (X < a) = P (X ≤ a) − P (X = a) = lim− F (x)
x→a

P (a < X < b) = lim− F (x) − F (a)


x→b

P (a < X ≤ b) = P (a < X < b) + P (X = b) = F (b) − F (a)


P (a ≤ X < b) = P (X = a) + P (a < X < b) = lim− F (x) − lim− F (x)
x→b x→a

P (a ≤ X ≤ b) = F (b) − lim− F (x)


x→a

Obsérvese que todos los límites se toman por la izquierda.

Ejemplo 7 1. Una variable aleatoria absolutamente continua tiene una dis-


tribución uniforme en un intervalo [a, b] si su función de densidad viene
dada por ½ 1

om
b−a si x ∈ [a, b]
f (x) =
0 si x ∈
/ [a, b]
La función de distribución vendrá dada por

.c
Z x
F (x) = f (t) dt
es
−∞

Si x < a, entonces F (x) = 0 ya que f (x) = 0. Si a ≤ x < b, entonces


d
Z x
F (x) = f (t) dt
en

−∞
Z a Z x
= f (t) dt + f (t) dt
pr

−∞ a
Z x
1 x−a
= dt =
b − a b−a
.a

Finalmente, si x ≥ b, entonces
w

Z x
F (x) = f (t) dt
w

−∞
Z a Z b Z x
= f (t) dt + f (t) dt + f (t) dt
w

−∞ a b
Z b
1
= dt = 1
a b−a

Por tanto, 
 0 si x < a
x−a
F (x) = b−a si a ≤ x < b

1 si x ≥ b
En la siguiente figura se muestra la distribución uniforme en el intervalo
[2, 4]

19
om
.c
d es
en
pr
.a

2. Sea X una variable aleatoria absolutamente continua cuyo recorrido es


w

toda la recta real. Se dice que X tiene una distribución exponencial


de parámetro λ > 0 si su función de densidad viene dada por
w

½
λe−λx si x ≥ 0
w

f (x) =
0 si x < 0

Si x < 0, la función de distribución F (x) = 0 ya que f (x) = 0. Si x ≥ 0,


entonces
Z x
F (x) = f (t) dt
−∞
Z 0 Z x
= f (t) dt + f (t) dt
−∞ 0
Z x
= λe−λt dt
0
= 1 − e−λx

20
Luego ½
1 − e−λx si x ≥ 0
F (x) =
0 si x < 0
En la figura siguiente se muestra la distribución exponencial de parámetro
λ=2

om
.c
d es
en
pr
.a
w
w

3. Una variable aleatoria absolutamente continua tiene una distribución


w

normal o de Gauss si la función de densidad es


1 2 2
f (x) = √ e−(x−µ) /2σ
σ 2π
donde µ y σ > 0 son parámetros de la distribución. La gráfica de f es la
conocida campana de Gauss con un máximo situado en el punto x = µ
y dos inflexiones en los puntos x = µ ± σ. Para calcular su función de
distribución procedemos de la siguiente manera:
Z x
1 2 2
F (x) = √ e−(t−µ) /2σ dt
σ 2π −∞
haciendo el cambio siguiente
t−µ
u=
σ

21
tenemos
Z 0 Z x−µ
1 −u2 /2 1 σ 2
F (x) = √ e du + √ e−u /2
du
2π −∞ 2π 0

2
Ahora bien, al ser e−u /2 una función par, tenemos
Z 0 Z +∞
1 2 1 2
√ e−u /2 du = √ e−u /2 du
2π −∞ 2π 0
y sabemos que Z +∞
2 Γ(p)
u2p−1 e−au =
0 2ap
siendo Z

om
+∞
Γ(p) = xp−1 e−x dx
0
Luego

.c
Z +∞
2 Γ(1/2)
e−u /2
du = p
es
0 2 1/2


=
d
2
en

Por tanto, tenemos


√ Z x−µ
1 2π 1 σ 2
F (x) = √ +√ e−u /2 du
pr

2π 2 2π 0
µ ¶
1 x−µ
= +Φ
.a

2 σ

donde Z
w

x
1 2
Φ(x) = √ e−t /2
dt
2π 0
w

se llama la integral de probabilidad. En la siguiente figura se muestra la


distribución normal con parámetros µ = 0 y σ = 2
w

22
om
.c
d es
en
pr
.a

Ejemplo 8 Sea X una variable aleatoria absolutamente continua cuya función


de densidad es ½
w

k(1 + x2 ) si x ∈ (0, 3)
f (x) =
0 si x ∈
/ (0, 3)
w

Se pide: (1) hallar la constante k y la función de distribución de X; (2) deter-


minar la probabilidad de que X esté comprendido entre 1 y 2; y (3) hallar la
w

probabilidad de que X sea menor que 1.


Solución: (1) Al ser f una función de densidad de una variable absoluta-
mente continua debe cumplirse que
Z +∞
f (x) dx = 1
−∞

Luego,
Z +∞ Z 0 Z 3 Z +∞
f (x) dx = f (x) dx + f (x) dx + f (x) dx
−∞ −∞ 0 3
Z 3
= k (1 + x2 ) dx
0
· ¸3
x3
= k x+ = 12k
3 0

23
Por tanto, k = 1/12. Para hallar la función de distribución sabemos que
Z x
F (x) = f (t) dt
−∞

Luego, si x < 0, entonces F (x) = 0 ya que f (x) = 0. Si 0 < x < 3, entonces


Z x
F (x) = f (t) dt
−∞
Z 0 Z x
= f (t) dt + f (t) dt
−∞ 0
Z x
1 + t2
= dt
0 12
· ¸x µ ¶
1 t3 1 x3

om
= t+ = x+
12 3 0 12 3
Por tanto, obtenemos

.c

 0 ³ ´ si x ≤ 0
1 x3
F (x) = 12 x + si 0 < x < 3
es
 3

1 si x ≥ 3
d
(2) Se pide la probabilidad del suceso [1 ≤ X ≤ 2]. Entonces,
Z 2
en

P (1 ≤ X ≤ 2) = f (x) dx
1
Z 2
1
pr

= (1 + x2 ) dx
12
1
· ¸2
1 x3 5
.a

= x+ =
12 3 1 18
w

(3) Se pide la probabilidad del suceso [X < 1]. Entonces


w

1 1 1
P (X < 1) = F (1) = (1 + ) =
12 3 9
w

Transformación de variables aleatorias


Sea X una variable aleatoria sobre un espacios probabilidades (Ω, A, P ) y sea
g una función de la variable real x. Entonces, Y = g(X) es una nueva función
real definida sobre Ω tal que

Y (ω) = g(X(ω))

Si queremos que Y sea una variable aleatoria debemos imponer la condición de


que
{ω ∈ Ω : Y (ω) ≤ y} ∈ A (3)
para todo y ∈ R. En lo sucesivo haremos la suposición de que las funciones g
son tales que (3) se satisface.

24
om
En esta situación el problema que se nos plantea es el de encontrar las funciones
de densidad y de distribución de Y a partir de las de X. En el caso de vari-
ables aleatorias discretas la solución a este problema viene dada por el siguiente

.c
teorema.
es
Teorema 9 Sea X una variable aleatoria discreta y Y una variable aleatoria
definida por
d
Y = g(X)
en

Entonces la función de distribución de Y viene dada por


X
FY (y) = P (X = x)
pr

g(x)≤y

Demostración: Observamos que Y es una variable aleatoria discreta, ya


.a

que X
P (Y = y) = P (X = x)
w

g(x)=y

Por tanto,
w

FY (y) = P (Y ≤ y)
w

X
= P (X = x)
g(x)≤y

Ejemplo 9 Dada la variable aleatoria discreta X definida por la siguiente tabla

xi 0 2 5 7
pi 0.3 0.2 0.4 0.1

Se pide determinar la distribución de la variable Y = 3X + 2.


Solución: Observamos que

xi 0 2 5 7
yi 2 8 17 23

25
Entonces,
yi 2 8 17 23
pi 0.3 0.2 0.4 0.1
La función de distribución de Y viene dada por
X
F (y) = P (X = xi )
3xi +2≤y

Por tanto 

 0 si x<2


 0.3 si 2≤y<8
F (y) = 0.5 si 8 ≤ y < 17



 0.9 si 17 ≤ y < 23

1 si y ≥ 23

om
En el caso de que las variables sean absolutamente continuas, hay dos pro-
cedimientos. Uno consiste en calcular primero la función de distribución FY

.c
de Y = g(X) a partir de la de X y, después, si FY es derivable, determinar
la función de densidad fY mediante fY (y) = FY0 (y). La justificación de este
es
procedimiento se encuentra en el teorema siguiente.

Teorema 10 Sea X una variable aleatoria absolutamente continua con función


d

de densidad fX y sea Y la variable aleatoria definida por Y = g(X). Entonces,


en

la función de distribución de Y es
Z
FY (y) = fX (x) dx
pr

donde D es el subconjunto de la recta real definido por g(x) ≤ y.


.a

Demostración: Por definición, tenemos


w

FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
w

= P (X ∈ D)
w

ya que de la condición
g(X(ω)) ≤ y
se deduce X(ω) ∈ D. Por tanto,
Z
P (X ∈ D) = fX (x) dx
D

y, como consecuencia, tenemos


Z
FY (y) = fX (x) dx
D

que es lo que queríamos demostrar.

26
Ejemplo 10 Dada la variable aleatoria absolutamente continua X cuya función
de densidad viene dada por
½
2x si x ∈ (0, 1)
f (x) =
0 si x ∈/ (0, 1)

Consideramos las siguientes transformaciones: (1) Y = 3X + 5; (2) Y = X 2 ;


(3) Y = 2X 2 + 5. En cada una, calcular las funciones de distribución y de
densidad.
Solución: La función de distribución de X es

 0 si x < 0
F (x) = x2 si 0 ≤ x < 1

1 si x ≥ 1

om
(1) Consideremos la transformación Y = 3X + 5. Tenemos

FY (y) = P (Y ≤ y)

.c
= P (3X + 5 ≤ y)
y−5
= P (X ≤ )
es
3
y−5
= F( )
3
d

Ahora bien,
en

y−5
0< 3 < 1 ⇐⇒ 5 < y < 8
Por tanto, 
pr

 0 si y < 5
1
FY (y) = 9 (y − 5)2 si 5 ≤ y < 8

1 si y ≥ 8
.a

Es claro que FY es derivable en (5, 8) y, por tanto, la función de densidad de Y


viene dada por
w

½ 2
fY (y) = 9 (y − 5) si y ∈ (5, 8)
0 si y ∈
/ (5, 8)
w

(2) Consideremos la transformación Y = X 2 . En este caso, tenemos


w

FY (y) = P (Y ≤ y)
= P (X 2 ≤ y)
√ √
= P (− y ≤ X ≤ y)
√ √
= F ( y) − F (− y)

= F ( y)

Ahora bien

0< y < 1 ⇐⇒ 0 < y < 1
Por tanto, 
 0 si y < 0
FY (y) = y si 0 ≤ y < 1

1 si y ≥ 1

27
Es claro que FY es derivable en (0, 1) y, por tanto, la función de densidad de Y
viene dada por ½
1 si y ∈ (0, 1)
fY (y) =
0 si y ∈ / (0, 1)
(3) Consideremos la transformación Y = 2X 2 + 5. Entonces

FY (y) = P (Y ≤ y)
= P (2X 2 + 5 ≤ y)
à r r !
y−5 y−5
= P − ≤X≤
2 2
Ãr ! Ã r !
y−5 y−5
= F −F −
2 2

om
Ãr !
y−5
= F
2

.c
Ahora bien, q
y−5
0< < 1 ⇐⇒ 5 < y < 7
2
es
Por tanto, 
 0 si y < 5
d
y−5
FY (y) = 2 si 5 ≤ y < 7

1 si y ≥ 7
en

Es claro que FY es derivable en (5, 7) y, por tanto, la función de densidad de Y


viene dada por ½ 1
pr

2 si y ∈ (5, 7)
fY (y) =
0 si y ∈ / (5, 7)
.a

Otro procedimiento consiste en determinar primero la función de densidad


w

fY de Y = g(X) a partir de la de X y, después, por integración, calcular la fun-


ción de distribución. Este procedimiento es más limitado que el anterior porque
w

se han de comprobar previamente algunas condiciones como, por ejemplo, que


la función g sea monótona y derivable. La justificación de este procedimiento
w

se halla en el siguiente teorema.

Teorema 11 Sea X una variable aleatoria absolutamente continua cuya fun-


ción de densidad es una función fX continua. Sea g : R → R una función
monótona y derivable, entonces Y = g(X) es una variable aleatoria del mismo
tipo cuya función de densidad viene dada por
1
fY (y) = fX (x) ·
|g 0 (x)|
para todo y ∈ R, siendo y = g(x). Además, la función de distribución de Y es

FY (y) = FX (x)

si g es creciente, y
FY (y) = 1 − FX (x)

28
si g es decreciente.
Demostración: Supongamos que g es creciente y derivable. Por el teorema
de la inversa derivable, g es biyectiva sobre su recorrido, g −1 es derivable en su
dominio y se cumple
1
(g −1 )0 (y) = 0
g (x)
en donde g(x) = y. Entonces, puesto que
£ ¤
[g(X) ≤ y] = X ≤ g −1 (y)
se tiene
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
= P (X ≤ g −1 (y))

om
= FX (g −1 (y))
= FX (x)

.c
ya que g(x) = y equivale a x = g −1 (y). Como fX es continua, según el apartado
(4) del teorema 8, se tiene
es
0
fX (x) = FX (x)
= (FY ◦ g)0 (x)
d
= FY0 (g(x)) · g 0 (x)
en

= FY0 (y) · g 0 (x)


Al ser g una función creciente, se tiene
pr

g 0 (x) > 0
para todo x ∈ R. Por tanto,
.a

|g 0 (x)| = g 0 (x)
w

y, en consecuencia, obtenemos
1
w

FY0 (y) = fX (x) ·


|g 0 (x)|
w

Por consiguiente, si la función de densidad de Y es continua, deducimos que


1
fY (y) = fX (x) ·
|g 0 (x)|
Supongamos ahora que g es decreciente, entonces
£ ¤
X ≥ g −1 (y) = [g(X) ≤ y]
y, por tanto,
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
= P (X ≥ g −1 (y))
= 1 − P (X ≤ x)
= 1 − FX (x)

29
Por otro lado, tenemos
0
fX (x) = FX (x)
= (1 − FY ◦ g)0 (x)
= −FY0 (g(x)) · g 0 (x)
= −FY0 (y) · g 0 (x)

Ahora bien, como g es decreciente tenemos g 0 (x) < 0 para todo x ∈ R. Por
tanto,
|g 0 (x)| = −g 0 (x)
y, en consecuencia, obtenemos
1
FY0 (y) = fX (x) ·
|g 0 (x)|

om
Por consiguiente, si la función de densidad de Y es continua, deducimos que
1
fY (y) = fX (x) ·

.c
|g 0 (x)|
En conclusión, si g es monótona, entonces
es
1
fY (y) = fX (x) ·
|g 0 (x)|
d
en

Ejemplo 11 Sea X una variable aleatoria absolutamente continua de la cual


sabemos que su densidad viene dada por la siguiente función
pr

½
1 − 12 x si x ∈ (0, 2)
f (x) =
0 si x ∈
/ (0, 2)
.a

Se pide calcular las funciones de densidad y de distribución de las variables (1)


w

Y = eX y (2) Y = e−X .
Solución: La función de distribución de X es
w


 0 si x < 0
F (x) = x2
x − 4 si 0 ≤ x < 2
w


1 si x ≥ 2

(1) Consideremos la transformación Y = eX . En este caso g(x) = ex es una


función creciente y derivable. Por tanto, según el teorema 11, tenemos

FY (y) = FX (x)

y
1
fY (y) = f (x) ·
|g 0 (x)|
De este modo, como x = ln y, obtenemos

 0 si y < 1
ln2 y
FY (y) = FX (ln y) = ln y − si 1 ≤ y < e2
 4
1 si x ≥ e2

30
y
1
1− 2 ln y 2 − ln y
fY (y) = =
y 2y
si 1 < y < e2 .
(2) Consideremos la transformación Y = e−X . En este caso g(x) = e−x es
una función decreciente y derivable. Por tanto, según el teorema 11, tenemos
FY (y) = 1 − FX (x)
y
1
fY (y) = f (x) ·
|g 0 (x)|
De este modo, como x = − ln y, obtenemos

 0 si y > 0

om
ln2 y
FY (y) = 1 − Fx (− ln y) = 1 + ln y + 4 si 1 ≥ y > e−2

1 si y ≤ e−2
y
1 + 12 ln y 2 + ln y

.c
fY (y) = =
y 2y
−2
es
si 1 > y > e .

Variables aleatorias bidimensionales


d
en

Introducción
Supongamos que tenemos dos variables aleatorias X, Y sobre el mismo espacio
pr

de probabilidades (Ω, A, P ). De este modo, para cada suceso elemental ω ∈ Ω


tenemos dos números reales X(ω) y Y (ω). Entonces, hay dos posibles inter-
pretaciones: (1) Considerar los números X(ω) y Y (ω) de forma separada, como
.a

se ha hecho al considerar las operaciones con variables aleatorias, o bien (2)


podemos considerar este par de números como las componentes de un vector
w

(X(ω), Y (ω)) de R2 (o las coordenadas de un punto del plano). Es esta segunda


interpretación la que conduce al concepto de variable aleatoria bidimen-
w

sional y, por extensión, al de variable aleatoria n-dimensional.


w

31
Al ser X, Y variables aleatorias, tenemos que
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A y [Y ≤ y] = {ω ∈ Ω : Y (ω) ≤ y} ∈ A
para todo x, y ∈ R. Por tanto,
[X ≤ x] ∩ [Y ≤ y] ∈ A
y, como consecuencia, estos sucesos tienen asignadas probabilidades.

om
.c
d es
Así, podemos introducir la función F definida por
en

FX (x, y) = P ([X ≤ x] ∩ [Y ≤ y])


para todo (x, y) ∈ R2 ; F es una función real de dos variables que se llama
pr

función de distribución conjunta o función de distribución de la variable


aleatoria bidimensional X = (X, Y ).
En general, una variable aleatoria n-dimensional o vector aleatorio será un
.a

n-tupla X = (X1 , X2 , ..., Xn ) formada por variables aleatorias Xi (i = 1, 2, ..., n)


sobre un mismo espacio de probabilidades (Ω, A, P ). El vector aleatorio X =
w

(X1 , X2 , ..., Xn ) definirá una aplicación de Ω en Rn que hace corresponder a


cada suceso elemental ω un vector (x1 , x2 , ..., xn ) de Rn , siendo xi = Xi (ω)
w

(i = 1, 2, ..., n). Para facilitar la escritura, en esta sección sólo trataremos el


caso n = 2. La generalización al caso n-dimensional de todos los resultados
w

que obtendremos no supone ninguna dificultad y podrá realizarla el lector como


ejercicio.
Observación 6 Para abreviar, en toda esta sección escribiremos [X ≤ x, Y ≤ y]
en lugar de [X ≤ x]∩[Y ≤ y], y también P (X ≤ x, Y ≤ y) en lugar de P ([X ≤ x] ∩ [Y ≤ y]).

Definición de variable aleatoria bidimensional


Una variable aleatoria bidimensional es cualquier par X = (X, Y ) formada
por variables aleatorias sobre el mismo espacio de probabilidades (Ω, A, P ).

Definición de función de distribución conjunta


Dada una variable aleatoria bidimensional X = (X, Y ) sobre (Ω, A, P ), se llama
función de distribución conjunta a la función real de dos variables definida

32
por
FX (x, y) = P (X ≤ x, Y ≤ y)
en donde
[X ≤ x, Y ≤ y] = [X ≤ x] ∩ [Y ≤ y]

Propiedades
Teorema 12 La función de distribución conjunta FX de una variable aleatoria
bidimensional X = (X, Y ) satisface las siguientes propiedades:

1. 0 ≤ FX (x, y) ≤ 1 para todo (x, y) ∈ R2


2. FX es monótona no decreciente para cada argumento

x1 < x2 =⇒ FX (x1 , y) ≤ FX (x2 , y)

om
y1 < y2 =⇒ FX (x, y1 ) ≤ FX (x, y2 )

.c
3. FX (+∞, +∞) = 1 y FX (−∞, y) = FX (x, −∞) = 0
4. P (a < X ≤ b, c < Y ≤ d) = FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c)
es
5. FX es continua por la derecha para cada argumento
d
Demostración: (1) Es evidente, ya que FX (x, y) = P (X ≤ x, Y ≤ y) y
en

0 ≤ P (X ≤ x, Y ≤ y) ≤ 1.
(2) Si x1 < x2 , podemos escribir
pr

[X ≤ x1 ] ∩ [Y ≤ y] ⊂ [X ≤ x2 ] ∩ [Y ≤ y]

y, por tanto,
.a

FX (x1 , y) = P ([X ≤ x1 ] ∩ [Y ≤ y]) ≤ P ([X ≤ x2 ] ∩ [Y ≤ y]) = FX (x2 , y)


w

Del mismo modo se prueba que FX es no decreciente respecto al segundo argu-


mento.
w

(3) Observamos que


w

[X ≤ +∞, Y ≤ +∞] = [X ≤ +∞] ∩ [Y ≤ +∞]


= Ω∩Ω=Ω

Por tanto,

FX (+∞, +∞) = P (X ≤ +∞, Y ≤ +∞) = P (Ω) = 1

Observamos también que

[X ≤ −∞, Y ≤ y] = [X ≤ −∞] ∩ [Y ≤ y]
= ∅ ∩ [Y ≤ y]
= ∅

Por tanto,
FX (−∞, y) = P (X ≤ −∞, Y ≤ y) = P (∅) = 0

33
Análogamente, se prueba que FX (x, −∞) = 0.
(4) Definimos los siguientes sucesos

A = [a < X ≤ b, Y ≤ d]
B = [a < X ≤ b, Y ≤ c]
C = [a < X ≤ b, c < Y ≤ d]

om
.c
Es claro que B y C son incompatibles y se cumple A = B ∪ C. Por tanto,
es
P (A) = P (B) + P (C) (4)

Además, es claro también que


d

A = [X ≤ b, Y ≤ d] − [X ≤ a, Y ≤ d]
en

B = [X ≤ b, Y ≤ c] − [X ≤ a, Y ≤ c]

luego
pr

P (A) = FX (b, d) − FX (a, d)


P (B) = FX (b, c) − FX (a, c)
.a

Sustituyendo estas dos expresiones en (4), obtenemos

P (C) = P (a < X ≤ b, c < Y ≤ d)


w

= FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c)


w

(5) Definimos los siguientes sucesos


w

£ ¤
An = a < X ≤ a + n1 , Y ≤ y
B = [X£ ≤ a, Y ≤ y] ¤
Cn = X ≤ a + n1 , Y ≤ y

entonces
Cn = B ∪ An
siendo B y An dos sucesos incompatibles para todo n ∈ N. Por tanto,

P (Cn ) = P (B) + P (An ) (5)

34
Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
∞ µ·
\ ¸ ¶
1
lim An = a<X ≤a+ ∩ [Y ≤ y]
n→∞
n=1
n
Ã∞ · ¸!
\ 1
= a<X ≤a+ ∩ [Y ≤ y]
n=1
n
= ∅ ∩ [Y ≤ y]
= ∅
Entonces, como
1
P (Cn ) = FX (a + , y) y P (B) = FX (a, y)

om
n
de (5), obtenemos
1
FX (a + , y) = FX (a, y) + P (An )
n

.c
y pasando al límite, deducimos
1
es
lim FX (a + , y) = FX (a, y) + lim P (An )
n→∞ n n→∞

y por la propiedad de continuidad de la probabilidad, tenemos


d

lim P (An ) = P (∅) = 0


en

n→∞

Como consecuencia,
1
lim FX (a +
, y) = FX (a, y)
pr

n→∞ n
Del mismo modo, se demuestra que FX es continua por la derecha respecto al
.a

segundo argumento.

Distribuciones marginales
w

Teorema 13 Sea FX la función de distribución conjunta de una variable aleato-


w

ria bidimensional X = (X, Y ). Entonces


w

lim FX (x, y) = FX (x) y lim FX (x, y) = FY (y)


y→+∞ x→+∞

donde FX y FY son las funciones de distribución de las variables X e Y por


separado, respectivamente. A estas dos funciones se les llama entonces dis-
tribuciones marginales de X = (X, Y ).
Demostración: Puesto que
[X ≤ x, Y ≤ +∞] = [X ≤ x] ∩ [Y ≤ +∞]
= [X ≤ x] ∩ Ω
= [X ≤ x]
por definición, obtenemos
FX (x, +∞) = FX (x)
Análogamente se prueba FX (+∞, y) = FY (y).

35
Variables aleatorias bidimensionales discretas
Una variable aleatoria bidimensional X = (X, Y ) definida en el espacio de proba-
bilidades (Ω, A, P ) se llama discreta si X e Y son variables aleatorias discretas.
Supongamos que X e Y toman los valores xi e yj (i, j = 1, 2, 3, ...) con proba-
bilidades P (X = xi ) y P (Y = yj ), respectivamente. Definimos la función de
densidad de probabilidad conjunta de la variable aleatoria bidimensional
discreta X = (X, Y ) por
½
P (X = xi , Y = yj ) si x = xi y y = yj
f (x, y) =
0 si x 6= xi o y 6= yj para todo i, j = 1, 2, 3, ...
en donde
P (X = xi , Y = yj ) = P ([X = xi ] ∩ [Y = yj ]) (i, j = 1, 2, 3, ...)

om
y su función de distribución conjunta viene dada entonces por
X X
F (x, y) = P (X ≤ x, Y ≤ y) = P (X = xi , Y = yj )
xi ≤x yj ≤y

.c
Como consecuencias inmediatas de la definición y de los axiomas de probabili-
es
dad, tenemos las siguientes propiedades de la función de densidad conjunta
1. 0 ≤ f (xi , yj ) ≤ 1, para todo i, j = 1, 2, 3, ...
d
2. XX
en

f (xi , yj ) = 1
i j

3. X X
pr

F (x, y) = f (xi , yj )
xi ≤x yj ≤y
.a

Observamos que
X X XX
w

lim F (x, y) = P (X = xi , Y = yj ) = P (X = xi , Y = yj )
y→+∞
xi ≤x yj ≤+∞ xi ≤x yj
w

(6)
Ahora bien, por el teorema 13, sabemos que la distribución marginal viene dada
w

por X
lim F (x, y) = FX (x) = P (X = xi ) (7)
y→+∞
xi ≤x

Comparando (6) y (7), obtenemos la función de densidad de X


X
fX (x) = P (X = xi ) = P (X = xi , Y = yj )
yj

que no es más que la suma de la densidad conjunta para todos los valores que
toma la variable Y . Del mismo modo se obtiene
X
fY (y) = P (Y = yj ) = P (X = xi , Y = yj )
xi

Expresadas de este modo, las funciones fX y fY se llaman funciones de den-


sidad marginales de X = (X, Y ).

36
Ejemplo 12 Si tiran dos dados a la vez. Sea X la variable aleatoria "número
de puntos obtenidos por el primer dado", e Y la variable aleatoria "el número
mayor de los puntos obtenidos con los dos dados". Se pide la función de den-
sidad de la variable aleatoria bidimensional (X, Y ) y las funciones de densidad
marginales de (X, Y ).
Solución: Se trata de una variable aleatoria bidimensional discreta. Si f es
la función de densidad conjunta, entonces
f (1, 1) = P (X = 1, Y = 1) = 1/36
Además,
f (k, 1) = P (X = k, Y = 1) = 0
con k > 1, pues [X = k] ∩ [Y = 1] es el suceso imposible. Tenemos también que
f (2, 2) = P (X = 2, Y = 2) = 2/36

om
ya que [X = 2] ∩ [Y = 2] = {(2, 1), (2, 2)}. Y así sucesivamente, los valores de
la función de densidad se encuentran en la tabla siguiente

.c
d es
en
pr
.a
w
w
w

La función de densidad marginal de X se obtendrá sumando, para cada


valor de X, los valores de la densidad conjunta; en otras palabras, sumando por
columnas las probabilidades de la tabla. Así, tenemos
xi 1 2 3 4 5 6
fX (xi ) 1/6 1/6 1/6 1/6 1/6 1/6
Análogamente, la función de densidad marginal para Y se obtendrá sumando
por filas las probabilidades de la tabla. Así, tenemos
yj 1 2 3 4 5 6
fY (yj ) 1/36 1/12 5/36 7/36 1/4 11/36

37
Variables aleatorias bidimensionales absolutamente contin-
uas
Se dice que una variable aleatoria bidimensional X = (X, Y ) es absolutamente
continua si existe una función real integrable de dos variables f , denominada
función de densidad de probabilidad conjunta, tal que la función de dis-
tribución conjunta de X puede expresarse en la forma siguiente
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞

para todo (x, y) ∈ R2 . Como consecuencia, es claro que la función de densidad


conjunta ha de cumplir también la siguiente condición
Z +∞ Z +∞

om
f (x, y) dx dy = 1
−∞ −∞

Teorema 14 Si f es la función de densidad conjunta de una variable aleatoria


absolutamente continua X = (X, Y ) y F es su función de distribución conjunta

.c
Z x Z y
F (x, y) = f (u, v) du dv
es
−∞ −∞

entonces se cumplen
d

1. Si f es continua, entonces
en

∂ 2 F (x, y)
= f (x, y)
∂y∂x
pr

2. f (x, y) ≥ 0 para todo (x, y) ∈ R2


.a

3. La probabilidad de que X tome valores dentro de un recinto D del plano


viene dada por
w

Z Z
P ((X, Y ) ∈ D) = f (x, y) dx dy
w

D
Z b Z d
w

P (a < X ≤ b, c < Y ≤ d) = f (x, y) dx dy


a c

Demostración: (1) Consideremos A = (−∞, x) y B = (−∞, y). Para cada


u ∈ A, definimos la función gu : B → R por

gu (v) = f (u, v)

Puesto que f es continua, gu es continua y, por tanto, por el teorema funda-


mental del cálculo, Z y
gu (v) dv
−∞

es derivable y se cumple
Z y

gu (v) dv = gu (y)
∂y −∞

38
En particular, Z y
h(u) = gu (v) dv
−∞

es continua en A. De nuevo, por el teorema fundamental del cálculo


Z x
h(u) du
−∞

es derivable y se cumple
Z x Z y

h(u) du = h(x) = gx (v) dv
∂x −∞ −∞

o sea Z x µZ y ¶ Z y

om
gu (v) dv du = gx (v) dv
∂x −∞ −∞ −∞

De aquí, derivando respecto de y, obtenemos


µZ x µZ y ¶ ¶ Z y

.c
∂2 ∂
f (u, v) dv du = gx (v) dv = f (x, y)
∂y∂x −∞ −∞ ∂y −∞
es
luego
∂ 2 F (x, y)
= f (x, y) (8)
d
∂y∂x
en

(2) Vamos a interpretar (8). Esta ecuación puede escribirse de forma equiv-
alente como
· ¸
pr

F (x + h, y + k) − F (x + h, y) − F (x, y + k) + F (x, y)
lim − f (x, y) = 0
h→0 hk
k→0
.a

Ahora bien, según el apartado (4) del teorema 7, tenemos


w

P (x < X ≤ x+h, y < Y ≤ y+k) = F (x+h, y+k)−F (x+h, y)−F (x, y+k)+F (x, y)
w

Por tanto,
· ¸
w

P (x < X ≤ x + h, y < Y ≤ y + k)
lim − f (x, y) = 0 (9)
h→0 hk
k→0

de donde

P (x < X ≤ x + dx, y < Y ≤ y + dy) = f (x, y) dx dy (10)

es decir, que f (x, y) dx dy se interpreta como la probabilidad infinitesimal de


que el punto (X, Y ) del plano se encuentre dentro del rectángulo

(x, x + dx] × (y, y + dy]

Por otro parte, como

P (x < X ≤ x + h, y < Y ≤ y + k) ≥ 0

39
de la ecuación (9) se deduce que f es necesariamente una función no negativa

f (x, y) ≥ 0

para todo (x, y) ∈ R2 .


(3) Como
[(X, Y ) ∈ D] = {ω ∈ Ω : (X(ω), Y (ω)) ∈ D}
se tiene
Z Z
P ((X, Y ) ∈ D) = P (x < X ≤ x + dx, y < Y ≤ y + dy)

y por (10), deducimos


Z Z

om
P ((X, Y ) ∈ D) = f (x, y) dx dy
D

En particular, si D = [a, b] × [c, d] y f es continua en D, se tiene

.c
Z b Z d
P (a < X ≤ b, c < Y ≤ d) = f (x, y) dx dy
d es a c

Sabemos que X es una variable aleatoria absolutamente continua con función


de densidad fX . Esto quiere decir que la función de distribución de X es
en

Z x
FX (x) = fX (t) dt (11)
pr

−∞

Por otro lado, según el teorema 13, las distribuciones marginales de X = (X, Y )
.a

son
lim FX (x, y) = FX (x) y lim FX (x, y) = FY (y)
y→+∞ x→+∞
w

En particular,
Z µZ ¶
w

x +∞
FX (x) = FX (x, +∞) = f (u, v) dv du
w

−∞ −∞

Comparando esta ecuación con (11), obtenemos que la función de densidad de


X viene dada por Z +∞
fX (x) = f (x, y) dy
−∞

Del mismo modo, deducimos que la función de densidad de Y viene dada por
Z +∞
fY (y) = f (x, y) dx
−∞

Ejemplo 13 La función de densidad conjunta de dos variables aleatorias con


distribución absolutamente continua es
½
k(x2 + y 2 ) si x ∈ (0, 1) e y ∈ (0, 1)
f (x, y) =
0 en otro caso

40
(1) Determinar el valor de k. (2) Obtener la función de distribución conjunta.
(3) Calcular las funciones de densidad marginales.
Solución: (1) Si f es una función de densidad conjunta de una distribución
absolutamente continua, entonces se ha de cumplir que
Z +∞ Z +∞
f (x, y) dx dy = 1
−∞ −∞

Puesto que fuera de la región (0, 1) × (0, 1) se anula f , entonces


Z +∞ Z +∞ Z 1 Z 1
f (x, y) dx dy = k (x2 + y 2 ) dx dy
−∞ −∞ 0 0
Z 1 · ¸1
2 y3
= k x y+ dx
3 0

om
0
Z 1
1
= k (x2 + ) dx
0 3
· 3 ¸1

.c
x x 2k
= k + =
3 3 0 3
es
Por tanto, k = 3/2.
(2) Para obtener la función de distribución conjunta debemos distinguir las
d
siguientes regiones numeradas, siendo la parte rayada la única en la que no se
anula la función de densidad conjunta.
en
pr
.a
w
w
w

En la región 1, definida por x ≤ 0 e y ≥ 1, la función de distribución es cero,


pues la función de densidad se anula. Lo mismo ocurre en las regiones 2,3,6 y
9. En las cuatro restantes, la función de distribución no se anula.
En la región 4, definida por 0 < x ≤ 1 e y ≥ 1, sólo nos interesa la parte
en la que no se anula la función de densidad, es decir, la parte rayada de la
siguiente figura

41
Entonces, tenemos

om
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z x Z 1 Z x Z y
3 2
= 0 du dv + (u + v 2 ) du dv + 0 du dv

.c
−∞ −∞ 0 0 2 0 1
Z · ¸1
3 x 2 v3
es
= u v+ du
2 0 3 0
Z µ ¶
3 x 1
d
= u2 + du
2 0 3
· ¸x
en

3 u3 u x3 + x
= + =
2 3 3 0 2
pr

En la región 5, definida por 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1,


.a
w
w
w

42
tenemos
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z x Z y
3 2
= 0 du dv + (u + v 2 ) du dv
−∞ −∞ 0 0 2
Z x· ¸y
3 2 v3
= u v+ du
2 0 3 0
Z xµ ¶
3 y3
= u2 y + du
2 0 3
· 3 ¸ x
3 u y y3 u x3 y + y 3 x
= + =
2 3 3 0 2

om
En la región 7, definida por x ≥ 1 e y ≥ 1,

.c
d es
en
pr

tenemos
Z x Z y
.a

F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z 1 Z 1 Z x Z y
w

3 2
= 0 du dv + (u + v 2 ) du dv + 0 du dv
−∞ −∞ 0 0 2 1 1
Z 1Z 1
w

3 2
= (u + v 2 ) du dv = 1
2
w

0 0

Finalmente, en la región 8, definida por x ≥ 1 e 0 ≤ y < 1,

43
tenemos
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞
Z 0 Z 0 Z 1 Z y Z x Z y
3 2
= 0 du dv + (u + v 2 ) du dv + 0 du dv
−∞ −∞ 0 0 2 1 0
Z · ¸y
3 1 2 v3
= u v+ du
2 0 3 0
Z 1 ¶
µ
3 y3 2
= u y+ du
2 0 3
· ¸1
3 u3 y y 3 u y + y3
= + =
2 3 3 0 2

om
En resumen, la función de distribución conjunta viene dada por la siguiente
función 

 0 si x ≤ 0 e y ≤ 0

 x3 y+y3 x

.c

 2 si 0 ≤ x < 1 y 0 ≤ y < 1
F (x, y) = x3 +x
si 0 ≤ x < 1 e y ≥ 1


2
es
 y+y3

 si x ≥ 1 y 0 ≤ y < 1
 2
1 si x ≥ 1 e y ≥ 1
d
(3) La función de densidad marginal de X es
en
pr
.a
w
w
w

Z +∞
fX (x) = f (x, y) dy
−∞
Z 1
3 2
= (x + y 2 ) dy
02
· ¸1
3 2 y3
= x y+
2 3 0
µ ¶
3 2 1
= x +
2 3

Por tanto, ½ ¡ 2 1¢
3
2 x +3 si x ∈ (0, 1)
fX (x) =
0 si x ∈
/ (0, 1)

44
Análogamente, para la función de densidad marginal de Y , tenemos

om
+∞
fY (y) = f (x, y) dx
−∞
Z 1
3 2
= (x + y 2 ) dx

.c
0 2
· ¸1
3 x3 2
es
= +y x
2 3
µ ¶ 0
3 1
= + y2
d
2 3
en

Por tanto, ½ ¡1 ¢
3
2 3 + y2 si y ∈ (0, 1)
fY (y) =
0 si y ∈
/ (0, 1)
pr
.a

Transformaciones de variables aleatorias bidimensionales


w

Sea X = (X1 , X2 ) una variable aleatoria bidimensional sobre el espacio de proba-


bilidades (Ω, A, P ). Sea Y = (Y1 , Y2 ) la variable aleatoria bidimensional definida
w

por
Y1 = g1 (X1 , X2 ) y Y2 = g2 (X1 , X2 )
w

Las funciones g1 , g2 son tales que

{ω ∈ Ω : Y1 (ω) = g1 (X1 (ω), X2 (ω)) ≤ y1 }∩{ω ∈ Ω : Y2 (ω) = g2 (X1 (ω), X2 (ω)) ≤ y2 } ∈ A

En esta situación el problema que se nos plantea es el de encontrar la función


de distribución conjunta de Y a partir de la de X. En el caso de variables
aleatorias bidimensionales discretas la solución a este problema viene dada por
el siguiente teorema.

Teorema 15 Sea X = (X1 , X2 ) una variable aleatoria bidimensional discreta


y Y = (Y1 , Y2 ) una variable aleatoria bidimensional definida por

Y1 = g1 (X1 , X2 )
Y2 = g2 (X1 , X2 )

45
Entonces la función de distribución de Y viene dada por
X
FY (y1 , y2 ) = P (X = x1 , X = x2 )
g1 (x1 ,x2 )≤y1
g2 (x1 ,x2 )≤y2

Demostración: Observamos que Y es una variable aleatoria bidimensional


discreta, ya que
X
P (Y1 = y1 , Y2 = y2 ) = P (X = x1 , X = x2 )
g1 (x1 ,x2 )=y1
g2 (x1 ,x2 )=y2

Por tanto,
FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 )
X

om
= P (X = x1 , X = x2 )
g1 (x1 ,x2 )≤y1
g2 (x1 ,x2 )≤y2

.c
Ejemplo 14 Sean X e Y dos variables aleatorias discretas con la siguiente
es
función de probabilidad conjunta
X\Y 1 2 3
d
1 0.1 0.1 0.2
en

2 0.2 0.3 0.1


Se definen las variables U = X + Y y V = X − Y . Calcular: (1) la función de
probabilidad conjunta de (U, V ); (2) las funciones de probabilidad marginales de
pr

U y V.
Solución: Encontremos en primer lugar los recorridos de las nuevas vari-
.a

ables. Es claro que U puede tomar los valores 2, 3, 4 y 5, mientras que V puede
tomar los valores −2, −1, 0 y 1
w

X\Y 1 2 3 X\Y 1 2 3
U =X +Y : 1 1 3 4 y V =X −Y : 1 0 −1 −2
w

2 3 4 5 2 1 0 −1
w

Para calcular las probabilidades conjuntas, hacemos lo siguiente:


X
P (U = 2, V = −2) = P (X = x, Y = y) = 0
x+y=2
x−y=−2

ya que ½
x+y =2
x − y = −2
si x = 0 e y = 2, pero P (X = 0, Y = 2) = 0 ya que X no toma el valor 0.
Análogamente,
X
P (U = 2, V = 0) = P (X = x, Y = y)
x+y=2
x−y=0
= P (X = 1, Y = 1) = 0.1

46
Y así sucesivamente, para obtener al final

U \V −2 −1 0 1
2 0 0 0.1 0
3 0 0.1 0 0.2
4 0.2 0 0.3 0
5 0 0.1 0 0

(2) De aquí obtenemos las funciones de probabilidad marginales de U y V ,


sumando filas y columnas, respectivamente. Así, tenemos

ui 2 3 4 5 vj −2 −1 0 1
y
pi 0.1 0.3 0.5 0.1 pj 0.2 0.2 0.4 0.2

om
En el caso de las variables aleatorias bidimensionales absolutamente con-
tinuas, hay dos procedimientos. Uno consiste en calcular primero la función de
distribución conjunta de Y a partir de la de X y, después, si FY es diferenciable,

.c
calcular la función de densidad conjunta fY mediante
∂ 2 FY (y1 , y2 )
es
= fY (y1 , y2 )
∂y2 ∂y1
d
La justificación de este procedimiento se encuentra en el teorema siguiente.
en

Teorema 16 Sean X1 , X2 dos variables aleatorias absolutamente continuas con


función de densidad conjunta fX y sean Y1 , Y2 dos variables aleatorias definidas
por Yi = gi (X1 , X2 ) (i = 1, 2). Entonces, la función de distribución conjunta de
pr

Y = (Y1 , Y2 ) es Z Z
FY (y1 , y2 ) = fX (x1 , x2 ) dx1 dx2
.a

D
donde D es el recinto plano de integración definido por gi (x1 , x2 ) ≤ yi (i = 1, 2).
Demostración: Por definición, tenemos
w

FY (y1 , y2 ) = P (Y1 ≤ y1 , Y2 ≤ y2 )
w

= P (g1 (X1 , X2 ) ≤ y1 , g2 (X1 , X2 ) ≤ y2 )


w

= P ((X1 , X2 ) ∈ D)

ya que de la condición

gi (X1 (ω), X2 (ω)) ≤ yi (i = 1, 2)

se deduce (X1 (ω), X2 (ω)) ∈ D. Por tanto,


Z Z
P ((X1 , X2 ) ∈ D) = fX (x1 , x2 ) dx1 dx2
D

y, como consecuencia, tenemos


Z Z
FY (y1 , y2 ) = fX (x1 , x2 ) dx1 dx2
D

que es lo que queríamos demostrar.

47
Ejemplo 15 Dada la siguiente función de densidad conjunta
½
k(x + y) si 0 < x < 1 y 0 < y < 2 − 2x
f (x, y) =
0 en otro caso

(1) Calcular el valor de k. (2) Definimos las variables U, V mediante U = X +Y


y V = X − Y . Calcular P (U > 0.5, V < −0.5).
Solución: (1) Si f es una función de densidad conjunta de una variable
aleatoria bidimensional, entonces
Z +∞ Z +∞
f (x, y) dx dy = 1
−∞ −∞

En nuestro caso, tenemos


Z +∞ Z +∞ Z 0 Z 0 Z 1 µZ 2−2x ¶

om
f (x, y) dx dy = 0 dx dy + k(x + y) dy dx
−∞ −∞ −∞ −∞ 0 0
Z · 1 ¸2−2x
y2
= k xy + dx

.c
0 2 0
Z 1µ ¶
(2 − 2x)2
= k x(2 − 2x) + dx
es
0 2
Z 1
= k (2 − 2x) dx
d
0
= k
en

y, por tanto, k = 1.
(2) El recinto R es la parte de la región D, definida por las desigualdades
pr

x + y > 0.5
x − y < −0.5
.a

en la que no se anula la función de densidad conjunta; la densidad conjunta no


w

se anula en la región limitada por las líneas rojas de la siguiente figura.


w
w

48
Es claro que
P (U > 0.5, V < −0.5) = P (X + Y > 0.5, X − Y < −0.5) = P ((X, Y ) ∈ D)
Además,
Z 0.5 µZ 2−2x ¶
P ((X, Y ) ∈ D) = (x + y) dy dx
0 0.5+x
Z 0.5 · ¸
2 2−2x
y
= xy + dx
0 2 0.5+x
Z 0.5
3 15
= (−3x − x2 + ) dx
0 2 8
· ¸0.5
3 2 1 3 15 1
= − x − x + x =
2 2 8 0

om
2

Otro procedimiento consiste en determinar primero la función de densidad

.c
fY de Y = g(X) a partir de la de X y, después, por integración doble, determinar
la función de distribución. Este procedimiento es más limitado que el anterior
es
porque se han de comprobar previamente que se cumplen las condiciones del
teorema del cambio de variables para integrales dobles. La justificación de este
procedimiento se halla en el siguiente teorema.
d

Teorema 17 Sea X = (X1 , X2 ) una variable aleatoria absolutamente continua


en

con función de densidad conjunta fX y sea Yi = gi (X1 , X2 ) (i = 1, 2), de manera


que g = (g1 , g2 ) sea una aplicación de R2 en sí mismo de clase C 1 e inyectiva
en el conjunto A en que fX no se anula. Entonces, sobre el recorrido g(A) está
pr

definida la transformación inversa g −1 = (g1−1 , g2−1 ) por Xi = gi−1 (Y1 , Y2 ) (i =


1, 2). Supongamos también que g −1 es continua y que su jacobiano Jg−1 no se
anula en g −1 (A). En estas condiciones, Y = (Y1 , Y2 ) es una variable aleatoria
.a

absolutamente continua y
¯ ¯
w

fY (y1 , y2 ) = fX (g −1 (y1 , y2 ), g −1 (y1 , y2 )) · ¯Jg−1 ¯


1 2

Demostración: Tenemos
w

¯ ¯
¯ ∂x1 ∂x1 ¯
¯ ¯
w

∂y1 ∂y2
Jg−1 =¯ ∂x2 ∂x2 ¯
¯ ∂y1 ∂y2 ¯

y las condiciones impuestas son suficientes para poder aplicar el teorema del
cambio de variables para integrales dobles. Entonces
P ((Y1 , Y2 ) ∈ g −1 (A)) = P ((X1 , X2 ) ∈ A)
Z Z
= fX (x1 , x2 ) dx1 dx2
Z ZA
¯ ¯
= fX (g1−1 (y1 , y2 ), g2−1 (y1 , y2 )) · ¯Jg−1 ¯ dy1 dy2
g −1 (A)

de donde se deduce que la función de densidad conjunta de Y viene dada por


¯ ¯
fY (y1 , y2 ) = fX (g1−1 (y1 , y2 ), g2−1 (y1 , y2 )) · ¯Jg−1 ¯

49
Ejemplo 16 La función de densidad conjunta de dos variables aleatorias con
distribución absolutamente continua es
½
2 si 0 < y < x < 1
f (x, y) =
0 en otro caso

Calcular: (1) la función de densidad conjunta de las variables U, V , definidas


por U = X + Y y V = X − Y ; (2) P (U < 1.5, V < 0.75); (3) P (U < 1.5), y (4)
P (V < 0.75).
Solución: Consideremos la siguiente transformación o cambio de variables
¾
x+y =u
x−y =v

La transformación inversa es

om
½
x = 12 (u + v)
y = 12 (u − v)

.c
y su jacobiano es ¯ ¯
¯ 1 1 ¯
J = ¯¯ 2 2 ¯ = −1
¯
1
es
2 − 12 2
luego |J| = 1/2 y, según el teorema 17, la función de densidad conjunta de
d
(U, V ) es
u+v u−v 1
g(u, v) = f ( , )· =1
en

2 2 2
en la imagen del recinto por la transformación. El recinto A, definido en el plano
xy por 0 < y < x < 1, se transforma en el recinto B en el plano uv.
pr
.a
w
w
w

Como consecuencia, tenemos que la función de densidad conjunta de U y V es


½
1 si 0 < v < u y u + v < 2
g(u, v) =
0 en otro caso

(2) La región sombreada de la siguiente figura representa la parte del suceso


[U < 1.5, V < 0.75] en la que la función de densidad conjunta no se anula.

50
Por tanto,

om
Z 0.75 µZ u ¶ Z 1.25 µZ 0.75 ¶
P (U < 1.5, V < 0.75) = 1 dv du + 1 dv
0 0 0.75 0
Z 1.5 µZ ¶

.c
2−u
+ 1 dv dv = 0.812 5
1.25 0
es
(3) Para calcular P (U < 1.5), antes determinaremos la función de densidad
marginal de U .
d
en
pr
.a
w
w

Por definición, si 0 < u < 1, entonces


Z u
w

gU (u) = 1 dv = u
0

y si 1 ≤ u < 2, entonces
Z 2−u
gU (u) = 1 dv = 2 − u
0

Por tanto, 
 u si 0 < u < 1
gU (u) = 2 − u si 1 ≤ u < 2

0 en otro caso
Como consecuencia,
Z 1 Z 1.5
P (U < 1.5) = u du + (2 − u) du = 0.875
0 1

51
(4) Del mismo modo, para calcular P (V < 0.75) necesitamos la función de
densidad marginal de V .

om
Por definición, si 0 < v < 1, entonces
Z 2−v
gV (v) = 1 du = 2 − 2v

.c
v

Por tanto, ½
es
2 − 2v si 0 < v < 1
gV (v) =
0 en otro caso
d
Como consecuencia,
Z
en

0.75
P (V < 0.75) = (2 − 2v) dv = 0.937 5
0
pr

Independencia de variables aleatorias. Distribuciones condi-


.a

cionades
w

Supongamos que A y B son dos subconjuntos arbitrarios de la recta real, en-


tonces decimos que las variables aleatorias absolutamente continuas X e Y sobre
w

el mismo espacio de probabilidades (Ω, A, P ) son independientes si los sucesos


w

[X ∈ A] = {ω ∈ Ω : X(ω) ∈ A}
[Y ∈ B] = {ω ∈ Ω : Y (ω) ∈ B}

son independientes, o dicho de otro modo, si

P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B) (12)

En particular, si tomamos A = (−∞, x] y B = (−∞, y], donde x, y son dos


números reales cualesquiera, entonces

[X ∈ A] = [X ≤ x] y [Y ∈ B] = [Y ≤ y]

y la condición (12) se escribe en la forma siguiente

FX (x, y) = FX (x) · FY (y) (13)

52
en donde FX es la función de distribución conjunta de X = (X, Y ) y FX , FY
son las distribuciones marginales de X e Y respectivamente. Recíprocamente,
si (13) se cumple también se satisface (12). En efecto, si se cumple

FX (x, y) = FX (x) · FY (y)

y las variables son absolutamente continuas, se tiene


Z x Z y Z x Z y
f (u, v) du dv = fX (u) du · fY (v) dv
−∞ −∞ −∞ −∞

y, en consecuencia,
f (x, y) = fX (x) · fY (y)
Ahora bien, sabemos que
Z Z

om
P (X ∈ A) = fX (x) dx y P (Y ∈ B) = fY (y) dy
A B

y, por tanto,

.c
Z Z
P (X ∈ A, Y ∈ B) = f (x, y) dx dy
es
A×B
Z Z
= fX (x) · fY (y) dx dy
Z A×B
d
Z
= fX (x) dx fY (y) dy
en

A B
= P (X ∈ A) · P (Y ∈ B)
pr

El caso que acabamos de estudiar justifica la siguiente definición.

Independencia de variables aleatorias


.a

Definición 1 Dos variables aleatorias X e Y son independientes si su función


w

de distribución conjunta factoriza en producto de funciones de distribución in-


dividuales
w

F (x, y) = FX (x) · FY (y)


w

Observación 7 Como hemos visto, la condición de independencia para dos


variables aleatorias X, Y absolutamente continuas es equivalente a

f (x, y) = fX (x) · fY (y)

y, si son discretas, es inmediato comprobar que la condición es equivalente a

P (X = x, Y = y) = P (X = x) · P (Y = y)

Ejemplo 17 La función de densidad conjunta de dos variables aleatorias X, Y


con distribución absolutamente continua es
½
6x si 0 < x < y < 1
f (x, y) =
0 en otro caso

Calcular: (1) las funciones de densidad marginales, y (2) averiguar si X e Y


son o no independientes.

53
Solución: El recinto de definición viene dado por

A partir de él, determinaremos las funciones de densidad marginales.


(1) Si 0 < x < 1, tenemos

om
.c
d es
en

Z 1
pr

fX (x) = 6x dy = 6x(1 − x)
x
y, por tanto, ½
.a

6x(1 − x) si 0 < x < 1


fX (x) =
0 en otro caso
w

Por otro lado, si 0 < y < 1, tenemos


w
w

Z y
fY (y) = 6x dx = 3y 2
0
y, por tanto, ½
3y 2 si 0 < y < 1
fY (y) =
0 en otro caso

54
(2) Puesto que,

fX (x) · fY (y) = 18xy 2 (1 − x) 6= 6x = f (x, y)

en 0 < x < y < 1, las variables aleatorias X e Y no son independientes.

Ejemplo 18 Consideremos las variables aleatorias discretas consideradas en el


ejercicio 12. Se trata de averiguar si son o no independientes.
Solución: Para que las variables X e Y fueran independientes tendría que
verificarse
P (X = i, Y = j) = P (X = i) · P (Y = j)
para todo i, j = 1, 2, ..., 6. Sin embargo, ésto no sucede, ya que, por ejemplo
1 1 1
P (X = 1, Y = 2) = 6= · = P (X = 1) · P (Y = 2)

om
36 6 12
Por lo tanto, las variables no son independientes.

El siguiente teorema nos dice que las funciones de variables aleatorias inde-

.c
pendientes son independientes. Así, si X e Y son independientes, entonces las
variables g(X) = X 2 y h(Y ) = sin Y también lo son.
es
Teorema 18 Si X e Y son dos variables aleatorias independientes sobre el
d
espacio de probabilidades (Ω, A, P ), entonces las variables aleatorias U = g(X)
y V = h(Y ) son también independientes.
en

Demostración: Por definición, tenemos

FU V (u, v) = P (U ≤ u, V ≤ v)
pr

= P (g(X) ≤ u, h(Y ) ≤ v)
.a

Consideremos los subconjuntos siguientes de la recta real

A = {x ∈ R : g(x) ≤ u}
w

B = {y ∈ R : h(y) ≤ v}
w

Entonces,
[g(X) ≤ u, h(Y ) ≤ v] = [X ∈ A, Y ∈ B]
w

Ahora bien, como X e Y son independientes, deducimos

FU V (u, v) = P (X ∈ A, Y ∈ B)
= P (X ∈ A) · P (Y ∈ B)
= P (g(X) ≤ u) · P (h(Y ) ≤ v)
= P (U ≤ u) · P (V ≤ v)
= FU (u) · FV (v)

55
Distribuciones condicionadas
Sea X una variable aleatoria definida sobre un espacio de probabilidades (Ω, A, P )
y sea B ∈ A con P (B) > 0. Se llama función de distribución condicionada
de la variable X a B, denotada por F ( |B), a la función definida por
P (X ≤ x, B)
F (x|B) = P (X ≤ x|B) =
P (B)
Como la función de distribución condicionada se define en términos de la prob-
abilidad condicionada y sabemos que ésta es una probabilidad sobre (Ω, A) al
igual que P , dicha función posee las mismas propiedades que cualquier función
de distribución de una variable aleatoria sobre (Ω, A, P ) . Por consiguiente, se
cumple:

om
1. 0 ≤ F (x|B) ≤ 1 para todo x ∈ R
2. F ( |B) es monótona no decreciente:

x1 < x2 =⇒ F (x1 |B) ≤ F (x2 |B)

para todo x1 , x2 ∈ R
.c
es
3. F (−∞|B) = 0 y F (+∞|B) = 1
d
4. P (a < X ≤ b|B) = F (b|B) − F (a|B) para todo a, b ∈ R con a ≤ b
en

5. F ( |B) es continua por la derecha en cada punto de R

Por ejemplo, en el caso de que X sea una variable aleatoria absolutamente


pr

continua, la función de densidad condicionada, denotada por f ( |B), se


define mediante Z x
F (x|B) = f (t|B) dt
.a

−∞
Esta función cumple propiedades análogas a las de las funciones de densidad de
w

variables aleatorias absolutamente continuas, es decir,


w

1. Z +∞
f (x|B) dx = 1
w

−∞

2. f (x|B) ≥ 0 para todo x ∈ R


3. Si f ( |B) es continua, entonces

f (x|B) = F 0 (x|B)

4. Z b
P (a < X ≤ b) = f (x) dx
a

En la definición de distribución condicionada, B es un suceso arbitrario


sujeto a la única condición de que P (B) > 0. Consideraremos ahora dos casos
importantes de condicionamiento: Sea X una variable aleatoria absolutamente
continua sobre (Ω, A, P ).

56
Caso 4 Y es una variable aleatoria absolutamente continua sobre el mismo
espacio de probabilidades que X y B = [Y ≤ y], con P (B) > 0

Entonces, por definición, tenemos


P (X ≤ x, Y ≤ y)
F (x|Y ≤ y) =
P (Y ≤ y)
F (x, y)
= (FY (y) > 0)
FY (y)
Si, además, f es continua, entonces obtenemos que la función de densidad condi-
cionada viene dada por
µ ¶
∂ F (x, y)
f (x|Y ≤ y) =
∂x FY (y)

om
1 ∂F (x, y)
=
FY (y) ∂x
Caso 5 Y es una variable aleatoria absolutamente continua sobre el mismo

.c
espacio de probabilidades que X y B = [Y = y] es
En este caso, al ser Y una variable aleatoria absolutamente continua, se
cumple
P (B) = P (Y = y) = 0
d

y no podemos aplicar la definición de función de distribución condicionada. En


en

su lugar, procederemos de la siguiente manera: consideremos el suceso

Bh = [y < Y ≤ y + h]
pr

con h ≥ 0. Es claro que P (Bh ) 6= 0 y


.a

lim Bh = lim+ [y < Y ≤ y + h] = [Y = y] = B


h→0+ h→0
w

De este modo, tenemos


P (X ≤ x, y < Y ≤ y + h)
w

F (x|y < Y ≤ y + h) =
P (y < Y ≤ y + h)
w

P (X ≤ x, Y ≤ y + h) − P (X ≤ x, Y ≤ y)
=
P (y < Y ≤ y + h)
F (x, y + h) − F (x, y)
=
FY (y + h) − FY (y)
de donde, pasando al límite, obtenemos
F (x,y+h)−F (x,y)
h
lim+ F (x|y < Y ≤ y + h) = lim+ FY (y+h)−FY (y)
h→0 h→0
h
1 ∂F (x, y)
=
FY0 (y) ∂y
es decir,
1 ∂F (x, y)
F (x|Y = y) =
FY0 (y) ∂y

57
Si fY es continua y fY (y) > 0, entonces FY0 (y) = fY (y), y, como consecuencia,
obtenemos
1 ∂F (x, y)
F (x|Y = y) = (14)
fY (y) ∂y
Si f ( |Y = y) es también continua, entonces

∂F (x|Y = y)
f (x|Y = y) =
∂x
y, por tanto, derivando (14) respecto a x, obtenemos

1 ∂ 2 F (x, y)
f (x|Y = y) =
fY (y) ∂x∂y
f (x, y)
=

om
fY (y)
ya que si f es continua, entonces

∂ 2 F (x, y)

.c
= f (x, y)
∂y∂x
es
Del mismo modo, se obtiene
f (x, y)
d
f (y|X = x) =
fX (x)
en

En resumen, las funciones de densidad condicionadas son


(
f (x,y)
si fY (y) > 0
pr

f (x|Y = y) = fY (y)
0 en otro caso
.a

y (
f (x,y)
fX (x) si fX (x) > 0
f (y|X = x) =
w

0 en otro caso
Finalmente, si X e Y son independientes, entonces
w

f (x, y) = fX (x) · fY (y)


w

y, como consecuencia, obtenemos que

f (x|Y = y) = fX (x) y f (y|X = x) = fY (y)

es decir, todas las densidades condicionadas coinciden con las marginales.

Observación 8 En el caso discreto, se deducen fórmulas análogas. Así, por


ejemplo, tenemos
p(X = xi , Y = yj )
P (X = xi |Y = yj ) =
p(Y = yj )
siendo X
P (Y = yj ) = P (X = xi , Y = yj ) 6= 0
xi

58
Ejemplo 19 Se considera la siguiente función de probabilidad conjunta de una
variable aleatoria bidimensional discreta (X, Y )
xi \yj 1 2
1 0.1 0.2
2 0.2 0.3
3 0.1 0.1
Calcular: (1) las funciones de probabilidad marginales; (2) las funciones de
probabilidad condicionadas de X a Y ; y (3) las funciones de probabilidad condi-
cionadas de Y a X.
Solución: (1) Las funciones de probabilidad marginales se definen, para X,
como X
P (X = xi ) = P (X = xi , Y = yj )

om
yj

y para Y , como X
P (Y = yj ) = P (X = xi , Y = yj )
xi

.c
Por tanto, tenemos es
xi P (X = xi )
1 P (X = 1, Y = 1) + P (X = 1, Y = 2) = 0.3
2 P (X = 2, Y = 1) + P (X = 2, Y = 2) = 0.5
d
3 P (X = 3, Y = 1) + P (X = 3, Y = 2) = 0.2
en

y
yj P (Y = yj )
pr

1 P (X = 1, Y = 1) + P (X = 2, Y = 1) + P (X = 3, Y = 1) = 0.4
2 P (X = 1, Y = 2) + P (X = 2, Y = 2) + P (X = 3, Y = 2) = 0.6
.a

(2) Las probabilidades condicionadas de X a Y se definen como


P (X = xi , Y = yj )
w

P (X = xi |Y = yj ) =
P (Y = yj )
w

Por tanto, tenemos


w

X|Y = 1 P (X|Y = 1) X|Y = 2 P (X|Y = 2)


1 1/4 1 2/6
y
2 2/4 2 3/6
3 1/4 3 1/6
(3) Las probabilidades condicionadas de Y a X se definen como
P (X = xi , Y = yj )
P (Y = yj |X = xi ) =
P (Y = xi )
Por tanto, tenemos
Y |X = 1 P (Y |X = 1) Y |X = 2 P (Y |X = 2) Y |X = 3 P (Y |X = 3)
1 1/3 y 1 2/5 y 1 1/2
2 2/3 2 3/5 2 1/2

59
Ejemplo 20 Una variable aleatoria bidimensional (X, Y ) tiene una distribu-
ción uniforme en el recinto definido por las rectas y = x, y = −x y x = 1.
Calcular (1) las funciones de densidad marginales; (2) las funciones de densi-
dad condicionadas; y (3) P (Y > 1/4|X = 1/2) y P (X < 3/4|Y = 1/2).
Solución: Si (X, Y ) tiene una función de distribución uniforme quiere decir
que f (x, y) = k sobre el recinto de definición.

om
.c
es
Entonces se ha de cumplir que
Z +∞ Z +∞
d
f (x, y) dx dy = 1
en

−∞ −∞

Por tanto,
Z +∞ Z +∞ Z 1 µZ x ¶
pr

f (x, y) dx dy = k dy dx
−∞ −∞ 0 −x
Z 1
.a

= 2k x dx
0
· ¸1
x2
w

= 2k =k
2 0
w

luego, k = 1.
(1) La función de densidad marginal de X para 0 < x < 1 es
w

60
om
Figure 1:

Z x

.c
es
fX (x) = 1 dy = 2x
−x

Luego,
d
½
2x si 0 < x < 1
fX (x) =
en

0 en otro caso
Por otro lado, la función de densidad marginal de Y para −1 < y < 0 es
pr

Z 1
fY (y) = 1 dx = 1 + y
−y
.a

y para 0 ≤ y < 1, Z 1
w

fY (y) = 1 dx = 1 − y
y
w

Luego, 
 1+y si − 1 < y < 0
w

fY (y) = 1−y si 0 ≤ y < 1



0 en otro caso
(2) La función de densidad condicionada de X a Y se define como

f (x, y)
f (x|y) = (fY (y) 6= 0)
fY (y)
y la de Y a X, como
f (x, y)
f (y|x) = (fX (x) 6= 0)
fX (x)
Por tanto, para −1 < y < 0 tenemos −y < x < 1 y
1
f (x|y) =
1+y

61
y, para 0 ≤ y < 1 tenemos y < x < 1 y
1
f (x|y) =
1−y
Por tanto, la función de densidad condicionada de X a Y viene dada por
 1
 1+y si − y < x < 1
1
f (x|y) = si y ≤ x < 1
 1−y
0 en otro caso

Interpretamos este resultado como sigue: por ejemplo, si Y = −1/2, entonces


observamos que en el recinto de definición la variable X toma valores entre 1/2
y 1. En consecuencia,

om
1
f (x|Y = −1/2) = =2
1 − 1/2

es decir, X|Y = −1/2 tiene una distribución uniforme en el intervalo (1/2, 1).

.c
Del mismo modo, para 0 < x < 1 tenemos −x < y < x y
es
1
f (y|x) =
2x
d
Por ejemplo, si tomamos x = 1/2, se observa que Y toma los valores en
(−1/2, 1/2) y para este campo de valores la función de densidad condicionada
en

de Y a X = 1/2 viene dada por


1
pr

f (y|X = 1/2) = =1
2 · 1/2

es decir, Y |X = 1/2 tiene una distribución uniforme en el intervalo (−1/2, 1/2).


.a

(3) Hemos visto que Y |X = 1/2 tiene distribución uniforme en el intervalo


(−1/2, 1/2) y
w

f (y|X = 1/2) = 1
w

Luego
Z 1/2
1
P (Y > 1/4|X = 1/2) = 1 dy =
w

1/4 4
Análogamente, para Y = 1/2, tenemos que X toma valores en (1/2, 1) y
1
f (x|Y = 1/2) = =2
1 − 1/2
y, por tanto, Z 1
1
P (X < 3/4|Y = 1/2) = 2 dx =
3/4 2

62
Fórmulas de la probabilidad total y de Bayes
Sabemos que las fórmulas de la probabilidad total y de Bayes son consecuencia
inmediata de la definición de probabilidad condicionada. El siguiente teorema
da las fórmulas equivalentes para el caso de distribuciones condicionadas de
variables aleatorias absolutamente continuas.

Teorema 19 Sea X e Y dos variables aleatorias absolutamente continuas sobre


(Ω, A, P ) con densidades fX y fY y con densidades condicionadas f ( |y) y f ( |x),
respectivamente. Entonces, se cumple la fórmula de la probabilidad total
Z +∞
fX (x) = f (x|y) · fY (y) dy
−∞

y la fórmula de Bayes

om
f (x|y) · fY (y)
f (y|x) =
fX (x)
en donde hemos abreviado f (x|Y = y) por f (x|y).

.c
Demostración: Sabemos que

f (x, y) = f (x|y) · fY (y) (15)


es
y Z +∞
d
fX (x) = f (x, y) dy
en

−∞

Como consecuencia, resulta la fórmula de la probabilidad total


Z +∞
pr

fX (x) = f (x|y) · fY (y) dy


−∞
.a

Sabemos que
f (x, y) = f (y|x) · fX (x) (16)
w

Entonces, de (15) y (16), deducimos


w

f (x|y) · fY (y) = f (y|x) · fX (x)


w

y, de aquí se obtiene la fórmula de Bayes para variables aleatorias


f (x|y) · fY (y)
f (y|x) =
fX (x)

Observación 9 1. En el caso discreto, tenemos fórmulas análogas. Así, por


ejemplo, tenemos
X
P (X = xi ) = P (X = xi |Y = yj ) · P (Y = yj )
yj

y
P (X = xi |Y = yj ) · P (Y = yj )
P (Y = yj |X = xi ) =
P (X = xi )

63
2. Estas dos fórmulas pueden generalizarse de la siguiente manera:
Z +∞
P (A) = f (A|x) · fX (x) dx
−∞

y
f (A|x) · fX (x)
f (x|A) =
P (A)
en donde A es un suceso cualquiera, X es una variable aleatoria absolu-
tamente continua con densidad fX y

P (A, x < X ≤ x + h)
f (A|x) = lim+
h→0 P (x < X ≤ x + h)

siempre que el límite exista.

om
Ejemplo 21 El número de productos defectuosos fabricados al día por una em-
presa es una variable aleatoria X con función de densidad de probabilidad

.c
3x
P (X = x) = e−3 (x = 0, 1, 2, ...)
x!
es
Si un día se obtienen x productos defectuosos, el número de minutos que se
tarda en revisarlos y recomponerlos a no defectuosos es una variable aleatoria
d
Y de forma que
en

(x + 1)y
P (Y = y|X = x) = e−x−1 (y = 0, 1, 2, ...)
y!
pr

Se pide: (1) obtener la función de densidad conjunta de (X, Y ); (2) ¿son X e


Y independientes?, y (3) calcular la expresión de la probabilidad de que X se
.a

concrete en 2 defectuosos, supuesto que se tardó 3 minutos en convertirlos en


no defectuosos.
w

Solución: (1) Por la definición de probabilidad condicionada se deduce

P (X = x, Y = y) = P (Y = y|X = x) · P (X = x)
w

3x (x + 1)y
= e−x−4 (x, y = 0, 1, 2, ...)
w

x!y!

(2) Es evidente que X e Y no son independientes, ya que P (Y = y|X = x)


depende de x y, como consecuencia, se tendrá

P (Y = y|X = x) 6= P (Y = y)

(3) Según la fórmula de Bayes, tenemos

P (Y = 3|X = 2) · P (X = 2)
P (X = 2|Y = 3) =
P (Y = 3)

Ahora bien, sabemos por el enunciado que


9 −3
P (X = 2) = e
2

64
y
27 −3
P (Y = 3|X = 2) = e
6
y, además, por la fórmula de la probabilidad total, obtenemos

X
P (Y = 3) = P (Y = 3|X = x) · P (X = x)
X=0

X 3x (x + 1)3
= e−x−4
x=0
x!3!

X
1 3x (x + 1)3
e−x−4
6 x=0 x!

om
Por tanto,
81 −6
4 e 1 1
P (X = 2|Y = 3) = ∞ = ∞
X 3x (x+1)3
2X x−5 (x+1)3
e−x+2 3

.c
1
6 e−x−4 x! x!
x=0 x=0
d es
en
pr
.a
w
w
w

65

También podría gustarte