Está en la página 1de 9

Probabilidad II

Vectores Aleatorios Discretos


Apuntes 1
Raúl Jiménez
Universidad Carlos III de Madrid
2024

Los análisis estadı́sticos comúnmente envuelven varias variables aleatorias. Por ejem-
plo, en el contexto financiero, podemos estar interesados en los precios de diferentes acciones al cierre
del dı́a, no sólo en el precio de una acción. En el contexto de estudios por encuestas, analizamos
las respuestas a las distintas preguntas que se le hacen a un individuo, no sólo a una de ellas. Estas
variables son observadas a partir del mismo experimento aleatorio (los precios del mercado en un
determinado momento, las preferencias de un individuo escogido al azar), lo que significa que están
definidas sobre un mismo espacio muestral. Estamos interesados en el comportamiento conjunto
de varias variables aleatorias definidas sobre un mismo espacio de probabilidad, esto es, distintos
valores observados a partir de un mismo experimento aleatorio. Los métodos estadı́sticos
que estudian este comportamiento conjunto se conocen como métodos multivariados. En este
curso estudiaremos teorı́a estadı́stica elemental que es base para su posterior estudio.

1. Distribuciones conjuntas, marginales y condicionales


Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Es
decir, si Ω es el conjunto de todos los posibles resultados de un determinado experimento aleatorio,
para cada ω ∈ Ω observamos X(ω) y Y (ω). Ası́, para cada resultado ω del experimento aleatorio
observamos un vector (X(ω), Y (ω)). A la función (X, Y ) : Ω → R2 se le denomina vector
aleatorio.

También consideraremos el caso con más de dos variables, X1 , X2 , . . . , Xn , n ≥ 3, siempre


todas definidas sobre un mismo espacio de probabilidad. Para simplificar el lenguaje, siempre que
estemos considerando varias variables aleatorias supondremos que todas ellas están
definidas sobre el mismo espacio de probabilidad.

Denotemos por X(Ω) al rango de X, esto es

X(Ω) = {X(ω) : ω ∈ Ω}.

Respetivamente, denotemos por Y (Ω) al rango de Y . Si X y Y son discretas, sus rangos son
numerables. En ese caso, el vector aleatorio (X, Y ) toma valores en un subconjunto nu-
merable de R2 , este es X(Ω) × Y (Ω). Estamos interesados en la probabilidad de que el vector

1
aleatorio (X, Y ) caiga en determinadas regiones (numerables) de R2 . Es decir, si D es un subcon-
junto numerable de R2 , estamos interesados en probabilidades del tipo
P ((X, Y ) ∈ D) = P ({ω : (X(ω), Y (ω) ∈ D}).
La función de probabilidad conjunta de las variables X e Y es la función pX,Y : R2 → [0, 1]
definida por:

pX,Y (x, y) = P (X = x, Y = y)
= P ({ω ∈ Ω : X(ω) = x} ∩ {ω ∈ Ω : Y (ω) = y}).
Si A y B son subconjuntos numerables de R, usando la aditividad de la medida de probabilidad,
P (X ∈ A, Y ∈ B) = P ({ω ∈ Ω : X(ω) ∈ A} ∩ {ω ∈ Ω : Y (ω) ∈ B})
X X
= P (X = x, Y = y)).
x∈A) y∈B

Similar al caso univariado, si x ∈


/ X(Ω) o y ∈
/ Y (Ω) entonces P (X = x, Y = y) = 0, y escribimos
XX X X
P (X = x, Y = y) = P (X = x, Y = y) = 1.
x y x∈X(Ω) y∈Y (Ω)

Las funciones de masa de probabilidad P (X = x) y P (Y = y) las podemos obtener a partir de


la función de probabilidad conjunta marginalizando de manera adecuada. Para ello, note que
Ω = ∪y∈Y (Ω) {ω : Y (ω) = y}.
Usando la aditividad de la medida de probabilidad
P (X = x) = P ({ω : X(ω) = x})
= P ({ω : X(ω) = x} ∩ Ω))
X
= P ({ω : X(ω) = x} ∩ {ω : Y (ω) = y})
y∈Y (Ω)
X
= P (X = x, Y = y).
y

Cambiando X por Y en los cáculos anteriores obtenemos la función de masa de probabilidad de Y


a partir de la conjunta, X
P (Y = y) = P (X = x, Y = y)
x

En este contexto, para diferenciar de la función de probabilidad conjunta, la función de pro-


babilidad P (X = x) es llamada función de probabilidad marginal de X. Respectivamente
P (Y = y) es la marginal de Y .

Ejemplo 1.1. Sea X una variable que toma valores 1, 2, 3, Y una que toma valores 1, 2, 3, 4.
Suponga que la probabilidad de que el par (X, Y ) tome el valor (x, y) viene dada por la entrada
x, y de la siguiente tabla.
1 2 3 4
1 0,10 0,05 0,05 0,00
2 0,15 0,10 0,05 0,00
3 0,20 0,15 0,10 0,05

2
Entonces la marginal de X se obtiene sumando las columnas y la de Y las filas.

Cuando X e Y son discretas y P (Y = y) > 0, la función de probabilidad condicional de X


dado Y = y se define por la probabilidad condicional

P (X = x, Y = y)
P (X = x|Y = y) = .
P (Y = y)

De esta forma, las probabilidades condicionales del tipo P (X ∈ A|Y = y) se calculan usando la
siguiente identidad: X
P (X ∈ A|Y = y) = P (X = x|Y = y)
x∈A

Ejemplo 1.2. Siguiendo con el Ejemplo 1.1,

P (X > 1|Y = 1) = 0, 35 y P (X > 1|Y = 2) = 0,25.

Ejercicio 1.1. Exercise 3.8, Grimett-Welsh.


Ejercicio 1.2. Exercise 3.9, Grimett-Welsh.

2. Independencia de variables aleatorias discretas


Recordemos que dos eventos A y B son independientes si

P (A ∩ B) = P (A)P (B).

Hablaremos de independencia de dos variables cuando cualquier par de eventos asociados a ellas
sean independientes. En otras palabras, dos variables discretas X e Y son independientes si, para
cualquier par C y D de subconjuntos numerables de R, se cumple

P (X ∈ C, Y ∈ D) = P (X ∈ C)P (Y ∈ D).

El siguiente teorema es fácil de demostrar, sólo requiere de la aditividad de la medida de


probabilidad.

Teorema 2.1. Sean X e Y variables aletorias discretas. Son independientes si la función de masa
de probabilidad conjunta es el producto de las marginales. Esto es, si para todo x, y ∈ R, se cumple

P (X = x, Y = y) = P (X = x)P (Y = y) para todo x, y ∈ R.

Una consecuencia inmediata del teorema anterior es el siguiente y útil corolario.

Corolario 2.1. Sean X e Y variables aletorias discretas. Son independientes si y solamente si


existen funciones f, g : R → R tal que

P (X = x, Y = y) = f (x)g(y) para todo x, y ∈ R,

aún cuando f y g no sean las marginales de las variables en cuestión.

3
Ejemplo 2.1. Sean X, Y variables aleatorias con función de masa conjunta definida por
1 x y −(λ+µ)
P (X = x, Y = y) = λ µ e x, y = 0, 1, . . .
x!y!
Factorizando tenemos que
λx
 y
 
µ −(λ+µ)
P (X = x, Y = y) = e
x! y!
= f (x)g(y),

con f (x) = λx /x! y g(y) = µy e−(λ+µ) /y!, de manera que X e Y son independientes. Sin embargo,
las funciones f y g no son funciones de masa de probabilidad. De hecho, las marginales de X, Y son
1 k −λ 1
P (X = k) = λ e y P (Y = k) = µk e−µ para k = 0, 1, . . .
k! k!
Es conveniente extender el concepto bivariado al caso multivariado con tres o más variables,
pero primero introduciremos una notación extremadamente práctica y usada a partir de
ahora. Escribimos

{X1 ∈ A1 , . . . , Xn ∈ An } = ∩ni=1 {ω ∈ Ω : Xi (ω) ∈ Ai }

Definición 2.1 (independencia de variables aleatorias). Las variables aleatorias X1 , . . . , Xn


son independientes si para cualquier sucesión de intervalos A1 , . . . , An ⊂ R se cumple

P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ).

Observación: La definición anterior es válida no sólo para variables aleatorias discretas, que por
ahora son nuestro único caso de estudio. La definición es fácil de interpretar pero tiene un punto
técnico, el hecho de que los conjuntos A1 , . . . , An sean intervalos de R. Explicar el detalle de este
requisito requiere de conceptos de teorı́a de la medida, que se escapan del nivel de estas notas.

Ejercicio 2.1. Exercise 3.23, Grimett-Welsh.

Ejercicio 2.2. Exercise 3.25, Grimett-Welsh.

3. Funciones de vectores aleatorios discretos. Distribuciones mues-


trales
Más que en una simple observación, en estadı́stica estamos interesados en funciones de
varias observaciones. Esto es, en funciones de un vector. El ejemplo más común es la media x̄
de un conjunto de n observaciones x1 , . . . , xn . Para considerar todas las muestras posibles,
modelamos los conjuntos de n observaciones con una sucesión de variables aleatorias, esto
es, con un vector aleatorio (X1 , . . . , Xn ), que denominamos muestra aleatoria. Por ejemplo, si
consideramos un conjunto de n individuos y Xi es 0 o 1 según el individuo i no tiene o sı́ tiene
bono transporte, podemos considerar una muestra aleatoria (X1 , . . . , Xn ), con Xi ∼ Bernoulli.
En este caso, si n = 4, la proporción muestral
X1 + X2 + X3 + X4
X̄ =
4

4
podrı́a tomar los valores 0, 1/4, 1/2, 3/4 o 1. La pregunta que nos interesa es: ¿con qué probabilidad?

No podemos responder la pregunta anterior sin conocer la distribución conjunta de la muestra.


Un caso muy importante es cuando la muestra es una muestra aleatoria simple, que significa
que las variables que la conforman son independientes e igualmente distribuidas, lo cual se abrevia
que son iid. Las muestras aleatorias simples son un ejemplo de los que en teorı́a de muestreo se
conoce por muestras representativas.

En general, dado un conjunto de n variables aleatorias X1 , X2 , . . . , Xn y una función g : Rn → R,


nos interesa calcular la distribución de probabilidad de la variable aleatoria definida por

U = g(X1 , X2 , . . . , Xn ).

Es fácil verificar que si X1 , X2 , . . . , Xn son discretas entonces g(X1 , X2 , . . . , Xn ) también lo es,


por lo que interesa calcular su función de masa de probabilidad. A continuación vemos algunos
ejemplos ilustrativos.

Distribución del mı́nimo. Consideremos el mı́nimo de n variables aleatorias y denotémoslo por


Un . Esto es
Un = mı́n{X1 , X2 , . . . , Xn }.
Es fácil comprobar que

{Un > k} = {X1 > k, X2 > k, . . . , Xn > k}.

Si X1 , X2 , . . . , Xn son independientes se tiene

P (Un > k) = P (X1 > k)P (X2 > k) . . . P (Xn > k). (1)

Si adicionalmente, X1 , X2 , . . . , Xn son iid, esto es, si forman una muestra aleatoria simple,
entonces (1) tiene la forma
P (Un > k) = [P (X1 > k)]n
Cuando las variables sólo toman enteros, la fórmula anterior nos permite obtener la función de
masa de probabilidad del mı́nimo de una muestra aleatoria de tamaño n:

P (Un = k) = P (Un > k − 1) − P (Un > k)


= [P (X1 > k − 1)]n − [P (X1 > k)]n . (2)

Ejemplo 3.1. Sean X1 , X2 , . . . , Xn variables iid geométricas de parámetro p = 1 − q. Escribimos


Xi ∼ Geo(p) para 1 ≤ i ≤ n. Esto es, P (Xi = k) = pq k−1 , para todo entero k ≥ 1. En este caso

X
P (Xi > k) = pq j−1 = q k , para k = 1, 2, 3, . . .
j=k+1

Sustituyendo en (2) se tiene que

P (mı́n{X1 , X2 , . . . , Xn } = k) = [q k−1 ]n − [q k ]n = [q n ]k−1 (1 − q n ).

Es decir, el mı́nimo de variables iid con distribución geométrica de parámetro p es también una
variable geométrica, pero de parámetro 1 − q n = 1 − (1 − p)n .

5
Distribución del máximo. Consideremos ahora el máximo

Vn = máx{X1 , X2 , . . . , Xn }

de n variables aleatorias. Note que

{Vn ≤ k} = {X1 ≤ k, X2 ≤ k, . . . , Xn . ≤ k}

Si las variables son independientes se tiene entonces que

FVn (k) = P (Vn ≤ k) = P (X1 ≤ k)P (X2 ≤ k) . . . P (Xn ≤ k)

y si son iid
FVn (k) = [P (X1 ≤ k)]n .

Ejemplo 3.2. Continuando con el ejemplo en el que X1 , X2 , . . . , Xn son iid, geométricas de paráme-
tro p, la función de distribución del máximo Vn = máx{X1 , X2 , . . . , Xn } es

FVn (k) = [1 − P (X1 > k)]n = (1 − q k )n para k = 1, 2, . . .

y en consecuencia, su función de masa de probabilidad es

P (máx{X1 , X2 , . . . , Xn } = k) = (1 − q k )n − (1 − q k−1 )n .

Suma de variables aleatorias. Consideremos la suma de dos variables aleatorias Z = X + Y .


Claramente, Z toma el valor z cuando X toma el valor x e Y toma el valor z − x. Ası́ que

P (Z = z) = P (∪x {X = x, Y = z − x})
X
= P (X = x, Y = z − x)
x

Fórmula de convolución. Si X, Y son variables independientes entonces


X
P (Z = z) = P (X = x)P (Y = z − x)
x

En el caso particular en que tanto X como Y toman valores enteros no negativos se tiene
z
X
P (X + Y = z) = P (X = x)P (Y = z − x)
x=0

y decimos que la función de masa de probabilidad de X + Y es la convolución de las funciones de


probabilidad de X y Y .

Ejemplo 3.3. Sean X, Y variables aleatorias independientes con distribución de Poisson de paráme-
tros λ y µ respectivamente. Usando la fórmula de convolución
z   
X 1 x −λ 1 z−x −µ
P (X + Y = z) = λ e µ e
x! (z − x)!
x=0
1
= (λ + µ)z e−(λ+µ)
z!

6
Es decir, si X ∼ Poisson(λ) e Y ∼ Poisson(µ) son independientes entonces la suma X + Y ∼
Poisson(λ + µ).

Ejercicio 3.1. Exercise 3.30, Grimett-Welsh.

Usando de forma iterada la formula de convolución, podemos derivar la distribuciones de sumas


de más de dos variables aleatorias.

Ejercicio 3.2. Exercise 3.31, Grimett-Welsh.

4. Valores esperados de funciones de variables aleatorias


El teorema de transferencia para el valor esperado de una funciı́on de una variable aleatoria
puede extenderse al caso multivariado de la siguiente manera:

Teorema 4.1 Si X y Y son variables discretas y g : R2 → R entonces


XX
E[g(X, Y )] = g(x, y)P (X = x, Y = y). (3)
x y

Para verificar la fórmula anterior, basta ver que


X
P (g(X, Y ) = z) = P (X = x, Y = y).
(x,y):g(x,y)=z

De manera que
X
E[g(X, Y )] = zP (g(X, Y ) = z)
z
 
X X
= z P (X = x, Y = y)
z (x,y):g(x,y)=z
 
X X
=  zP (X = x, Y = y)
z (x,y):g(x,y)=z
 
X X
=  g(x, y)P (X = x, Y = y)
z (x,y):g(x,y)=z
XX
= g(x, y)P (X = x, Y = y)
x y
(4)
Usando (3) podemos introducir un importante indicador del grado de dependencia lineal entre
dos variables aleatorias: La covarianza entre las variables X, Y es
Cov(X, Y ) = E[(X − µX )(Y − µY )] siendo µX = E(X) y µY = E(Y ).

Ejercicio 4.1. Exercise 3.12, Grimett-Welsh.


Algunos resultados importantes que podemos demostrar de forma sencilla con la fórmula de
tranferencia (3) son:

7
1. Linealidad del valor esperado: Si Z = g(X, Y ) = aX + bY , con a, b ∈ R, entonces

E(Z) = E(aX + bY ) = aE(X) + bE(Y )

Aún más general, para constantes a1 , . . . , an ∈ R,

E[a1 X1 + · · · + an Xn ] = a1 E[X1 ] + · · · + an E[Xn ]

2. Fórmula para la covarianza: Cov(X, Y ) = E(XY ) − E(X)E(Y )


3. Varianza de combinaciones lineales: Para todo a, b ∈ R,

V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y ).

En particular, V ar(aX + b) = a2 V ar(X).


4. Esperanza del producto y varianza de la suma de v.a. independientes: Si X, Y son
independientes entonces
a) E(XY ) = E(X)E(Y )
b) V ar(X + Y ) = V ar(X) + V ar(Y )
Aún más general, Si X1 , . . . , Xn son independientes entonces
a) E(X1 · · · Xn ) = E(X1 ) · · · E(Xn )
b) V ar(X1 + · · · + Xn ) = V ar(X1 ) + · · · + V ar(Xn )

Los resultados discutidos en esta sección son herramientas poderosas de cómputo. Como ejem-
plo, recalculamos el valor esperado y la varianza de la distribución binomial, que sin estas herra-
mientas involocrarı́a tediosos cálculos con números combinatorios:

Sea X ∼ Bin(n, p). Esto es, el número de éxitos de n ensayos Bernoullie independientes con
probabilidad p de éxito. Sea Xi la variable Bernoullie asociada el i-ésimo experimiento. Esto es,
Xi = 1 si el experimento i es un éxito y Xi = 0 en caso contrario. Note que X1 , . . . , Xn son
independientes. Además, es fácil comprobar que E[Xi ] = p y V ar(Xi ) = p(1 − p). Por último,
X = X1 + · · · + Xn , por lo que
1. E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = np
2. V ar(X) = V ar(X1 + · · · + Xn ) = V ar(X1 ) + · · · + V ar(Xn ) = np(1 − p)

En la práctica, las funciones de variables aleatorias que solemos considerarse son estadı́sticos
muestrales. Estos son funciones de una muestra con el objetivo de estimar o inferir caracterı́sticas
de la distribución conjunta de las variables aleatorias que conforman la muestra. Si la muestra es
aleatoria simple, es decir, si las variables que la conforman son iid, pues los estadı́sticos tienen el
objetivo de estimar o inferir caracterı́sticas de la distribución común de las variables aleatorias que
conforman la muestra. Los ejemplos muy usados son la media y la varianza muestral definidas
por
n n
1X 1 X
X̄ = Xi y S 2 = (Xi − X̄)2 .
n n−1
i=1 i=1

Si la variables aleatorias X1 , . . . , Xn son iid, con E(X1 ) = µ y V ar(X1 ) = σ 2 , los resultados


discutidos en esta sección nos permiten probar los siguientes importantı́simos hechos

8
1. E(X̄) = µ

2. V ar(X̄) = σ 2 /n

3. E(S 2 ) = σ 2

También podría gustarte