Teoría Bloque 1

Probabilidad II
Vectores Aleatorios Discretos

Apuntes 1
Raúl Jiménez
Universidad Carlos III de Madrid
2024
Los análisis estadı́sticos comúnmente envuelven varias variables aleatorias. Por ejem-
plo, en el contexto financiero, podemos estar interesados en los precios de diferentes acciones al cierre
del dı́a, no sólo en el precio de una acción. En el contexto de estudios por encuestas, analizamos
las respuestas a las distintas preguntas que se le hacen a un individuo, no sólo a una de ellas. Estas
variables son observadas a partir del mismo experimento aleatorio (los precios del mercado en un
determinado momento, las preferencias de un individuo escogido al azar), lo que significa que están
definidas sobre un mismo espacio muestral. Estamos interesados en el comportamiento conjunto
de varias variables aleatorias definidas sobre un mismo espacio de probabilidad, esto es, distintos
valores observados a partir de un mismo experimento aleatorio. Los métodos estadı́sticos
que estudian este comportamiento conjunto se conocen como métodos multivariados. En este
curso estudiaremos teorı́a estadı́stica elemental que es base para su posterior estudio.
1. Distribuciones conjuntas, marginales y condicionales

Sean X e Y variables aleatorias definidas sobre un mismo espacio de probabilidad. Es
decir, si Ω es el conjunto de todos los posibles resultados de un determinado experimento aleatorio,
para cada ω ∈ Ω observamos X(ω) y Y (ω). Ası́, para cada resultado ω del experimento aleatorio
observamos un vector (X(ω), Y (ω)). A la función (X, Y ) : Ω → R2 se le denomina vector
aleatorio.
También consideraremos el caso con más de dos variables, X1 , X2 , . . . , Xn , n ≥ 3, siempre

todas definidas sobre un mismo espacio de probabilidad. Para simplificar el lenguaje, siempre que
estemos considerando varias variables aleatorias supondremos que todas ellas están
definidas sobre el mismo espacio de probabilidad.
Denotemos por X(Ω) al rango de X, esto es
X(Ω) = {X(ω) : ω ∈ Ω}.
Respetivamente, denotemos por Y (Ω) al rango de Y . Si X y Y son discretas, sus rangos son
numerables. En ese caso, el vector aleatorio (X, Y ) toma valores en un subconjunto nu-
merable de R2 , este es X(Ω) × Y (Ω). Estamos interesados en la probabilidad de que el vector
1
aleatorio (X, Y ) caiga en determinadas regiones (numerables) de R2 . Es decir, si D es un subcon-
junto numerable de R2 , estamos interesados en probabilidades del tipo
P ((X, Y ) ∈ D) = P ({ω : (X(ω), Y (ω) ∈ D}).
La función de probabilidad conjunta de las variables X e Y es la función pX,Y : R2 → [0, 1]
definida por:
pX,Y (x, y) = P (X = x, Y = y)
= P ({ω ∈ Ω : X(ω) = x} ∩ {ω ∈ Ω : Y (ω) = y}).
Si A y B son subconjuntos numerables de R, usando la aditividad de la medida de probabilidad,
P (X ∈ A, Y ∈ B) = P ({ω ∈ Ω : X(ω) ∈ A} ∩ {ω ∈ Ω : Y (ω) ∈ B})
X X
= P (X = x, Y = y)).
x∈A) y∈B
Similar al caso univariado, si x ∈

/ X(Ω) o y ∈
/ Y (Ω) entonces P (X = x, Y = y) = 0, y escribimos
XX X X
P (X = x, Y = y) = P (X = x, Y = y) = 1.
x y x∈X(Ω) y∈Y (Ω)
Las funciones de masa de probabilidad P (X = x) y P (Y = y) las podemos obtener a partir de

la función de probabilidad conjunta marginalizando de manera adecuada. Para ello, note que
Ω = ∪y∈Y (Ω) {ω : Y (ω) = y}.
Usando la aditividad de la medida de probabilidad
P (X = x) = P ({ω : X(ω) = x})
= P ({ω : X(ω) = x} ∩ Ω))
X
= P ({ω : X(ω) = x} ∩ {ω : Y (ω) = y})
y∈Y (Ω)
X
= P (X = x, Y = y).
y
Cambiando X por Y en los cáculos anteriores obtenemos la función de masa de probabilidad de Y

a partir de la conjunta, X
P (Y = y) = P (X = x, Y = y)
x
En este contexto, para diferenciar de la función de probabilidad conjunta, la función de pro-

babilidad P (X = x) es llamada función de probabilidad marginal de X. Respectivamente
P (Y = y) es la marginal de Y .
Ejemplo 1.1. Sea X una variable que toma valores 1, 2, 3, Y una que toma valores 1, 2, 3, 4.
Suponga que la probabilidad de que el par (X, Y ) tome el valor (x, y) viene dada por la entrada
x, y de la siguiente tabla.
1 2 3 4
1 0,10 0,05 0,05 0,00
2 0,15 0,10 0,05 0,00
3 0,20 0,15 0,10 0,05
2
Entonces la marginal de X se obtiene sumando las columnas y la de Y las filas.
Cuando X e Y son discretas y P (Y = y) > 0, la función de probabilidad condicional de X

dado Y = y se define por la probabilidad condicional
P (X = x, Y = y)
P (X = x|Y = y) = .
P (Y = y)
De esta forma, las probabilidades condicionales del tipo P (X ∈ A|Y = y) se calculan usando la
siguiente identidad: X
P (X ∈ A|Y = y) = P (X = x|Y = y)
x∈A
Ejemplo 1.2. Siguiendo con el Ejemplo 1.1,
P (X > 1|Y = 1) = 0, 35 y P (X > 1|Y = 2) = 0,25.
Ejercicio 1.1. Exercise 3.8, Grimett-Welsh.

2. Independencia de variables aleatorias discretas

Recordemos que dos eventos A y B son independientes si
P (A ∩ B) = P (A)P (B).
Hablaremos de independencia de dos variables cuando cualquier par de eventos asociados a ellas
sean independientes. En otras palabras, dos variables discretas X e Y son independientes si, para
cualquier par C y D de subconjuntos numerables de R, se cumple
P (X ∈ C, Y ∈ D) = P (X ∈ C)P (Y ∈ D).
El siguiente teorema es fácil de demostrar, sólo requiere de la aditividad de la medida de

probabilidad.
Teorema 2.1. Sean X e Y variables aletorias discretas. Son independientes si la función de masa
de probabilidad conjunta es el producto de las marginales. Esto es, si para todo x, y ∈ R, se cumple
P (X = x, Y = y) = P (X = x)P (Y = y) para todo x, y ∈ R.
Una consecuencia inmediata del teorema anterior es el siguiente y útil corolario.
Corolario 2.1. Sean X e Y variables aletorias discretas. Son independientes si y solamente si

existen funciones f, g : R → R tal que
P (X = x, Y = y) = f (x)g(y) para todo x, y ∈ R,
aún cuando f y g no sean las marginales de las variables en cuestión.
3
Ejemplo 2.1. Sean X, Y variables aleatorias con función de masa conjunta definida por
1 x y −(λ+µ)
P (X = x, Y = y) = λ µ e x, y = 0, 1, . . .
x!y!
Factorizando tenemos que
λx
y

µ −(λ+µ)
P (X = x, Y = y) = e
x! y!
= f (x)g(y),
con f (x) = λx /x! y g(y) = µy e−(λ+µ) /y!, de manera que X e Y son independientes. Sin embargo,
las funciones f y g no son funciones de masa de probabilidad. De hecho, las marginales de X, Y son
1 k −λ 1
P (X = k) = λ e y P (Y = k) = µk e−µ para k = 0, 1, . . .
k! k!
Es conveniente extender el concepto bivariado al caso multivariado con tres o más variables,
pero primero introduciremos una notación extremadamente práctica y usada a partir de
ahora. Escribimos
{X1 ∈ A1 , . . . , Xn ∈ An } = ∩ni=1 {ω ∈ Ω : Xi (ω) ∈ Ai }
Definición 2.1 (independencia de variables aleatorias). Las variables aleatorias X1 , . . . , Xn

son independientes si para cualquier sucesión de intervalos A1 , . . . , An ⊂ R se cumple
P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ).
Observación: La definición anterior es válida no sólo para variables aleatorias discretas, que por
ahora son nuestro único caso de estudio. La definición es fácil de interpretar pero tiene un punto
técnico, el hecho de que los conjuntos A1 , . . . , An sean intervalos de R. Explicar el detalle de este
requisito requiere de conceptos de teorı́a de la medida, que se escapan del nivel de estas notas.
3. Funciones de vectores aleatorios discretos. Distribuciones mues-

trales
Más que en una simple observación, en estadı́stica estamos interesados en funciones de
varias observaciones. Esto es, en funciones de un vector. El ejemplo más común es la media x̄
de un conjunto de n observaciones x1 , . . . , xn . Para considerar todas las muestras posibles,
modelamos los conjuntos de n observaciones con una sucesión de variables aleatorias, esto
es, con un vector aleatorio (X1 , . . . , Xn ), que denominamos muestra aleatoria. Por ejemplo, si
consideramos un conjunto de n individuos y Xi es 0 o 1 según el individuo i no tiene o sı́ tiene
bono transporte, podemos considerar una muestra aleatoria (X1 , . . . , Xn ), con Xi ∼ Bernoulli.
En este caso, si n = 4, la proporción muestral
X1 + X2 + X3 + X4
X̄ =
4
4
podrı́a tomar los valores 0, 1/4, 1/2, 3/4 o 1. La pregunta que nos interesa es: ¿con qué probabilidad?
No podemos responder la pregunta anterior sin conocer la distribución conjunta de la muestra.

Un caso muy importante es cuando la muestra es una muestra aleatoria simple, que significa
que las variables que la conforman son independientes e igualmente distribuidas, lo cual se abrevia
que son iid. Las muestras aleatorias simples son un ejemplo de los que en teorı́a de muestreo se
conoce por muestras representativas.
En general, dado un conjunto de n variables aleatorias X1 , X2 , . . . , Xn y una función g : Rn → R,

nos interesa calcular la distribución de probabilidad de la variable aleatoria definida por
U = g(X1 , X2 , . . . , Xn ).
Es fácil verificar que si X1 , X2 , . . . , Xn son discretas entonces g(X1 , X2 , . . . , Xn ) también lo es,

por lo que interesa calcular su función de masa de probabilidad. A continuación vemos algunos
ejemplos ilustrativos.
Distribución del mı́nimo. Consideremos el mı́nimo de n variables aleatorias y denotémoslo por

Un . Esto es
Un = mı́n{X1 , X2 , . . . , Xn }.
Es fácil comprobar que
{Un > k} = {X1 > k, X2 > k, . . . , Xn > k}.
Si X1 , X2 , . . . , Xn son independientes se tiene
P (Un > k) = P (X1 > k)P (X2 > k) . . . P (Xn > k). (1)
Si adicionalmente, X1 , X2 , . . . , Xn son iid, esto es, si forman una muestra aleatoria simple,
entonces (1) tiene la forma
P (Un > k) = [P (X1 > k)]n
Cuando las variables sólo toman enteros, la fórmula anterior nos permite obtener la función de
masa de probabilidad del mı́nimo de una muestra aleatoria de tamaño n:
P (Un = k) = P (Un > k − 1) − P (Un > k)

= [P (X1 > k − 1)]n − [P (X1 > k)]n . (2)
Ejemplo 3.1. Sean X1 , X2 , . . . , Xn variables iid geométricas de parámetro p = 1 − q. Escribimos

Xi ∼ Geo(p) para 1 ≤ i ≤ n. Esto es, P (Xi = k) = pq k−1 , para todo entero k ≥ 1. En este caso
∞
X
P (Xi > k) = pq j−1 = q k , para k = 1, 2, 3, . . .
j=k+1
Sustituyendo en (2) se tiene que
P (mı́n{X1 , X2 , . . . , Xn } = k) = [q k−1 ]n − [q k ]n = [q n ]k−1 (1 − q n ).
Es decir, el mı́nimo de variables iid con distribución geométrica de parámetro p es también una
variable geométrica, pero de parámetro 1 − q n = 1 − (1 − p)n .
5
Distribución del máximo. Consideremos ahora el máximo
Vn = máx{X1 , X2 , . . . , Xn }
de n variables aleatorias. Note que
{Vn ≤ k} = {X1 ≤ k, X2 ≤ k, . . . , Xn . ≤ k}
Si las variables son independientes se tiene entonces que
FVn (k) = P (Vn ≤ k) = P (X1 ≤ k)P (X2 ≤ k) . . . P (Xn ≤ k)
y si son iid
FVn (k) = [P (X1 ≤ k)]n .
Ejemplo 3.2. Continuando con el ejemplo en el que X1 , X2 , . . . , Xn son iid, geométricas de paráme-
tro p, la función de distribución del máximo Vn = máx{X1 , X2 , . . . , Xn } es
FVn (k) = [1 − P (X1 > k)]n = (1 − q k )n para k = 1, 2, . . .
y en consecuencia, su función de masa de probabilidad es
P (máx{X1 , X2 , . . . , Xn } = k) = (1 − q k )n − (1 − q k−1 )n .
Suma de variables aleatorias. Consideremos la suma de dos variables aleatorias Z = X + Y .

Claramente, Z toma el valor z cuando X toma el valor x e Y toma el valor z − x. Ası́ que
P (Z = z) = P (∪x {X = x, Y = z − x})
X
= P (X = x, Y = z − x)
x
Fórmula de convolución. Si X, Y son variables independientes entonces

X
P (Z = z) = P (X = x)P (Y = z − x)
x
En el caso particular en que tanto X como Y toman valores enteros no negativos se tiene
z
X
P (X + Y = z) = P (X = x)P (Y = z − x)
x=0
y decimos que la función de masa de probabilidad de X + Y es la convolución de las funciones de

probabilidad de X y Y .
Ejemplo 3.3. Sean X, Y variables aleatorias independientes con distribución de Poisson de paráme-
tros λ y µ respectivamente. Usando la fórmula de convolución
z
X 1 x −λ 1 z−x −µ
P (X + Y = z) = λ e µ e
x! (z − x)!
x=0
1
= (λ + µ)z e−(λ+µ)
z!
6
Es decir, si X ∼ Poisson(λ) e Y ∼ Poisson(µ) son independientes entonces la suma X + Y ∼
Poisson(λ + µ).
Usando de forma iterada la formula de convolución, podemos derivar la distribuciones de sumas

de más de dos variables aleatorias.
4. Valores esperados de funciones de variables aleatorias

El teorema de transferencia para el valor esperado de una funciı́on de una variable aleatoria
puede extenderse al caso multivariado de la siguiente manera:
Teorema 4.1 Si X y Y son variables discretas y g : R2 → R entonces

XX
E[g(X, Y )] = g(x, y)P (X = x, Y = y). (3)
x y
Para verificar la fórmula anterior, basta ver que

X
P (g(X, Y ) = z) = P (X = x, Y = y).
(x,y):g(x,y)=z
De manera que
X
E[g(X, Y )] = zP (g(X, Y ) = z)
z
 
X X
= z P (X = x, Y = y)
z (x,y):g(x,y)=z
 
X X
=  zP (X = x, Y = y)
z (x,y):g(x,y)=z
 
X X
=  g(x, y)P (X = x, Y = y)
z (x,y):g(x,y)=z
XX
= g(x, y)P (X = x, Y = y)
x y
(4)
Usando (3) podemos introducir un importante indicador del grado de dependencia lineal entre
dos variables aleatorias: La covarianza entre las variables X, Y es
Cov(X, Y ) = E[(X − µX )(Y − µY )] siendo µX = E(X) y µY = E(Y ).

Algunos resultados importantes que podemos demostrar de forma sencilla con la fórmula de
tranferencia (3) son:
7
1. Linealidad del valor esperado: Si Z = g(X, Y ) = aX + bY , con a, b ∈ R, entonces
E(Z) = E(aX + bY ) = aE(X) + bE(Y )
Aún más general, para constantes a1 , . . . , an ∈ R,
E[a1 X1 + · · · + an Xn ] = a1 E[X1 ] + · · · + an E[Xn ]
2. Fórmula para la covarianza: Cov(X, Y ) = E(XY ) − E(X)E(Y )

3. Varianza de combinaciones lineales: Para todo a, b ∈ R,
V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y ).
En particular, V ar(aX + b) = a2 V ar(X).

4. Esperanza del producto y varianza de la suma de v.a. independientes: Si X, Y son
independientes entonces
a) E(XY ) = E(X)E(Y )
b) V ar(X + Y ) = V ar(X) + V ar(Y )
Aún más general, Si X1 , . . . , Xn son independientes entonces
a) E(X1 · · · Xn ) = E(X1 ) · · · E(Xn )
b) V ar(X1 + · · · + Xn ) = V ar(X1 ) + · · · + V ar(Xn )
Los resultados discutidos en esta sección son herramientas poderosas de cómputo. Como ejem-
plo, recalculamos el valor esperado y la varianza de la distribución binomial, que sin estas herra-
mientas involocrarı́a tediosos cálculos con números combinatorios:
Sea X ∼ Bin(n, p). Esto es, el número de éxitos de n ensayos Bernoullie independientes con
probabilidad p de éxito. Sea Xi la variable Bernoullie asociada el i-ésimo experimiento. Esto es,
Xi = 1 si el experimento i es un éxito y Xi = 0 en caso contrario. Note que X1 , . . . , Xn son
independientes. Además, es fácil comprobar que E[Xi ] = p y V ar(Xi ) = p(1 − p). Por último,
X = X1 + · · · + Xn , por lo que
1. E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = np
2. V ar(X) = V ar(X1 + · · · + Xn ) = V ar(X1 ) + · · · + V ar(Xn ) = np(1 − p)
En la práctica, las funciones de variables aleatorias que solemos considerarse son estadı́sticos
muestrales. Estos son funciones de una muestra con el objetivo de estimar o inferir caracterı́sticas
de la distribución conjunta de las variables aleatorias que conforman la muestra. Si la muestra es
aleatoria simple, es decir, si las variables que la conforman son iid, pues los estadı́sticos tienen el
objetivo de estimar o inferir caracterı́sticas de la distribución común de las variables aleatorias que
conforman la muestra. Los ejemplos muy usados son la media y la varianza muestral definidas
por
n n
1X 1 X
X̄ = Xi y S 2 = (Xi − X̄)2 .
n n−1
i=1 i=1
Si la variables aleatorias X1 , . . . , Xn son iid, con E(X1 ) = µ y V ar(X1 ) = σ 2 , los resultados

discutidos en esta sección nos permiten probar los siguientes importantı́simos hechos
8
1. E(X̄) = µ
2. V ar(X̄) = σ 2 /n
3. E(S 2 ) = σ 2

Teoría Bloque 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoría Bloque 1

Cargado por

Copyright:

Formatos disponibles

Probabilidad II

Vectores Aleatorios Discretos

1. Distribuciones conjuntas, marginales y condicionales

También consideraremos el caso con más de dos variables, X1 , X2 , . . . , Xn , n ≥ 3, siempre

Denotemos por X(Ω) al rango de X, esto es

X(Ω) = {X(ω) : ω ∈ Ω}.

Similar al caso univariado, si x ∈

Las funciones de masa de probabilidad P (X = x) y P (Y = y) las podemos obtener a partir de

Cambiando X por Y en los cáculos anteriores obtenemos la función de masa de probabilidad de Y

En este contexto, para diferenciar de la función de probabilidad conjunta, la función de pro-

Cuando X e Y son discretas y P (Y = y) > 0, la función de probabilidad condicional de X

Ejemplo 1.2. Siguiendo con el Ejemplo 1.1,

P (X > 1|Y = 1) = 0, 35 y P (X > 1|Y = 2) = 0,25.

Ejercicio 1.1. Exercise 3.8, Grimett-Welsh.

2. Independencia de variables aleatorias discretas

El siguiente teorema es fácil de demostrar, sólo requiere de la aditividad de la medida de

P (X = x, Y = y) = P (X = x)P (Y = y) para todo x, y ∈ R.

Una consecuencia inmediata del teorema anterior es el siguiente y útil corolario.

Corolario 2.1. Sean X e Y variables aletorias discretas. Son independientes si y solamente si

P (X = x, Y = y) = f (x)g(y) para todo x, y ∈ R,

aún cuando f y g no sean las marginales de las variables en cuestión.

{X1 ∈ A1 , . . . , Xn ∈ An } = ∩ni=1 {ω ∈ Ω : Xi (ω) ∈ Ai }

Definición 2.1 (independencia de variables aleatorias). Las variables aleatorias X1 , . . . , Xn

P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ).

Ejercicio 2.1. Exercise 3.23, Grimett-Welsh.

Ejercicio 2.2. Exercise 3.25, Grimett-Welsh.

3. Funciones de vectores aleatorios discretos. Distribuciones mues-

No podemos responder la pregunta anterior sin conocer la distribución conjunta de la muestra.

En general, dado un conjunto de n variables aleatorias X1 , X2 , . . . , Xn y una función g : Rn → R,

Es fácil verificar que si X1 , X2 , . . . , Xn son discretas entonces g(X1 , X2 , . . . , Xn ) también lo es,

Distribución del mı́nimo. Consideremos el mı́nimo de n variables aleatorias y denotémoslo por

{Un > k} = {X1 > k, X2 > k, . . . , Xn > k}.

Si X1 , X2 , . . . , Xn son independientes se tiene

P (Un = k) = P (Un > k − 1) − P (Un > k)

Ejemplo 3.1. Sean X1 , X2 , . . . , Xn variables iid geométricas de parámetro p = 1 − q. Escribimos

Sustituyendo en (2) se tiene que

P (mı́n{X1 , X2 , . . . , Xn } = k) = [q k−1 ]n − [q k ]n = [q n ]k−1 (1 − q n ).

de n variables aleatorias. Note que

Si las variables son independientes se tiene entonces que

FVn (k) = P (Vn ≤ k) = P (X1 ≤ k)P (X2 ≤ k) . . . P (Xn ≤ k)

FVn (k) = [1 − P (X1 > k)]n = (1 − q k )n para k = 1, 2, . . .

y en consecuencia, su función de masa de probabilidad es

Suma de variables aleatorias. Consideremos la suma de dos variables aleatorias Z = X + Y .

Fórmula de convolución. Si X, Y son variables independientes entonces

y decimos que la función de masa de probabilidad de X + Y es la convolución de las funciones de

Ejercicio 3.1. Exercise 3.30, Grimett-Welsh.

Usando de forma iterada la formula de convolución, podemos derivar la distribuciones de sumas

Ejercicio 3.2. Exercise 3.31, Grimett-Welsh.

4. Valores esperados de funciones de variables aleatorias

Teorema 4.1 Si X y Y son variables discretas y g : R2 → R entonces

Para verificar la fórmula anterior, basta ver que

Ejercicio 4.1. Exercise 3.12, Grimett-Welsh.

E(Z) = E(aX + bY ) = aE(X) + bE(Y )

Aún más general, para constantes a1 , . . . , an ∈ R,

E[a1 X1 + · · · + an Xn ] = a1 E[X1 ] + · · · + an E[Xn ]

2. Fórmula para la covarianza: Cov(X, Y ) = E(XY ) − E(X)E(Y )

V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X, Y ).

En particular, V ar(aX + b) = a2 V ar(X).

Si la variables aleatorias X1 , . . . , Xn son iid, con E(X1 ) = µ y V ar(X1 ) = σ 2 , los resultados

También podría gustarte