Está en la página 1de 8

Cheatsheet de Probabilidad Orden Sin orden Conjunta, Marginal y Condicional

k
n + k − 1 Probabilidad conjunta P (A ∩ B) o P (A, B) – Probabilidad de A y
Diplomado de Estadı́stica aplicada Con reemplazamiento n B.
Métodos Estadı́stico: Fundamentos y Aplicaciones k
Mg. Leonel Heredia Altamirano n! n Probabilidad marginal (incondicional) P (A) – Probabilidad de A.
Sin reemplazamiento
(n − k)! k La probabilidad condicional P (A|B) = P (A, B)/P (B) – Probabili-
Conteo en probabilidades • Experimentos/Resultados: Un experimento genera un resul-
dad de A, dado que ocurrió B.
tado a partir de una lista predeterminada. Por ejemplo, una Probabilidad Condicional es Probabilidad P (A|B) es una función
tirada de dados genera resultados en el conjunto {1, 2, 3, 4, 5, 6} de probabilidad para cualquier B fijo. Cualquier teorema que se cumpla
Teorı́a de conjuntos para la probabilidad también se cumple para la probabilidad condi-
• Espacio muestral: El espacio muestral, denotado Ω, es el con-
Conjuntos y Subconjuntos - Un conjunto es una colección de obje- junto de resultados posibles. Tenga en cuenta que la probabilidad cional.
tos distintos. A es un subconjunto de B si cada elemento de A también de este evento es 1, ya que siempre ocurrirá algo en el espacio Regla de Bayes - La regla de Bayes une probabilidades marginales,
está incluido en B. muestral. conjuntas y condicionales. Usamos esto como la definición de probabil-
Conjunto vacio - El conjunto vacı́o, denotado ∅, es el conjunto que • Evento: Un evento es un subconjunto del espacio muestral, o idad condicional.
no contiene nada. una colección de posibles resultados de un experimento. Deci- P (A ∩ B) P (B|A)P (A)
mos que el evento ha ocurrido si cualquiera de los resultados del P (A|B) = =
Establecer notación - Tenga en cuenta que A ∪ B, A ∩ B, y Ac son P (B) P (B)
todos conjuntos también. evento ha ocurrido.

Definición básica de probabilidad Probabilidad de una intersección o unión


Unión - A ∪ B (se lee A unión B) significa A o B
Intersecciones vı́a Condicionamiento
Intersección - A ∩ B (se lee A intersección B) significa A y B Si todos los resultados son igualmente probables, la probabilidad de que
ocurra un evento A es: P (A, B) = P (A)P (B|A)
Complemento - Ac (se lee A complemento) ocurre cada vez que A
no ocurre número de resultados favorables a A P (A, B, C) = P (A)P (B|A)P (C|A, B)
P (A) =
número de resultados Uniones vı́a Inclusión-Exclusión
Conjuntos disjuntos - Dos conjuntos son disjuntos si su intersección
es el conjunto vacı́o (por ejemplo, no se superponen). Probabilidad condicional P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Partición - Un conjunto de subconjuntos A1 , A2 , A3 , ...An divide un P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
espacio si son disjuntos y cubren todos los resultados posibles (por ejem- Teorı́a de conjuntos y estadı́stica − P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
plo, su unión es el conjunto completo). Un caso simple de un conjunto
Para comprender la probabilidad, es útil comprender la teorı́a básica + P (A ∩ B ∩ C).
de subconjuntos de partición es A, Ac
de conjuntos. Un evento es un conjunto en el sentido de que es una
Principio de Inclusión-Exclusión - Le ayuda a encontrar las proba- colección de posibles resultados de un experimento (o un subconjunto Ley de Probabilidad Total (LPT)
bilidades de uniones de eventos. del espacio muestral). Con la teorı́a de conjuntos podemos hablar de
cosas como uniones, intersecciones o complementos de eventos. Sean B1 , B2 , B3 , ...Bn una partición del espacio muestral (es decir, son
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) disjuntos y su unión es todo el espacio muestral ).
Independencia P (A) = P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) + · · · + P (A|Bn )P (Bn )
Regla de multiplicación Eventos disjuntos - A y B son disjuntos cuando no pueden ocurrir P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + · · · + P (A ∩ Bn )
C
simultáneamente, o
e
cak Para LPT con acondicionamiento adicional, simplemente agregue
V P (A ∩ B) = 0
C waffle otro evento C
S
k e A∩B=∅
ca
cake
P (A|C) = P (A|B1 , C)P (B1 |C) + · · · + P (A|Bn , C)P (Bn |C)
V
Eventos independientes A y B son independientes si saber si ocurrió P (A|C) = P (A ∩ B1 |C) + P (A ∩ B2 |C) + · · · + P (A ∩ Bn |C)
waffle
wa S A no da información sobre si ocurrió B. Más formalmente, A y B (que
ffle C
V cake tienen una probabilidad distinta de cero) son independientes si y solo si Caso especial de LPT con B y B c como partición:
S se cumple una de las siguientes declaraciones equivalentes: c c
waffl P (A) = P (A|B)P (B) + P (A|B )P (B )
e
P (A ∩ B) = P (A)P (B) c
Digamos que tenemos un experimento compuesto (un experimento P (A) = P (A ∩ B) + P (A ∩ B )
P (A|B) = P (A)
con múltiples componentes). Si el primer componente tiene n1 resulta-
dos posibles, el segundo componente tiene n2 resultados posibles, . . . , y P (B|A) = P (B)
el résimo componente tiene nr resultados posibles, entonces en general Independencia condicional A y B son condicionalmente independi- Regla de Bayes
hay n1 n2 . . . nr posibilidades para todo el experimento. entes dado C si P (A∩B|C) = P (A|C)P (B|C). La independencia condi- Regla de Bayes, y con condicionamiento adicional
cional no implica independencia, y la independencia no implica indepen-
Tabla de muestreo dencia condicional. P (A|B) =
P (B|A)P (A)
P (B)
Uniones, Intersecciones y Complementos P (B|A, C)P (A|C)
Leyes de De Morgan Una identidad útil que puede facilitar el cálculo P (A|B, C) =
P (B|C)
de probabilidades de uniones relacionándolas con intersecciones y vicev-
We can also write
ersa. Resultados análogos se mantienen con más de dos series.
c c c P (A, B, C) P (B, C|A)P (A)
2 8 (A ∪ B) = A ∩ B P (A|B, C) = =
5 c c c
P (B, C) P (B, C)
7
(A ∩ B) = A ∪ B
9 Forma de probabilidades de la regla de Bayes
1 4
3
Complementos - Los siguientes son ciertos.
6 c P (A|B) P (B|A) P (A)
A∪A =Ω =
P (Ac |B) P (B|Ac ) P (Ac )
La tabla de muestreo da el número de muestras posibles de tamaño k c
A∩A =∅
de una población de tamaño n, bajo varias suposiciones sobre cómo se Las posibilidades posteriores de A son la razón de probabilidad multi-
c
recolecta la muestra. P (A) = 1 − P (A ) plicada por las posibilidades anteriores.
Variables aleatorias y sus distribuciones Indicador de Variables Aleatorias
Indicador de Variable aleatoria es una variable aleatoria que toma

1.0
● el valor 1 o 0. Siempre es un indicador de algún evento: si ocurre el
● ●
Probabilidad condicional en Estadı́stica evento, el indicador es 1; de lo contrario, es 0. Son útiles para muchos
problemas relacionados con contar cuántos eventos de algún tipo ocur-

0.8
Ley de Probabilidad Total con B y Bc (caso especial de un conjunto de ● ● ren. Se escribe como:

0.6
partición), y con Condicionamiento Extra
(
1 if A ocurre,

cdf
IA =
c c 0 if A no ocurre.

0.4
P (A) = P (A|B)P (B) + P (A|B )P (B )
● ●
c 2
P (A) = P (A ∩ B) + P (A ∩ B ) Tenga en cuenta que IA = IA , IA IB = IA∩B , y IA∪B = IA +IB −IA IB .

0.2
c c
P (A|C) = P (A|B, C)P (B|C) + P (A|B , C)P (B |C) ● ●
Distribución IA ∼ Bern(p) donde p = P (A).

0.0

c Puente Fundamental La expectativa del indicador para el evento A
P (A|C) = P (A ∩ B|C) + P (A ∩ B |C)
0 1 2 3 4 es la probabilidad del evento A: E(IA ) = P (A).
Ley de Probabilidad Total con una partición x
B0 , B1 , B2 , B3 , . . . , Bn , y aplicada a variables aleatorias X, Y.
Varianza y desviación estándar
La CDF es una función continua creciente a la derecha con 2 2 2
Var(X) = E (X − E(X)) = E(X ) − (E(X))
n
X q
P (A) = P (A|Bi )P (Bi ) FX (x) → 0 como x → −∞ y FX (x) → 1 como x → ∞ SD(X) = Var(X)
i=0

P (Y = y) =
X
P (Y = y|X = k)P (X = k)
Independencia Intuitivamente, dos variables aleatorias son indepen- Variables aleatorias continuas (VAC)
dientes si conocer el valor de una no da información sobre la otra. Los
k
valores variables discretos X y Y son independientes si para todos los
Regla de Bayes y con condicionamiento extra
valores de x y y Definición
P (X = x, Y = y) = P (X = x)P (Y = y) ¿Qué es una variable aleatoria continua? Una variable aleatoria
P (A ∩ B) P (B|A)P (A) continua puede tomar cualquier valor posible dentro de un cierto inter-
P (A|B) = = valo (por ejemplo, [0, 1]), mientras que una variable aleatoria discreta
P (B) P (B) Valor esperado e indicadores solo puede tomar variables en una lista de valores contables (por ejem-
P (A ∩ B|C) P (B|A, C)P (A|C) plo, todos los números enteros o los valores 1, 12 , 41 , 18 , etc.)
P (A|B, C) = =
P (B|C) P (B|C) ¿Las variables aleatorias continuas tienen FMP No. La proba-
Valor esperado y linealidad bilidad de que una variable aleatoria continua tome cualquier valor es-
Valor esperado (media, expectativa o promedio) es un promedio pecı́fico es 0.
FMP, FDA, e Independencia ponderado de los posibles resultados de nuestra variable aleatoria. ¿Cuál es la probabilidad de que un VAC esté en un intervalo?
Matemáticamente, si x1 , x2 , x3 , . . . son todos los distintos valores posi- Tome la diferencia en los valores CDF (o use el PDF como se describe
Función de masa de probabilidad (FMP) Dada la probabilidad
bles que puede tomar X, el valor esperado de X es más adelante).
de que una variable aleatoria discreta tome el valor x.
P
E(X) = xi P (X = xi ) P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a)
pX (x) = P (X = x) i

Para X ∼ N (µ, σ 2 ), esto se convierte


X Y X+Y
3 4 7 b−µ a−µ
   
2 2 4
P (a ≤ X ≤ b) = Φ −Φ
σ σ
6 8 14
1.0

10 23 33 ¿Qué es la función de densidad de probabilidad (PDF)? El


1 –3 –2
0.8

PDF f es el derivado del CDF F .


1 0 1

5 9 14 F (x) = f (x)
0.6

4 1 5
pmf

... ... ...


Un PDF no es negativo y se integra a 1. Por el teorema fundamental
del cálculo, para volver de PDF a CDF podemos integrar:
0.4

1 1 1
n n

n∑ + n∑ = ∑ (xi + yi)
n
xi yi
Z x
● ● n
i=1 i=1 i=1 F (x) = f (t)dt
0.2

−∞
● ● E(X) + E(Y) = E(X + Y)
0.0

0.30

1.0
0 1 2 3 4 Linealidad Para cualquier r.v.s X y Y , y constantes a, b, c,

0.8
0.20
x E(aX + bY + c) = aE(X) + bE(Y ) + c

0.6
CDF
PDF
La FMP satisface

0.4
0.10
La misma distribución implica la misma media Si X y Y tienen

0.2
pX (x) ≥ 0 and
X
pX (x) = 1 la misma distribución, entonces E(X) = E(Y ) y, más generalmente,

0.00

0.0
x −4 −2 0 2 4 −4 −2 0 2 4
E(g(X)) = E(g(Y )) x x

Para encontrar la probabilidad de que un CRV tome un valor en un


Función de distribución acumulativa (CDF) Dada la probabili- Valor esperado condicional se define como expectativa, sólo condi- intervalo, integre la PDF sobre ese intervalo.
dad de que una variable aleatoria sea menor o igual a x. cionada a cualquier evento A. Z b
P F (b) − F (a) = f (x)dx
FX (x) = P (X ≤ x) E(X|A) = xP (X = x|A) a
x
Dos propiedades adicionales de una PDF: debe integrarse a 1 (porque Momentos y MGFs Distribuciones Condicionales
la probabilidad de que una CRV caiga en el intervalo [−∞, ∞] es 1, y
la PDF siempre debe ser no negativa. Condicionamiento y regla de Bayes para v.a discretas
Z ∞
Momentos
f (x)dx f (x) ≥ 0 Los momentos describen la forma de una distribución. Sea X media µ
P (X = x, Y = y) P (X = x|Y = y)P (Y = y)
−∞ y desviación estándar σ, y Z = (X − µ)/σ sea la versión estandarizada P (Y = y|X = x) = =
de X. El késimo momento de X es µk = E(X k ) y el késimo momento P (X = x) P (X = x)
¿Cómo encuentro el valor esperado de una VAC? De manera estandarizado de X es mk = E(Z k ). La media, la varianza, la asimetrı́a
análoga al caso discreto, donde sumas x por el FMP, para VAC integras y la curtosis son resúmenes importantes de la forma de una distribución. Acondicionamiento y regla de Bayes para v.a continuas
x por el PDF. Media E(X) = µ1
Z ∞ fX|Y (x|y)fY (y)
fX,Y (x, y)
E(X) = xf (x)dx Varianza Var(X) = µ2 − µ21 fY |X (y|x) = =
−∞ fX (x) fX (x)
Asimetrı́a Skew(X) = m3
Revisión: el valor esperado es lineal. Esto significa que para cualquiera Curtosis Kurt(X) = m4 − 3
variables aleatorias X y Y y cualquier constante a, b, c, se cumple lo Regla de Bayes hı́brido
siguiente: Funciones generadoras de momentos
E(aX + bY + c) = aE(X) + bE(Y ) + c P (A|X = x)fX (x)
MGF Para cualquier variable aleatoria X, la función fX (x|A) =
tX
P (A)
MX (t) = E(e )
Valor esperado de funciones de VAC es la función generadora de momentos (MGF) de X, si existe para
Valor esperado de una función de una v.a El valor esperado de X todo t en algún intervalo abierto que contenga 0. La variable t bien Distribuciones marginales
se define de esta manera: podrı́a haberse llamado u o v. Es un dispositivo de contabilidad que
nos permite trabajar con la función MX en lugar de la secuencia de
Para encontrar la distribución de una (o más) variables aleatorias de un
momentos.
X
E(X) = xP (X = x) (para X discreta) PMF/PDF conjunto, suma/integra las variables aleatorias no deseadas.
x ¿Por qué se llama Función Generadora de Momento? Porque
la késima derivada de la función generadora de momentos, evaluada en
Z ∞
0, es el késimo momento de X.
E(X) = xf (x)dx (para X continua)
−∞ k
µk = E(X ) = MX (0)
(k) FMP marginal de FMP conjunto
La Ley del Estadı́stico Inconsciente (LOTUS) establece que puedes Esto es cierto por la expansión de Taylor de etX ya que X
encontrar el valor esperado de una función de una variable aleatoria, P (X = x) = P (X = x, Y = y)
∞ ∞
g(X), de manera similar, reemplazando el x delante del PMF/PDF de tX
X E(X k )tk X µk tk y
MX (t) = E(e ) = =
g(x) pero aún trabajando con el PMF/PDF de X: k! k!
k=0 k=0
X PDF marginal de PDF conjunto
E(g(X)) = g(x)P (X = x) (para X discreta) MGF de funciones lineales Si tenemos Y = aX + b, entonces
x t(aX+b) bt (at)X bt Z ∞
MY (t) = E(e ) = e E(e ) = e MX (at)
fX (x) = fX,Y (x, y)dy
Z ∞ Unicidad Si existe, el MGF determina únicamente la distribución. −∞
E(g(X)) = g(x)f (x)dx (para X continua) Esto significa que para dos variables aleatorias X y Y , se distribuyen
−∞
de la misma manera (sus PMF/PDF son iguales) si y solo si sus MGF
W¿Qué es una función de una variable aleatoria? Una función son iguales. Independencia de variables aleatorias
de una variable aleatoria también es una variable aleatoria. Por ejem- Suma de RV independientes multiplicando MGF. Si X y Y son
plo, si X es el número de bicicletas que ve en una hora, entonces independientes, entonces Las variables aleatorias X y Y son independientes si y solo si se cumple
g(X) = 2X es el número de ruedas de bicicleta que ve en esa hora y t(X+Y ) tX tY alguna de las siguientes condiciones:
X(X−1) MX+Y (t) = E(e ) = E(e )E(e ) = MX (t) · MY (t)
h(X) = X

2 = 2 es el número de pares de bicicletas tal que ves
ambas bicicletas en esa hora. El MGF de la suma de dos variables aleatorias es el producto de los
MGF de esas dos variables aleatorias. • El CDF conjunto es el producto de los CDF marginales
¿Cuál es el punto? No necesita saber el PMF/PDF de g(X) para en- • El PMF/PDF conjunto es el producto de los FMP/PDF
contrar su valor esperado. Todo lo que necesita es el PMF/PDF de X. PDF y CDF conjuntos marginales
• La distribución condicional de Y dado X es la distribución
marginal de Y
Universalidad del Uniforme (UoU) Distribuciones conjuntas
Cuando conecta cualquier VAC en su propio CDF, obtiene una variable La FDC conjunta de X y Y es Escribe X ⊥
⊥ Y para indicar que X y Y son independientes.
aleatoria Uniforme (0,1). Cuando conectas un Uniform(0,1) en un CDF F (x, y) = P (X ≤ x, Y ≤ y)
inverso, obtienes una VAC con ese CDF. Por ejemplo, digamos que una
En el caso discreto, X y Y tienen un FMP conjunto
variable aleatoria X tiene CDF LOTUS multivariado
pX,Y (x, y) = P (X = x, Y = y).
−x
F (x) = 1 − e , for x > 0 En el caso continuo, tienen un PDF conjunto LOTUS en más de una dimensión es análogo al LOTUS 1D. Para vari-
∂2 ables aleatorias discretas:
Por UoU, si insertamos X en esta función, obtenemos una variable fX,Y (x, y) = FX,Y (x, y).
aleatoria distribuida uniformemente. ∂x∂y XX
E(g(X, Y )) = g(x, y)P (X = x, Y = y)
−X El FMP/PDF conjunto debe ser no negativo y sumar/integrar a 1.
F (X) = 1 − e ∼ Unif(0, 1) x y

De manera similar, si U ∼ Unif(0, 1) entonces F −1 (U ) tiene CDF F . El Para variables aleatorias continuas:
punto clave es que para cualquier variable aleatoria continua X, pode-
mos transformarla en una variable aleatoria uniforme y viceversa usando
Z ∞ Z ∞
su CDF. E(g(X, Y )) = g(x, y)fX,Y (x, y)dxdy
−∞ −∞
Covarianza y Transformaciones Transformaciones de dos variables De manera similar, supong- Estadı́sticas de orden
amos que conocemos la PDF conjunta de U y V pero también estamos
interesados en el vector aleatorio (X, Y ) definido por (X, Y ) = g(U, V ). Definición Digamos que tienes n i.i.d.∼ v.a X1 , X2 , . . . , Xn . Si los
Covarianza y Correlación Dejar ! ordena de menor a mayor, el elemento ith en esa lista es la estadı́stica
∂u ∂u
Covarianza es el análogo de la varianza de dos variables aleatorias. ∂(u, v) de orden ith, indicada como X(i) . Entonces X(1) es el más pequeño de
= ∂x∂v
∂y
∂v
∂(x, y) ∂x ∂y
la lista y X(n) es el más grande de la lista.
Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y )
sea la matriz jacobiana. Si las entradas en esta matriz existen y son Tenga en cuenta que las estadı́sticas de orden son dependientes,
Tenga en cuenta que continuas, y el determinante de la matriz nunca es 0, entonces por ejemplo, aprender X(4) = 42 nos da la información de que
2 2 X(1) , X(2) , X(3) son ≤ 42 y X(5) , X(6) , . . . , X(n) son ≥ 42.
Cov(X, X) = E(X ) − (E(X)) = Var(X) ∂(u, v)
fX,Y (x, y) = fU,V (u, v) Distribución Tomando n i.i.d. variables aleatorias X1 , X2 , . . . , Xn
Correlación es una versión estandarizada de covarianza que siempre ∂(x, y) con CDF F (x) y PDF f (x), la CDF y PDF de X(i) son:
está entre −1 y 1. n  
Las barras interiores nos dicen que tomemos el determinante de la ma- X n k n−k
Cov(X, Y ) triz, y las barras exteriores nos dicen que tomemos el valor absoluto. En FX(i) (x) = P (X(i) ≤ x) = F (x) (1 − F (x))
Corr(X, Y ) = p k
una matriz de 2 × 2, k=i
Var(X)Var(Y ) n − 1 
i−1 n−i
a b fX(i) (x) = n F (x) (1 − F (x)) f (x)
Covarianza e Independencia Si dos variables aleatorias son inde- = |ad − bc| i−1
c d
pendientes, entonces no están correlacionadas. Lo contrario no es nece- Universalidad de la uniforme Sea X1 , X2 , . . . , Xn i.i.d. CRVs con
sariamente cierto (por ejemplo, considere X ∼ N (0, 1) y Y = X 2 ). CDF F , y sea Uj = F (Xj ). Por UoU, U1 , U2 , . . . , Un son
X ⊥
⊥ Y −→ Cov(X, Y ) = 0 −→ E(XY ) = E(X)E(Y ) Convoluciones i.i.d. Unif(0, 1). Como F es creciente, F (X(1) ) ≤ F (X(2) ) ≤ · · · ≤
F (X(n) ), entonces U(j) = F (X(j) ).
excepto en el caso de Multivariate Normal, donde no correlacionado sı́ Integral de convolución Si desea encontrar el PDF de la suma de dos
CRV independientes X y Y , puede hacer la siguiente integral: Estadı́stica de orden uniformes El estadı́stico de orden jth de
implica independencia. i.i.d.∼ U1 , . . . , Un ∼ Unif(0, 1) es U(j) ∼ Beta(j, n − j + 1).
Z ∞
Covarianza y Varianza La varianza de una suma se puede encontrar
fX+Y (t) = fX (x)fY (t − x)dx
por −∞ Expectativa Condicional
Cov(X, X) = Var(X)
Ejemplo Sea X, Y ∼ N (0, 1) i.i.d. Entonces para cada fijo t, Condicionamiento en un evento Podemos encontrar E(Y |A), el
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y )
Z ∞ valor esperado de Y dado que ocurrió el evento A. Un caso muy impor-
n 1 −x2 /2 1 −(t−x)2 /2
X X fX+Y (t) = √ e √ e dx tante es cuando A es el evento X = x. Tenga en cuenta que E(Y |A) es
Var(X1 + X2 + · · · + Xn ) = Var(Xi ) + 2 Cov(Xi , Xj ) −∞ 2π 2π un número. Por ejemplo:
i=1 i<j
Al completar el cuadrado y usar el hecho de que un PDF normal se • El valor esperado de una tirada justa, dado que es primo, es
Si X y Y son independientes entonces tienen covarianza 0, entonces 1 1 1 10
integra a 1, esto da como resultado que fX+Y (t) sea el PDF de N (0, 2). 3 ·2+ 3 ·3+ 3 ·5 = 3 .

X ⊥
⊥ Y =⇒ Var(X + Y ) = Var(X) + Var(Y ) • Sea Y el número de éxitos en 10 ensayos independientes de
Proceso de Poisson Bernoulli con probabilidad p de éxito. Sea A el evento de que
Si X1 , X2 , . . . , Xn se distribuyen de manera idéntica y tienen las mis- las primeras 3 pruebas sean todas exitosas. Después
mas relaciones de covarianza (a menudo por simetrı́a), entonces
n Definición Tenemos un proceso de Poisson de tasa de λ llegadas por E(Y |A) = 3 + 7p
Var(X1 + X2 + · · · + Xn ) = nVar(X1 ) + 2 Cov(X1 , X2 ) unidad de tiempo si se cumplen las siguientes condiciones:
ya que el número de éxitos entre los últimos 7 intentos es Bin(7, p).
2
1. El número de llegadas en un intervalo de tiempo de longitud t es • Sea T ∼ Expo(1/10) el tiempo que tienes que esperar hasta que
Propiedades de covarianza Para variables aleatorias W, X, Y, Z y Pois(λt). llegue el transbordador. Dado que ya ha esperado t minutos, el
constantes a, b: tiempo de espera adicional esperado es de 10 minutos más, según
2. Los números de llegadas en intervalos de tiempo disjuntos son in-
la propiedad sin memoria. Eso es, E(T |T > t) = t + 10.
Cov(X, Y ) = Cov(Y, X) dependientes.
Cov(X + a, Y + b) = Cov(X, Y )
Por ejemplo, los números de llegadas en los intervalos Y discreta Y continua
Cov(aX, bY ) = abCov(X, Y ) de tiempo [0, 5], (5, 12), y [13, 23) son independientes con P R∞
Cov(W + X, Y + Z) = Cov(W, Y ) + Cov(W, Z) + Cov(X, Y ) Pois(5λ), Pois(7λ), Pois(10λ) distribuciones, respectivamente. E(Y ) = y yP (Y = y) E(Y ) = −∞
yfY (y)dy
R∞
+ Cov(X, Z)
P
E(Y |A) = y yP (Y = y|A) E(Y |A) = yf (y|A)dy
+

+
+

+
+
−∞

La correlación es invariante de ubicación e invariante de escala 0 T1 T2 T3 T4 T5


Condicionamiento en una variable aleatoria También podemos
Para cualquier constante a, b, c, d con a y c distinto de cero, Dualidad de cuenta-tiempo Considere un proceso de Poisson de encontrar E(Y |X), el valor esperado de Y dada la variable aleatoria
Corr(aX + b, cY + d) = Corr(X, Y ) correos electrónicos que llegan a una bandeja de entrada a una tasa X. Esta es una función de la variable aleatoria X. Es no un número
de λ correos electrónicos por hora. Sea Tn la hora de llegada del nésimo excepto en ciertos casos especiales como si X ⊥ ⊥ Y . Para encontrar
correo electrónico (relativo a una hora de inicio 0) y Nt el número de E(Y |X), busque E(Y |X = x) y luego sustituya X por x. Por ejemplo:
Transformaciones correos electrónicos que llegan a [0, t]. Encontremos la distribución de
Transformaciones de una variable Digamos que tenemos una vari- T1 . El evento T1 > t, el evento de que tiene que esperar más de t ho- • Si E(Y |X = x) = x3 + 5x, entonces E(Y |X) = X 3 + 5X.
able aleatoria X con PDF fX (x), pero también nos interesa alguna ras para recibir el primer correo electrónico, es el mismo que el evento • Sea Y el número de éxitos en 10 ensayos independientes de
función de X. Llamamos a esta función Y = g(X). También sea Nt = 0, que es el evento de que no hay correos electrónicos en el primeras Bernoulli con probabilidad p de éxito y X el número de éxitos
y = g(x). Si g es diferenciable y estrictamente creciente (o estricta- t horas. Asi que entre los primeros 3 ensayos. Después E(Y |X) = X + 7p.
mente decreciente), entonces la PDF de Y es −λt −λt • Sean X ∼ N (0, 1) y Y = X 2 . Entonces E(Y |X = x) = x2
P (T1 > t) = P (Nt = 0) = e −→ P (T1 ≤ t) = 1 − e
dx d −1 ya que si sabemos X = x entonces sabemos Y = x2 . Y
−1
fY (y) = fX (x) = fX (g (y)) g (y) Ası́ tenemos T1 ∼ Expo(λ). Por la propiedad sin memoria y un razon- E(X|Y = y) = 0 ya que si sabemos Y = y entonces sabemos
dy dy √
amiento similar, los tiempos entre llegadas entre correos electrónicos son X = ± y, con iguales probabilidades (por simetrı́a). Ası́ que
La derivada de la transformación inversa se llama Jacobiana. i.i.d. Expo(λ), es decir, las diferencias Tn − Tn−1 son i.i.d. ∼ Expo(λ) . E(Y |X) = X 2 , E(X|Y ) = 0.
Propiedades de la expectativa condicional Distribuciones Continuas PDF y CDF El PDF y CDF de un Exponencial es:

1. E(Y |X) = E(Y ) if X ⊥


⊥Y f (x) = λe
−λx
, x ∈ [0, ∞)
2. E(h(X)W |X) = h(X)E(W |X) (quitando lo que se sabe)
Distribución uniforme
In particular, E(h(X)|X) = h(X). Digamos que U se distribuye Unif(a, b). Sabemos lo siguiente: −λx
F (x) = P (X ≤ x) = 1 − e , x ∈ [0, ∞)
3. E(E(Y |X)) = E(Y ) (Ley de Adams, Ley de Expectativa Total) Propiedades de la Uniforme Para una distribución Uniforme, la
probabilidad de un sorteo de cualquier intervalo dentro del soporte es Falta de memoria La distribución exponencial es la única dis-
proporcional a la longitud del intervalo. Vea Universalidad de uniforme tribución continua sin memoria. La propiedad sin memoria dice que
Ley de Adams (Ley de Expectativa Total) también se puede es-
y Estadı́sticas de pedidos para otras propiedades. para X ∼ Expo(λ) y cualquier número positivo s y t,
cribir de forma análoga a LOTP. Para cualquier evento A1 , A2 , . . . , An
que particione el espacio muestral,
Ejemplo William lanza dardos muy mal, por lo que sus dardos son P (X > s + t|X > s) = P (X > t)
E(Y ) = E(Y |A1 )P (A1 ) + · · · + E(Y |An )P (An ) uniformes en toda la habitación porque es igualmente probable que
aparezcan en cualquier lugar. Los dardos de William tienen una dis- Equivalentemente,
Para el caso especial donde la partición es AN, Ac , esto dice tribución Uniforme en la superficie de la habitación. La Uniforme es la
única distribución donde la probabilidad de acertar en cualquier región X − a|(X > a) ∼ Expo(λ)
c c especı́fica es proporcional a la longitud/área/volumen de esa región, y
E(Y ) = E(Y |A)P (A) + E(Y |A )P (A )
donde la densidad de ocurrencia en cualquier punto especı́fico es con- Por ejemplo, un producto con una vida útil de Expo(λ) es siempre ”tan
Ley de Eve (Ley de Varianza Total) stante en todo el soporte. bueno como nuevo” (no sufre desgaste). Dado que el producto ha sobre-
PDF y CDF de Unif(0, 1) y Unif(a, b)) vivido a años, el tiempo adicional que va a durar sigue siendo Expo(λ).
Var(Y ) = E(Var(Y |X)) + Var(E(Y |X))
 Ejemplo: si la espera del autobús se distribuye exponencialmente con
  0 x<0 λ = 6, no importa cuánto haya esperado hasta ahora, el tiempo de es-
1 x ∈ [0, 1]
Unif(0, 1)f (x) = F (x) = x x ∈ [0, 1] pera adicional esperado hasta que llegue el autobús siempre es 61 , o
MVN, LLN, CLT 0 x∈/ [0, 1]  1 x>1 10 minutos. La distribución del tiempo desde ahora hasta la llegada es

 0 x<a siempre la misma, sin importar cuánto hayas esperado.
1

x ∈ [a, b] x−a
Ley de los Grandes Números (LLN) Unif(a, b)f (x) = b−a
0 x∈/ [a, b]
F (x) = b−a x ∈ [a, b]
Min de Expos Si tenemos Xi ∼ Expo(λi ) independientes, entonces
1 x>b

Sea X1 , X2 , X3 . . . i.i.d. ∼ con media µ. La media muestral es min(X1 , . . . , Xk ) ∼ Expo(λ1 + λ2 + · · · + λk ).

X1 + X2 + X3 + · · · + Xn Distribución normal Max de Expos Si tenemos i.i.d.∼ Xi ∼ Expo(λ), entonces


X̄n = max(X1 , . . . , Xk ) tiene la misma distribución que Y1 + Y2 + · · · + Yk ,
n 2 donde Yj ∼ Expo(jλ) y Yj son independientes.
Digamos que X se distribuye N (µ, σ ). Sabemos lo siguiente:
La Ley de los Grandes Números establece que como n → ∞, Teorema del lı́mite central La distribución Normal es omnipresente
X̄n → µ con probabilidad 1. Por ejemplo, en lanzamientos de una mon-
eda con probabilidad p de cara, sea Xj el indicador de que el jésimo
debido al Teorema del Lı́mite Central, que establece que la media mues- Distribución gamma
tral de i.i.d.∼ v.a se acercará a una distribución Normal a medida que
lanzamiento sea cara. Entonces LLN dice que la proporción de Caras crece el tamaño de la muestra, independientemente de la distribución Gamma(3, 1) Gamma(3, 0.5)
converge a p (con probabilidad 1). inicial.
Transformación de escala de ubicación Cada vez que cambiamos

0.10
Teorema del lı́mite central (CLT)

0.2
una r.v. normal (agregando una constante) o cambiamos la escala de

PDF

PDF
una normal (multiplicándola por una constante), la cambiamos a otra

0.05
0.1
Aproximación usando CLT
r.v. normal. Para cualquier Normal X ∼ N (µ, σ 2 ), podemos transfor-
marlo en el estándar N (0, 1) mediante la siguiente transformación:

0.00
0.0
Usamos ∼ ˙ para denotar está aproximadamente distribuido. Podemos 0 5 10 15 20 0 5 10 15 20
usar el Teorema del Lı́mite Central para aproximar la distribución x x
X−µ
de una variable aleatoria Y = X1 + X2 + · · · + Xn que es una suma de Z= ∼ N (0, 1) Gamma(10, 1) Gamma(5, 0.5)
2 σ

0.10
n i.i.d. variables aleatorias Xi . Sean E(Y ) = µY y Var(Y ) = σY . dice
la CLT

0.10
2 Ejemplo Las alturas son normales. El error de medición es normal.
Y ∼˙ N (µY , σY )

0.05
Por el teorema del lı́mite central, el promedio de muestreo de una

PDF

PDF
0.05
2
Si los Xi son i.i.d. con media µX y varianza σX ,
entonces µY = nµX y población también es normal.
2 2
σY = nσX . Para la media muestral X̄n , la CLT dice Normal estándar La normal estándar, Z ∼ N (0, 1), tiene media 0 y

0.00

0.00
varianza 1. Su CDF se denota por Φ. 0 5 10 15 20 0 5 10 15 20

1 2
x x

X̄n = (X1 + X2 + · · · + Xn ) ∼
˙ N (µX , σX /n) Digamos que X se distribuye Gamma(a, λ). Sabemos lo siguiente:
n Distribución exponencial
Distribuciones asintóticas usando CLT Digamos que X se distribuye Expo(λ). Sabemos lo siguiente:
Historia Estás sentado esperando estrellas fugaces, donde el tiempo
Argumento Estás sentado en un prado abierto justo antes del de espera de una estrella se distribuye Expo(λ). Quieres ver n estrellas
D
Usamos −→ para denotar converge en distribución a como n → ∞. amanecer, deseando que los aviones en el cielo nocturno fueran estrellas fugaces antes de irte a casa. El tiempo de espera total para la nésima
El CLT dice que si estandarizamos la suma X1 + · · · + Xn entonces la fugaces, porque realmente te vendrı́a bien un deseo en este momento. estrella fugaz es Gamma(n, λ).
distribución de la suma converge a N (0, 1) como n → ∞: Usted sabe que las estrellas fugaces vienen en promedio cada 15 min-
utos, pero una estrella fugaz no ”debe” venir solo porque ha esperado Ejemplo Estás en un banco y hay 3 personas delante de ti. El tiempo
1 D tanto tiempo. Su tiempo de espera no tiene memoria; el tiempo adi- de servicio para cada persona es exponencial con una media de 2 min-
√ (X1 + · · · + Xn − nµX ) −→ N (0, 1)
σ n cional hasta que llegue la próxima estrella fugaz no depende de cuánto utos. Solo se puede atender a una persona a la vez. La distribución de
tiempo hayas esperado ya. tu tiempo de espera hasta que te toca ser atendido es Gamma(3, 12 ).
En otras palabras, la CDF del lado izquierdo va a la CDF normal
estándar, Φ. En términos de la media muestral, la CLT dice Ejemplo El tiempo de espera hasta la próxima estrella fugaz se dis- PDF El PDF de una Gamma es:
tribuye en Expo(4) horas. Aquı́ λ = 4 es el parámetro de tasa, ya que
√ las estrellas fugaces llegan a una tasa de 1 por 1/4 hora en promedio.
n(X̄n − µX ) D 1 a −λx 1
−→ N (0, 1) El tiempo esperado hasta la próxima estrella fugaz es 1/λ = 1/4 hora. f (x) = (λx) e , x ∈ [0, ∞)
σX Γ(a) x
Distribución Beta Distribuciones discretas Distribución Geométrica
Beta(0.5, 0.5) Beta(2, 1)
Digamos que X se distribuye Geom(p). Sabemos lo siguiente:
Distribuciones para cuatro esquemas de muestreo

2.0
5
Historia X es el número de “fracasos” que lograremos antes de lograr
4

1.5
Reemplazar Sin reemplazar nuestro primer éxito. Nuestros éxitos tienen probabilidad p.
3
PDF

PDF
1.0
# Ensayos fijos (n) Binomial HGeom 1
2

Ejemplo Si cada pokebola que lanzamos tiene probabilidad 10 de atra-

0.5
(Bern if n = 1)
1

1
par a Mew, el número de pokebolas fallidas se distribuirá Geom( 10 ).
Hasta el éxito de r NBin NHGeom

0.0
0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x (Geom if r = 1) PMF Con q = 1 − p, la función de masa de probabilidad de una
Beta(2, 8) Beta(5, 5) Geométrica es:
k

2.5
Distribución de Bernoulli P (X = k) = q p
3

2.0
La distribución de Bernoulli es el caso más simple de la distribución
1.5 Distribución del primer éxito
2
PDF

PDF

Binomial, donde solo tenemos un ensayo (n = 1). Digamos que X se


1.0

distribuye Bern(p). Sabemos lo siguiente: Equivalente a la distribución geométrica, excepto que incluye el primer
1

0.5

Historia Se realiza una prueba con probabilidad p de ”éxito”, y X es éxito en el conteo. Esto es 1 más que el número de fallas. Si X ∼ FS(p)
0.0
0

0.0 0.2 0.4


x
0.6 0.8 1.0 0.0 0.2 0.4
x
0.6 0.8 1.0
el indicador de éxito: 1 significa éxito, 0 significa fracaso. entonces E(X) = 1/p.
Ejemplo Sea X el indicador de Cara para un lanzamiento de moneda
justo. Entonces X ∼ Bern( 21 ). Además, 1 − X ∼ Bern( 12 ) es el indi- Distribución Binomial Negativa
Previa conjugada de la binomial En el enfoque bayesiano de las es- cador de Tails.
tadı́sticas, los parámetros se consideran variables aleatorias para refle- Digamos que X se distribuye NBin(r, p). Sabemos lo siguiente:
jar nuestra incertidumbre. El prior de un parámetro es su distribución PMF. La función de masa de probabilidad de un Bernoulli es:
antes de observar los datos. El posterior es la distribución del parámetro x 1−x Historia X es el número de “fracasos” que tendremos antes de lograr
P (X = x) = p (1 − p)
después de observar los datos. Beta es el conjugado anterior del Bi- nuestro résimo éxito. Nuestros éxitos tienen probabilidad p.
nomial porque si tiene un anterior con distribución Beta en p en un o simplemente
Ejemplo Thundershock tiene un 60% de precisión y puede debilitar a
(
Binomial, entonces la distribución posterior en p dados los datos del Bi- p, x=1
P (X = x) = un Raticate salvaje en 3 golpes. El número de fallos antes de que Pikachu
nomial también tiene distribución Beta. Considere el siguiente modelo 1 − p, x=0 se desmaye Raticate con Thundershock se distribuye NBin(3, 0.6).
de dos niveles:
X|p ∼ Bin(n, p)
Distribución binomial PMF Con q = 1 − p, la función de masa de probabilidad de un Bino-
mial Negativo es:
p ∼ Beta(a, b) Bin(10,1/2)
n + r − 1

0.30
r n
Entonces después de observar X = x, obtenemos la distribución poste- P (X = n) = p q
r−1

0.25
rior ●

p|(X = x) ∼ Beta(a + x, b + n − x)

0.20
● ●

Distribución Hipergeométrica

0.15
pmf
Relación beta-gamma Si X ∼ Gamma(a, λ), Y ∼ Gamma(b, λ), con
● ●
X e Y independiente entonces

0.10
Digamos que X se distribuye HGeom(w, b, n). Sabemos lo siguiente:

0.05
• X
X+Y ∼ Beta(a, b) ● ●

Historia En una población de w objetos deseados y b objetos no de-


0.00
● ●
● ●

• X+Y ⊥
⊥ X
X+Y
0 2 4 6 8 10 seados, X es el número de “éxitos” que tendremos en un sorteo de n
x objetos, sin reemplazo. El sorteo de Se supone que los objetos n son
Esto se conoce como resultado banco–oficina postal. Digamos que X se distribuye Bin(n, p). Sabemos lo siguiente: una muestra aleatoria simple (todos los conjuntos de objetos n son
igualmente probables).
a a Historia X es el número de “éxitos” que lograremos en n ensayos in-
, V ar(X) = 2
E(X) = dependientes, donde cada ensayo es un éxito o un fracaso, cada uno con Ejemplos Aquı́ hay algunos ejemplos de HGeom.
λ λ la misma probabilidad p de éxito. también puede escribir X como una
X ∼ G(a, λ), Y ∼ G(b, λ), X ⊥ ⊥ Y → X + Y ∼ G(a + b, λ) suma de múltiples variables aleatorias Bern(p) independientes. Sean • Digamos que solo tenemos b Weedles (fracaso) y w Pikachus
X X ∼ Bin(n, p) y Xj ∼ Bern(p), donde todas los Bernoulli son indepen- (éxito) en el Bosque Verde. Nos encontramos con n Pokémon
⊥⊥X+Y
X+Y dientes. Entonces en el bosque, y X es el número de Pikachus en nuestros encuen-
X ∼ Gamma(a, λ) → X = X1 + X2 + ... + Xa for Xi i.i.d. Expo(λ) X = X1 + X2 + X3 + · · · + Xn tros.
Gamma(1, λ) ∼ Expo(λ) Ejemplo Si Jeremy Lin encesta 10 tiros libres y cada uno de ellos tiene • El número de ases en una mano de 5 cartas.
una probabilidad de 34 de entrar, entonces el número de tiros libres que
χ2 (Chi-Cuadrado) Distribución encesta se distribuye Bin(10, 43 ).
• Tienes w bolas blancas y b bolas negras, y sacas n bolas. Dibu-
jarás X bolas blancas.
Digamos que X se distribuye χ2n . Sabemos lo siguiente: PMF La función de masa de probabilidad de un Binomial es:
Historia Un Chi-Cuadrado (n) es la suma de los cuadrados de n n • Tienes w bolas blancas y b bolas negras, y sacas n bolas
x n−x
estándar independiente Normal r.v.s. P (X = x) = p (1 − p) sin reemplazo. El número de bolas blancas en su muestra es
x HGeom(w, b, n); el número de bolas negras es HGeom(b, w, n).
Ejemplo La suma de errores al cuadrado se distribuye χ2n Propiedades Sea X ∼ Bin(n, p), Y ∼ Bin(m, p) con X ⊥
⊥ Y.
• Capturar-recapturar Un bosque tiene N alces, usted captura
PDF El PDF de un χ21 es: • Redefinir éxito n − X ∼ Bin(n, 1 − p) n de ellos, los etiqueta y los libera. Luego vuelve a capturar una
1 −w/2 • Suma X + Y ∼ Bin(n + m, p) nueva muestra de tamaño m. ¿Cuántos alces marcados hay ahora
f (w) = √ e , w ∈ [0, ∞) en la nueva muestra? HGeom(n, N − n, m)
2πw • Condicional X|(X + Y = r) ∼ HGeom(n, m, r)
Propiedades y representaciones • Relación Binomial-Poisson Bin(n, p) es aproximadamente PMF La función de masa de probabilidad de una Hipergeométrica:
2 2 2
Pois(np) si p es pequeño.
X se distribuye comoZ1 + Z2 + · · · + Zn para i.i.d. ∼ Zi ∼ N (0, 1) w b 
• Relación normal-binomial Bin(n, p) es aproximadamente k n−k
P (X = k) =
X ∼ Gamma(n/2, 1/2) N (np, np(1 − p)) si n es grande y p no está cerca de 0 o 1. w+b
n
Distribución de Poisson Distribución normal multivariante (MVN) Fórmulas
Digamos que X se distribuye Pois(λ). Sabemos lo siguiente: Un vector X ⃗ = (X1 , X2 , . . . , Xk ) es normal multivariado si cada combi-
Historia Hay eventos raros (eventos de baja probabilidad) que ocur- nación lineal se distribuye normalmente, es decir, t1 X1 + t2 X2 + · · · + Serie geométrica
ren de muchas maneras diferentes (altas posibilidades de ocurrencias) a tk Xk es normal para cualquier constante t1 , t2 , . . . , tk . Los parámetros
n−1
una tasa promedio de λ ocurrencias por unidad de espacio o tiempo. El de la Normal Multivariante son el vector medio µ ⃗ = (µ1 , µ2 , . . . , µk ) 2 n−1
X k 1 − rn
y la matriz de covarianza donde (i, j) la entrada es Cov(Xi , Xj ). 1 + r + r + ··· + r = r =
número de eventos que ocurren en esa unidad de espacio o tiempo es X. k=0
1−r
Ejemplo Cierta intersección concurrida tiene un promedio de 2 acci- Propiedades La Normal Multivariante tiene las siguientes 2 1
dentes por mes. Dado que un accidente es un evento de baja proba- propiedades. 1 + r + r + ··· = if |r| < 1
1−r
bilidad que puede ocurrir de muchas maneras diferentes, es razonable
• Cualquier subvector también es MVN.
modelar la cantidad de accidentes en un mes en esa intersección como Función exponencial (ex )
Pois(2). Entonces el número de accidentes que ocurren en dos meses en • Si dos elementos dentro de un MVN no están correlacionados, en- ∞
xn x2 x3 x n
 
esa intersección se distribuye Pois(4). tonces son independientes. x
X
e = =1+x+ + + · · · = lim 1+
n! 2! 3! n→∞ n
Propiedades Sea X ∼ Pois(λ1 ) e Y ∼ Pois(λ2 ), con X ⊥
⊥ Y. • La PDF conjunta de una Normal Bivariada (X, Y ) con N (0, 1) n=0
distribuciones marginales y correlación ρ ∈ (−1, 1) es
1. Suma X + Y ∼ Pois(λ1 + λ2 )  
Integrales gamma y beta
1 1 2 2 A veces puede resolver integrales que parecen complicadas haciendo co-
fX,Y (x, y) = exp − 2 (x + y − 2ρxy) ,
 
λ1
2. Condicional X|(X + Y = n) ∼ Bin n, λ1 +λ2 2πτ 2τ incidir patrones con una integral gamma o beta:
3. Chicken-egg Si hay Z ∼ Pois(λ) elementos y ”aceptamos” Z ∞
p Z 1
con τ = 1 − ρ2 . t−1 −x a−1 b−1 Γ(a)Γ(b)
aleatoria e independientemente cada elemento con probabilidad p, x e dx = Γ(t) x (1 − x) dx =
0 0 Γ(a + b)
entonces el número de elementos aceptados Z1 ∼ Pois(λp) , y el
número de artı́culos rechazados Z2 ∼ Pois(λ(1 − p)), y Z1 ⊥
⊥ Z2 . Propiedades de distribución También, Γ(a + 1) = aΓ(a), and Γ(n) = (n − 1)! if n es un entero posi-
tivo.
PMF La PMF de una Poisson es
CDF importantes Aproximación de Euler para sumas armónicas
e−λ λk Normal estándar Φ
P (X = k) = 1 1 1
k! 1+ + + ··· + ≈ log n + 0.577 . . .
Exponencial(λ) F (x) = 1 − e−λx , for x ∈ (0, ∞) 2 3 n
Distribuciones multivariadas Uniforme(0,1) F (x) = x, for x ∈ (0, 1)
Aproximación de Stirling para factoriales

 n
Convoluciones de variables aleatorias n! ≈ 2πn
n
Distribución multinomial Una convolución de n variables aleatorias es simplemente su suma. Para e

Digamos que el vector X ⃗ = (X1 , X2 , X3 , . . . , Xk ) ∼ Multk (n, p


⃗) donde los siguientes resultados, sean X y Y independientes.
p
⃗ = (p1 , p2 , . . . , pk ). 1. X ∼ Pois(λ1 ), Y ∼ Pois(λ2 ) −→ X + Y ∼ Pois(λ1 + λ2 )
Historia Tenemos n elementos, que pueden caer en cualquiera de los k 2. X ∼ Bin(n1 , p), Y ∼ Bin(n2 , p) −→ X + Y ∼ Bin(n1 + n2 , p).
cubos independientemente con las probabilidades p
⃗ = (p1 , p2 , . . . , pk ). Bin(n, p) se puede considerar como una suma de i.i.d. ∼ Bern(p)
v.a.
Ejemplo Supongamos que cada año, 100 estudiantes en el universo
de Harry Potter son clasificados aleatoria e independientemente en 3. X ∼ Gamma(a1 , λ), Y ∼ Gamma(a2 , λ) −→ X + Y ∼
una de cuatro casas con igual probabilidad. El número de personas Gamma(a1 + a2 , λ). Gamma(n, λ) con n un número entero se
en cada una de las casas se distribuye Mult4 (100, p ⃗), where p⃗ = puede considerar como una suma de i.i.d..∼ Expo(λ) v.a.
(0.25, 0.25, 0.25, 0.25). Note that X1 + X2 + · · · + X4 = 100, and they
are dependent. 4. X ∼ NBin(r1 , p), Y ∼ NBin(r2 , p) −→ X + Y ∼ NBin(r1 +
r2 , p). NBin(r, p) se puede considerar como una suma de i.i.d..∼
FMP conjunto Para n = n1 + n2 + · · · + nk , Geom(p) v.a.
n! n n n 5. X ∼ N (µ1 , σ12 ), Y ∼ N (µ2 , σ22 ) −→ X +Y ∼ N (µ1 +µ2 , σ12 +σ22 )
⃗ =⃗
P (X n) = p 1 p 2 . . . pk k
n1 !n2 ! . . . nk ! 1 2
Casos especiales de distribuciones
FMP marginal, agrupamiento y condicionales Marginalmente, 1. Bin(1, p) ∼ Bern(p)
Xi ∼ Bin(n, pi ) ya que podemos definir ”éxito” para significar cate-
gorı́a i. Si agrupa varias categorı́as en un Multinomial, entonces sigue 2. Beta(1, 1) ∼ Unif(0, 1)
siendo Multinomial. Por ejemplo, Xi + Xj ∼ Bin(n, pi + pj ) para i ̸= j 3. Gamma(1, λ) ∼ Expo(λ)
ya que podemos definir ”éxito” para significar estar en la categorı́a i
4. χ2n ∼ Gamma n 1

o j. De manera similar, si k = 6 y agrupamos las categorı́as 1-2 y 2, 2
agrupamos las categorı́as 3-5, entonces 5. NBin(1, p) ∼ Geom(p)
(X1 + X2 , X3 + X4 + X5 , X6 ) ∼ Mult3 (n, (p1 + p2 , p3 + p4 + p5 , p6 ))
Desigualdades
Condicionar en algo de Xj también da un Multinomial: p
1. Cauchy-Schwarz |E(XY )| ≤ E(X 2 )E(Y 2 )
  
p1 pk−1 E|X|
X1 , . . . , Xk−1 |Xk = nk ∼ Multk−1 n − nk , ,..., 2. Markov P (X ≥ a) ≤ a for a > 0
1 − pk 1 − pk
σ2
3. Chebyshev P (|X − µ| ≥ a) ≤ a2
for E(X) = µ, Var(X) = σ 2
Varianzas y covarianzas Tenemos Xi ∼ Bin(n, pi ) marginalmente,
por lo que Var(Xi ) = npi (1 − pi ). También, Cov(Xi , Xj ) = −npi pj 4. Jensen E(g(X)) ≥ g(E(X)) para g convexo; invertir si g es
para i ̸= j. cóncavo
Tabla de Distribuciones

Distribución FMP/PDF Valor esperado Varianza MGF

Bernoulli P (X = 1) = p
Bern(p) P (X = 0) = q = 1 − p p pq q + pet

n k n−k
Binomial P (X = k) = k
p q
Bin(n, p) k ∈ {0, 1, 2, . . . n} np npq (q + pet )n

Geométrica P (X = k) = q k p
p
Geom(p) k ∈ {0, 1, 2, . . . } q/p q/p2 1−qet
, qet < 1

r+n−1 r n
Binomial Negativa P (X = n) = r−1
p q
p
NBin(r, p) n ∈ {0, 1, 2, . . . } rq/p rq/p2 ( 1−qe r t
t ) , qe < 1

  
w+b
 
P (X = k) = w b /
Hipergeométrica k n−k n  
nw w+b−n µ µ
HGeom(w, b, n) k ∈ {0, 1, 2, . . . , n} µ= b+w w+b−1
nn (1 − n
)

e−λ λk
Poisson P (X = k) = k!
t
Pois(λ) k ∈ {0, 1, 2, . . . } λ λ eλ(e −1)

1
Uniforme f (x) = b−a
a+b (b−a)2 etb −eta
Unif(a, b) x ∈ (a, b) 2 12 t(b−a)

2 2
f (x) = √1 e−(x − µ) /(2σ )
Normal σ 2π
σ 2 t2
N (µ, σ 2 ) x ∈ (−∞, ∞) µ σ2 etµ+ 2

Exponencial f (x) = λe−λx


1 1 λ
Expo(λ) x ∈ (0, ∞) λ λ2 λ−t
, t<λ

1
f (x) = Γ(a)
(λx)a e−λx x1
Gamma  a
a a λ
Gamma(a, λ) x ∈ (0, ∞) λ λ2 λ−t
,t<λ

Γ(a+b) a−1
f (x) = Γ(a)Γ(b)
x (1 − x)b−1
Beta
a µ(1−µ)
Beta(a, b) x ∈ (0, 1) µ= a+b (a+b+1)

1 2 2
Log-Normal √ e−(log x−µ) /(2σ )
xσ 2π
2 2
LN (µ, σ 2 ) x ∈ (0, ∞) θ = eµ+σ /2 θ2 (eσ − 1) no existe

1
xn/2−1 e−x/2
Chi-cuadrado 2n/2 Γ(n/2)
χ2n x ∈ (0, ∞) n 2n (1 − 2t)−n/2 , t < 1/2

Γ((n+1)/2)

nπΓ(n/2)
(1 + x2 /n)−(n+1)/2
t-Student
n
tn x ∈ (−∞, ∞) 0 if n > 1 n−2
if n > 2 no existe

También podría gustarte