CheetSheet - Fundamentos de Estadística

Cheatsheet de Probabilidad Orden Sin orden Conjunta, Marginal y Condicional
k
n + k − 1 Probabilidad conjunta P (A ∩ B) o P (A, B) – Probabilidad de A y
Diplomado de Estadı́stica aplicada Con reemplazamiento n B.
Métodos Estadı́stico: Fundamentos y Aplicaciones k
Mg. Leonel Heredia Altamirano n! n Probabilidad marginal (incondicional) P (A) – Probabilidad de A.
Sin reemplazamiento
(n − k)! k La probabilidad condicional P (A|B) = P (A, B)/P (B) – Probabili-
Conteo en probabilidades • Experimentos/Resultados: Un experimento genera un resul-
dad de A, dado que ocurrió B.
tado a partir de una lista predeterminada. Por ejemplo, una Probabilidad Condicional es Probabilidad P (A|B) es una función
tirada de dados genera resultados en el conjunto {1, 2, 3, 4, 5, 6} de probabilidad para cualquier B fijo. Cualquier teorema que se cumpla
Teorı́a de conjuntos para la probabilidad también se cumple para la probabilidad condi-
• Espacio muestral: El espacio muestral, denotado Ω, es el con-
Conjuntos y Subconjuntos - Un conjunto es una colección de obje- junto de resultados posibles. Tenga en cuenta que la probabilidad cional.
tos distintos. A es un subconjunto de B si cada elemento de A también de este evento es 1, ya que siempre ocurrirá algo en el espacio Regla de Bayes - La regla de Bayes une probabilidades marginales,
está incluido en B. muestral. conjuntas y condicionales. Usamos esto como la definición de probabil-
Conjunto vacio - El conjunto vacı́o, denotado ∅, es el conjunto que • Evento: Un evento es un subconjunto del espacio muestral, o idad condicional.
no contiene nada. una colección de posibles resultados de un experimento. Deci- P (A ∩ B) P (B|A)P (A)
mos que el evento ha ocurrido si cualquiera de los resultados del P (A|B) = =
Establecer notación - Tenga en cuenta que A ∪ B, A ∩ B, y Ac son P (B) P (B)
todos conjuntos también. evento ha ocurrido.
Definición básica de probabilidad Probabilidad de una intersección o unión

Unión - A ∪ B (se lee A unión B) significa A o B
Intersecciones vı́a Condicionamiento
Intersección - A ∩ B (se lee A intersección B) significa A y B Si todos los resultados son igualmente probables, la probabilidad de que
ocurra un evento A es: P (A, B) = P (A)P (B|A)
Complemento - Ac (se lee A complemento) ocurre cada vez que A
no ocurre número de resultados favorables a A P (A, B, C) = P (A)P (B|A)P (C|A, B)
P (A) =
número de resultados Uniones vı́a Inclusión-Exclusión
Conjuntos disjuntos - Dos conjuntos son disjuntos si su intersección
es el conjunto vacı́o (por ejemplo, no se superponen). Probabilidad condicional P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Partición - Un conjunto de subconjuntos A1 , A2 , A3 , ...An divide un P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
espacio si son disjuntos y cubren todos los resultados posibles (por ejem- Teorı́a de conjuntos y estadı́stica − P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
plo, su unión es el conjunto completo). Un caso simple de un conjunto
Para comprender la probabilidad, es útil comprender la teorı́a básica + P (A ∩ B ∩ C).
de subconjuntos de partición es A, Ac
de conjuntos. Un evento es un conjunto en el sentido de que es una
Principio de Inclusión-Exclusión - Le ayuda a encontrar las proba- colección de posibles resultados de un experimento (o un subconjunto Ley de Probabilidad Total (LPT)
bilidades de uniones de eventos. del espacio muestral). Con la teorı́a de conjuntos podemos hablar de
cosas como uniones, intersecciones o complementos de eventos. Sean B1 , B2 , B3 , ...Bn una partición del espacio muestral (es decir, son
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) disjuntos y su unión es todo el espacio muestral ).
Independencia P (A) = P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) + · · · + P (A|Bn )P (Bn )
Regla de multiplicación Eventos disjuntos - A y B son disjuntos cuando no pueden ocurrir P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + · · · + P (A ∩ Bn )
C
simultáneamente, o
e
cak Para LPT con acondicionamiento adicional, simplemente agregue
V P (A ∩ B) = 0
C waffle otro evento C
S
k e A∩B=∅
ca
cake
P (A|C) = P (A|B1 , C)P (B1 |C) + · · · + P (A|Bn , C)P (Bn |C)
V
Eventos independientes A y B son independientes si saber si ocurrió P (A|C) = P (A ∩ B1 |C) + P (A ∩ B2 |C) + · · · + P (A ∩ Bn |C)
waffle
wa S A no da información sobre si ocurrió B. Más formalmente, A y B (que
ffle C
V cake tienen una probabilidad distinta de cero) son independientes si y solo si Caso especial de LPT con B y B c como partición:
S se cumple una de las siguientes declaraciones equivalentes: c c
waffl P (A) = P (A|B)P (B) + P (A|B )P (B )
e
P (A ∩ B) = P (A)P (B) c
Digamos que tenemos un experimento compuesto (un experimento P (A) = P (A ∩ B) + P (A ∩ B )
P (A|B) = P (A)
con múltiples componentes). Si el primer componente tiene n1 resulta-
dos posibles, el segundo componente tiene n2 resultados posibles, . . . , y P (B|A) = P (B)
el résimo componente tiene nr resultados posibles, entonces en general Independencia condicional A y B son condicionalmente independi- Regla de Bayes
hay n1 n2 . . . nr posibilidades para todo el experimento. entes dado C si P (A∩B|C) = P (A|C)P (B|C). La independencia condi- Regla de Bayes, y con condicionamiento adicional
cional no implica independencia, y la independencia no implica indepen-
Tabla de muestreo dencia condicional. P (A|B) =
P (B|A)P (A)
P (B)
Uniones, Intersecciones y Complementos P (B|A, C)P (A|C)
Leyes de De Morgan Una identidad útil que puede facilitar el cálculo P (A|B, C) =
P (B|C)
de probabilidades de uniones relacionándolas con intersecciones y vicev-
We can also write
ersa. Resultados análogos se mantienen con más de dos series.
c c c P (A, B, C) P (B, C|A)P (A)
2 8 (A ∪ B) = A ∩ B P (A|B, C) = =
5 c c c
P (B, C) P (B, C)
7
(A ∩ B) = A ∪ B
9 Forma de probabilidades de la regla de Bayes
1 4
3
Complementos - Los siguientes son ciertos.
6 c P (A|B) P (B|A) P (A)
A∪A =Ω =
P (Ac |B) P (B|Ac ) P (Ac )
La tabla de muestreo da el número de muestras posibles de tamaño k c
A∩A =∅
de una población de tamaño n, bajo varias suposiciones sobre cómo se Las posibilidades posteriores de A son la razón de probabilidad multi-
c
recolecta la muestra. P (A) = 1 − P (A ) plicada por las posibilidades anteriores.
Variables aleatorias y sus distribuciones Indicador de Variables Aleatorias
Indicador de Variable aleatoria es una variable aleatoria que toma
1.0
● el valor 1 o 0. Siempre es un indicador de algún evento: si ocurre el
● ●
Probabilidad condicional en Estadı́stica evento, el indicador es 1; de lo contrario, es 0. Son útiles para muchos
problemas relacionados con contar cuántos eventos de algún tipo ocur-
0.8
Ley de Probabilidad Total con B y Bc (caso especial de un conjunto de ● ● ren. Se escribe como:
0.6
partición), y con Condicionamiento Extra
(
1 if A ocurre,
cdf
IA =
c c 0 if A no ocurre.
0.4
P (A) = P (A|B)P (B) + P (A|B )P (B )
● ●
c 2
P (A) = P (A ∩ B) + P (A ∩ B ) Tenga en cuenta que IA = IA , IA IB = IA∩B , y IA∪B = IA +IB −IA IB .
0.2
c c
P (A|C) = P (A|B, C)P (B|C) + P (A|B , C)P (B |C) ● ●
Distribución IA ∼ Bern(p) donde p = P (A).
0.0
●
c Puente Fundamental La expectativa del indicador para el evento A
P (A|C) = P (A ∩ B|C) + P (A ∩ B |C)
0 1 2 3 4 es la probabilidad del evento A: E(IA ) = P (A).
Ley de Probabilidad Total con una partición x
B0 , B1 , B2 , B3 , . . . , Bn , y aplicada a variables aleatorias X, Y.
Varianza y desviación estándar
La CDF es una función continua creciente a la derecha con 2 2 2
Var(X) = E (X − E(X)) = E(X ) − (E(X))
n
X q
P (A) = P (A|Bi )P (Bi ) FX (x) → 0 como x → −∞ y FX (x) → 1 como x → ∞ SD(X) = Var(X)
i=0
P (Y = y) =
X
P (Y = y|X = k)P (X = k)
Independencia Intuitivamente, dos variables aleatorias son indepen- Variables aleatorias continuas (VAC)
dientes si conocer el valor de una no da información sobre la otra. Los
k
valores variables discretos X y Y son independientes si para todos los
Regla de Bayes y con condicionamiento extra
valores de x y y Definición
P (X = x, Y = y) = P (X = x)P (Y = y) ¿Qué es una variable aleatoria continua? Una variable aleatoria
P (A ∩ B) P (B|A)P (A) continua puede tomar cualquier valor posible dentro de un cierto inter-
P (A|B) = = valo (por ejemplo, [0, 1]), mientras que una variable aleatoria discreta
P (B) P (B) Valor esperado e indicadores solo puede tomar variables en una lista de valores contables (por ejem-
P (A ∩ B|C) P (B|A, C)P (A|C) plo, todos los números enteros o los valores 1, 12 , 41 , 18 , etc.)
P (A|B, C) = =
P (B|C) P (B|C) ¿Las variables aleatorias continuas tienen FMP No. La proba-
Valor esperado y linealidad bilidad de que una variable aleatoria continua tome cualquier valor es-
Valor esperado (media, expectativa o promedio) es un promedio pecı́fico es 0.
FMP, FDA, e Independencia ponderado de los posibles resultados de nuestra variable aleatoria. ¿Cuál es la probabilidad de que un VAC esté en un intervalo?
Matemáticamente, si x1 , x2 , x3 , . . . son todos los distintos valores posi- Tome la diferencia en los valores CDF (o use el PDF como se describe
Función de masa de probabilidad (FMP) Dada la probabilidad
bles que puede tomar X, el valor esperado de X es más adelante).
de que una variable aleatoria discreta tome el valor x.
P
E(X) = xi P (X = xi ) P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a)
pX (x) = P (X = x) i
Para X ∼ N (µ, σ 2 ), esto se convierte

X Y X+Y
3 4 7 b−µ a−µ

2 2 4
P (a ≤ X ≤ b) = Φ −Φ
σ σ
6 8 14
1.0
10 23 33 ¿Qué es la función de densidad de probabilidad (PDF)? El

1 –3 –2
0.8
PDF f es el derivado del CDF F .

1 0 1
′
5 9 14 F (x) = f (x)
0.6
4 1 5
pmf
... ... ...

Un PDF no es negativo y se integra a 1. Por el teorema fundamental
del cálculo, para volver de PDF a CDF podemos integrar:
0.4
1 1 1
n n
n∑ + n∑ = ∑ (xi + yi)
n
xi yi
Z x
● ● n
i=1 i=1 i=1 F (x) = f (t)dt
0.2
−∞
● ● E(X) + E(Y) = E(X + Y)
0.0
0.30
1.0
0 1 2 3 4 Linealidad Para cualquier r.v.s X y Y , y constantes a, b, c,
0.8
0.20
x E(aX + bY + c) = aE(X) + bE(Y ) + c
0.6
CDF
PDF
La FMP satisface
0.4
0.10
La misma distribución implica la misma media Si X y Y tienen
0.2
pX (x) ≥ 0 and
X
pX (x) = 1 la misma distribución, entonces E(X) = E(Y ) y, más generalmente,
0.00
0.0
x −4 −2 0 2 4 −4 −2 0 2 4
E(g(X)) = E(g(Y )) x x
Para encontrar la probabilidad de que un CRV tome un valor en un

Función de distribución acumulativa (CDF) Dada la probabili- Valor esperado condicional se define como expectativa, sólo condi- intervalo, integre la PDF sobre ese intervalo.
dad de que una variable aleatoria sea menor o igual a x. cionada a cualquier evento A. Z b
P F (b) − F (a) = f (x)dx
FX (x) = P (X ≤ x) E(X|A) = xP (X = x|A) a
x
Dos propiedades adicionales de una PDF: debe integrarse a 1 (porque Momentos y MGFs Distribuciones Condicionales
la probabilidad de que una CRV caiga en el intervalo [−∞, ∞] es 1, y
la PDF siempre debe ser no negativa. Condicionamiento y regla de Bayes para v.a discretas
Z ∞
Momentos
f (x)dx f (x) ≥ 0 Los momentos describen la forma de una distribución. Sea X media µ
P (X = x, Y = y) P (X = x|Y = y)P (Y = y)
−∞ y desviación estándar σ, y Z = (X − µ)/σ sea la versión estandarizada P (Y = y|X = x) = =
de X. El késimo momento de X es µk = E(X k ) y el késimo momento P (X = x) P (X = x)
¿Cómo encuentro el valor esperado de una VAC? De manera estandarizado de X es mk = E(Z k ). La media, la varianza, la asimetrı́a
análoga al caso discreto, donde sumas x por el FMP, para VAC integras y la curtosis son resúmenes importantes de la forma de una distribución. Acondicionamiento y regla de Bayes para v.a continuas
x por el PDF. Media E(X) = µ1
Z ∞ fX|Y (x|y)fY (y)
fX,Y (x, y)
E(X) = xf (x)dx Varianza Var(X) = µ2 − µ21 fY |X (y|x) = =
−∞ fX (x) fX (x)
Asimetrı́a Skew(X) = m3
Revisión: el valor esperado es lineal. Esto significa que para cualquiera Curtosis Kurt(X) = m4 − 3
variables aleatorias X y Y y cualquier constante a, b, c, se cumple lo Regla de Bayes hı́brido
siguiente: Funciones generadoras de momentos
E(aX + bY + c) = aE(X) + bE(Y ) + c P (A|X = x)fX (x)
MGF Para cualquier variable aleatoria X, la función fX (x|A) =
tX
P (A)
MX (t) = E(e )
Valor esperado de funciones de VAC es la función generadora de momentos (MGF) de X, si existe para
Valor esperado de una función de una v.a El valor esperado de X todo t en algún intervalo abierto que contenga 0. La variable t bien Distribuciones marginales
se define de esta manera: podrı́a haberse llamado u o v. Es un dispositivo de contabilidad que
nos permite trabajar con la función MX en lugar de la secuencia de
Para encontrar la distribución de una (o más) variables aleatorias de un
momentos.
X
E(X) = xP (X = x) (para X discreta) PMF/PDF conjunto, suma/integra las variables aleatorias no deseadas.
x ¿Por qué se llama Función Generadora de Momento? Porque
la késima derivada de la función generadora de momentos, evaluada en
Z ∞
0, es el késimo momento de X.
E(X) = xf (x)dx (para X continua)
−∞ k
µk = E(X ) = MX (0)
(k) FMP marginal de FMP conjunto
La Ley del Estadı́stico Inconsciente (LOTUS) establece que puedes Esto es cierto por la expansión de Taylor de etX ya que X
encontrar el valor esperado de una función de una variable aleatoria, P (X = x) = P (X = x, Y = y)
∞ ∞
g(X), de manera similar, reemplazando el x delante del PMF/PDF de tX
X E(X k )tk X µk tk y
MX (t) = E(e ) = =
g(x) pero aún trabajando con el PMF/PDF de X: k! k!
k=0 k=0
X PDF marginal de PDF conjunto
E(g(X)) = g(x)P (X = x) (para X discreta) MGF de funciones lineales Si tenemos Y = aX + b, entonces
x t(aX+b) bt (at)X bt Z ∞
MY (t) = E(e ) = e E(e ) = e MX (at)
fX (x) = fX,Y (x, y)dy
Z ∞ Unicidad Si existe, el MGF determina únicamente la distribución. −∞
E(g(X)) = g(x)f (x)dx (para X continua) Esto significa que para dos variables aleatorias X y Y , se distribuyen
−∞
de la misma manera (sus PMF/PDF son iguales) si y solo si sus MGF
W¿Qué es una función de una variable aleatoria? Una función son iguales. Independencia de variables aleatorias
de una variable aleatoria también es una variable aleatoria. Por ejem- Suma de RV independientes multiplicando MGF. Si X y Y son
plo, si X es el número de bicicletas que ve en una hora, entonces independientes, entonces Las variables aleatorias X y Y son independientes si y solo si se cumple
g(X) = 2X es el número de ruedas de bicicleta que ve en esa hora y t(X+Y ) tX tY alguna de las siguientes condiciones:
X(X−1) MX+Y (t) = E(e ) = E(e )E(e ) = MX (t) · MY (t)
h(X) = X

2 = 2 es el número de pares de bicicletas tal que ves
ambas bicicletas en esa hora. El MGF de la suma de dos variables aleatorias es el producto de los
MGF de esas dos variables aleatorias. • El CDF conjunto es el producto de los CDF marginales
¿Cuál es el punto? No necesita saber el PMF/PDF de g(X) para en- • El PMF/PDF conjunto es el producto de los FMP/PDF
contrar su valor esperado. Todo lo que necesita es el PMF/PDF de X. PDF y CDF conjuntos marginales
• La distribución condicional de Y dado X es la distribución
marginal de Y
Universalidad del Uniforme (UoU) Distribuciones conjuntas
Cuando conecta cualquier VAC en su propio CDF, obtiene una variable La FDC conjunta de X y Y es Escribe X ⊥
⊥ Y para indicar que X y Y son independientes.
aleatoria Uniforme (0,1). Cuando conectas un Uniform(0,1) en un CDF F (x, y) = P (X ≤ x, Y ≤ y)
inverso, obtienes una VAC con ese CDF. Por ejemplo, digamos que una
En el caso discreto, X y Y tienen un FMP conjunto
variable aleatoria X tiene CDF LOTUS multivariado
pX,Y (x, y) = P (X = x, Y = y).
−x
F (x) = 1 − e , for x > 0 En el caso continuo, tienen un PDF conjunto LOTUS en más de una dimensión es análogo al LOTUS 1D. Para vari-
∂2 ables aleatorias discretas:
Por UoU, si insertamos X en esta función, obtenemos una variable fX,Y (x, y) = FX,Y (x, y).
aleatoria distribuida uniformemente. ∂x∂y XX
E(g(X, Y )) = g(x, y)P (X = x, Y = y)
−X El FMP/PDF conjunto debe ser no negativo y sumar/integrar a 1.
F (X) = 1 − e ∼ Unif(0, 1) x y
De manera similar, si U ∼ Unif(0, 1) entonces F −1 (U ) tiene CDF F . El Para variables aleatorias continuas:
punto clave es que para cualquier variable aleatoria continua X, pode-
mos transformarla en una variable aleatoria uniforme y viceversa usando
Z ∞ Z ∞
su CDF. E(g(X, Y )) = g(x, y)fX,Y (x, y)dxdy
−∞ −∞
Covarianza y Transformaciones Transformaciones de dos variables De manera similar, supong- Estadı́sticas de orden
amos que conocemos la PDF conjunta de U y V pero también estamos
interesados en el vector aleatorio (X, Y ) definido por (X, Y ) = g(U, V ). Definición Digamos que tienes n i.i.d.∼ v.a X1 , X2 , . . . , Xn . Si los
Covarianza y Correlación Dejar ! ordena de menor a mayor, el elemento ith en esa lista es la estadı́stica
∂u ∂u
Covarianza es el análogo de la varianza de dos variables aleatorias. ∂(u, v) de orden ith, indicada como X(i) . Entonces X(1) es el más pequeño de
= ∂x∂v
∂y
∂v
∂(x, y) ∂x ∂y
la lista y X(n) es el más grande de la lista.
Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y )
sea la matriz jacobiana. Si las entradas en esta matriz existen y son Tenga en cuenta que las estadı́sticas de orden son dependientes,
Tenga en cuenta que continuas, y el determinante de la matriz nunca es 0, entonces por ejemplo, aprender X(4) = 42 nos da la información de que
2 2 X(1) , X(2) , X(3) son ≤ 42 y X(5) , X(6) , . . . , X(n) son ≥ 42.
Cov(X, X) = E(X ) − (E(X)) = Var(X) ∂(u, v)
fX,Y (x, y) = fU,V (u, v) Distribución Tomando n i.i.d. variables aleatorias X1 , X2 , . . . , Xn
Correlación es una versión estandarizada de covarianza que siempre ∂(x, y) con CDF F (x) y PDF f (x), la CDF y PDF de X(i) son:
está entre −1 y 1. n
Las barras interiores nos dicen que tomemos el determinante de la ma- X n k n−k
Cov(X, Y ) triz, y las barras exteriores nos dicen que tomemos el valor absoluto. En FX(i) (x) = P (X(i) ≤ x) = F (x) (1 − F (x))
Corr(X, Y ) = p k
una matriz de 2 × 2, k=i
Var(X)Var(Y ) n − 1
i−1 n−i
a b fX(i) (x) = n F (x) (1 − F (x)) f (x)
Covarianza e Independencia Si dos variables aleatorias son inde- = |ad − bc| i−1
c d
pendientes, entonces no están correlacionadas. Lo contrario no es nece- Universalidad de la uniforme Sea X1 , X2 , . . . , Xn i.i.d. CRVs con
sariamente cierto (por ejemplo, considere X ∼ N (0, 1) y Y = X 2 ). CDF F , y sea Uj = F (Xj ). Por UoU, U1 , U2 , . . . , Un son
X ⊥
⊥ Y −→ Cov(X, Y ) = 0 −→ E(XY ) = E(X)E(Y ) Convoluciones i.i.d. Unif(0, 1). Como F es creciente, F (X(1) ) ≤ F (X(2) ) ≤ · · · ≤
F (X(n) ), entonces U(j) = F (X(j) ).
excepto en el caso de Multivariate Normal, donde no correlacionado sı́ Integral de convolución Si desea encontrar el PDF de la suma de dos
CRV independientes X y Y , puede hacer la siguiente integral: Estadı́stica de orden uniformes El estadı́stico de orden jth de
implica independencia. i.i.d.∼ U1 , . . . , Un ∼ Unif(0, 1) es U(j) ∼ Beta(j, n − j + 1).
Z ∞
Covarianza y Varianza La varianza de una suma se puede encontrar
fX+Y (t) = fX (x)fY (t − x)dx
por −∞ Expectativa Condicional
Cov(X, X) = Var(X)
Ejemplo Sea X, Y ∼ N (0, 1) i.i.d. Entonces para cada fijo t, Condicionamiento en un evento Podemos encontrar E(Y |A), el
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y )
Z ∞ valor esperado de Y dado que ocurrió el evento A. Un caso muy impor-
n 1 −x2 /2 1 −(t−x)2 /2
X X fX+Y (t) = √ e √ e dx tante es cuando A es el evento X = x. Tenga en cuenta que E(Y |A) es
Var(X1 + X2 + · · · + Xn ) = Var(Xi ) + 2 Cov(Xi , Xj ) −∞ 2π 2π un número. Por ejemplo:
i=1 i<j
Al completar el cuadrado y usar el hecho de que un PDF normal se • El valor esperado de una tirada justa, dado que es primo, es
Si X y Y son independientes entonces tienen covarianza 0, entonces 1 1 1 10
integra a 1, esto da como resultado que fX+Y (t) sea el PDF de N (0, 2). 3 ·2+ 3 ·3+ 3 ·5 = 3 .
X ⊥
⊥ Y =⇒ Var(X + Y ) = Var(X) + Var(Y ) • Sea Y el número de éxitos en 10 ensayos independientes de
Proceso de Poisson Bernoulli con probabilidad p de éxito. Sea A el evento de que
Si X1 , X2 , . . . , Xn se distribuyen de manera idéntica y tienen las mis- las primeras 3 pruebas sean todas exitosas. Después
mas relaciones de covarianza (a menudo por simetrı́a), entonces
n Definición Tenemos un proceso de Poisson de tasa de λ llegadas por E(Y |A) = 3 + 7p
Var(X1 + X2 + · · · + Xn ) = nVar(X1 ) + 2 Cov(X1 , X2 ) unidad de tiempo si se cumplen las siguientes condiciones:
ya que el número de éxitos entre los últimos 7 intentos es Bin(7, p).
2
1. El número de llegadas en un intervalo de tiempo de longitud t es • Sea T ∼ Expo(1/10) el tiempo que tienes que esperar hasta que
Propiedades de covarianza Para variables aleatorias W, X, Y, Z y Pois(λt). llegue el transbordador. Dado que ya ha esperado t minutos, el
constantes a, b: tiempo de espera adicional esperado es de 10 minutos más, según
2. Los números de llegadas en intervalos de tiempo disjuntos son in-
la propiedad sin memoria. Eso es, E(T |T > t) = t + 10.
Cov(X, Y ) = Cov(Y, X) dependientes.
Cov(X + a, Y + b) = Cov(X, Y )
Por ejemplo, los números de llegadas en los intervalos Y discreta Y continua
Cov(aX, bY ) = abCov(X, Y ) de tiempo [0, 5], (5, 12), y [13, 23) son independientes con P R∞
Cov(W + X, Y + Z) = Cov(W, Y ) + Cov(W, Z) + Cov(X, Y ) Pois(5λ), Pois(7λ), Pois(10λ) distribuciones, respectivamente. E(Y ) = y yP (Y = y) E(Y ) = −∞
yfY (y)dy
R∞
+ Cov(X, Z)
P
E(Y |A) = y yP (Y = y|A) E(Y |A) = yf (y|A)dy
+
+
+
+
+
−∞
La correlación es invariante de ubicación e invariante de escala 0 T1 T2 T3 T4 T5

Condicionamiento en una variable aleatoria También podemos
Para cualquier constante a, b, c, d con a y c distinto de cero, Dualidad de cuenta-tiempo Considere un proceso de Poisson de encontrar E(Y |X), el valor esperado de Y dada la variable aleatoria
Corr(aX + b, cY + d) = Corr(X, Y ) correos electrónicos que llegan a una bandeja de entrada a una tasa X. Esta es una función de la variable aleatoria X. Es no un número
de λ correos electrónicos por hora. Sea Tn la hora de llegada del nésimo excepto en ciertos casos especiales como si X ⊥ ⊥ Y . Para encontrar
correo electrónico (relativo a una hora de inicio 0) y Nt el número de E(Y |X), busque E(Y |X = x) y luego sustituya X por x. Por ejemplo:
Transformaciones correos electrónicos que llegan a [0, t]. Encontremos la distribución de
Transformaciones de una variable Digamos que tenemos una vari- T1 . El evento T1 > t, el evento de que tiene que esperar más de t ho- • Si E(Y |X = x) = x3 + 5x, entonces E(Y |X) = X 3 + 5X.
able aleatoria X con PDF fX (x), pero también nos interesa alguna ras para recibir el primer correo electrónico, es el mismo que el evento • Sea Y el número de éxitos en 10 ensayos independientes de
función de X. Llamamos a esta función Y = g(X). También sea Nt = 0, que es el evento de que no hay correos electrónicos en el primeras Bernoulli con probabilidad p de éxito y X el número de éxitos
y = g(x). Si g es diferenciable y estrictamente creciente (o estricta- t horas. Asi que entre los primeros 3 ensayos. Después E(Y |X) = X + 7p.
mente decreciente), entonces la PDF de Y es −λt −λt • Sean X ∼ N (0, 1) y Y = X 2 . Entonces E(Y |X = x) = x2
P (T1 > t) = P (Nt = 0) = e −→ P (T1 ≤ t) = 1 − e
dx d −1 ya que si sabemos X = x entonces sabemos Y = x2 . Y
−1
fY (y) = fX (x) = fX (g (y)) g (y) Ası́ tenemos T1 ∼ Expo(λ). Por la propiedad sin memoria y un razon- E(X|Y = y) = 0 ya que si sabemos Y = y entonces sabemos
dy dy √
amiento similar, los tiempos entre llegadas entre correos electrónicos son X = ± y, con iguales probabilidades (por simetrı́a). Ası́ que
La derivada de la transformación inversa se llama Jacobiana. i.i.d. Expo(λ), es decir, las diferencias Tn − Tn−1 son i.i.d. ∼ Expo(λ) . E(Y |X) = X 2 , E(X|Y ) = 0.
Propiedades de la expectativa condicional Distribuciones Continuas PDF y CDF El PDF y CDF de un Exponencial es:
1. E(Y |X) = E(Y ) if X ⊥

⊥Y f (x) = λe
−λx
, x ∈ [0, ∞)
2. E(h(X)W |X) = h(X)E(W |X) (quitando lo que se sabe)
Distribución uniforme
In particular, E(h(X)|X) = h(X). Digamos que U se distribuye Unif(a, b). Sabemos lo siguiente: −λx
F (x) = P (X ≤ x) = 1 − e , x ∈ [0, ∞)
3. E(E(Y |X)) = E(Y ) (Ley de Adams, Ley de Expectativa Total) Propiedades de la Uniforme Para una distribución Uniforme, la
probabilidad de un sorteo de cualquier intervalo dentro del soporte es Falta de memoria La distribución exponencial es la única dis-
proporcional a la longitud del intervalo. Vea Universalidad de uniforme tribución continua sin memoria. La propiedad sin memoria dice que
Ley de Adams (Ley de Expectativa Total) también se puede es-
y Estadı́sticas de pedidos para otras propiedades. para X ∼ Expo(λ) y cualquier número positivo s y t,
cribir de forma análoga a LOTP. Para cualquier evento A1 , A2 , . . . , An
que particione el espacio muestral,
Ejemplo William lanza dardos muy mal, por lo que sus dardos son P (X > s + t|X > s) = P (X > t)
E(Y ) = E(Y |A1 )P (A1 ) + · · · + E(Y |An )P (An ) uniformes en toda la habitación porque es igualmente probable que
aparezcan en cualquier lugar. Los dardos de William tienen una dis- Equivalentemente,
Para el caso especial donde la partición es AN, Ac , esto dice tribución Uniforme en la superficie de la habitación. La Uniforme es la
única distribución donde la probabilidad de acertar en cualquier región X − a|(X > a) ∼ Expo(λ)
c c especı́fica es proporcional a la longitud/área/volumen de esa región, y
E(Y ) = E(Y |A)P (A) + E(Y |A )P (A )
donde la densidad de ocurrencia en cualquier punto especı́fico es con- Por ejemplo, un producto con una vida útil de Expo(λ) es siempre ”tan
Ley de Eve (Ley de Varianza Total) stante en todo el soporte. bueno como nuevo” (no sufre desgaste). Dado que el producto ha sobre-
PDF y CDF de Unif(0, 1) y Unif(a, b)) vivido a años, el tiempo adicional que va a durar sigue siendo Expo(λ).
Var(Y ) = E(Var(Y |X)) + Var(E(Y |X))
 Ejemplo: si la espera del autobús se distribuye exponencialmente con
 0 x<0 λ = 6, no importa cuánto haya esperado hasta ahora, el tiempo de es-
1 x ∈ [0, 1]
Unif(0, 1)f (x) = F (x) = x x ∈ [0, 1] pera adicional esperado hasta que llegue el autobús siempre es 61 , o
MVN, LLN, CLT 0 x∈/ [0, 1]  1 x>1 10 minutos. La distribución del tiempo desde ahora hasta la llegada es

 0 x<a siempre la misma, sin importar cuánto hayas esperado.
1

x ∈ [a, b] x−a
Ley de los Grandes Números (LLN) Unif(a, b)f (x) = b−a
0 x∈/ [a, b]
F (x) = b−a x ∈ [a, b]
Min de Expos Si tenemos Xi ∼ Expo(λi ) independientes, entonces
1 x>b

Sea X1 , X2 , X3 . . . i.i.d. ∼ con media µ. La media muestral es min(X1 , . . . , Xk ) ∼ Expo(λ1 + λ2 + · · · + λk ).
X1 + X2 + X3 + · · · + Xn Distribución normal Max de Expos Si tenemos i.i.d.∼ Xi ∼ Expo(λ), entonces

X̄n = max(X1 , . . . , Xk ) tiene la misma distribución que Y1 + Y2 + · · · + Yk ,
n 2 donde Yj ∼ Expo(jλ) y Yj son independientes.
Digamos que X se distribuye N (µ, σ ). Sabemos lo siguiente:
La Ley de los Grandes Números establece que como n → ∞, Teorema del lı́mite central La distribución Normal es omnipresente
X̄n → µ con probabilidad 1. Por ejemplo, en lanzamientos de una mon-
eda con probabilidad p de cara, sea Xj el indicador de que el jésimo
debido al Teorema del Lı́mite Central, que establece que la media mues- Distribución gamma
tral de i.i.d.∼ v.a se acercará a una distribución Normal a medida que
lanzamiento sea cara. Entonces LLN dice que la proporción de Caras crece el tamaño de la muestra, independientemente de la distribución Gamma(3, 1) Gamma(3, 0.5)
converge a p (con probabilidad 1). inicial.
Transformación de escala de ubicación Cada vez que cambiamos
0.10
Teorema del lı́mite central (CLT)
0.2
una r.v. normal (agregando una constante) o cambiamos la escala de
PDF
PDF
una normal (multiplicándola por una constante), la cambiamos a otra
0.05
0.1
Aproximación usando CLT
r.v. normal. Para cualquier Normal X ∼ N (µ, σ 2 ), podemos transfor-
marlo en el estándar N (0, 1) mediante la siguiente transformación:
0.00
0.0
Usamos ∼ ˙ para denotar está aproximadamente distribuido. Podemos 0 5 10 15 20 0 5 10 15 20
usar el Teorema del Lı́mite Central para aproximar la distribución x x
X−µ
de una variable aleatoria Y = X1 + X2 + · · · + Xn que es una suma de Z= ∼ N (0, 1) Gamma(10, 1) Gamma(5, 0.5)
2 σ
0.10
n i.i.d. variables aleatorias Xi . Sean E(Y ) = µY y Var(Y ) = σY . dice
la CLT
0.10
2 Ejemplo Las alturas son normales. El error de medición es normal.
Y ∼˙ N (µY , σY )
0.05
Por el teorema del lı́mite central, el promedio de muestreo de una
PDF
PDF
0.05
2
Si los Xi son i.i.d. con media µX y varianza σX ,
entonces µY = nµX y población también es normal.
2 2
σY = nσX . Para la media muestral X̄n , la CLT dice Normal estándar La normal estándar, Z ∼ N (0, 1), tiene media 0 y
0.00
0.00
varianza 1. Su CDF se denota por Φ. 0 5 10 15 20 0 5 10 15 20
1 2
x x
X̄n = (X1 + X2 + · · · + Xn ) ∼
˙ N (µX , σX /n) Digamos que X se distribuye Gamma(a, λ). Sabemos lo siguiente:
n Distribución exponencial
Distribuciones asintóticas usando CLT Digamos que X se distribuye Expo(λ). Sabemos lo siguiente:
Historia Estás sentado esperando estrellas fugaces, donde el tiempo
Argumento Estás sentado en un prado abierto justo antes del de espera de una estrella se distribuye Expo(λ). Quieres ver n estrellas
D
Usamos −→ para denotar converge en distribución a como n → ∞. amanecer, deseando que los aviones en el cielo nocturno fueran estrellas fugaces antes de irte a casa. El tiempo de espera total para la nésima
El CLT dice que si estandarizamos la suma X1 + · · · + Xn entonces la fugaces, porque realmente te vendrı́a bien un deseo en este momento. estrella fugaz es Gamma(n, λ).
distribución de la suma converge a N (0, 1) como n → ∞: Usted sabe que las estrellas fugaces vienen en promedio cada 15 min-
utos, pero una estrella fugaz no ”debe” venir solo porque ha esperado Ejemplo Estás en un banco y hay 3 personas delante de ti. El tiempo
1 D tanto tiempo. Su tiempo de espera no tiene memoria; el tiempo adi- de servicio para cada persona es exponencial con una media de 2 min-
√ (X1 + · · · + Xn − nµX ) −→ N (0, 1)
σ n cional hasta que llegue la próxima estrella fugaz no depende de cuánto utos. Solo se puede atender a una persona a la vez. La distribución de
tiempo hayas esperado ya. tu tiempo de espera hasta que te toca ser atendido es Gamma(3, 12 ).
En otras palabras, la CDF del lado izquierdo va a la CDF normal
estándar, Φ. En términos de la media muestral, la CLT dice Ejemplo El tiempo de espera hasta la próxima estrella fugaz se dis- PDF El PDF de una Gamma es:
tribuye en Expo(4) horas. Aquı́ λ = 4 es el parámetro de tasa, ya que
√ las estrellas fugaces llegan a una tasa de 1 por 1/4 hora en promedio.
n(X̄n − µX ) D 1 a −λx 1
−→ N (0, 1) El tiempo esperado hasta la próxima estrella fugaz es 1/λ = 1/4 hora. f (x) = (λx) e , x ∈ [0, ∞)
σX Γ(a) x
Distribución Beta Distribuciones discretas Distribución Geométrica
Beta(0.5, 0.5) Beta(2, 1)
Digamos que X se distribuye Geom(p). Sabemos lo siguiente:
Distribuciones para cuatro esquemas de muestreo
2.0
5
Historia X es el número de “fracasos” que lograremos antes de lograr
4
1.5
Reemplazar Sin reemplazar nuestro primer éxito. Nuestros éxitos tienen probabilidad p.
3
PDF
PDF
1.0
# Ensayos fijos (n) Binomial HGeom 1
2
Ejemplo Si cada pokebola que lanzamos tiene probabilidad 10 de atra-
0.5
(Bern if n = 1)
1
1
par a Mew, el número de pokebolas fallidas se distribuirá Geom( 10 ).
Hasta el éxito de r NBin NHGeom
0.0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x (Geom if r = 1) PMF Con q = 1 − p, la función de masa de probabilidad de una
Beta(2, 8) Beta(5, 5) Geométrica es:
k
2.5
Distribución de Bernoulli P (X = k) = q p
3
2.0
La distribución de Bernoulli es el caso más simple de la distribución
1.5 Distribución del primer éxito
2
PDF
PDF
Binomial, donde solo tenemos un ensayo (n = 1). Digamos que X se

1.0
distribuye Bern(p). Sabemos lo siguiente: Equivalente a la distribución geométrica, excepto que incluye el primer
1
0.5
Historia Se realiza una prueba con probabilidad p de ”éxito”, y X es éxito en el conteo. Esto es 1 más que el número de fallas. Si X ∼ FS(p)
0.0
0
0.0 0.2 0.4

x
0.6 0.8 1.0 0.0 0.2 0.4
x
0.6 0.8 1.0
el indicador de éxito: 1 significa éxito, 0 significa fracaso. entonces E(X) = 1/p.
Ejemplo Sea X el indicador de Cara para un lanzamiento de moneda
justo. Entonces X ∼ Bern( 21 ). Además, 1 − X ∼ Bern( 12 ) es el indi- Distribución Binomial Negativa
Previa conjugada de la binomial En el enfoque bayesiano de las es- cador de Tails.
tadı́sticas, los parámetros se consideran variables aleatorias para refle- Digamos que X se distribuye NBin(r, p). Sabemos lo siguiente:
jar nuestra incertidumbre. El prior de un parámetro es su distribución PMF. La función de masa de probabilidad de un Bernoulli es:
antes de observar los datos. El posterior es la distribución del parámetro x 1−x Historia X es el número de “fracasos” que tendremos antes de lograr
P (X = x) = p (1 − p)
después de observar los datos. Beta es el conjugado anterior del Bi- nuestro résimo éxito. Nuestros éxitos tienen probabilidad p.
nomial porque si tiene un anterior con distribución Beta en p en un o simplemente
Ejemplo Thundershock tiene un 60% de precisión y puede debilitar a
(
Binomial, entonces la distribución posterior en p dados los datos del Bi- p, x=1
P (X = x) = un Raticate salvaje en 3 golpes. El número de fallos antes de que Pikachu
nomial también tiene distribución Beta. Considere el siguiente modelo 1 − p, x=0 se desmaye Raticate con Thundershock se distribuye NBin(3, 0.6).
de dos niveles:
X|p ∼ Bin(n, p)
Distribución binomial PMF Con q = 1 − p, la función de masa de probabilidad de un Bino-
mial Negativo es:
p ∼ Beta(a, b) Bin(10,1/2)
n + r − 1
0.30
r n
Entonces después de observar X = x, obtenemos la distribución poste- P (X = n) = p q
r−1
0.25
rior ●
p|(X = x) ∼ Beta(a + x, b + n − x)
0.20
● ●
Distribución Hipergeométrica
0.15
pmf
Relación beta-gamma Si X ∼ Gamma(a, λ), Y ∼ Gamma(b, λ), con
● ●
X e Y independiente entonces
0.10
Digamos que X se distribuye HGeom(w, b, n). Sabemos lo siguiente:
0.05
• X
X+Y ∼ Beta(a, b) ● ●
Historia En una población de w objetos deseados y b objetos no de-

0.00
● ●
● ●
• X+Y ⊥
⊥ X
X+Y
0 2 4 6 8 10 seados, X es el número de “éxitos” que tendremos en un sorteo de n
x objetos, sin reemplazo. El sorteo de Se supone que los objetos n son
Esto se conoce como resultado banco–oficina postal. Digamos que X se distribuye Bin(n, p). Sabemos lo siguiente: una muestra aleatoria simple (todos los conjuntos de objetos n son
igualmente probables).
a a Historia X es el número de “éxitos” que lograremos en n ensayos in-
, V ar(X) = 2
E(X) = dependientes, donde cada ensayo es un éxito o un fracaso, cada uno con Ejemplos Aquı́ hay algunos ejemplos de HGeom.
λ λ la misma probabilidad p de éxito. también puede escribir X como una
X ∼ G(a, λ), Y ∼ G(b, λ), X ⊥ ⊥ Y → X + Y ∼ G(a + b, λ) suma de múltiples variables aleatorias Bern(p) independientes. Sean • Digamos que solo tenemos b Weedles (fracaso) y w Pikachus
X X ∼ Bin(n, p) y Xj ∼ Bern(p), donde todas los Bernoulli son indepen- (éxito) en el Bosque Verde. Nos encontramos con n Pokémon
⊥⊥X+Y
X+Y dientes. Entonces en el bosque, y X es el número de Pikachus en nuestros encuen-
X ∼ Gamma(a, λ) → X = X1 + X2 + ... + Xa for Xi i.i.d. Expo(λ) X = X1 + X2 + X3 + · · · + Xn tros.
Gamma(1, λ) ∼ Expo(λ) Ejemplo Si Jeremy Lin encesta 10 tiros libres y cada uno de ellos tiene • El número de ases en una mano de 5 cartas.
una probabilidad de 34 de entrar, entonces el número de tiros libres que
χ2 (Chi-Cuadrado) Distribución encesta se distribuye Bin(10, 43 ).
• Tienes w bolas blancas y b bolas negras, y sacas n bolas. Dibu-
jarás X bolas blancas.
Digamos que X se distribuye χ2n . Sabemos lo siguiente: PMF La función de masa de probabilidad de un Binomial es:
Historia Un Chi-Cuadrado (n) es la suma de los cuadrados de n n • Tienes w bolas blancas y b bolas negras, y sacas n bolas
x n−x
estándar independiente Normal r.v.s. P (X = x) = p (1 − p) sin reemplazo. El número de bolas blancas en su muestra es
x HGeom(w, b, n); el número de bolas negras es HGeom(b, w, n).
Ejemplo La suma de errores al cuadrado se distribuye χ2n Propiedades Sea X ∼ Bin(n, p), Y ∼ Bin(m, p) con X ⊥
⊥ Y.
• Capturar-recapturar Un bosque tiene N alces, usted captura
PDF El PDF de un χ21 es: • Redefinir éxito n − X ∼ Bin(n, 1 − p) n de ellos, los etiqueta y los libera. Luego vuelve a capturar una
1 −w/2 • Suma X + Y ∼ Bin(n + m, p) nueva muestra de tamaño m. ¿Cuántos alces marcados hay ahora
f (w) = √ e , w ∈ [0, ∞) en la nueva muestra? HGeom(n, N − n, m)
2πw • Condicional X|(X + Y = r) ∼ HGeom(n, m, r)
Propiedades y representaciones • Relación Binomial-Poisson Bin(n, p) es aproximadamente PMF La función de masa de probabilidad de una Hipergeométrica:
2 2 2
Pois(np) si p es pequeño.
X se distribuye comoZ1 + Z2 + · · · + Zn para i.i.d. ∼ Zi ∼ N (0, 1) w b
• Relación normal-binomial Bin(n, p) es aproximadamente k n−k
P (X = k) =
X ∼ Gamma(n/2, 1/2) N (np, np(1 − p)) si n es grande y p no está cerca de 0 o 1. w+b
n
Distribución de Poisson Distribución normal multivariante (MVN) Fórmulas
Digamos que X se distribuye Pois(λ). Sabemos lo siguiente: Un vector X ⃗ = (X1 , X2 , . . . , Xk ) es normal multivariado si cada combi-
Historia Hay eventos raros (eventos de baja probabilidad) que ocur- nación lineal se distribuye normalmente, es decir, t1 X1 + t2 X2 + · · · + Serie geométrica
ren de muchas maneras diferentes (altas posibilidades de ocurrencias) a tk Xk es normal para cualquier constante t1 , t2 , . . . , tk . Los parámetros
n−1
una tasa promedio de λ ocurrencias por unidad de espacio o tiempo. El de la Normal Multivariante son el vector medio µ ⃗ = (µ1 , µ2 , . . . , µk ) 2 n−1
X k 1 − rn
y la matriz de covarianza donde (i, j) la entrada es Cov(Xi , Xj ). 1 + r + r + ··· + r = r =
número de eventos que ocurren en esa unidad de espacio o tiempo es X. k=0
1−r
Ejemplo Cierta intersección concurrida tiene un promedio de 2 acci- Propiedades La Normal Multivariante tiene las siguientes 2 1
dentes por mes. Dado que un accidente es un evento de baja proba- propiedades. 1 + r + r + ··· = if |r| < 1
1−r
bilidad que puede ocurrir de muchas maneras diferentes, es razonable
• Cualquier subvector también es MVN.
modelar la cantidad de accidentes en un mes en esa intersección como Función exponencial (ex )
Pois(2). Entonces el número de accidentes que ocurren en dos meses en • Si dos elementos dentro de un MVN no están correlacionados, en- ∞
xn x2 x3 x n

esa intersección se distribuye Pois(4). tonces son independientes. x
X
e = =1+x+ + + · · · = lim 1+
n! 2! 3! n→∞ n
Propiedades Sea X ∼ Pois(λ1 ) e Y ∼ Pois(λ2 ), con X ⊥
⊥ Y. • La PDF conjunta de una Normal Bivariada (X, Y ) con N (0, 1) n=0
distribuciones marginales y correlación ρ ∈ (−1, 1) es
1. Suma X + Y ∼ Pois(λ1 + λ2 )
Integrales gamma y beta
1 1 2 2 A veces puede resolver integrales que parecen complicadas haciendo co-
fX,Y (x, y) = exp − 2 (x + y − 2ρxy) ,

λ1
2. Condicional X|(X + Y = n) ∼ Bin n, λ1 +λ2 2πτ 2τ incidir patrones con una integral gamma o beta:
3. Chicken-egg Si hay Z ∼ Pois(λ) elementos y ”aceptamos” Z ∞
p Z 1
con τ = 1 − ρ2 . t−1 −x a−1 b−1 Γ(a)Γ(b)
aleatoria e independientemente cada elemento con probabilidad p, x e dx = Γ(t) x (1 − x) dx =
0 0 Γ(a + b)
entonces el número de elementos aceptados Z1 ∼ Pois(λp) , y el
número de artı́culos rechazados Z2 ∼ Pois(λ(1 − p)), y Z1 ⊥
⊥ Z2 . Propiedades de distribución También, Γ(a + 1) = aΓ(a), and Γ(n) = (n − 1)! if n es un entero posi-
tivo.
PMF La PMF de una Poisson es
CDF importantes Aproximación de Euler para sumas armónicas
e−λ λk Normal estándar Φ
P (X = k) = 1 1 1
k! 1+ + + ··· + ≈ log n + 0.577 . . .
Exponencial(λ) F (x) = 1 − e−λx , for x ∈ (0, ∞) 2 3 n
Distribuciones multivariadas Uniforme(0,1) F (x) = x, for x ∈ (0, 1)
Aproximación de Stirling para factoriales
√
n
Convoluciones de variables aleatorias n! ≈ 2πn
n
Distribución multinomial Una convolución de n variables aleatorias es simplemente su suma. Para e
Digamos que el vector X ⃗ = (X1 , X2 , X3 , . . . , Xk ) ∼ Multk (n, p

⃗) donde los siguientes resultados, sean X y Y independientes.
p
⃗ = (p1 , p2 , . . . , pk ). 1. X ∼ Pois(λ1 ), Y ∼ Pois(λ2 ) −→ X + Y ∼ Pois(λ1 + λ2 )
Historia Tenemos n elementos, que pueden caer en cualquiera de los k 2. X ∼ Bin(n1 , p), Y ∼ Bin(n2 , p) −→ X + Y ∼ Bin(n1 + n2 , p).
cubos independientemente con las probabilidades p
⃗ = (p1 , p2 , . . . , pk ). Bin(n, p) se puede considerar como una suma de i.i.d. ∼ Bern(p)
v.a.
Ejemplo Supongamos que cada año, 100 estudiantes en el universo
de Harry Potter son clasificados aleatoria e independientemente en 3. X ∼ Gamma(a1 , λ), Y ∼ Gamma(a2 , λ) −→ X + Y ∼
una de cuatro casas con igual probabilidad. El número de personas Gamma(a1 + a2 , λ). Gamma(n, λ) con n un número entero se
en cada una de las casas se distribuye Mult4 (100, p ⃗), where p⃗ = puede considerar como una suma de i.i.d..∼ Expo(λ) v.a.
(0.25, 0.25, 0.25, 0.25). Note that X1 + X2 + · · · + X4 = 100, and they
are dependent. 4. X ∼ NBin(r1 , p), Y ∼ NBin(r2 , p) −→ X + Y ∼ NBin(r1 +
r2 , p). NBin(r, p) se puede considerar como una suma de i.i.d..∼
FMP conjunto Para n = n1 + n2 + · · · + nk , Geom(p) v.a.
n! n n n 5. X ∼ N (µ1 , σ12 ), Y ∼ N (µ2 , σ22 ) −→ X +Y ∼ N (µ1 +µ2 , σ12 +σ22 )
⃗ =⃗
P (X n) = p 1 p 2 . . . pk k
n1 !n2 ! . . . nk ! 1 2
Casos especiales de distribuciones
FMP marginal, agrupamiento y condicionales Marginalmente, 1. Bin(1, p) ∼ Bern(p)
Xi ∼ Bin(n, pi ) ya que podemos definir ”éxito” para significar cate-
gorı́a i. Si agrupa varias categorı́as en un Multinomial, entonces sigue 2. Beta(1, 1) ∼ Unif(0, 1)
siendo Multinomial. Por ejemplo, Xi + Xj ∼ Bin(n, pi + pj ) para i ̸= j 3. Gamma(1, λ) ∼ Expo(λ)
ya que podemos definir ”éxito” para significar estar en la categorı́a i
4. χ2n ∼ Gamma n 1

o j. De manera similar, si k = 6 y agrupamos las categorı́as 1-2 y 2, 2
agrupamos las categorı́as 3-5, entonces 5. NBin(1, p) ∼ Geom(p)
(X1 + X2 , X3 + X4 + X5 , X6 ) ∼ Mult3 (n, (p1 + p2 , p3 + p4 + p5 , p6 ))
Desigualdades
Condicionar en algo de Xj también da un Multinomial: p
1. Cauchy-Schwarz |E(XY )| ≤ E(X 2 )E(Y 2 )

p1 pk−1 E|X|
X1 , . . . , Xk−1 |Xk = nk ∼ Multk−1 n − nk , ,..., 2. Markov P (X ≥ a) ≤ a for a > 0
1 − pk 1 − pk
σ2
3. Chebyshev P (|X − µ| ≥ a) ≤ a2
for E(X) = µ, Var(X) = σ 2
Varianzas y covarianzas Tenemos Xi ∼ Bin(n, pi ) marginalmente,
por lo que Var(Xi ) = npi (1 − pi ). También, Cov(Xi , Xj ) = −npi pj 4. Jensen E(g(X)) ≥ g(E(X)) para g convexo; invertir si g es
para i ̸= j. cóncavo
Tabla de Distribuciones
Distribución FMP/PDF Valor esperado Varianza MGF
Bernoulli P (X = 1) = p
Bern(p) P (X = 0) = q = 1 − p p pq q + pet
n k n−k
Binomial P (X = k) = k
p q
Bin(n, p) k ∈ {0, 1, 2, . . . n} np npq (q + pet )n
Geométrica P (X = k) = q k p
p
Geom(p) k ∈ {0, 1, 2, . . . } q/p q/p2 1−qet
, qet < 1
r+n−1 r n
Binomial Negativa P (X = n) = r−1
p q
p
NBin(r, p) n ∈ {0, 1, 2, . . . } rq/p rq/p2 ( 1−qe r t
t ) , qe < 1

w+b

P (X = k) = w b /
Hipergeométrica k n−k n
nw w+b−n µ µ
HGeom(w, b, n) k ∈ {0, 1, 2, . . . , n} µ= b+w w+b−1
nn (1 − n
)
e−λ λk
Poisson P (X = k) = k!
t
Pois(λ) k ∈ {0, 1, 2, . . . } λ λ eλ(e −1)
1
Uniforme f (x) = b−a
a+b (b−a)2 etb −eta
Unif(a, b) x ∈ (a, b) 2 12 t(b−a)
2 2
f (x) = √1 e−(x − µ) /(2σ )
Normal σ 2π
σ 2 t2
N (µ, σ 2 ) x ∈ (−∞, ∞) µ σ2 etµ+ 2
Exponencial f (x) = λe−λx

1 1 λ
Expo(λ) x ∈ (0, ∞) λ λ2 λ−t
, t<λ
1
f (x) = Γ(a)
(λx)a e−λx x1
Gamma a
a a λ
Gamma(a, λ) x ∈ (0, ∞) λ λ2 λ−t
,t<λ
Γ(a+b) a−1
f (x) = Γ(a)Γ(b)
x (1 − x)b−1
Beta
a µ(1−µ)
Beta(a, b) x ∈ (0, 1) µ= a+b (a+b+1)
1 2 2
Log-Normal √ e−(log x−µ) /(2σ )
xσ 2π
2 2
LN (µ, σ 2 ) x ∈ (0, ∞) θ = eµ+σ /2 θ2 (eσ − 1) no existe
1
xn/2−1 e−x/2
Chi-cuadrado 2n/2 Γ(n/2)
χ2n x ∈ (0, ∞) n 2n (1 − 2t)−n/2 , t < 1/2
Γ((n+1)/2)
√
nπΓ(n/2)
(1 + x2 /n)−(n+1)/2
t-Student
n
tn x ∈ (−∞, ∞) 0 if n > 1 n−2
if n > 2 no existe

CheetSheet - Fundamentos de Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

CheetSheet - Fundamentos de Estadística

Cargado por

Copyright:

Formatos disponibles

Cheatsheet de Probabilidad Orden Sin orden Conjunta, Marginal y Condicional

Definición básica de probabilidad Probabilidad de una intersección o unión

Para X ∼ N (µ, σ 2 ), esto se convierte

10 23 33 ¿Qué es la función de densidad de probabilidad (PDF)? El

PDF f es el derivado del CDF F .

... ... ...

Para encontrar la probabilidad de que un CRV tome un valor en un

La correlación es invariante de ubicación e invariante de escala 0 T1 T2 T3 T4 T5

1. E(Y |X) = E(Y ) if X ⊥

X1 + X2 + X3 + · · · + Xn Distribución normal Max de Expos Si tenemos i.i.d.∼ Xi ∼ Expo(λ), entonces

Ejemplo Si cada pokebola que lanzamos tiene probabilidad 10 de atra-

Binomial, donde solo tenemos un ensayo (n = 1). Digamos que X se

0.0 0.2 0.4

Historia En una población de w objetos deseados y b objetos no de-

Digamos que el vector X ⃗ = (X1 , X2 , X3 , . . . , Xk ) ∼ Multk (n, p

Distribución FMP/PDF Valor esperado Varianza MGF

Exponencial f (x) = λe−λx

También podría gustarte