Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadı́stica Bayesiana
Introducción
En general, se usan probabilidades de modo informal para expresar la información
o la incertidumbre que se tiene acerca de observaciones de cantidades desconocidas. Sin
embargo, el uso de probabilidades para expresar la información se puede hacer de modo
formal.
Desde el punto de vista matemático se puede demostrar que con el Cálculo de Proba-
bilidades se puede representar de modo numérico el conjunto de racional de creencias, de
modo que existe una relación directa entre probabilidad e información y la regla de Ba-
yes proporciona un modo natural de actualización de las creencias cuando aparece nueva
información. Este proceso de aprendizaje inductivo por medio de la regla de Bayes es la
base de la Inferencia Bayesiana.
De manera general, los métodos bayesianos son métodos de análisis de datos que se
derivan de los principios de la inferencia bayesiana. Estos métodos, proporcionan
1
3. Evaluar el ajuste del modelo a los datos y la sensibilidad de las conclusiones a
cambios en los supuestos del modelo.
Ejemplo
En el caso judicial en USA de Connecticut vs. Teal se alegó un caso de posible discri-
minación racial en base a un test para una promoción de estudiantes dada.
Se observó que entre el grupo de personas que hacı́an un test, 48 eran negras (B ) y
259 eran blancas (W ). De este modo si se toma una persona al azar
48 259
P (B) = 307
= 0,16 P (W ) = 307
= 0,84
De las personas negras 26 aprobaron el test (P ) y el resto falló (F ), mientras que en las
personas blancas 206 aprobaron y el resto, no. De este modo un total de 232 aprobaron.
De modo que
26
P (B|P ) = = 0,11
232
206
P (W |P ) = = 0,89
232
2
Existe, por tanto, la tentación de asumir que existe una muy elevada discriminación
racial...
Sin embargo lo que se deberı́a calcular es la distribución condicionada contraria: asu-
miendo que si se es negro (o blanco) cuál es la probabilidad de aprobar:
26
P (P |B) = = 0,54
48
206
P (P |W ) = = 0,80
259
Y aún ası́, la probabilidades son bastante diferentes, aunque no tanto.
k
X
P (A) = P (A|Bi )P (Bi )
i=1
Se puede aplicar el teorema a variables discretas:
X
f (x) = f (x|Y = y)P (Y = y)
y
o a variables continuas: Z
f (x) = f (x|y)f (y) dy.
Ejemplo
= 0,0197
3
Ejemplo
Z ∞
P (x) = P (x|y)f (y) dy
−∞
∞
y x −y
Z
= e β exp [−βy] dy
0 x!
Z ∞
β
= y x exp [−(β + 1)y] dy
x! 0
Z ∞
β
= y (x+1)−1 exp [−(β + 1)y] dy
x! 0
Para resolver la integral, se observa que el integrando está relacionado con una distribución
gamma Ga(x + 1, β + 1).
4
NOTA:
Si X ∼ Ga(a, b) su función de densidad es
ba a−1
f (x; a, b) = x exp[−bx],
Γ(a)
de este modo
∞ ∞
ba a−1
Z Z
Γ(a)
x exp[−bx]dx = 1 =⇒ xa−1 exp[−bx]dx =
0 Γ(a) 0 ba
Luego
β Γ(x + 1)
P (x) =
x! (β + 1)(x+1)
β x!
=
x! (β + 1)(x+1)
β
=
(β + 1)(x+1)
p
Si se denota como p = β/(1 + β), entonces 0 < p < 1 y despejando β = 1−p
,
−x −x
p 1
P (x) = p 1 + =p =
1−p 1−p
= p(1 − p)x ,
para x = 0, 1, 2, . . .
Se observa que es una distribución geométrica con parámetro p.
Ejemplo
∞
βα
Z
= θα e−(β+x)θ dθ
Γ(α) 0
∞
βα
Z
= θ(α+1)−1 e−(β+x)θ dθ
Γ(α) 0
5
y el integrando está relacionado con otra distribución gamma, Ga(α + 1, β + x):
Z ∞
Γ(α + 1)
θ(α+1)−1 e−(β+x)θ dθ = .
0 (β + x)α+1
Entonces,
β α Γ(α + 1) βα αΓ(α)
f (x) = α+1
=
Γ(α) (β + x) Γ(α) (β + x)α+1
αβ α
= ,
(β + x)α+1
donde se ha utilizado la propiedad básica de la función gamma,
Γ(α + 1) = αΓ(α).
NOTA:
Ver, por ejemplo,
http://en.wikipedia.org/wiki/Pareto_distribution
6
P (Z ∈ Iz ) P (X ∈ Ix ) · amplitud (Ix ) dx
pZ (z) ≈ = ≈ pX (x)
amplitud (Iz ) amplitud (Ix ) · amplitud (Iz ) dz
Ejemplo
Supongamos que X es una variable aleatoria con función de densidad
pX (x) = 2x si x ∈ (0, 1)
1
Si Z = ¿cuál es la densidad pZ (z)?
X
La transformación inversa es g −1 (Z) = 1/Z entonces, la función de densidad es
−1
dg (z) 2 1
−1
pZ (z) = pX (g (z)) = − = 2
dz z z 2 z 3
y los posibles valores de Z van de 1 a ∞.
Entonces,
2
pZ (z) = if z ∈ (1, ∞)
z3
fZ (z) = fX (z − β) · 1
= αβ α z −α−1 ,
7
El teorema de Bayes
Se tiene que, para los sucesos A1 , . . . , An y B,
P (B|Ai )P (Ai ) P (B|Ai )P (Ai )
P (Ai |B) = = P
n ∝ P (B|Ai )P (Ai )
P (B)
P (B|Ai )P (Ai )
i=1
Ejemplo
Los mellizos pueden ser de dos tipos: (M) monocigóticos (que proceden del mismo
óvulo) o (D) dicigóticos (que proceden de óvulos diferentes). En general, los monocigóticos
se parecen mucho y son del mismo género, mientras que los dicigóticos en ocasiones son
bastante diferentes e incluso de géneros diferentes.
Ası́, asumiendo que los dos géneros son igualmente probables y denotando para cada
par de mellizos (mujer u hombre) como mm, hh, mh entonces
Ejemplo
Supongamos un juego televisivo en el que tienes que elegir entre tres puertas cerradas,
A, B o C. Detrás de dos de las puertas hay una peineta y en la otra hay un coche, con
igual probabilidad en los tres casos. Por tanto, la probabilidad de ganar el coche en cada
una de las puertas es
p(A) = 31 , p(B) = 13 , p(C) = 13 .
Después de que hayas elegido una puerta, digamos A, antes de mostrarte lo que hay
detrás de la puerta, el presentador (Wyoming) abre otra puerta, digamos B, que tiene
una peineta. En este punto te ofrece la opción de cambiar de la puerta A a la puerta C.
¿Qué deberı́as hacer?
8
Intuitivamente parece que tú has elegido la puerta adecuada, pero que Wyoming te
quiere liar... ası́, desde un punto de vista inocente la probabilidad de encontrar el coche
entre las dos puertas que quedan es 12 . Pero esto es falso...
Asumimos que Wyoming va en tu contra (cobra de la productora de televisión) y
calculamos cuál es la probabilidad de que el coche aparezca cuando él abre la puerta B,
una vez que tú hayas abierto la puerta A:
(i ) La probabilidad de que Wyoming abra la puerta B dado que el coche está detrás
de la puerta A es
1
p (BW y |A) =
2
ya que le es indiferente abrir la puerta B o C.
(ii ) La probabilidad de que Wyoming abra la puerta B dado que el coche está detrás
de la puerta B es
p (BW y |B) = 0
(iii ) La probabilidad de que Wyoming abra la puerta B dado que el coche está detrás
de la puerta C es
p (BW y |C) = 1
p(BW y ) = p (BW y |A) · p (A) + p (BW y |B) · p (B) + p (BW y |C) · p (C) =
1 1 1 1 1
= · +0· +1· =
2 3 3 3 2
1 1
p (BW y |A) · p (A) 2
· 3 1
p (A|BW y ) = = 1 =
p(BW y ) 2
3
9
como el denominador f (y) es independiente de x, entonces se puede escribir el teorema
en la forma de proporcionalidad (∝):
Este resultado es útil para los cálculos porque implica que se pueden olvidar las constantes
multiplicativas hasta el final de los cálculos en modelos complicados.
Ejemplo
P (x|y)f (y)
f (y|x) = ∝ P (x|y)f (y)
P (x)
y x e−y −βy
∝ βe
x!
∝ y x e−(β+1)y
∝ y (x+1)−1 e−(β+1)y
Ejemplo
β α α−1 −βθ
∝ θe−θx θ e
Γ(α)
∝ θ(α+1)−1 e−(β+x)θ
que está relacionado con una distribución gamma, es decir, θ|x ∼ Ga(α + 1, β + x).
10
La media y varianza condicionadas.
Dadas dos variables X e Y , definimos la media y varianza de X cuando Y = y como
Z
E [X|Y = y] = xf (x|y) dx
Z
V ar [X|Y = y] = (x − E[X|Y = y])2 f (x|y) dx
Teorema
Demostración:
(i ) Se tenı́a que, en general,
Z
E(g(x)) = g(x)f (x) dx
Z Z
= xf (x|y)dx f (y) dy
Z Z
= x f (x|y)f (y)dy dx
Z Z
= x f (x, y)dy dx
Z
= xf (x) dx = Ex [X]
(ii ) Se generaliza trivialmente el resultado anterior para una función cualquiera h de modo
que
E[E[h(X)|Y ]] = E[h(X)]
11
E[E[X 2 |Y ]] = E[X 2 ]
Ası́
= E[E[X 2 |Y ]] − E[E[X|Y ]2 ]
= E[X 2 ] − E[E[X|Y ]2 ]
Mientras que
= E[E[X|Y ]2 ] − (E[X])2
Ejemplo
1
= la media de la exponencial
β
12
V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]
1 1
= + 2
β β
β+1
=
β2
β p
Sustituyendo p = 1+β
y despejando β = 1−p
, se obtiene que
1−p q
E[X] = =
p p
2
1−p 1−p
V ar[X] = +
p p
1−p q
= 2
= 2,
p p
que son los momentos que se obtienen directamente para la distribución geométrica en la
notación habitual.
Ejemplo
∞
βα
Z
= θ(α−1)−1 e−βθ dθ
Γ(α) 0
β α Γ(α − 1) β
E[X] = α−1
= ,
Γ(α) β α−1
es decir, la esperanza sólo existe si α > 1.
Hemos visto anteriormente que Z = X + β ∼ PA(β, α). De este modo, podemos
calcular la media de X utilizando también la fórmula para la media de una distribución
Pareto:
13
E[X] = E[Z] − β
αβ
= −β [para α > 1]
α−1
β
= .
α−1
p(1, 0, 0, 1, 0, 1, 1, 0, 1, 1) = ?
p(1, 0, 1, 0, 1, 1, 0, 1, 1, 0) = ?
p(1, 1, 0, 0, 1, 1, 0, 0, 1, 1) = ?
¿Hay algún argumento para asignarles el mismo valor de probabilidad? Se puede ob-
servar que cada secuencia contiene 6 unos y cuatro ceros.
Definición
Sea p(y1 , . . . , yn ) la distribución conjunta de Y1 , . . . , Yn .
Si p(y1 , . . . , yn ) = p(yπ1 , . . . , yπn ) para todas las permutaciones π de {1, . . . , n}, enton-
ces Y1 , . . . , Yn se dice que son intercambiables
P (Y10 = 1) = a
P (Y10 = 1|Y1 = Y2 = · · · = Y8 = Y9 = 1) = b
14
Supongamos que se conoce el valor del parámetro θ que es la tasa real de felicidad.
¿Son razonables las siguientes probabilidades?
P (Y10 = 1|θ) ≈ θ
P (Y10 = 1|Y1 = Y2 = · · · = Y8 = Y9 = 1, θ) ≈ θ
P (Y9 = 1|Y1 = Y2 = · · · = Y8 = Y10 = 1, θ) ≈ θ
Por otro lado, se puede describir la información previa que se tiene sobre el parámetro
θ mediante la distribución p(θ) denominada distribución a priori.
La distribución marginal es entonces
Z 1
p(y1 , . . . , y10 ) = p(y1 , . . . , y10 |θ)p(θ)dθ =
0
Z 1 P P
= θ yi (1 − θ)10− yi p(θ)dθ
0
Y1 , . . . , Yn |θ i.i.d.
=⇒ Y1 , . . . , Yn son intercambiables
θ ∼ p(θ)
15
Aunque lo que resulta más interesante es la implicación contraria, lo que lleva al
teorema de de Finetti:
Y1 , . . . , Yn |θ i.i.d.
⇐⇒ Y1 , . . . , Yn son intercambiables para todo n
θ ∼ p(θ)
Se puede expresar como:
Teorema de de Finetti
Sea Yi ∈ Y para todo i ∈ {1, 2, . . .}, supongamos que para todo n el modelo para
Y1 , . . . , Yn es intercambiable:
16