Está en la página 1de 10

Tema 1: Introducción a la Estadı́stica

Bayesiana

Introducción
En general, se usan probabilidades de modo informal para expresar la información o la incertidumbre
que se tiene acerca de observaciones de cantidades desconocidas. Sin embargo, el uso de probabilida-
des para expresar la información se puede hacer de modo formal. Desde el punto de vista matemático
se puede demostrar que con el Cálculo de Probabilidades se puede representar de modo numérico el
conjunto de racional de creencias, de modo que existe una relación entre probabilidad y e información
y la regla de Bayes proporciona un modo natural de actualización de las creencias cuando aparece
nueva información. Este proceso de aprendizaje inductivo por medio de la regla de Bayes es la base
de la Inferencia Bayesiana.
De manera general, los métodos bayesianos son métodos de análisis de datos que se derivan de
los principios de la inferencia bayesiana. Estos métodos, proporcionan

– Estimadores de los parámetros que tienen buenas propiedades estadı́sticas;

– Una descripción parsimoniosa (simple) de los datos observados;

– Estimación de los datos missing y predicciones de futuras observaciones;

– Una metodologı́a computacional potente para la estimación, selección y validación de modelos.

La metodologı́a bayesiana consta de tres pasos fundamentales:

1. Especificar un modelo de probabilidad que incluya algún tipo de conocimiento previo (a priori)
sobre los parámetros del modelo dado.

2. Actualizar el conocimiento sobre los parámetros desconocidos condicionando este modelo de


probabilidad a los datos observados.

3. Evaluar el ajuste del modelo a los datos y la sensibilidad de las conclusiones a cambios en los
supuestos del modelo.

1
La diferencia fundamental entre la estadı́stica clásica (frecuentista) y la bayesiana es el concepto de
probabilidad. Para la estadı́stica clásica es un concepto objetivo, que se encuentra en la naturaleza,
mientras que para la estadı́stica bayesiana se encuentra en el observador, siendo ası́ un concepto
subjetivo. De este modo, en estadı́stica clásica sólo se toma como fuente de información las muestras
obtenidas suponiendo, para los desarrollos matemáticos, que se pueden tomar tamaños lı́mite de
las mismas. En el caso bayesiano, sin embargo, además de la muestra también juega un papel
fundamental la información previa o externa que se posee en relación a los fenómenos que se tratan
de modelizar.

Definiciones y Teoremas Básicos


El concepto básico en estadı́stica bayesiana es el de probabilidad condicional :
Para dos sucesos A y B,
P (A ∩ B)
P (A|B) = ∝ P (A ∩ B)
P (B)
Se puede aplicar esta definición también a variables discretas o continuas.
Desde el punto de vista bayesiano, todas las probabilidades son condicionales porque casi siempre
existe algún conocimiento previo o experiencia acerca de los sucesos.

Ley de la Probabilidad Total:


Para un suceso A y una partición B1 , . . . , Bk ,

k
X
P (A) = P (A|Bi )P (Bi )
i=1

Se puede aplicar el teorema a variables discretas:


X
f (x) = f (x|Y = y)P (Y = y)
y

o a variables continuas: Z
f (x) = f (x|y)f (y) dy.

Ejemplo:
En una fábrica de galletas se embalan en 4 cadenas de montaje; A1 , A2 , A3 y A4 . El 35% de la
producción total se embala en la cadena A1 y el 20%, 24% y 21% en A2 , A3 y A4 respectivamente.
Los datos indican que no se embalan correctamente un porcentaje pequeño de las cajas; el 1% de
A1 , el 3% de A2 , el 2.5% de A3 y el 2% de A4 . ¿Cuál es la probabilidad de que una caja elegida al
azar de la producción total sea defectuosa?
Defino como D = defectuosa.

2
Luego,
4
X
P (D) = P (D|Ai )P (Ai ) =
i=1

= 0.01 × 0.35 + 0.03 × 0.20 + 0.025 × 0.24 +


+0.02 × 0.21 =

= 0.0197

Ejemplo:
Supongamos que X|Y ∼ Pois(Y ), una distribución Poisson, para x = 0, 1, 2, · · · para y > 0, donde
Y ∼ Exp(β), una distribución exponencial
y x −y
P (x|y) = e
x!
f (y) = β exp(−βy)

Entonces, la distribución marginal de X es

Z ∞
P (x) = P (x|y)f (y) dy
−∞


y x −y
Z
= e β exp [−βy] dy
0 x!
Z ∞
β
= y x exp [−(β + 1)y] dy
x! 0

Z ∞
β
= y (x+1)−1 exp [−(β + 1)y] dy
x! 0

Para resolver la integral, se observa que el integrando está relacionado con una distribución gamma
Ga(x + 1, β + 1) :

NOTA:
Si X ∼ Ga(a, b) su función de densidad es
ba a−1
f (x; a, b) = x exp[−bx],
Γ(a)
de este modo
∞ ∞
ba a−1
Z Z
Γ(a)
x exp[−bx]dx = 1 =⇒ xa−1 exp[−bx]dx =
0 Γ(a) 0 ba

3
Luego
β Γ(x + 1)
P (x) =
x! (β + 1)(x+1)

β x!
=
x! (β + 1)(x+1)

β
=
(β + 1)(x+1)
p
Si se denota como p = β/(1 + β), entonces 0 < p < 1 y despejando β = 1−p
,
 −x  −x
p 1
P (x) = p 1 + =p =
1−p 1−p
= p(1 − p)x ,

para x = 0, 1, 2, . . .
Se observa que es una distribución geométrica con parámetro p.

Ejemplo:
Si X|θ ∼ Exp(θ) y θ ∼ Ga(α, β), la distribución marginal es
Z ∞
β α α−1 −βθ
f (x) = θe−θx θ e dθ
0 Γ(α)


βα
Z
= θα e−(β+x)θ dθ
Γ(α) 0


βα
Z
= θ(α+1)−1 e−(β+x)θ dθ
Γ(α) 0

y el integrando está relacionado con otra distribución gamma, Ga(α + 1, β + x):


Z ∞
Γ(α + 1)
θ(α+1)−1 e−(β+x)θ dθ = .
0 (β + x)α+1
Entonces,
β α Γ(α + 1) βα αΓ(α)
f (x) = α+1
=
Γ(α) (β + x) Γ(α) (β + x)α+1

αβ α
= ,
(β + x)α+1
donde se ha utilizado la propiedad básica de la función gamma,

Γ(α + 1) = αΓ(α).

No es una distribución estándar, pero si se define la v.a. Z = X + β, se puede ver que Z tiene
una distribución de Pareto.
NOTA:
Ver, por ejemplo,

4
http://en.wikipedia.org/wiki/Pareto_distribution

Para ello aplicamos el teorema del cambio de variable:


Sea X una v.a. con función de densidad px y sea g una función diferenciable, monótona e
invertible. Definimos otra v.a como Y = g(X), entonces la función de densidad de Y es
 dg −1 (y)

−1
pY (y) = pX g (y) ·
dy
O equivalentemente
dx
pY (y) = pX (x) ·
dy
donde x = g −1 (y).
Ver demostración, e.g,. en

http://www.stat.duke.edu/~michael/screen.pdf

En el caso del ejemplo,

fZ (z) = fX (z − β) · 1
= αβ α z −α−1 ,

para Z > β. Luego Z ∼ PA(β, α).


La distribución de Pareto se aplicó inicialmente a la modelización del reparto de riqueza. Es la
llamada ley 80-20 que afirma que el 20% de la poblacion posee el 80% de la riqueza.

El teorema de Bayes
Se tiene que, para los sucesos A1 , . . . , An y B,
P (B|Ai )P (Ai ) P (B|Ai )P (Ai )
P (Ai |B) = = P
n ∝ P (B|Ai )P (Ai )
P (B)
P (B|Ai )P (Ai )
i=1

Ejemplo:
Volviendo al ejemplo de las galletas, supongamos que descubrimos que una caja es defectuosa.
Queremos calcular la probabilidad de que la caja proceda de A1 .

P (D|A1 )P (A1 ) 0.01 × 0.35


P (A1 |D) = = ≈ 0.18
P (D) 0.0197

Ejemplo:

5
Supongamos un juego televisivo en el que tienes que elegir entre tres puertas cerradas, A, B o C.
Detrás de dos de las puertas hay una peineta y en la otra hay un coche, con igual probabilidad en
los tres casos. Por tanto, la probabilidad de ganar el coche en cada una de las puertas es

p(A) = 31 , p(B) = 13 , p(C) = 31 .

Después de que hayas elegido una puerta, digamos A, antes de mostrarte lo que hay detrás de la
puerta, el presentador (Risto Mejide) abre otra puerta, digamos B, que tiene una peineta. En este
punto te ofrece la opción de cambiar de la puerta A a la puerta C. ¿Qué deberı́as hacer?
Intuitivamente parece que tú has elegido la puerta adecuada, pero que Risto Mejide te quiere
liar... ası́, desde un punto de vista inocente la probabilidad de encontrar el coche entre las dos
puertas que quedan es 21 . Pero esto es falso...
Asumimos que Risto Mejide va en tu contra (cobra de la productora de televisión) y calculamos
cuál es la probabilidad de que el coche aparezca cuando él abre la puerta B, una vez que tú hayas
abierto la puerta A:

(i ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche está detrás de la
puerta A es
1
p (BRM |A) =
2
ya que le es indiferente abrir la puerta B o C.

(ii ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche está detrás de la
puerta B es
p (BRM |B) = 0

porque supones que no es estúpido.

(iii ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche está detrás de la
puerta C es
p (BRM |C) = 1

Aplicando la definición de probabilidad condicionada se obtienen las siguientes distribuciones


conjuntas:
1 1 1
p (BRM , A) = p (BRM |A) · p (A) = · =
2 3 6

1
p (BRM , B) = p (BRM |B) · p (B) = 0 · =0
3

1 1
p (BRM , C) = p (BRM |C) · p (C) = 1 · =
3 3

6
Por otro lado, dado que los sucesos son mutuamente excluyentes, por la ley de probabilidad total
1 1 1
p(BRM ) = p (BRM , A) + p (BRM , B) + p (BRM , C) = +0+ =
6 3 2
Finalmente, aplicando el teorema de Bayes, se tiene que
1 1
p (BRM |A) · p (A) 2
· 3 1
p (A|BRM ) = = 1 =
p(BRM ) 2
3

p (BRM |C) · p (C) 1 · 13 2


p (C|BRM ) = = 1 =
p(BRM ) 2
3

Luego es mucho mejor que elijas la puerta C .

Se puede aplicar el teorema de Bayes a variables discretas y continuas. En el caso de que la v.a.
X sea continua se tiene
f (y|x)f (x) f (y|x)f (x)
f (x|y) = =R ,
f (y) R
f (y|x)f (x)dx
como el denominador f (y) es independiente de x, entonces se puede escribir el teorema en la forma
de proporcionalidad (∝):
f (x|y) ∝ f (y|x)f (x).

Este resultado es útil para los cálculos porque implica que se pueden olvidar las constantes multi-
plicativas hasta el final de los cálculos en modelos complicados.

Ejemplo:
Retomando el ejemplo de la Poisson, se tenı́a que Y ∼ Exp(β) y X|Y ∼ Pois(Y ). Calculamos la
distribución de Y |x, sabiendo que la distribución marginal de X era una geométrica:

P (x|y)f (y)
f (y|x) =
P (x)

y x e−y
x!
βe−βy
= β
(β+1)x+1

(β + 1)x+1 x −(β+1)y
= y e
x!

(β + 1)x+1 (x+1)−1 −(β+1)y


= y e
Γ(x + 1)

que es la densidad de una variable gamma: Ga(x + 1, β + 1).

Ejemplo:
Volviendo al ejemplo de la distribución de Pareto, donde X|θ ∼ Exp(θ) y θ ∼ Ga(α, β), calculamos
la distribución de θ dada una observación x.

7
f (θ|x) ∝ f (x|θ)f (θ)

β α α−1 −βθ
∝ θe−θx θ e
Γ(α)

∝ θ(α+1)−1 e−(β+x)θ

que está relacionado con una distribución gamma, es decir, θ|x ∼ Ga(α + 1, β + x).

La media y varianza condicional.


Dadas dos variables X e Y , definimos la media y varianza de X cuando Y = y como
Z
E [X|Y = y] = xf (x|y) dx

Z
V ar [X|Y = y] = (x − E[X|Y = y])2 f (x|y) dx

El siguiente teorema nos proporciona la relación entre la esperanza y varianza marginal y la


esperanza y varianza condicional.

Teorema Dadas dos variables X e Y , se tiene que

(i ) Ex [X] = Ey [Ex [X|Y ]]

(ii ) V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]

Demostración:
(i ) Se tenı́a que, en general, Z
E(g(x)) = g(x)f (x) dx

por ello, como E[X|Y ] es una función de Y,


Z
Ey [Ex [X|Y ]] = Ex (X|y)f (y) dy

Z Z 
= xf (x|y)dx f (y) dy

Z Z 
= x f (x|y)f (y)dy dx

Z Z 
= x f (x, y)dy dx

Z
= xf (x) dx = Ex [X]

8
(ii ) La demostración, que es más larga, se puede ver, por ejemplo, en el libro de Lee (2012).

Ejemplo:
Volviendo al ejemplo de la Poisson, se tenı́a que Y ∼ Exp(β) y X|Y ∼ Pois(Y ).Supongamos
que queremos calcular la media y varianza de X (y que no sabemos nada acerca de la distribución
marginal de X que sabı́amos de antes que sigue una distribución geométrica).

Ex [X] = Ey [Ex [X|Y ]]

= Ey [Y ] porque X|Y ∼ Pois(Y )

1
= la media de la exponencial
β

V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]

= Ey [Y ] + V ary [Y ] porque media = varianza = Y

1 1
= + 2
β β

β+1
=
β2
β p
Sustituyendo p = 1+β
y despejando β = 1−p
, se obtiene que

1−p q
E[X] = =
p p
 2
1−p 1−p
V ar[X] = +
p p

1−p q
= 2
= 2,
p p
que son los momentos que se obtienen directamente para la distribución geométrica en la notación
habitual.

Ejemplo:
Retomando el ejemplo de la distribución de Pareto, donde X|θ ∼ Exp(θ) y θ ∼ Ga(α, β), se tiene

9
que

E[X] = Eθ [Ex [X|θ]] = Eθ [1/θ]


Z ∞
1 β α α−1 −βθ
= θ e dθ
0 θ Γ(α)


βα
Z
= θ(α−1)−1 e−βθ dθ
Γ(α) 0

El integrando es el núcleo de una distribución gamma; Ga(α − 1, β). Entonces,

β α Γ(α − 1) β
E[X] = = ,
Γ(α) β α−1 α−1
es decir, la esperanza sólo existe si α > 1.
Hemos visto anteriormente que Z = X + β ∼ PA(β, α). De este modo, podemos calcular la media
de X utilizando también la fórmula para la media de una distribución Pareto:

E[X] = E[Z] − β

αβ
= −β [para α > 1]
α−1

β
= .
α−1

10

También podría gustarte