Introduccion A La Estadistica Bayesiana PDF

Tema 1: Introducción a la Estadı́stica
Bayesiana
Introducción
En general, se usan probabilidades de modo informal para expresar la información o la incertidumbre
que se tiene acerca de observaciones de cantidades desconocidas. Sin embargo, el uso de probabilida-
des para expresar la información se puede hacer de modo formal. Desde el punto de vista matemático
se puede demostrar que con el Cálculo de Probabilidades se puede representar de modo numérico el
conjunto de racional de creencias, de modo que existe una relación entre probabilidad y e información
y la regla de Bayes proporciona un modo natural de actualización de las creencias cuando aparece
nueva información. Este proceso de aprendizaje inductivo por medio de la regla de Bayes es la base
de la Inferencia Bayesiana.
De manera general, los métodos bayesianos son métodos de análisis de datos que se derivan de
los principios de la inferencia bayesiana. Estos métodos, proporcionan
– Estimadores de los parámetros que tienen buenas propiedades estadı́sticas;
– Una descripción parsimoniosa (simple) de los datos observados;
– Estimación de los datos missing y predicciones de futuras observaciones;
– Una metodologı́a computacional potente para la estimación, selección y validación de modelos.
La metodologı́a bayesiana consta de tres pasos fundamentales:
1. Especificar un modelo de probabilidad que incluya algún tipo de conocimiento previo (a priori)
sobre los parámetros del modelo dado.
2. Actualizar el conocimiento sobre los parámetros desconocidos condicionando este modelo de

probabilidad a los datos observados.
3. Evaluar el ajuste del modelo a los datos y la sensibilidad de las conclusiones a cambios en los
supuestos del modelo.
1
La diferencia fundamental entre la estadı́stica clásica (frecuentista) y la bayesiana es el concepto de
probabilidad. Para la estadı́stica clásica es un concepto objetivo, que se encuentra en la naturaleza,
mientras que para la estadı́stica bayesiana se encuentra en el observador, siendo ası́ un concepto
subjetivo. De este modo, en estadı́stica clásica sólo se toma como fuente de información las muestras
obtenidas suponiendo, para los desarrollos matemáticos, que se pueden tomar tamaños lı́mite de
las mismas. En el caso bayesiano, sin embargo, además de la muestra también juega un papel
fundamental la información previa o externa que se posee en relación a los fenómenos que se tratan
de modelizar.
Definiciones y Teoremas Básicos

El concepto básico en estadı́stica bayesiana es el de probabilidad condicional :
Para dos sucesos A y B,
P (A ∩ B)
P (A|B) = ∝ P (A ∩ B)
P (B)
Se puede aplicar esta definición también a variables discretas o continuas.
Desde el punto de vista bayesiano, todas las probabilidades son condicionales porque casi siempre
existe algún conocimiento previo o experiencia acerca de los sucesos.
Ley de la Probabilidad Total:

Para un suceso A y una partición B1 , . . . , Bk ,
k
X
P (A) = P (A|Bi )P (Bi )
i=1
Se puede aplicar el teorema a variables discretas:

X
f (x) = f (x|Y = y)P (Y = y)
y
o a variables continuas: Z
f (x) = f (x|y)f (y) dy.
Ejemplo:
En una fábrica de galletas se embalan en 4 cadenas de montaje; A1 , A2 , A3 y A4 . El 35% de la
producción total se embala en la cadena A1 y el 20%, 24% y 21% en A2 , A3 y A4 respectivamente.
Los datos indican que no se embalan correctamente un porcentaje pequeño de las cajas; el 1% de
A1 , el 3% de A2 , el 2.5% de A3 y el 2% de A4 . ¿Cuál es la probabilidad de que una caja elegida al
azar de la producción total sea defectuosa?
Defino como D = defectuosa.
2
Luego,
4
X
P (D) = P (D|Ai )P (Ai ) =
i=1
= 0.01 × 0.35 + 0.03 × 0.20 + 0.025 × 0.24 +

+0.02 × 0.21 =
= 0.0197
Ejemplo:
Supongamos que X|Y ∼ Pois(Y ), una distribución Poisson, para x = 0, 1, 2, · · · para y > 0, donde
Y ∼ Exp(β), una distribución exponencial
y x −y
P (x|y) = e
x!
f (y) = β exp(−βy)
Entonces, la distribución marginal de X es
Z ∞
P (x) = P (x|y)f (y) dy
−∞
∞
y x −y
Z
= e β exp [−βy] dy
0 x!
Z ∞
β
= y x exp [−(β + 1)y] dy
x! 0
Z ∞
β
= y (x+1)−1 exp [−(β + 1)y] dy
x! 0
Para resolver la integral, se observa que el integrando está relacionado con una distribución gamma
Ga(x + 1, β + 1) :
NOTA:
Si X ∼ Ga(a, b) su función de densidad es
ba a−1
f (x; a, b) = x exp[−bx],
Γ(a)
de este modo
∞ ∞
ba a−1
Z Z
Γ(a)
x exp[−bx]dx = 1 =⇒ xa−1 exp[−bx]dx =
0 Γ(a) 0 ba
3
Luego
β Γ(x + 1)
P (x) =
x! (β + 1)(x+1)
β x!
=
x! (β + 1)(x+1)
β
=
(β + 1)(x+1)
p
Si se denota como p = β/(1 + β), entonces 0 < p < 1 y despejando β = 1−p
,
−x −x
p 1
P (x) = p 1 + =p =
1−p 1−p
= p(1 − p)x ,
para x = 0, 1, 2, . . .
Se observa que es una distribución geométrica con parámetro p.
Ejemplo:
Si X|θ ∼ Exp(θ) y θ ∼ Ga(α, β), la distribución marginal es
Z ∞
β α α−1 −βθ
f (x) = θe−θx θ e dθ
0 Γ(α)
∞
βα
Z
= θα e−(β+x)θ dθ
Γ(α) 0
∞
βα
Z
= θ(α+1)−1 e−(β+x)θ dθ
Γ(α) 0
y el integrando está relacionado con otra distribución gamma, Ga(α + 1, β + x):

Z ∞
Γ(α + 1)
θ(α+1)−1 e−(β+x)θ dθ = .
0 (β + x)α+1
Entonces,
β α Γ(α + 1) βα αΓ(α)
f (x) = α+1
=
Γ(α) (β + x) Γ(α) (β + x)α+1
αβ α
= ,
(β + x)α+1
donde se ha utilizado la propiedad básica de la función gamma,
Γ(α + 1) = αΓ(α).
No es una distribución estándar, pero si se define la v.a. Z = X + β, se puede ver que Z tiene
una distribución de Pareto.
NOTA:
Ver, por ejemplo,
4
http://en.wikipedia.org/wiki/Pareto_distribution
Para ello aplicamos el teorema del cambio de variable:

Sea X una v.a. con función de densidad px y sea g una función diferenciable, monótona e
invertible. Definimos otra v.a como Y = g(X), entonces la función de densidad de Y es
dg −1 (y)

−1
pY (y) = pX g (y) ·
dy
O equivalentemente
dx
pY (y) = pX (x) ·
dy
donde x = g −1 (y).
Ver demostración, e.g,. en
http://www.stat.duke.edu/~michael/screen.pdf
En el caso del ejemplo,
fZ (z) = fX (z − β) · 1
= αβ α z −α−1 ,
para Z > β. Luego Z ∼ PA(β, α).

La distribución de Pareto se aplicó inicialmente a la modelización del reparto de riqueza. Es la
llamada ley 80-20 que afirma que el 20% de la poblacion posee el 80% de la riqueza.
El teorema de Bayes
Se tiene que, para los sucesos A1 , . . . , An y B,
P (B|Ai )P (Ai ) P (B|Ai )P (Ai )
P (Ai |B) = = P
n ∝ P (B|Ai )P (Ai )
P (B)
P (B|Ai )P (Ai )
i=1
Ejemplo:
Volviendo al ejemplo de las galletas, supongamos que descubrimos que una caja es defectuosa.
Queremos calcular la probabilidad de que la caja proceda de A1 .
P (D|A1 )P (A1 ) 0.01 × 0.35

P (A1 |D) = = ≈ 0.18
P (D) 0.0197
Ejemplo:
5
Supongamos un juego televisivo en el que tienes que elegir entre tres puertas cerradas, A, B o C.
Detrás de dos de las puertas hay una peineta y en la otra hay un coche, con igual probabilidad en
los tres casos. Por tanto, la probabilidad de ganar el coche en cada una de las puertas es
p(A) = 31 , p(B) = 13 , p(C) = 31 .
Después de que hayas elegido una puerta, digamos A, antes de mostrarte lo que hay detrás de la
puerta, el presentador (Risto Mejide) abre otra puerta, digamos B, que tiene una peineta. En este
punto te ofrece la opción de cambiar de la puerta A a la puerta C. ¿Qué deberı́as hacer?
Intuitivamente parece que tú has elegido la puerta adecuada, pero que Risto Mejide te quiere
liar... ası́, desde un punto de vista inocente la probabilidad de encontrar el coche entre las dos
puertas que quedan es 21 . Pero esto es falso...
Asumimos que Risto Mejide va en tu contra (cobra de la productora de televisión) y calculamos
cuál es la probabilidad de que el coche aparezca cuando él abre la puerta B, una vez que tú hayas
abierto la puerta A:
(i ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche está detrás de la
puerta A es
1
p (BRM |A) =
2
ya que le es indiferente abrir la puerta B o C.
(ii ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche está detrás de la
puerta B es
p (BRM |B) = 0
porque supones que no es estúpido.
(iii ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche está detrás de la
puerta C es
p (BRM |C) = 1
Aplicando la definición de probabilidad condicionada se obtienen las siguientes distribuciones

conjuntas:
1 1 1
p (BRM , A) = p (BRM |A) · p (A) = · =
2 3 6
1
p (BRM , B) = p (BRM |B) · p (B) = 0 · =0
3
1 1
p (BRM , C) = p (BRM |C) · p (C) = 1 · =
3 3
6
Por otro lado, dado que los sucesos son mutuamente excluyentes, por la ley de probabilidad total
1 1 1
p(BRM ) = p (BRM , A) + p (BRM , B) + p (BRM , C) = +0+ =
6 3 2
Finalmente, aplicando el teorema de Bayes, se tiene que
1 1
p (BRM |A) · p (A) 2
· 3 1
p (A|BRM ) = = 1 =
p(BRM ) 2
3
p (BRM |C) · p (C) 1 · 13 2

p (C|BRM ) = = 1 =
p(BRM ) 2
3
Luego es mucho mejor que elijas la puerta C .
Se puede aplicar el teorema de Bayes a variables discretas y continuas. En el caso de que la v.a.
X sea continua se tiene
f (y|x)f (x) f (y|x)f (x)
f (x|y) = =R ,
f (y) R
f (y|x)f (x)dx
como el denominador f (y) es independiente de x, entonces se puede escribir el teorema en la forma
de proporcionalidad (∝):
f (x|y) ∝ f (y|x)f (x).
Este resultado es útil para los cálculos porque implica que se pueden olvidar las constantes multi-
plicativas hasta el final de los cálculos en modelos complicados.
Ejemplo:
Retomando el ejemplo de la Poisson, se tenı́a que Y ∼ Exp(β) y X|Y ∼ Pois(Y ). Calculamos la
distribución de Y |x, sabiendo que la distribución marginal de X era una geométrica:
P (x|y)f (y)
f (y|x) =
P (x)
y x e−y
x!
βe−βy
= β
(β+1)x+1
(β + 1)x+1 x −(β+1)y
= y e
x!
(β + 1)x+1 (x+1)−1 −(β+1)y

= y e
Γ(x + 1)
que es la densidad de una variable gamma: Ga(x + 1, β + 1).
Ejemplo:
Volviendo al ejemplo de la distribución de Pareto, donde X|θ ∼ Exp(θ) y θ ∼ Ga(α, β), calculamos
la distribución de θ dada una observación x.
7
f (θ|x) ∝ f (x|θ)f (θ)
β α α−1 −βθ
∝ θe−θx θ e
Γ(α)
∝ θ(α+1)−1 e−(β+x)θ
que está relacionado con una distribución gamma, es decir, θ|x ∼ Ga(α + 1, β + x).
La media y varianza condicional.

Dadas dos variables X e Y , definimos la media y varianza de X cuando Y = y como
Z
E [X|Y = y] = xf (x|y) dx
Z
V ar [X|Y = y] = (x − E[X|Y = y])2 f (x|y) dx
El siguiente teorema nos proporciona la relación entre la esperanza y varianza marginal y la

esperanza y varianza condicional.
Teorema Dadas dos variables X e Y , se tiene que
(i ) Ex [X] = Ey [Ex [X|Y ]]
(ii ) V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]
Demostración:
(i ) Se tenı́a que, en general, Z
E(g(x)) = g(x)f (x) dx
por ello, como E[X|Y ] es una función de Y,

Z
Ey [Ex [X|Y ]] = Ex (X|y)f (y) dy
Z Z
= xf (x|y)dx f (y) dy
Z Z
= x f (x|y)f (y)dy dx
Z Z
= x f (x, y)dy dx
Z
= xf (x) dx = Ex [X]
8
(ii ) La demostración, que es más larga, se puede ver, por ejemplo, en el libro de Lee (2012).
Ejemplo:
Volviendo al ejemplo de la Poisson, se tenı́a que Y ∼ Exp(β) y X|Y ∼ Pois(Y ).Supongamos
que queremos calcular la media y varianza de X (y que no sabemos nada acerca de la distribución
marginal de X que sabı́amos de antes que sigue una distribución geométrica).
Ex [X] = Ey [Ex [X|Y ]]
= Ey [Y ] porque X|Y ∼ Pois(Y )
1
= la media de la exponencial
β
V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]
= Ey [Y ] + V ary [Y ] porque media = varianza = Y
1 1
= + 2
β β
β+1
=
β2
β p
Sustituyendo p = 1+β
y despejando β = 1−p
, se obtiene que
1−p q
E[X] = =
p p
2
1−p 1−p
V ar[X] = +
p p
1−p q
= 2
= 2,
p p
que son los momentos que se obtienen directamente para la distribución geométrica en la notación
habitual.
Ejemplo:
Retomando el ejemplo de la distribución de Pareto, donde X|θ ∼ Exp(θ) y θ ∼ Ga(α, β), se tiene
9
que
E[X] = Eθ [Ex [X|θ]] = Eθ [1/θ]

Z ∞
1 β α α−1 −βθ
= θ e dθ
0 θ Γ(α)
∞
βα
Z
= θ(α−1)−1 e−βθ dθ
Γ(α) 0
El integrando es el núcleo de una distribución gamma; Ga(α − 1, β). Entonces,
β α Γ(α − 1) β
E[X] = = ,
Γ(α) β α−1 α−1
es decir, la esperanza sólo existe si α > 1.
Hemos visto anteriormente que Z = X + β ∼ PA(β, α). De este modo, podemos calcular la media
de X utilizando también la fórmula para la media de una distribución Pareto:
E[X] = E[Z] − β
αβ
= −β [para α > 1]
α−1
β
= .
α−1
10

Introduccion A La Estadistica Bayesiana PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introduccion A La Estadistica Bayesiana PDF

Cargado por

Copyright:

Formatos disponibles

Tema 1: Introducción a la Estadı́stica

– Estimadores de los parámetros que tienen buenas propiedades estadı́sticas;

– Una descripción parsimoniosa (simple) de los datos observados;

– Estimación de los datos missing y predicciones de futuras observaciones;

– Una metodologı́a computacional potente para la estimación, selección y validación de modelos.

La metodologı́a bayesiana consta de tres pasos fundamentales:

2. Actualizar el conocimiento sobre los parámetros desconocidos condicionando este modelo de

Definiciones y Teoremas Básicos

Ley de la Probabilidad Total:

Se puede aplicar el teorema a variables discretas:

= 0.01 × 0.35 + 0.03 × 0.20 + 0.025 × 0.24 +

Entonces, la distribución marginal de X es

y el integrando está relacionado con otra distribución gamma, Ga(α + 1, β + x):

Para ello aplicamos el teorema del cambio de variable:

En el caso del ejemplo,

para Z > β. Luego Z ∼ PA(β, α).

P (D|A1 )P (A1 ) 0.01 × 0.35

p(A) = 31 , p(B) = 13 , p(C) = 31 .

porque supones que no es estúpido.

Aplicando la definición de probabilidad condicionada se obtienen las siguientes distribuciones

p (BRM |C) · p (C) 1 · 13 2

Luego es mucho mejor que elijas la puerta C .

(β + 1)x+1 (x+1)−1 −(β+1)y

que es la densidad de una variable gamma: Ga(x + 1, β + 1).

La media y varianza condicional.

El siguiente teorema nos proporciona la relación entre la esperanza y varianza marginal y la

Teorema Dadas dos variables X e Y , se tiene que

(i ) Ex [X] = Ey [Ex [X|Y ]]

(ii ) V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]

por ello, como E[X|Y ] es una función de Y,

Ex [X] = Ey [Ex [X|Y ]]

= Ey [Y ] porque X|Y ∼ Pois(Y )

V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]

= Ey [Y ] + V ary [Y ] porque media = varianza = Y

E[X] = Eθ [Ex [X|θ]] = Eθ [1/θ]

El integrando es el núcleo de una distribución gamma; Ga(α − 1, β). Entonces,

También podría gustarte