Está en la página 1de 12

2.3.

Análisis bayesiano para datos normales 87

2.3. Análisis bayesiano para datos normales


Otra de las situaciones más frecuentes en la práctica estadı́stica es aquella en
la que nos encontramos con datos que provienen de una población Normal. Esta
situación tan frecuente introduce un grado de complejidad superior al que hemos
visto en las secciones anteriores pero también puede ser resuelto de forma inmedia-
ta bajo la perspectiva bayesiana. Esta complejidad viene determinada por el hecho
de que podemos considerar al problema de la inferencia en poblaciones normales
como un problema con dos parámetros de interés. Por ejemplo, supongamos el
caso más sencillo de una observación muesral x|µ, σ 2 ∼ N (µ, σ 2 ), y por lo tanto el
parámetro de interés es (µ, σ 2 ). En tal caso, la distribución a posteriori conjunta
se deduce también del Teorema de Bayes
π(µ, σ 2 |x) ∝ L(x|µ, σ 2 ) · π(µ, σ 2 ),
y por tanto la densidad a priori habrá de ser asignada para el parámetro conjunto
(µ, σ 2 ). Las densidades a posteriori de cada una de los parámetros (marginales) se
obtiene entonces de la a posteriori conjunta sin más que considerar

Z +∞ Z +∞
π(µ|x) = π(µ, σ 2 |x)dσ 2 = π(µ|σ 2 , x)π(σ 2 |x)dσ 2 , (2.25)
0 0
Z +∞ Z +∞
2 2
π(σ |x) = π(µ, σ |x)dµ = π(σ 2 |µ, x)π(µ|x)dµ, (2.26)
−∞ −∞
Observemos que el cálculo de las marginales puede por tanto hacerse directa-
mente de la conjunta o bien como una mixtura de las distribuciones condicionadas
a posteriori.
En general por tanto, nos encontramos con una muestra aleatoria simple de
una población normal x = (x1 , ..., xn ) ∼ N (µ, σ 2 ), en tal caso la verosimilitud de
los datos tendrá la expresión
½ Pn ¾
1 i=1 (xi − µ)2
L(x|µ, σ 2 ) = (2π)−n/2 (σ 2 )−n/2 exp − . (2.27)
2 σ2
Frecuentemente en el análisis bayesiano suele utilizarse el parámetro τ de-
nominado precisión en lugar de la varianza, pues interpreta de forma directa la
1
dispersión de una variable aleatoria ya que viene definido por τ = 2 , en términos
σ
de µ y τ la verosimilitud anterior puede reescribirse como
( n
)
−n/2 n/2 τ X 2
L(x|µ, τ ) = (2π) (τ ) exp − (xi − µ) . (2.28)
2 i=1

Mediante diferentes situaciones que paulatinamente irán incrementando el gra-


do de complejidad resolveremos este modelo.
88 Inferencia bayesiana

2.3.1. Caso de media desconocida y varianza conocida: análi-


sis conjugado
Consideremos una primera situación en la que la varianza σ 2 es conocida y que
por tanto, el único parámetro desconocido será la media µ, sobre la que deseamos
hacer inferencia.
La verosimilitud (2.28) tendrá ahora la expresión
½ Pn ¾
1 i=1 (xi − µ)2
L(x|µ) ∝ exp − , (2.29)
2 σ2
donde hemos prescindido (en términos de proporcionalidad) de la parte conocida
(recordemos que aquı́ σ 2 es conocida).
El único parámetro a estimar en este modelo será la media de la distribu-
ción normal. Consideremos para este caso, una densidad a priori para µ del tipo
N (µ0 , σ02 ) con µ0 , σ02 conocidos, es decir,
µ ¶
1 (µ − µ0 )2
π(µ) ∝ exp − (2.30)
2 σ02
Teorema 2.3 Para el caso de verosimilitud Normal con varianza σ 2 conocida,
con densidad a priori π(µ) de tipo N (µ0 , σ02 ) se tiene que la densidad a posteriori
es también Normal con parámetros a posteriori
µ ¶ µ ¶
(σ02 )−1 (σ12 )−1
E(µ|x) = µ0 · + x̄ · (2.31)
(σ02 )−1 + (σ 2 /n)−1 (σ02 )−1 + (σ 2 /n)−1
1
Var(µ|x) = (2.32)
(σ02 )−1
+ n(σ 2 )−1
Además la distribución predictiva de una futura observación es también de tipo
Normal.
Demostración: En efecto realizando el producto de (2.29) con (2.30) tenemos:
µ Pn ¶ µ ¶
1 i=1 (xi − θ)2 1 (µ − µ0 )2
π(µ|x) ∝ exp − · exp − ∝
2 σ2 2 σ02
½ µ Pn 2
Pn 2
¶¾
1 i=1 xi − 2µ i=1 xi + nµ µ2 − 2µµ0 + µ20
∝ exp − +
2 σ2 σ02
½ µ µ ¶ µ ¶¶¾ ½ ¾
1 2 n 1 nx̄ µ0 1 (µ − µ1 )2
∝ exp − µ + 2 +µ + ∝ exp − .
2 σ2 σ0 σ σ0 2 σ12
Observemos además que X̄ ∼ N (µ, σ 2 /n), luego para la distribución predictiva
de una simple nueva observación y sólo tenemos que considerar que y = (y−µ)+µ
y teniendo en cuenta que ambos sumandos son independientes uno de otro y que
(y − µ) ∼ N (0, σ 2 ),
2.3. Análisis bayesiano para datos normales 89

µ ∼ N (µ1 , σ12 )
se tiene que y ∼ N (µ1 , σ 2 + σ12 ).
Observemos que en términos de precisión hemos obtenido que la precisión a
posteriori cumple la relación
τ1 = τ0 + nτ, (2.33)
es decir, que la precisión a posteriori es la suma de las precisiones a priori y la
suma n veces de la precisión de los datos (que se supone conocida). Para la media
a posteriori también podemos deducir que,
τ0 τ1
E(θ|x̄) = µ1 = µ0 · + x̄ ·
τ0 + nτ τ0 + nτ
es decir, la esperanza a posteriori se puede expresar como una media ponderada
de la media a priori y la media muestral. Vemos de nuevo que la familia de dis-
tribuciones a priori Normal bajo muestre también Normal (en el caso de varianza
conocida) es una familia conjugada.

Ejemplo 2.21 Una de las cantidades de interés en la estadı́stica actuarial junto


con el número de reclamaciones que se reciben, es la cantidad reclamada (o tam-
bién denominada cuantı́a de la reclamación). Veamos un ejemplo simplificado para
esta situación. Supongamos que tratamos de estudiar la cuantı́a de las reclama-
ciones en una determinada póliza de un asegurado para una determinada cartera.
El investigador asume que dicha cantidad se distribuye de forma normal, con me-
dia µ y varianza conocida e igual a 200 euros. Realizar la inferencia bayesiana
considerando como densidad a priori para µ ∼ N (500, 200), conocidas las últimas
5 reclamaciones de un determinado cliente: 450, 500, 650, 600 y 550 euros, cada
una.

Solución: Puesto que estamos en las condiciones del teorema 2.3 basta con que
identifiquemos cada elemento para obtener de forma inmediata la densidad a pos-
teriori. En este caso, n = 5, µ0 = 500, σ 2 = 200 = σ02 , x̄ = 550, de donde se deduce
que la densidad a posteriori de µ es N (541,7; 33,33). Con esta densidad a poste-
riori podemos desarrollar toda la inferencia sobre µ. El caso Normal-Normal es
especialmente bien comportado para la estimación puntual puesto que al ser una
distribución simétrica y unimodal, tanto media como mediana y moda coinciden.
En este caso valen 541,7 (es decir, un estimador bayesiano puntual de la cuantı́a
media de una reclamación para esta cartera es 541,7 euros). Un intervalo bayesiano
de credibilidad al 95 % se obtiene fácilmente de cualquier tabla de la distribución
Normal o bien, utilizando FirstBayes. En la figura 2.24 puede verse el caso de
este ejemplo. Sólo debemos considerar ahora que el análisis que haremos es con
varianza conocida (Normal sample, known variance en la pestaña de Analyses
de FirstBayes) y que en la opción Data variance (esquina superior derecha)
debemos indicar 200. Los resultados obtenidos pueden verse en la figura 2.25, de
90 Inferencia bayesiana

donde vemos que el intervalo bayesiano de credibilidad con probabilidad 0,95 es


[530,35; 552,98], lo que podemos interpretar como que con probabilidad 0,95 la
cuantı́a media de una reclamación de dicha cartera está comprendida entre 530,35
y 552,98 euros.

Figura 2.24: Información a priori para el ejemplo 2.21

Ejemplo 2.22 (Continuación ejemplo 2.21) Obtener la distribución predicti-


va de la cuantı́a de una nueva reclamación.

Solución: Los resultados del Teorema 2.3 nos determinan directamente que la
distribución predictiva de una nueva cantidad será N (541,7; 233,33). En la figura
2.26 pueden verse los mismos resultados obtenidos en FirstBayes donde se ha
incorporado también un intervalo bayesiano con probabilidad 0,95 para esta futura
observación. En este caso, obtenemos que dicho intervalo vale [511,72, 571,61],
que interpretaremos de la siguiente manera: con probabilidad 0,95 la cantidad
reclamada en una nueva observación estará comprendida entre 511,72 y 571,61
euros.

Los contrastes bayesianos para esta situación también se realizan de forma
sencilla siguiendo los pasos de la sección 10.7.3. Para el caso hipótesis nula simple
frente alternativa simple H0 : µ = µ0 vs H1 : µ = µ1 , bastará con obtener el
2.3. Análisis bayesiano para datos normales 91

Figura 2.25: Cantidades a posteriori para el ejemplo 2.21

Figura 2.26: Distribución predictiva para el ejemplo 2.22


92 Inferencia bayesiana

“odds” a posteriori mediante


½ Pn 2 ¾
x −2nx̄µ0 +nµ20
exp − 12 i=1 i σ2
p0 π0 L(x|µ0 ) π0
= · = · ½ Pn 2 ¾, (2.34)
p1 π1 L(x|µ1 ) π1 1 x −2nx̄µ1 +nµ21
i=1 i
exp − 2 σ2

siendo π0 y π1 las probabilidades a priori de cada hı́pótesis. De donde deducimos


que el factor Bayes vale
½ ¾
1 n(µ20 − µ21 ) − 2nx̄(µ0 − µ1 )
B01 = exp − . (2.35)
2 σ2
El siguiente ejemplo ilustra el caso de hipótesis nula y alternativa compuesta.

Ejemplo 2.23 (Continuación ejemplo 2.21) Supongamos que en el caso del


ejemplo 2.21 estamos también interesados en realizar el contraste

H0 : µ ≤ 525 vs µ > 525.

Solución: El contraste propuesto pasa por calcular los “odds” a priori y posteriori
ası́ como el factor Bayes asociados. Cada una de estas cantidades se obtienen
directamente de las densidades a priori y a posteriori utilizadas que en este caso son
N (500, 200) y N (541,7, 33,33), respectivamente. La figura 2.25 tiene las cantidades
necesarias:
π0 0,961 p0 0,002
= ≈ 2,835, = ≈ 0,002, B01 ≈ 0,0007,
π1 0,339 p1 0,998
de donde deducimos que los datos no aportan ninguna evidencia en favor de H0 .

2.3.2. Caso de media conocida y varianza desconocida: análi-


sis conjugado
Analizamos ahora el caso en que la media µ = µ0 es conocida y σ 2 es el
parámetro desconocido de esta situación sobre el que necesitamos hacer inferencia.
La verosimilitud será la siguiente:
µ Pn ¶
1 i=1 (xi − θ)2
L(x|σ 2 ) ∝ (σ 2 )−n/2 exp −
2 σ2
µ P n ¶
1 i=1 (xi − x̄)2 + n(x̄ − θ)2
∝ (σ 2 )−n/2 exp −
2 σ2
µ ¶
2 −n/2 1 (S + n(x̄ − θ)2 )
∝ (σ ) exp −
2 σ2
2.3. Análisis bayesiano para datos normales 93

n
X
donde S = (xi − x̄)2 .
i=1
Como distribución a priori del parámetro σ 2 suponemos una distribución chi–
cuadrado inversa de parámetro S0 y ν0 grados de libertad, en notación χ−2 (S0 , ν0 ),
cuya densidad puede ser escrita en la forma:
µ ¶
2 2 −ν0 /2−1 1 2
π(σ ) ∝ (σ ) exp − S0 /σ .
2
Sus medidas descriptiva más usuales son:

S0
E[σ 2 ] = para ν0 > 2,
ν0 − 2
2S02
Var[σ 2 ] = para ν0 > 4,
(ν0 − 2)2 (ν0 − 4)
S0
Moda[σ 2 ] = .
ν0 + 2
La obtención de la distribución a posteriori para σ 2 se realiza teniendo en
cuenta que
½ ¾
2 2 −(ν0 +n)/2−1 1 S0 + S
π(σ |x) ∝ (σ ) exp − , (2.36)
2 σ2
y por tanto nuevamente tenemos una chi–cuadrado inversa de parámetro (S0 + S)
y ν0 + n grados de libertad. Nuevamente la propiedad de conjugación aparece en
este caso para facilitarnos el cálculo de las distribuciones a posteriori.

2.3.3. Caso de media y varianza desconocida: análisis con-


jugado
Generalizamos ahora las situaciones anteriores al caso más complejo posible en
el que ambos parámetros se consideran desconocidos. La expresión de la verosimil-
itud es análoga a las anteriores,
µ ¶
1 (S + n(x̄ − µ)2 )
L(x|µ, σ 2 ) ∝ (σ 2 )−n/2 exp −
2 σ2
n
X
siendo S = (xi − x̄)2 .
i=1
La especificación de las distribuciones a priori es la siguiente:

µ|σ 2 ∼ N (µ0 , σ 2 /n0 ),


94 Inferencia bayesiana

σ 2 ∼ χ−2 (S0 , ν0 ).
Los casos anteriores pueden considerarse casos particulares de esta situación
puesto que coinciden con ella bajo el supuesto (en muchas ocasiones prácticas uti-
lizado) de que ambos parámetros son independientes y cada uno de ellos conocido,
en cada caso.
La distribución a priori conjunta será del tipo Normal– chi–cuadrado inversa.
½ ¾
2 2 −(ν0 +1)/2−1 1 2 2
π(µ, σ ) ∝ (σ ) exp − (S0 + n0 (µ − µ0 ) )/σ =
2
µ ¶
2 −(ν0 +1)/2−1 1 2
∝ (σ ) exp − Q0 (µ)/σ
2
donde Q0 (µ) es la forma cuadrática

Q0 (µ) = n0 µ2 − 2(n0 µ0 )µ + (n0 µ20 + S0 ).


La distribución a posteriori conjunta se obtiene como combinación de la dis-
tribución a priori y la verosimilitud normal

µ ¶
1
π(µ, σ 2 |x) ∝ π(µ, σ 2 ) · L(x|µ, σ 2 ) ∝ (σ 2 )−(ν1 +1)/2−1 exp − Q1 (µ)/σ 2 , (2.37)
2

donde ν1 = ν0 + n y la expresión cuadrática Q1 (µ) es:

Q1 (µ) = S1 + n1 (µ − µ1 )2 = n1 µ2 − 2(n1 µ1 )µ + (n1 µ21 + S1 )


donde
n1 = n0 + n,
n0 µ0 + nx̄
µ1 = ,
n1
S1 = S0 + S + n0 µ20 + nx̄ − n1 µ21 .
De la distribución conjunta a posteriori podemos ahora deducir las distribu-
ciones marginales a posteriori.

La distribución condicional a posteriori π(µ|σ 2 , x)


La densidad a posteriori de µ dados σ 2 y x es proporcional a la a posteriori
conjunta dada en (2.37) con σ 2 constante,

µ|σ 2 , x ∼ N (µ1 , σ 2 /n).


2.3. Análisis bayesiano para datos normales 95

La distribución marginal a posteriori, π(σ 2 |x)


La densidad marginal a posteriori de σ 2 dados x se obtiene analı́ticamente de
Z ∞
π(σ 2 |x) = π(µ, σ 2 |x)dµ,
−∞

siendo π(µ, σ 2 |x) la densidad a posteriori conjunta dada en (2.37). Ahora bien sepa-
rando los términos en los que no están implicados directamente términos en µ se de-
duce trivialmente que dicha distribución (marginal) a posteriori es χ−2 (S1 , ν0 +n).
Justamente lo deducido en la sección anterior para el caso de media conocida.

La distribución marginal a posteriori, π(µ|x)


Para la obtención de la densidad marginal a posteriori de µ dado x debemos
integrar la densidad conjunta con respecto a σ 2 . Acudiendo a la expresión (2.37)
observamos que la marginal será proporcional a
© ª−(ν1 +1)/2
π(µ|x) ∝ S1 + n1 (µ − µ1 )2 , (2.38)

que corresponde a una distribución t–Student con parámetro de localización x̄,


parámetro de escala s y ν1 grados de libertad.
En general, una variable aleatoria tendrá una distribución t–Student con parámetro
de localización µ, parámetro de escala σ y ν grados de libertad, en notación
θ ∼ tν (µ, σ 2 ), cuando su densidad tenga la expresión
à µ ¶2 !−(ν+1)/2
Γ((ν + 1)/2) 1 θ−µ
π(θ) = √ 1+ . (2.39)
Γ(ν/2)σ νπ ν σ

La medidas descriptivas más habituales de esta variable son

E(θ) = µ, para µ > 1,


ν
Var(θ) = · σ 2 , para ν > 2,
ν−2
Moda (θ) = µ.
Esta distribución puede transformarse a la habitual t–Student con ν1 grados
de libertad considerando la transformación
µ − µ1
√ ,
s1 / n1

S1
siendo s21 = y n1 = n0 + n.
ν1
96 Inferencia bayesiana

2.3.4. Caso desinformativo


Al igual que en los modelos considerados en secciones anteriores, existe la posi-
bilidad de realizar una análisis con datos normales considerando el caso en el que
el experto no desea incorporar conocimiento a priori (porque no lo tenga o porque
desee dar todo el peso de su decisión a la información de los datos, o por ambas
cosas al mismo tiempo). La asignación desinformativa para este caso consiste en
asumir que µ y σ 2 son independientes y ambas les asignamos las siguientes den-
sidades desinformativas (tmabién conocidas como de Jeffreys como veremos en la
sección 11.4.3),
π(µ) ∝ 1, π(σ 2 ) ∝ (σ 2 )−1 ,
de donde se tiene que la densidad a priori conjunta no informativa es

π(µ, σ 2 ) ∝ (σ 2 )−1 . (2.40)

Todo el análisis a posteriori se puede seguir de forma paralela a como se ha


realizado anteriormente. Sin embargo, en este caso el cálculo puede ser mucho más
sencillo si observamos que estamos ante una situación como la descrita anterior-
mente pero con valores lı́mite de las cantidades siguiente: ν0 = −1, n0 = 0, S0 = 0
y Q0 (µ) = 0, de donde deducimos automáticamente las densidades a posteriori de
los parámetros de interés.

Ejemplo 2.24 (Continuación ejemplo 2.21: media y varianza desconocidas)


Para el caso del ejemplo 2.21 realizar las mismas inferencias para el caso no in-
formativo a priori.

Solución: Los resultados obtenidos anteriormente y teniendo en cuenta que esta-


mos en el caso no informativo, es decir, ν0 = −1, n0 = 0, S0 = 0 y Q0 (µ) = 0, junto
con n = 5 y x̄ = 550, nos permiten obtener analı́ticamente todas las distribuciones
(marginales) a posteriori y en consecuencia sus medidas de interés. FirstBayes
incluye también esta posibilidad mediante el análisis Normal sample, unknown
variance de su “pestaña” Analyses. La figura 2.27 muestra los valores obtenidos
para los estimadores bayesianos. Como vemos la distribución a posteriori de µ
es t–Student generalizada cuya media (a posteriori) coincide con la mediana y
la moda y valen 550 euros. El intervalo bayesiano de credibilidad al 95 % vale
[451, ,81, 648,19] sensiblemente mayor al caso informativo obtenido anteriormente.
Finalmente para el contraste de hipótesis H0 : µ ≤ 525 vs µ > 525, vemos que el
“odds” a posteriori vale
p0 0,25931
= ≈ 0,3454
p1 0,75069
de donde deducimos que a la luz de los datos, la hipótesis nula deberı́a ser rechaza-
da. Observemos que a diferencia con el caso informativo, la distribución a posteriori
de µ da, en este caso, cierta probabilidad a valores mayor del parámetro.
2.3. Análisis bayesiano para datos normales 97

Figura 2.27: Cantidades a posteriori para el ejemplo 2.21 con media y varianza
desconocidas


La distribución predictiva (a posteriori) de una futura observación, y, puede
obtenerse como la mixtura
Z Z
p(y|x) = f (y|µ, σ 2 ) · π(µ, σ 2 |x)dµdσ 2 , (2.41)

donde f (y|µ, σ 2 ) ∼ N (µ, σ 2 ) y π(µ, σ 2 |x) es la densidad a posteriori conjunta


obtenida en (2.37). De donde la simulación de esta distribución pasa por generar
valores de µ y σ 2 de la densidad π(µ, σ 2 |x) para luego generar valores de y de una
N (µ, σ 2 ).
De hecho, la distribución predictiva
r de y es t–Student con parámetro de lo-
n
1 1 X
calización x̄, parámetro de escala 1 + s, con s2 = (xi − x̄)2 y n − 1
n n − 1 i=1
³ q ´
grados de libertad, en notación y ∼ tn−1 x̄, 1 + n1 s . Esta distribución se ob-
tiene integrando en (2.41) respecto a µ y σ 2 . También podemos identificar este
98 Inferencia bayesiana

resultado fácilmente mediante la factorización,


Z
f (y|σ 2 , x) = f (y|µ, σ 2 , x) · π(µ|σ 2 , x)dµ. (2.42)

De (2.42) se deduce que f (y|σ 2 , x) ∼ N (x̄, (1+ n1 )σ 2 ), que resulta ser la idéntica
distribución que la de µ dados σ 2 y x (cambiando el factor de escala).

Ejemplo 2.25 (Continuación ejemplo 2.24) Para el ejemplo 2.24, encontrar


un intervalo bayesiano de credibilidad con probabilidad 0,95 para una futura obser-
vación sobre la cuantı́a de una reclamación.

Solución: De (2.41) sabemos que la distribución predictiva de una nueva obser-


vación para el caso de datos normales con ambos parámetros desconocidos
Ãr es!una
1
t–Student con parámetro de localización x̄, parámetro de escala 1+ s y
n
n − 1 grados de libertad. Para el caso que nos ocupa tenemos una distribución
t4 (550, 7500) (ver figura 2.28).

Figura 2.28: Distribución predictiva para el ejemplo 2.21 con media y varianza
desconocidas

El intervalo bayesiano al 95 % es [485,88, 790,52], que nos indica que con prob-
abilidad 0,95 una próxima reclamación estará comprendida entre 485,88 y 790,52
euros.

También podría gustarte