Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Hipótesis Bayesianos
Universidad Complutense de Madrid
alejmo11@ucm.es
Resumen
1
posteriori viene definida por:
f (x, y)
f (x | y) =
fY (y)
2
En contraposición, la estadı́stica bayesiana, al partir de los supuestos que explicamos
en la sección anterior, pretende hacer lo contrario: partir de una supuesta distribución del
parámetro como variable aleatoria, y encontrar el conjunto cuya probabilidad de contener
3
a θ es cierta cantidad arbitraria. Tras esta introducción, definimos:
Definición 2.1. Llamamos región creı́ble de nivel 1 − α a todo conjunto C(x1 , ..., xn ) ⊂ Θ
(lo hacemos ası́ para remarcar que depende de la muestra) tal que P (θ ∈ C) ≥ 1 − α.
Lógicamente, esta probabilidad se calcula mediante la distribución final:
Z
P (θ ∈ C) = π(θ | (x1 , ..., xn ))dθ (2.1)
C(x1 ,...,xn )
Observación 2.1. No hemos definido, para una misma muestra y una misma distribución
del parámetro, una única región creı́ble, sino que habrá varias maneras más o menos
santisfactorias de encontrarla.
Atendiendo a esta última observación, vamos a ver que tenemos dos maneras bastante
razonables de hallar una región creı́ble. La primera, asumiendo que C es un intervalo,
consistirá en determinar su comienzo y final para que la probabilidad alcance el nicel
α
deseado. Para esto, determinaremos estos puntos tales que su probabilidad sea 2
para el
del comienzo y 1 − α2 para el del final. De esta manera, entre los dos tendremos una región
de probabilidad 1 − α, que era lo que buscábamos. Sin embargo, este método plantea un
problema: no asegura que la longitud del intervalo C sea mı́nima. Para esto, definiremos
el siguiente método:
Ejemplo 2.1. Sea una (X1 , ..., Xn ) que se distribuye según una Gamma(a, p) en
parametrización de escala y norma, y sea la distribución a priori de θ una P oisson(θ).
3
Como indicamos anteriormente, usamos ((cubra)) y ((contener)) a propósito, porque en el primero es
algo comprobable dada una muestra y en el segundo es algo seguro al nivel elegido, con la muestra ya
dada (Casella G., 2002, p. 435).
3
Entonces, podemos calcular la distribución a posteriori utilizando (1.1):
a−p p−1 − aθ −nθ nx̄ Q 1
Γ(p)
θ e e θ n
i=1 xi !
π(θ | (x1 , ..., xn ))) = R ∞ a−p θ
0 Γ(p)
θp−1 e− a e−nθ θnx̄ Qn 1 xi !
i=1
n
1X
siendo x̄ = xi
n i=1
1
θnx̄+p−1 e−θ(n+ a ) (n + a1 )nx̄+p nx̄+p−1 −θ(n+ 1 ) a
=Z = θ e a ∼ Gamma( , nx̄ + p)
∞
1 Γ(nx̄ + p) na + 1
θnx̄+p−1 e−θ(n+ a ) dθ
0
Ejemplo 2.2. Partiendo del ejercicio anterior, vamos a ver cómo calcular la región creı́ble
en un ejemplo particular. Observamos que
2(na + 1) 1
θ ∼ Gamma( , nx̄ + p) ∼ χ22(nx̄+p)
a 2
10
X
Ası́, si fijamos unos valores determinados como n = 10, xi = 5, a = b = 1, α = 0,1, y
i=1
procedemos según el método que consistı́a en buscar las colas con probabilidad α2 . Tenemos
que:
k1 2(na + 1)
P (χ22(nx̄+p) ≤ ) = 0,05 ⇒ 1 − P (χ212 ≥ 22k1 ) = 0,05 ⇒ k1 = 0,24
a
k2 2(na + 1)
P (χ22(nx̄+p) ≥ ) = 0,05 ⇒ P (χ212 ≥ 22k2 ) = 0,05 ⇒ k2 = 0,95
a
y obtenemos el intervalo C(x1 , ..., xn ) = (0,24, 0,95).
Los contrastes de hipótesis nacen con la intención de ayudarnos a decidir cuál de las
regiones de confianza que hemos obtenido por distintos métodos anteriormente es la que
más probabilidades tiene de cubrir o contener al parámetro.
Definición 3.1. Si tenemos dos hipótesis sobre el parámetro, que llamamos hipótesis
nula y denotamos por H0 : θ ∈ Θ0 e hipótesis alternativa por H1 : θ ∈ Θ1 , entonces un
contraste o test es un procedimiento para ver cuál de ellas rechazamos. Ası́, dividimos
el espacio muestral Xn en dos regiones, crı́tica y de aceptación respectivamente, tales que
(x1 , ..., xn ) ∈ Wn si se rechaza H0 y (x1 , ..., xn ) ∈ Wna si se acepta H0 .
No perdamos de vista lo que dice la Definición 2.2: la región creı́ble de más alta
distribución final es precisamente la que menor longitud tiene, por tanto la que más
4
posibilidades tiene de contener al parámetro. Por este razonamiento, resulta que esta
región es la óptima que buscamos haciendo contrastes. Sin embargo, si contamos con dos
hipótesis que no sean necesariamente óptimas, tenemos que construir un método para
contrastarlas como podamos.
Dicho esto, es evidente que la región crı́tica será el conjunto de las muestras para las
cuales P (Θ1 | (x1 , ..., xn )) > P (Θ0 | (x1 , ..., xn )). Destacamos que es θ el que varı́a y que
calculamos la probabilidad de que θ ∈ Θi ; la muestra es fija. Deducimos, por tanto, la
simplicidad del constraste: basta comprobar qué probabilidad de las dos es mayor. Por
último, se tiene:
Ahora vamos a ver una manera de simplificar la elección de una hipótesis u otra,
atendiendo al criterio anterior, siguiendo los planteamientos expuestos en (Gómez Villegas,
2005, p. 226):
La interpretación consiste en ver que cuanto mayor sea el factor, mayor será la
evidencia a favor de la hipótesis nula. Para terminar, vamos a ver algunas aplicaciones
del factor bayes cuando contrastamos ciertos tipos de hipótesis.
5
1 − p. Despejando en la fórmula:
pfθ0 (~x) pfθ0 (~x) + (1 − p)fθ1 (~x) 1 − p
B(x1 , ..., xn ) =
pfθ0 (~x) + (1 − p)fθ1 (~x) (1 − p)fθ1 (~x) p
siendo
pfθ0 (~x)
P (θ0 | (x1 , ..., xn )) =
pfθ0 (~x) + (1 − p)fθ1 (~x)
(1 − p)fθ1 (~x)
P (θ1 | (x1 , ..., xn )) =
pfθ0 (~x) + (1 − p)fθ1 (~x)
por tanto, la región crı́tica será
Wn = {(x1 , ..., xn ) | P (θ1 | (x1 , ..., xn )) > P (θ0 | (x1 , ..., xn ))}
fθ1 (~x) p
⇐⇒ Wn = {(x1 , ..., xn ) | > }
fθ0 (~x) 1−p
donde remarcamos que (x1 , ..., xn ) es fija.
En este caso, se utiliza como distribución inicial la que asigna una probabilidad p a
H0 : θ = θ0 y 1 − p a H1 : θ 6= θ0 . Teniendo en cuenta que la integral sobre Θ es la misma
que la integral sobre Θ1 porque solo excluye un punto, operamos:
pfθ0 (~x)
P (θ0 | (x1 , ..., xn )) = R
pfθ0 (~x) + (1 − p) Θ fθ (~x)π(θ)dθ
R
(1 − p) Θ fθ (~x)π(θ)dθ
P (θ1 | (x1 , ..., xn )) = R
pfθ0 (~x) + (1 − p) Θ fθ (~x)π(θ)dθ
y el factor bayes queda:
pf (~x) 1−p
B(x1 , ..., xn ) = R θ0
(1 − p) Θ fθ (~x)π(θ)dθ p
y la región crı́tica será
Z
Wn = {(x1 , ..., xn ) | (1 − p) fθ (~x)π(θ)dθ > pfθ0 (~x)}
R Θ
fθ (~x)π(θ)dθ p
⇐⇒ Wn = {(x1 , ..., xn ) | Θ > }
fθ0 (~x) 1−p
Ejemplo 3.1. Siguiendo con nuestra distribución de los ejemplos anteriores, tenemos que
la región creı́ble óptima viene dada por
Z
C = {θ | π(θ | (x1 , ..., xn )) ≥ c} donde 1 − α = π(θ | (x1 , ..., xn ))dθ
C
6
Ası́, hemos de encontrar θ0 y θ1 tales que
Z θ1
π(θ0 | (x1 , ..., xn )) = π(θ1 | (x1 , ..., xn )) y π(θ | (x1 , ..., xn ))dθ = 1 − α
θ0
En este punto los cálculos se hacen complicados, pero en (Casella G., 2002, p. 448)
10
X
encontramos una solución para n = 10, 1 − α = 0,1, xi = 6, que lleva al intervalo
i=1
[0,253, 1,005].
Ejemplo 3.2. Sea una (X1 , ..., Xn ) ∼ N (θ, σ), con σ conocida. Sean las hipótesis H0 :
θ = 0 y H1 : θ 6= 0, suponemos una distribución inicial que asigna una probabilidad p a H0
y 1 − p a H1 , que además está repartida con una distribución N (0, σ0 ), con σ0 conocida.
Tenemos:
n
X
n
1
− 2σ (xi − θ)2
Y 1 2 1
fθ (x1 , ..., xn ) = e− 2σ2 (xi −θ) = ( √ )n e i=1
i=1
σ 2π
1 − 12 θ 2
π(θ) = √ e 2σ0
σ0 2π
X n
− 21
x2i
1 2σ
f0 (~x) = ( √ )n e i=1
σ 2π
X n
2
(xi − θ)
1
− 2σ
1 2
− θ
R ∞ 1 n 1 2σ 2
( √ ) e i=1 √ e dθ
−∞ σ 2π σ0 2π
0
p
⇒ Wn = n > =
X
2
1 − p
− 12 xi
2σ
1
n
( σ 2π ) e
√ i=1
n
2 2
X
Z ∞ − θ22 ( nσσ02+σ
θ
2 )+ σ 2 xi
1 σ0
= ( √ ) e i=1 dθ =
σ0 2π −∞
( Pn 2
)
i=1 xi σ0
σ 2 2 2
σ (nσ0 +σ )2 p
= p 2 e >
nσ0 + σ 2 1−p
y esta es la expresión final para la región crı́tica. Señalamos que, para los mismos datos,
si hubiéramos calculado la región crı́tica con el teorema de Neyman-Pearson, podrı́amos
haber obtenido un resultado distinto, dando lugar a la aceptación y negación simultánea
de la hipótesis nula, lo que se conoce como pareadoja de Jeffreys o paradoja de Lindley
(Gómez Villegas, 2005, p. 228).
7
Terminamos con una aclaración sobre la simetrı́a de las regiones de confianza y creı́bles.
En las regiones de confianza, al tratar el estudio de sus contrastes, se introducen asimetrı́as
a favor de la hipótesis nula que le da cierto nivel de relevancia sobre la alternativa, es
decir, la trataremos de comprobar o descartar. No obstante, en los contrastes de regiones
creı́bles no es necesaria esta puntualización y podremos considerar ambas hipótesis de
manera simétrica.
8
Referencias
Casella G., R. L., Berger. (2002). Statistical inference (2.a ed.). Estados Unidos: Duxbury
Thomson Learning.
Gómez Villegas, M. A. (2005). Inferencia estadı́stica (1.a ed.). Madrid: Diaz de Santos.