Está en la página 1de 9

Regiones de Confianza y Contrastes de

Hipótesis Bayesianos
Universidad Complutense de Madrid

Alejandro Moreno Becerra

alejmo11@ucm.es

Resumen

Realizaremos un estudio de las regiones de confianza bayesianas y los contrastes


de hipótesis bayesianos, analizando las diferencias entre estos y los demás, basadas
en la diferencia entre los estimadores bayesianos y el resto, su desigual construcción
y los resultados de esta.

1. Introducción a los estimadores bayesianos

Los estimadores se construyen, en general, para intentar extraer información


relacionada con el parámetro que caracteriza a la familia de las distribuciones de un
modelo estadı́stico paramétrico. Ası́, usualmente se define un estimador como una función
del espacio muestral de una muestra aleatoria simple en el espacio paramétrico, T : Σ → Θ.
Sin embargo, vamos a ver que los estimadores bayesianos se construyen de distinta
manera y bajo distintos supuestos, a saber: se construyen cuando se dispone de suficiente
información sobre el parámetro y tratándolo como una variable aleatoria. De otra manera:
se supone que somos capaces de determinar la variación del parámetro mediante una
distribución de probabilidad. Esta función, conocida como la función de distribución a
priori, modeliza la incertidumbre sobre θ mediante una función de masa o densidad π(θ)
y cambia (se actualiza) según las muestras que vayamos obteniendo. Esta actualización se
lleva acabo mediante la aplicación del Teorema de Bayes, de ahı́ el nombre. Si fθ (x1 , ..., xn )
es la densidad de la muestra y π(θ) la de θ, entonces la función de masa o densidad a

1
posteriori viene definida por:

π(θ)fθ (x1 , ..., xn )


π(θ | (x1 , ..., xn )) = (1.1)
m(x1 , ..., xn )

donde m(x1 , ..., xn ) es la distribución marginal de la muestra (X1 , ..., Xn ),


Z
m(x1 , ..., xn ) = fθ (x1 , ..., xn )π(θ)dθ (1.2)

Destacamos, por último, que la elección en la notación de la distribución a posteriori no


es casual, sino que representa, en realidad, que π(θ | (x1 , ..., xn )) es una distribución
condicionada. De hecho, la fórmula que la define se puede identificar con la que ya
conocı́amos para la densidad condicionada:

f (x, y)
f (x | y) =
fY (y)

2. Regiones de confianza bayesianas

En una familia paramétrica de distribuciones, la noción de región de confianza surge


bajo la natural pregunta: ¿podemos estimar entre qué valores se mueve el parámetro?
Ası́, los métodos de estimación puntual sirven para obtener un valor para el parámetro,
mientras que las estimaciones por regiones, para obtener un conjunto que lo cubra 1 .

En la estadı́stica frecuentista, dada una m.a.s. (X1 , ..., Xn ) en un modelo estadı́stico


paramétrico (Xn , β(Xn ), Fθ ), llamamos región de confianza de nivel 1−α a un subconjunto
C(X1 , ..., Xn ) ⊂ Θ tal que P {θ ∈ C(X1 , ..., Xn )} ≥ 1 − α, con α ∈ (0, 1). Este
C(X1 , ..., Xn ) puede ser un intervalo o no y puede alcanzarse el nivel o ser algo más
grande, según sea la distribución continua o discreta. Según esta construcción, vemos que
es el intervalo lo que es aleatorio, y el parámetro lo que es fijo 2 . Una vez dada una muestra
(x1 , ..., xn ), ya no podemos hablar de una región de confianza de nivel 1 − α, porque al ser
el parámetro una cantidad sabida, podemos comprobar directamente si pertenece o no. En
este sentido, la interpretación del nivel de confianza conocida la muestra, se hace evidente
al repetir numerosas veces el experimento, puesto que tendencialmente pertenecerá al
intervalo un (1 − α)1̇00 % de las veces.
1
La elección del verbo no es casual, como veremos después.
2
En Statistical Inference encontramos una aclaración muy ilustrativa: podemos pensar en la
probabilidad mencionada como P (C(X1 , ..., Xn ) contenga a θ), para hacer ver que es en realidad
C(X1 , ..., Xn ) quien varı́a (Casella G., 2002, p. 419).

2
En contraposición, la estadı́stica bayesiana, al partir de los supuestos que explicamos
en la sección anterior, pretende hacer lo contrario: partir de una supuesta distribución del
parámetro como variable aleatoria, y encontrar el conjunto cuya probabilidad de contener
3
a θ es cierta cantidad arbitraria. Tras esta introducción, definimos:

Definición 2.1. Llamamos región creı́ble de nivel 1 − α a todo conjunto C(x1 , ..., xn ) ⊂ Θ
(lo hacemos ası́ para remarcar que depende de la muestra) tal que P (θ ∈ C) ≥ 1 − α.
Lógicamente, esta probabilidad se calcula mediante la distribución final:
Z
P (θ ∈ C) = π(θ | (x1 , ..., xn ))dθ (2.1)
C(x1 ,...,xn )

Observación 2.1. No hemos definido, para una misma muestra y una misma distribución
del parámetro, una única región creı́ble, sino que habrá varias maneras más o menos
santisfactorias de encontrarla.

Atendiendo a esta última observación, vamos a ver que tenemos dos maneras bastante
razonables de hallar una región creı́ble. La primera, asumiendo que C es un intervalo,
consistirá en determinar su comienzo y final para que la probabilidad alcance el nicel
α
deseado. Para esto, determinaremos estos puntos tales que su probabilidad sea 2
para el
del comienzo y 1 − α2 para el del final. De esta manera, entre los dos tendremos una región
de probabilidad 1 − α, que era lo que buscábamos. Sin embargo, este método plantea un
problema: no asegura que la longitud del intervalo C sea mı́nima. Para esto, definiremos
el siguiente método:

Definición 2.2. Se llama región creı́ble de más alta distribución


final (Gómez Villegas, 2005, p. 185) a la región creı́ble C(x1 , ..., xn ) construida de
la forma C(x1 , ..., xn ) = {θ | π(θ | (x1 , ..., xn )) ≥ c}, donde c ∈ R se escoge tal que
P {θ ∈ C(x1 , ..., xn )} ≥ 1 − α.

Observación 2.2. Si c disminuye, la probabilidad de C(x1 , ..., xn ) aumenta, porque el


propio tamaño de C lo hace. Ası́, hemos encontrado un conjunto de puntos con la máxima
probabilidad posible, y en consecuencia hemos asegurado que tenga menor longitud que
cualquier otra región creı́ble del intervalo.

Ejemplo 2.1. Sea una (X1 , ..., Xn ) que se distribuye según una Gamma(a, p) en
parametrización de escala y norma, y sea la distribución a priori de θ una P oisson(θ).
3
Como indicamos anteriormente, usamos ((cubra)) y ((contener)) a propósito, porque en el primero es
algo comprobable dada una muestra y en el segundo es algo seguro al nivel elegido, con la muestra ya
dada (Casella G., 2002, p. 435).

3
Entonces, podemos calcular la distribución a posteriori utilizando (1.1):
a−p p−1 − aθ −nθ nx̄ Q 1
Γ(p)
θ e e θ n
i=1 xi !
π(θ | (x1 , ..., xn ))) = R ∞ a−p θ
0 Γ(p)
θp−1 e− a e−nθ θnx̄ Qn 1 xi !
i=1
n
1X
siendo x̄ = xi
n i=1
1
θnx̄+p−1 e−θ(n+ a ) (n + a1 )nx̄+p nx̄+p−1 −θ(n+ 1 ) a
=Z = θ e a ∼ Gamma( , nx̄ + p)

1 Γ(nx̄ + p) na + 1
θnx̄+p−1 e−θ(n+ a ) dθ
0

Ejemplo 2.2. Partiendo del ejercicio anterior, vamos a ver cómo calcular la región creı́ble
en un ejemplo particular. Observamos que
2(na + 1) 1
θ ∼ Gamma( , nx̄ + p) ∼ χ22(nx̄+p)
a 2
10
X
Ası́, si fijamos unos valores determinados como n = 10, xi = 5, a = b = 1, α = 0,1, y
i=1
procedemos según el método que consistı́a en buscar las colas con probabilidad α2 . Tenemos
que:
k1 2(na + 1)
P (χ22(nx̄+p) ≤ ) = 0,05 ⇒ 1 − P (χ212 ≥ 22k1 ) = 0,05 ⇒ k1 = 0,24
a
k2 2(na + 1)
P (χ22(nx̄+p) ≥ ) = 0,05 ⇒ P (χ212 ≥ 22k2 ) = 0,05 ⇒ k2 = 0,95
a
y obtenemos el intervalo C(x1 , ..., xn ) = (0,24, 0,95).

3. Contrastes de hipótesis bayesianos

Los contrastes de hipótesis nacen con la intención de ayudarnos a decidir cuál de las
regiones de confianza que hemos obtenido por distintos métodos anteriormente es la que
más probabilidades tiene de cubrir o contener al parámetro.

Definición 3.1. Si tenemos dos hipótesis sobre el parámetro, que llamamos hipótesis
nula y denotamos por H0 : θ ∈ Θ0 e hipótesis alternativa por H1 : θ ∈ Θ1 , entonces un
contraste o test es un procedimiento para ver cuál de ellas rechazamos. Ası́, dividimos
el espacio muestral Xn en dos regiones, crı́tica y de aceptación respectivamente, tales que
(x1 , ..., xn ) ∈ Wn si se rechaza H0 y (x1 , ..., xn ) ∈ Wna si se acepta H0 .

No perdamos de vista lo que dice la Definición 2.2: la región creı́ble de más alta
distribución final es precisamente la que menor longitud tiene, por tanto la que más

4
posibilidades tiene de contener al parámetro. Por este razonamiento, resulta que esta
región es la óptima que buscamos haciendo contrastes. Sin embargo, si contamos con dos
hipótesis que no sean necesariamente óptimas, tenemos que construir un método para
contrastarlas como podamos.

La ventaja de la estadistica bayesiana en este punto es la facilidad con la que


contruimos este método, puesto que podemos calcular directamente las probabilidades
de que el parámetro cumpla una u otra hipótesis. De hecho, tenemos:
Z
P (Θ0 | (x1 , ..., xn )) = π(θ | (x1 , ..., xn ))dθ (3.1)
Θ0
Z
P (Θ1 | (x1 , ..., xn )) = π(θ | (x1 , ..., xn ))dθ (3.2)
Θ1

Dicho esto, es evidente que la región crı́tica será el conjunto de las muestras para las
cuales P (Θ1 | (x1 , ..., xn )) > P (Θ0 | (x1 , ..., xn )). Destacamos que es θ el que varı́a y que
calculamos la probabilidad de que θ ∈ Θi ; la muestra es fija. Deducimos, por tanto, la
simplicidad del constraste: basta comprobar qué probabilidad de las dos es mayor. Por
último, se tiene:

P (Θ0 | (x1 , ..., xn )) + P (Θ1 | (x1 , ..., xn )) = 1 (3.3)

Ahora vamos a ver una manera de simplificar la elección de una hipótesis u otra,
atendiendo al criterio anterior, siguiendo los planteamientos expuestos en (Gómez Villegas,
2005, p. 226):

Definición 3.2. Para contrastar la hipótesis nula H0 frente a la alterantiva H1 , se define


el factor Bayes en favor de H0 mediante:

P (H0 | (x1 , ..., xn ))/P (H1 | (x1 , ..., xn ))


B(x1 , ..., xn ) = (3.4)
P (H0 )/P (H1 )

La interpretación consiste en ver que cuanto mayor sea el factor, mayor será la
evidencia a favor de la hipótesis nula. Para terminar, vamos a ver algunas aplicaciones
del factor bayes cuando contrastamos ciertos tipos de hipótesis.

3.1. Factor bayes al contrastar hipótesis simples

Cuando contrastamos dos hipótesis del tipo H0 : θ = θ0 y H1 : θ = θ1 , y tenemos la


muestra (x1 , ..., xn ), también tenemos las probabilidades de H0 y H1 , que llamaremos p y

5
1 − p. Despejando en la fórmula:
pfθ0 (~x) pfθ0 (~x) + (1 − p)fθ1 (~x) 1 − p
B(x1 , ..., xn ) =
pfθ0 (~x) + (1 − p)fθ1 (~x) (1 − p)fθ1 (~x) p
siendo
pfθ0 (~x)
P (θ0 | (x1 , ..., xn )) =
pfθ0 (~x) + (1 − p)fθ1 (~x)
(1 − p)fθ1 (~x)
P (θ1 | (x1 , ..., xn )) =
pfθ0 (~x) + (1 − p)fθ1 (~x)
por tanto, la región crı́tica será
Wn = {(x1 , ..., xn ) | P (θ1 | (x1 , ..., xn )) > P (θ0 | (x1 , ..., xn ))}
fθ1 (~x) p
⇐⇒ Wn = {(x1 , ..., xn ) | > }
fθ0 (~x) 1−p
donde remarcamos que (x1 , ..., xn ) es fija.

3.2. Factor bayes cuando la hipótesis nula es simple y la


alternativa es compuesta

En este caso, se utiliza como distribución inicial la que asigna una probabilidad p a
H0 : θ = θ0 y 1 − p a H1 : θ 6= θ0 . Teniendo en cuenta que la integral sobre Θ es la misma
que la integral sobre Θ1 porque solo excluye un punto, operamos:
pfθ0 (~x)
P (θ0 | (x1 , ..., xn )) = R
pfθ0 (~x) + (1 − p) Θ fθ (~x)π(θ)dθ
R
(1 − p) Θ fθ (~x)π(θ)dθ
P (θ1 | (x1 , ..., xn )) = R
pfθ0 (~x) + (1 − p) Θ fθ (~x)π(θ)dθ
y el factor bayes queda:
pf (~x) 1−p
B(x1 , ..., xn ) = R θ0
(1 − p) Θ fθ (~x)π(θ)dθ p
y la región crı́tica será
Z
Wn = {(x1 , ..., xn ) | (1 − p) fθ (~x)π(θ)dθ > pfθ0 (~x)}
R Θ
fθ (~x)π(θ)dθ p
⇐⇒ Wn = {(x1 , ..., xn ) | Θ > }
fθ0 (~x) 1−p
Ejemplo 3.1. Siguiendo con nuestra distribución de los ejemplos anteriores, tenemos que
la región creı́ble óptima viene dada por
Z
C = {θ | π(θ | (x1 , ..., xn )) ≥ c} donde 1 − α = π(θ | (x1 , ..., xn ))dθ
C

6
Ası́, hemos de encontrar θ0 y θ1 tales que
Z θ1
π(θ0 | (x1 , ..., xn )) = π(θ1 | (x1 , ..., xn )) y π(θ | (x1 , ..., xn ))dθ = 1 − α
θ0

En este punto los cálculos se hacen complicados, pero en (Casella G., 2002, p. 448)
10
X
encontramos una solución para n = 10, 1 − α = 0,1, xi = 6, que lleva al intervalo
i=1
[0,253, 1,005].

Ejemplo 3.2. Sea una (X1 , ..., Xn ) ∼ N (θ, σ), con σ conocida. Sean las hipótesis H0 :
θ = 0 y H1 : θ 6= 0, suponemos una distribución inicial que asigna una probabilidad p a H0
y 1 − p a H1 , que además está repartida con una distribución N (0, σ0 ), con σ0 conocida.
Tenemos:
n
X
n
1
− 2σ (xi − θ)2
Y 1 2 1
fθ (x1 , ..., xn ) = e− 2σ2 (xi −θ) = ( √ )n e i=1

i=1
σ 2π
1 − 12 θ 2
π(θ) = √ e 2σ0
σ0 2π
X n
− 21
x2i
1 2σ

f0 (~x) = ( √ )n e i=1
σ 2π

X n 
2
(xi − θ)
 1

− 2σ

 

1 2
− θ
 
 R ∞ 1 n 1 2σ 2

( √ ) e i=1 √ e dθ
 

−∞ σ 2π σ0 2π
0
p 
⇒ Wn = n > =
 X
2
1 − p
− 12 xi

 


 2σ


1
 n

 ( σ 2π ) e
√ i=1 
n
 
2 2
X
Z ∞ − θ22 ( nσσ02+σ
 

 θ
2 )+ σ 2 xi  
 1 σ0 
= ( √ ) e i=1 dθ =


 σ0 2π −∞ 


 
( Pn 2
)
i=1 xi σ0
σ 2 2 2
σ (nσ0 +σ )2 p
= p 2 e >
nσ0 + σ 2 1−p

y esta es la expresión final para la región crı́tica. Señalamos que, para los mismos datos,
si hubiéramos calculado la región crı́tica con el teorema de Neyman-Pearson, podrı́amos
haber obtenido un resultado distinto, dando lugar a la aceptación y negación simultánea
de la hipótesis nula, lo que se conoce como pareadoja de Jeffreys o paradoja de Lindley
(Gómez Villegas, 2005, p. 228).

7
Terminamos con una aclaración sobre la simetrı́a de las regiones de confianza y creı́bles.
En las regiones de confianza, al tratar el estudio de sus contrastes, se introducen asimetrı́as
a favor de la hipótesis nula que le da cierto nivel de relevancia sobre la alternativa, es
decir, la trataremos de comprobar o descartar. No obstante, en los contrastes de regiones
creı́bles no es necesaria esta puntualización y podremos considerar ambas hipótesis de
manera simétrica.

8
Referencias

Casella G., R. L., Berger. (2002). Statistical inference (2.a ed.). Estados Unidos: Duxbury
Thomson Learning.
Gómez Villegas, M. A. (2005). Inferencia estadı́stica (1.a ed.). Madrid: Diaz de Santos.

También podría gustarte