Trabajo de Estad Stica 2 PDF

Regiones de Confianza y Contrastes de
Hipótesis Bayesianos
Universidad Complutense de Madrid
Alejandro Moreno Becerra
alejmo11@ucm.es
Resumen
Realizaremos un estudio de las regiones de confianza bayesianas y los contrastes

de hipótesis bayesianos, analizando las diferencias entre estos y los demás, basadas
en la diferencia entre los estimadores bayesianos y el resto, su desigual construcción
y los resultados de esta.
1. Introducción a los estimadores bayesianos
Los estimadores se construyen, en general, para intentar extraer información

relacionada con el parámetro que caracteriza a la familia de las distribuciones de un
modelo estadı́stico paramétrico. Ası́, usualmente se define un estimador como una función
del espacio muestral de una muestra aleatoria simple en el espacio paramétrico, T : Σ → Θ.
Sin embargo, vamos a ver que los estimadores bayesianos se construyen de distinta
manera y bajo distintos supuestos, a saber: se construyen cuando se dispone de suficiente
información sobre el parámetro y tratándolo como una variable aleatoria. De otra manera:
se supone que somos capaces de determinar la variación del parámetro mediante una
distribución de probabilidad. Esta función, conocida como la función de distribución a
priori, modeliza la incertidumbre sobre θ mediante una función de masa o densidad π(θ)
y cambia (se actualiza) según las muestras que vayamos obteniendo. Esta actualización se
lleva acabo mediante la aplicación del Teorema de Bayes, de ahı́ el nombre. Si fθ (x1 , ..., xn )
es la densidad de la muestra y π(θ) la de θ, entonces la función de masa o densidad a
1
posteriori viene definida por:
π(θ)fθ (x1 , ..., xn )

π(θ | (x1 , ..., xn )) = (1.1)
m(x1 , ..., xn )
donde m(x1 , ..., xn ) es la distribución marginal de la muestra (X1 , ..., Xn ),

Z
m(x1 , ..., xn ) = fθ (x1 , ..., xn )π(θ)dθ (1.2)
Destacamos, por último, que la elección en la notación de la distribución a posteriori no

es casual, sino que representa, en realidad, que π(θ | (x1 , ..., xn )) es una distribución
condicionada. De hecho, la fórmula que la define se puede identificar con la que ya
conocı́amos para la densidad condicionada:
f (x, y)
f (x | y) =
fY (y)
2. Regiones de confianza bayesianas
En una familia paramétrica de distribuciones, la noción de región de confianza surge

bajo la natural pregunta: ¿podemos estimar entre qué valores se mueve el parámetro?
Ası́, los métodos de estimación puntual sirven para obtener un valor para el parámetro,
mientras que las estimaciones por regiones, para obtener un conjunto que lo cubra 1 .
En la estadı́stica frecuentista, dada una m.a.s. (X1 , ..., Xn ) en un modelo estadı́stico

paramétrico (Xn , β(Xn ), Fθ ), llamamos región de confianza de nivel 1−α a un subconjunto
C(X1 , ..., Xn ) ⊂ Θ tal que P {θ ∈ C(X1 , ..., Xn )} ≥ 1 − α, con α ∈ (0, 1). Este
C(X1 , ..., Xn ) puede ser un intervalo o no y puede alcanzarse el nivel o ser algo más
grande, según sea la distribución continua o discreta. Según esta construcción, vemos que
es el intervalo lo que es aleatorio, y el parámetro lo que es fijo 2 . Una vez dada una muestra
(x1 , ..., xn ), ya no podemos hablar de una región de confianza de nivel 1 − α, porque al ser
el parámetro una cantidad sabida, podemos comprobar directamente si pertenece o no. En
este sentido, la interpretación del nivel de confianza conocida la muestra, se hace evidente
al repetir numerosas veces el experimento, puesto que tendencialmente pertenecerá al
intervalo un (1 − α)1̇00 % de las veces.
1
La elección del verbo no es casual, como veremos después.
2
En Statistical Inference encontramos una aclaración muy ilustrativa: podemos pensar en la
probabilidad mencionada como P (C(X1 , ..., Xn ) contenga a θ), para hacer ver que es en realidad
C(X1 , ..., Xn ) quien varı́a (Casella G., 2002, p. 419).
2
En contraposición, la estadı́stica bayesiana, al partir de los supuestos que explicamos
en la sección anterior, pretende hacer lo contrario: partir de una supuesta distribución del
parámetro como variable aleatoria, y encontrar el conjunto cuya probabilidad de contener
3
a θ es cierta cantidad arbitraria. Tras esta introducción, definimos:
Definición 2.1. Llamamos región creı́ble de nivel 1 − α a todo conjunto C(x1 , ..., xn ) ⊂ Θ
(lo hacemos ası́ para remarcar que depende de la muestra) tal que P (θ ∈ C) ≥ 1 − α.
Lógicamente, esta probabilidad se calcula mediante la distribución final:
Z
P (θ ∈ C) = π(θ | (x1 , ..., xn ))dθ (2.1)
C(x1 ,...,xn )
Observación 2.1. No hemos definido, para una misma muestra y una misma distribución
del parámetro, una única región creı́ble, sino que habrá varias maneras más o menos
santisfactorias de encontrarla.
Atendiendo a esta última observación, vamos a ver que tenemos dos maneras bastante
razonables de hallar una región creı́ble. La primera, asumiendo que C es un intervalo,
consistirá en determinar su comienzo y final para que la probabilidad alcance el nicel
α
deseado. Para esto, determinaremos estos puntos tales que su probabilidad sea 2
para el
del comienzo y 1 − α2 para el del final. De esta manera, entre los dos tendremos una región
de probabilidad 1 − α, que era lo que buscábamos. Sin embargo, este método plantea un
problema: no asegura que la longitud del intervalo C sea mı́nima. Para esto, definiremos
el siguiente método:
Definición 2.2. Se llama región creı́ble de más alta distribución

final (Gómez Villegas, 2005, p. 185) a la región creı́ble C(x1 , ..., xn ) construida de
la forma C(x1 , ..., xn ) = {θ | π(θ | (x1 , ..., xn )) ≥ c}, donde c ∈ R se escoge tal que
P {θ ∈ C(x1 , ..., xn )} ≥ 1 − α.
Observación 2.2. Si c disminuye, la probabilidad de C(x1 , ..., xn ) aumenta, porque el

propio tamaño de C lo hace. Ası́, hemos encontrado un conjunto de puntos con la máxima
probabilidad posible, y en consecuencia hemos asegurado que tenga menor longitud que
cualquier otra región creı́ble del intervalo.
Ejemplo 2.1. Sea una (X1 , ..., Xn ) que se distribuye según una Gamma(a, p) en
parametrización de escala y norma, y sea la distribución a priori de θ una P oisson(θ).
3
Como indicamos anteriormente, usamos ((cubra)) y ((contener)) a propósito, porque en el primero es
algo comprobable dada una muestra y en el segundo es algo seguro al nivel elegido, con la muestra ya
dada (Casella G., 2002, p. 435).
3
Entonces, podemos calcular la distribución a posteriori utilizando (1.1):
a−p p−1 − aθ −nθ nx̄ Q 1
Γ(p)
θ e e θ n
i=1 xi !
π(θ | (x1 , ..., xn ))) = R ∞ a−p θ
0 Γ(p)
θp−1 e− a e−nθ θnx̄ Qn 1 xi !
i=1
n
1X
siendo x̄ = xi
n i=1
1
θnx̄+p−1 e−θ(n+ a ) (n + a1 )nx̄+p nx̄+p−1 −θ(n+ 1 ) a
=Z = θ e a ∼ Gamma( , nx̄ + p)
∞
1 Γ(nx̄ + p) na + 1
θnx̄+p−1 e−θ(n+ a ) dθ
0
Ejemplo 2.2. Partiendo del ejercicio anterior, vamos a ver cómo calcular la región creı́ble
en un ejemplo particular. Observamos que
2(na + 1) 1
θ ∼ Gamma( , nx̄ + p) ∼ χ22(nx̄+p)
a 2
10
X
Ası́, si fijamos unos valores determinados como n = 10, xi = 5, a = b = 1, α = 0,1, y
i=1
procedemos según el método que consistı́a en buscar las colas con probabilidad α2 . Tenemos
que:
k1 2(na + 1)
P (χ22(nx̄+p) ≤ ) = 0,05 ⇒ 1 − P (χ212 ≥ 22k1 ) = 0,05 ⇒ k1 = 0,24
a
k2 2(na + 1)
P (χ22(nx̄+p) ≥ ) = 0,05 ⇒ P (χ212 ≥ 22k2 ) = 0,05 ⇒ k2 = 0,95
a
y obtenemos el intervalo C(x1 , ..., xn ) = (0,24, 0,95).
3. Contrastes de hipótesis bayesianos
Los contrastes de hipótesis nacen con la intención de ayudarnos a decidir cuál de las
regiones de confianza que hemos obtenido por distintos métodos anteriormente es la que
más probabilidades tiene de cubrir o contener al parámetro.
Definición 3.1. Si tenemos dos hipótesis sobre el parámetro, que llamamos hipótesis
nula y denotamos por H0 : θ ∈ Θ0 e hipótesis alternativa por H1 : θ ∈ Θ1 , entonces un
contraste o test es un procedimiento para ver cuál de ellas rechazamos. Ası́, dividimos
el espacio muestral Xn en dos regiones, crı́tica y de aceptación respectivamente, tales que
(x1 , ..., xn ) ∈ Wn si se rechaza H0 y (x1 , ..., xn ) ∈ Wna si se acepta H0 .
No perdamos de vista lo que dice la Definición 2.2: la región creı́ble de más alta
distribución final es precisamente la que menor longitud tiene, por tanto la que más
4
posibilidades tiene de contener al parámetro. Por este razonamiento, resulta que esta
región es la óptima que buscamos haciendo contrastes. Sin embargo, si contamos con dos
hipótesis que no sean necesariamente óptimas, tenemos que construir un método para
contrastarlas como podamos.
La ventaja de la estadistica bayesiana en este punto es la facilidad con la que

contruimos este método, puesto que podemos calcular directamente las probabilidades
de que el parámetro cumpla una u otra hipótesis. De hecho, tenemos:
Z
P (Θ0 | (x1 , ..., xn )) = π(θ | (x1 , ..., xn ))dθ (3.1)
Θ0
Z
P (Θ1 | (x1 , ..., xn )) = π(θ | (x1 , ..., xn ))dθ (3.2)
Θ1
Dicho esto, es evidente que la región crı́tica será el conjunto de las muestras para las
cuales P (Θ1 | (x1 , ..., xn )) > P (Θ0 | (x1 , ..., xn )). Destacamos que es θ el que varı́a y que
calculamos la probabilidad de que θ ∈ Θi ; la muestra es fija. Deducimos, por tanto, la
simplicidad del constraste: basta comprobar qué probabilidad de las dos es mayor. Por
último, se tiene:
P (Θ0 | (x1 , ..., xn )) + P (Θ1 | (x1 , ..., xn )) = 1 (3.3)
Ahora vamos a ver una manera de simplificar la elección de una hipótesis u otra,
atendiendo al criterio anterior, siguiendo los planteamientos expuestos en (Gómez Villegas,
2005, p. 226):
Definición 3.2. Para contrastar la hipótesis nula H0 frente a la alterantiva H1 , se define

el factor Bayes en favor de H0 mediante:
P (H0 | (x1 , ..., xn ))/P (H1 | (x1 , ..., xn ))

B(x1 , ..., xn ) = (3.4)
P (H0 )/P (H1 )
La interpretación consiste en ver que cuanto mayor sea el factor, mayor será la
evidencia a favor de la hipótesis nula. Para terminar, vamos a ver algunas aplicaciones
del factor bayes cuando contrastamos ciertos tipos de hipótesis.
3.1. Factor bayes al contrastar hipótesis simples
Cuando contrastamos dos hipótesis del tipo H0 : θ = θ0 y H1 : θ = θ1 , y tenemos la

muestra (x1 , ..., xn ), también tenemos las probabilidades de H0 y H1 , que llamaremos p y
5
1 − p. Despejando en la fórmula:
pfθ0 (~x) pfθ0 (~x) + (1 − p)fθ1 (~x) 1 − p
B(x1 , ..., xn ) =
pfθ0 (~x) + (1 − p)fθ1 (~x) (1 − p)fθ1 (~x) p
siendo
pfθ0 (~x)
P (θ0 | (x1 , ..., xn )) =
pfθ0 (~x) + (1 − p)fθ1 (~x)
(1 − p)fθ1 (~x)
P (θ1 | (x1 , ..., xn )) =
pfθ0 (~x) + (1 − p)fθ1 (~x)
por tanto, la región crı́tica será
Wn = {(x1 , ..., xn ) | P (θ1 | (x1 , ..., xn )) > P (θ0 | (x1 , ..., xn ))}
fθ1 (~x) p
⇐⇒ Wn = {(x1 , ..., xn ) | > }
fθ0 (~x) 1−p
donde remarcamos que (x1 , ..., xn ) es fija.
3.2. Factor bayes cuando la hipótesis nula es simple y la

alternativa es compuesta
En este caso, se utiliza como distribución inicial la que asigna una probabilidad p a
H0 : θ = θ0 y 1 − p a H1 : θ 6= θ0 . Teniendo en cuenta que la integral sobre Θ es la misma
que la integral sobre Θ1 porque solo excluye un punto, operamos:
pfθ0 (~x)
P (θ0 | (x1 , ..., xn )) = R
pfθ0 (~x) + (1 − p) Θ fθ (~x)π(θ)dθ
R
(1 − p) Θ fθ (~x)π(θ)dθ
P (θ1 | (x1 , ..., xn )) = R
pfθ0 (~x) + (1 − p) Θ fθ (~x)π(θ)dθ
y el factor bayes queda:
pf (~x) 1−p
B(x1 , ..., xn ) = R θ0
(1 − p) Θ fθ (~x)π(θ)dθ p
y la región crı́tica será
Z
Wn = {(x1 , ..., xn ) | (1 − p) fθ (~x)π(θ)dθ > pfθ0 (~x)}
R Θ
fθ (~x)π(θ)dθ p
⇐⇒ Wn = {(x1 , ..., xn ) | Θ > }
fθ0 (~x) 1−p
Ejemplo 3.1. Siguiendo con nuestra distribución de los ejemplos anteriores, tenemos que
la región creı́ble óptima viene dada por
Z
C = {θ | π(θ | (x1 , ..., xn )) ≥ c} donde 1 − α = π(θ | (x1 , ..., xn ))dθ
C
6
Ası́, hemos de encontrar θ0 y θ1 tales que
Z θ1
π(θ0 | (x1 , ..., xn )) = π(θ1 | (x1 , ..., xn )) y π(θ | (x1 , ..., xn ))dθ = 1 − α
θ0
En este punto los cálculos se hacen complicados, pero en (Casella G., 2002, p. 448)
10
X
encontramos una solución para n = 10, 1 − α = 0,1, xi = 6, que lleva al intervalo
i=1
[0,253, 1,005].
Ejemplo 3.2. Sea una (X1 , ..., Xn ) ∼ N (θ, σ), con σ conocida. Sean las hipótesis H0 :
θ = 0 y H1 : θ 6= 0, suponemos una distribución inicial que asigna una probabilidad p a H0
y 1 − p a H1 , que además está repartida con una distribución N (0, σ0 ), con σ0 conocida.
Tenemos:
n
X
n
1
− 2σ (xi − θ)2
Y 1 2 1
fθ (x1 , ..., xn ) = e− 2σ2 (xi −θ) = ( √ )n e i=1
i=1
σ 2π
1 − 12 θ 2
π(θ) = √ e 2σ0
σ0 2π
X n
− 21
x2i
1 2σ
f0 (~x) = ( √ )n e i=1
σ 2π

X n 
2
(xi − θ)
 1

− 2σ

 

1 2
− θ
 
 R ∞ 1 n 1 2σ 2

( √ ) e i=1 √ e dθ
 

−∞ σ 2π σ0 2π
0
p 
⇒ Wn = n > =
 X
2
1 − p
− 12 xi

 


 2σ


1
 n

 ( σ 2π ) e
√ i=1 
n
 
2 2
X
Z ∞ − θ22 ( nσσ02+σ
 

 θ
2 )+ σ 2 xi  
 1 σ0 
= ( √ ) e i=1 dθ =


 σ0 2π −∞ 


 
( Pn 2
)
i=1 xi σ0
σ 2 2 2
σ (nσ0 +σ )2 p
= p 2 e >
nσ0 + σ 2 1−p
y esta es la expresión final para la región crı́tica. Señalamos que, para los mismos datos,
si hubiéramos calculado la región crı́tica con el teorema de Neyman-Pearson, podrı́amos
haber obtenido un resultado distinto, dando lugar a la aceptación y negación simultánea
de la hipótesis nula, lo que se conoce como pareadoja de Jeffreys o paradoja de Lindley
(Gómez Villegas, 2005, p. 228).
7
Terminamos con una aclaración sobre la simetrı́a de las regiones de confianza y creı́bles.
En las regiones de confianza, al tratar el estudio de sus contrastes, se introducen asimetrı́as
a favor de la hipótesis nula que le da cierto nivel de relevancia sobre la alternativa, es
decir, la trataremos de comprobar o descartar. No obstante, en los contrastes de regiones
creı́bles no es necesaria esta puntualización y podremos considerar ambas hipótesis de
manera simétrica.
8
Referencias
Casella G., R. L., Berger. (2002). Statistical inference (2.a ed.). Estados Unidos: Duxbury
Thomson Learning.
Gómez Villegas, M. A. (2005). Inferencia estadı́stica (1.a ed.). Madrid: Diaz de Santos.

Trabajo de Estad Stica 2 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo de Estad Stica 2 PDF

Cargado por

Copyright:

Formatos disponibles

Regiones de Confianza y Contrastes de

Alejandro Moreno Becerra

Realizaremos un estudio de las regiones de confianza bayesianas y los contrastes

1. Introducción a los estimadores bayesianos

Los estimadores se construyen, en general, para intentar extraer información

π(θ)fθ (x1 , ..., xn )

donde m(x1 , ..., xn ) es la distribución marginal de la muestra (X1 , ..., Xn ),

Destacamos, por último, que la elección en la notación de la distribución a posteriori no

2. Regiones de confianza bayesianas

En una familia paramétrica de distribuciones, la noción de región de confianza surge

En la estadı́stica frecuentista, dada una m.a.s. (X1 , ..., Xn ) en un modelo estadı́stico

Definición 2.2. Se llama región creı́ble de más alta distribución

Observación 2.2. Si c disminuye, la probabilidad de C(x1 , ..., xn ) aumenta, porque el

3. Contrastes de hipótesis bayesianos

La ventaja de la estadistica bayesiana en este punto es la facilidad con la que

P (Θ0 | (x1 , ..., xn )) + P (Θ1 | (x1 , ..., xn )) = 1 (3.3)

Definición 3.2. Para contrastar la hipótesis nula H0 frente a la alterantiva H1 , se define

P (H0 | (x1 , ..., xn ))/P (H1 | (x1 , ..., xn ))

3.1. Factor bayes al contrastar hipótesis simples

Cuando contrastamos dos hipótesis del tipo H0 : θ = θ0 y H1 : θ = θ1 , y tenemos la

3.2. Factor bayes cuando la hipótesis nula es simple y la

También podría gustarte