Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FEJMCFSUPOBKFSB!VKBUNY
1. Introducción
0
Sea Y = (Y1 , Y2 , ..., Yn ) un vector aleatorio cuya densidad de probabilidad f (y|θ)
0
depende de k parámetros que forman el vector θ = (θ1 , θ2 , ..., θk ) . Supóngase también
que θ tiene una densidad de probabilidad f (θ). Entonces la densidad de probabilidad
0
condicional de θ dado el vector de observaciones y = (y1 , y2 , ..., yn ) es
f (y|θ)f (θ)
f (θ|y) = ,
f (y)
donde f (y) 6= 0. A esta ecuación se le conoce como el teorema de Bayes, donde f (y)
es la distribución de probabilidad marginal de Y, la que puede ser expresada como
R
f (y|θ)f (θ)dθ si θ es continuo,
f (y) = P
θ f (y|θ)f (θ) si θ es discreto.
(m!)n
f (θ|y) = c Qn Qn θΣyi (1 − θ)nm−Σyi .
i=1 y i ! i=1 (m − yi )!
(m!)n
f (θ | y) = c Qn Qn θ(Σyi +1)−1 (1 − θ)(nm−Σyi +1)−1 ,
i=1 yi ! i=1 (m − yi )!
que tiene la forma de una distribución beta con parámetro (Σyi + 1) y (nm − Σyi + 1).
Luego el valor de la constante normalizadora c es
Q Q
Γ(nm + 2) yi ! (m − yi )!
c= .
Γ(Σyi + 1)Γ(nm − Σyi + 1) (m!)n
92 Nótese que es a través de l(θ|y) que los datos (información muestral) modifican el
93 conocimiento previo de θ dado por f (θ).
94 Por último, es conveniente señalar que la información muestral Y por lo general
95 será introducida en el modelo a través de estadı́sticas suficientes para θ, dado que
96 éstas contienen toda la información referente a los datos. Ası́, dado un conjunto de
97 estadı́sticas suficientes T para los parámetros en θ, f (y|θ) podrá ser intercambiada
98 por f (t|θ), donde t es una observación de T , para lo cual bastará con calcular la
99 distribución condicional de T dado θ.
Supóngase que se tiene una muetra inicial y1 . Entonces, por la fórmula de Bayes
dada anteriormente se tiene
de donde
f (θ|y1 , y2 ) ∝ l(θ|y2 )f (θ|y1 ).
De esta manera, la distribución a posteriori obtenida con la primera muestra se con-
vierte en la nueva distribución a priori para ser corregida por la segunda muestra.
Este proceso puede repetirse indefinidamente. Ası́, si se tienen r muestras indepen-
dientes, la distribución a posteriori puede ser recalculada secuencialmente para cada
muestra de la siguiente manera,
f (θ|y1 , y2 , ..., ym ) ∝ l(θ|ym )f (θ|y1 , y2 , ..., ym−1 ), para m = 2, 3, ..., r.
101 Nótese que f (θ|y1 , y2 , ..., yr ) puede también ser obtenida partiendo de f (θ) y consi-
102 derando al total de las r muestras como una sola gran muestra.
109 Si se tiene un conocimiento previo sobre los parámetros, éste se traducirá en una
110 distribución a priori. Ası́, será posible plantear tantas distribuciones a priori como
111 estados iniciales de conocimiento existan, y los diferentes resultados obtenidos en la
112 distribución a posteriori bajo cada uno de los enfoques adquirirán una importancia
113 en relación con la convicción que tenga el investigador sobre cada estado inicial. Sin
114 embargo, cuando nada es conocido sobre los parámetros, la selección de una distribu-
115 ción a priori adecuada adquiere una connotación especial, pues será necesario elegir
116 una distribución a priori que no influya sobre ninguno de los posibles valores de los
117 parámetros en cuestión. Estas distribuciones a priori reciben el nombre de difusas o
118 no informativas.
119
De aquı́
Y n−Y nθ E(n − Y )
E − 2− = − − ,
θ (1 − θ)2 θ2 (1 − θ)2
Y n−Y n
E − 2− =− .
θ (1 − θ)2 θ(1 − θ)
Ası́, por (2), √
n
f (θ) ∝ √ √ .
θ 1−θ
Prescindiendo de n se obtiene que la distribución a priori de θ es
1 1
f (θ) ∝ θ− 2 (1 − θ)− 2 ,
I(θ) = −E .
3(Y −µ)2
− 2(Yσ−µ)
3
1
σ2 − σ4
De aquı́
1
" #
σ2 0
I(θ) = .
2
0 σ2
127 En este caso, la distribución a priori es determinada completamente por una fun-
128 ción de densidad conocida. Berger (ver [1]) presenta la siguiente definición para una
129 familia conjugada.
130 Definición 1. Una clase P de distribuciones a priori es una familia conjugada para
131 la clase de funciones de densidad R, si f (θ|y) está en la clase P para toda f (y|θ) ∈ R
132 y toda f (θ) ∈ P .
Ejemplo 4. Sean el parámetro θ que a priori tiene una distribución beta con paráme-
tros α y β, Y una variable aleatoria con distribución binomial con parámetros m y
θ, con m conocido. Entonces se tienen las siguientes funciones de distribución
Γ(α + β) α−1
f (θ) = θ (1 − θ)β−1 I(0,1) (θ),
Γ(α)Γ(β)
m y
f (y|θ) = θ (1 − θ)m−y , y = 0, 1, ..., m.
y
Ahora, para una muestra aleatoria de tamaño n la función de verosimilitud está dada
por
n
!
Y m
l(y|θ) = θΣyi (1 − θ)mn−Σyi , yi ∈ {0, 1, ..., m}.
i=1
y i
Ejemplo Sean el parámetro θ con una distribución N (µ0 , τ02 ), donde µ0 y τ0 son
5.
conocidos, y la variable X con una distribución N (θ, σ 2 ), con σ 2 conocido. Entonces
se tienen las funciones de densidad
1 (θ − µ0 )2
1
f (θ) = √ exp −
2πτo 2 τ02
y
1 (x − θ)2
1
f (x|θ) = √ exp − .
2πσ 2 σ2
1 (θ − µ0 )2 (x − θ)2
f (θ|x) ∝ exp − + .
2 τ02 σ2
Pero
(θ − µ0 )2 (x − θ)2 σ 2 (θ − µ0 )2 + τ02 (x − θ)2
2 + =
τ0 σ 2 τ02 σ 2
σ 2 (θ2 − 2θµ0 + µ20 ) + τ02 (x2 − 2xθ + θ2 )
=
τ02 σ 2
(σ 2 + τ02 )θ2 − 2(σ 2 µ0 + τ02 x)θ σ 2 µ20 + τ02 x2
= +
τ02 σ 2 σ 2 τ02
2(σ 2 µ0 +τ02 x)θ
θ2 − σ 2 +τ02 σ 2 µ20 + τ02 x2
= +
τ02 σ 2 σ 2 τ02
σ 2 +τ02
µ
2 20 + σx2 θ
τ0
θ2 − 1 1
σ2
+ 2
τ0 σ 2 µ20 + τ02 x2
= 1 +
1 1 σ 2 τ02
2 + σ2
τ0
µ0
+ σx2
2 µ0 + x 2
2
τ0 2
τ0 σ2
θ− 1 1 − 1 1
σ2
+ 2
τ0 σ2
+ 2
τ0 σ 2 µ20 + τ02 x2
= 1 + ,
1 1 σ 2 τ02
2 + σ2
τ0
es decir,
1 (θ − µ1 )2
1
f (θ|x) = √ exp − ,
2πτ1 2 τ12
donde
1
µ + σ12 x
τ02 0 1 1 1
µ1 = 1 y = 2 + 2.
τ02
+ σ12 τ12 τ0 σ
1
143 (i) A τ02
se le conoce como la precisión de la distribución.
144 (ii) En este ejemplo se tiene: precisión a posteriori = precisión a priori+precisión de los
145 datos.
f (θ|x) ∝ f (θ)f (x|θ) = f (θ)f (x1 |θ)f (x2 |θ)...f (xn |θ),
Yn
f (θ|x) ∝ f (θ)f (x|θ) = f (θ) f (xi |θ),
i=1
n
1 (θ − µ0 )2 1 (xi − θ)2
Y
f (θ|x) ∝ exp − exp − ,
2 τ02 i=1
2 σ2
" n
!#
1 (θ − µ0 )2 1 X 2
f (θ|x) ∝ exp − + 2 (xi − θ) .
2 τ02 σ i=1
Ahora,
n
X n
X n
X
(xi − θ)2 = (xi − x̄ + x̄ − θ)2 = [(xi − x̄)2 + 2(xi − x̄)(x̄ − θ) + (x̄ − θ)2 ]
i=1 i=1 i=1
n
X n
X
= (xi − x̄)2 + 2(x̄ − θ) (xi − x̄) + n(x̄ − θ)2
i=1 i=1
n
X
= (xi − x̄)2 + n(x̄ − θ)2 ,
i=1
Pn
porque i=1 (xi − x̄) = 0. De aquı́
" n
!#
1 (θ − µ0 )2 1 X 2 2
f (θ|x) ∝ exp − + 2 ( (xi − x̄) + n(x̄ − θ) ) ,
2 τ02 σ i=1
es decir, " !#
1 (θ − µ0 )2 (x̄ − θ)2
f (θ|x) ∝ exp − 2 + σ2
.
2 τ0 n
donde,
1
µ + σn2 x̄
τ02 0 1 1 n
µn = 1 y = 2 + 2.
τ02
+ σn2 τn2 τ0 σ
147 Dado que la distribución final contiene toda la información concerniente al paráme-
148 tro de interés θ (información a priori y muestral), cualquier inferencia con respecto a
149 θ consistirá en afirmaciones hechas a partir de dicha distribución.
156 En el contexto bayesiano (ver por ejemplo [2]) existen dos formas de reducir la
157 información contenida en f (θ|y) a un simple ”mejor” estimador, a saber,
162 Definición 2. Sea (X1 , X2 , ..., Xn ) una muestra de f (x|θ), donde θ es una variable
163 aleatoria con función de densidad gθ (•). El estimador de Bayes a posteriori de τ (θ)
164 con respecto a la a priori gθ (•) está dado como E(τ (θ)|x1 , x2 , ..., xn ).
De aquı́,
R1
θθΣxi (1 − θ)n−Σxi dθ
E(θ|x1 , x2 , ..., xn ) = R0 1
0
θΣxi (1 − θ)n−Σxi dθ
R 1 Σx +1
θ i (1 − θ)n−Σxi dθ
= R1 0
0
θΣxi +1−1 (1 − θ)n−Σxi +1−1 dθ
R 1 Σx +2−1
θ i (1 − θ)n−Σxi +1−1 dθ
= R01
0
θΣxi +1−1 (1 − θ)n−Σxi +1−1 dθ
Γ( ni=1 xi +2)Γ(n− ni=1 xi +1)
P P
Γ(n+3)
= Γ( ni=1 xi +1)Γ(n− ni=1 xi +1)
P P
Γ(n+2)
Pn Pn
Γ(n + 2)Γ( i=1 xi + 2)Γ(n − i=1 xi + 1)
= Pn Pn
Γ(n + 3)Γ( i=1 xi + 1)Γ(n − i=1 xi + 1)
Pn Pn
Γ(n + 2)( i=1 xi + 1)Γ( i=1 xi + 1)
= Pn
(n + 2)Γ(n + 2)Γ( i=1 xi + 1)
Pn
i=1 xi + 1
= .
Γ(n+4)
= Γ( ni=1 xi +1)Γ(n− i=1 xi +1)
P P
Γ(n+2)
Pn Pn
Γ(n + 2)Γ( i=1 xi + 2)Γ(n − i=1 xi + 2)
= Pn Pn .
Γ(n + 4)Γ( i=1 xi + 1)Γ(n − i=1 xi + 1)
Simplificando la última expresión resulta,
Pn Pn
( i=1 xi + 1)(n − i=1 xi + 1)
E(θ(1 − θ)|x1 , x2 , ..., xn ) = . (3)
(n + 3)(n + 2)
165 Ası́, el estimador de Bayes a posteriori de θ(1−θ), con respecto a la a priori uniforme,
166 es el dado por (3).
Ejemplo 8. Sean (X1 , X2 , ..., Xn ) una muestra aleatoria de una distribución normal
N (θ, 1) y θ ∼ N (µ0 , 1). Puesto que
Haciendo x0 = µ0 ,
n
X n
X n
X
(xi − θ)2 + (θ − µ0 )2 = (xi − θ)2 = (θ2 − 2θxi + x2i )
i=1 i=0 i=0
n
X
2
= (n + 1)θ − 2θ(n + 1)x̄ + x2i
i=0
n
X
= (n + 1)(θ − x̄)2 − (n + 1)x̄2 + x2i .
i=0
De aquı́
n+1 2
f (θ|x) ∝ e− 2 (θ−x̄) ,
de donde
1 n+1 2 1 n+1 Pn xi 2
f (θ|x) = q e− 2 (θ−x̄) =q e− 2 (θ− i=0 n+1 ) .
2π 2π
n+1 n+1
Ası́, Pn Pn
xi
i=0 µ0 + i=1 xi
E(θ|x1 , x2 , ..., xn ) = = .
n+1 n+1
Z
E(L(θ, a)) = L(θ, a)f (θ|x)dθ, (4)
176 Hay muchas funciones de pérdida que se pueden usar. La elección en particular
177 de una de ellas dependerá del contexto del problema, como se ilustra en los ejemplos
178 siguientes.
Ejemplo 10. Consideremos ahora un juego entre dos jugadores, donde cada jugador
elige un número positivo. Desde el punto de vista del jugador 1, Θ = {1, 2, ...} , que
es el mismo conjunto de estimadores que tal jugador usará. El jugador que elija el
número mayor gana 100 pesos del otro. En esta situación la función de pérdida es
180 En 3.3 veremos otros ejemplos. Las funciones de pérdida más usadas son:
1. Pérdida cuadrática,
L(θ, a) = (θ − a)2.
L(θ, a) = |θ − a|.
Ejemplo 11. Sea (X1 , X2 , ..., Xn ) una muestra aleatoria de una distribución f (x|θ),
con θ ∈ R. Sea L(θ, a) = (θ − a)2 . Entonces
Z
E(L(θ, a)) = E(θ − a)2 = (θ − a)2 f (θ|x)dθ.
Ahora, si Z
θm = θf (θ|x)dθ,
a = θm .
181 De aquı́ se concluye que la regla de Bayes con respecto a la función de pérdida
182 cuadrática es d(x) = E[θ|x].
Ejemplo 12. Sea (X1 , X2 , ..., Xn ) una muestra aleatoria de una distribución f (x|θ),
con θ ∈ R, θ variable aleatoria continua. Sea ahora L(θ, a) = |θ − a|. Entonces
Z
E(L(θ, a)) = |θ − a|f (θ|x)dθ,
donde
θ−a si a ≤ θ,
|θ − a| =
−(θ − a) si θ < a,
Ahora,
Z ∞ Z a Z ∞
|θ − a|f (θ|x)dθ = −(θ − a)f (θ|x)dθ + (θ − a)dθ
−∞ −∞ a
Z a Z ∞
= (a − θ)f (θ|x)dθ + (θ − a)f (θ|x)dθ
−∞ a
Z a Z a
= af (θ|x)dθ − θf (θ|x)dθ
−∞ −∞
Z ∞ Z ∞
+ θf (θ|x)dθ − af (θ|x)dθ
a
Z a Za a
=a f (θ|x)dθ − θf (θ|x)dθ
−∞ −∞
Z ∞ Z ∞
+ θf (θ|x)dθ − a f (θ|x)dθ,
a a
de aquı́,
Z ∞ Z a
d
|θ − a|f (θ|x)dθ = f (θ|x)dθ + af (a|x) − af (a|x) − af (a|x)
da −∞ −∞
Z ∞
− f (θ|x)dθ + af (a|x)
Za a Z ∞
= f (θ|x)dθ − f (θ|x)dθ.
−∞ a
R
d ∞
Si da −∞
|θ − a|f (θ|x)dθ = 0, entonces
Z a Z ∞
f (θ|x)dθ = f (θ|x)dθ,
−∞ a
185 Por lo tanto am es un punto de mı́nimo local de esta función, y como es el único punto
186 de extremo relativo, entonces la función alcanza su mı́nimo absoluto en am .
187 De aquı́ se tiene que la regla de Bayes, con respecto a la función de pérdida lineal
188 absoluta, es la mediana de la distribución final.
Ejemplo 13. Sea (X1 , X2 , ..., Xn ) una muestra aleatoria de una distribución f (x|θ),
con θ ∈ R, θ variable aleatoria continua. Sea ahora L(θ, a) la función de pérdida
lineal. Entonces Z ∞
E(L((θ, a)) = L(θ − a)f (θ|x)dθ,
−∞
donde
c1 (a − θ) si a ≥ θ ,
L(θ, a) =
c2 (θ − a) si a < θ .
Ahora,
Z ∞ Z a Z ∞
L(θ, a)f (θ|x)dθ = c1 (a − θ)f (θ|x)dθ + c2 (θ − a)f (θ|x)dθ
−∞ −∞ a
Z a Z ∞
= (c1 a − c1 θ)f (θ|x)dθ + (c2 θ − c2 a)f (θ|x)dθ
−∞ a
Z a Z a
= c1 af (θ|x)dθ − c1 θf (θ|x)dθ
−∞ −∞
Z ∞ Z ∞
+ c2 θf (θ|x)dθ − c2 af (θ|x)dθ
a
Z a Za a
=a c1 f (θ|x)dθ − c1 θf (θ|x)dθ
−∞ −∞
Z ∞ Z ∞
+ c2 θf (θ|x)dθ − a c2 f (θ|x)dθ,
a a
de aquı́, procediendo igual que en el ejemplo anterior,
Z ∞ Z a Z ∞
d
L(θ, a)f (θ|x)dθ = c1 f (θ|x)dθ − c2 f (θ|x)dθ.
da −∞ −∞ a
R
d ∞
Si da −∞
L(θ, a)f (θ|x)dθ = 0, entonces
Z a Z ∞
c1 f (θ|x)dθ = c2 f (θ|x)dθ,
−∞ a
de donde se tiene Z ∞ Z a
c1
f (θ|x)dθ = f (θ|x)dθ. (5)
a c2 −∞
Sustituyendo en Z a Z ∞
1= f (θ|x)dθ + f (θ|x)dθ
−∞ a
R∞
la expresión de a
f (θ|x)dθ dada por (5), se obtiene
Z a
c2
f (θ|x)dθ = .
−∞ c1 + c2
c2
189 Ası́, el percentil â = c1 +c2 es el valor crı́tico de E[L(θ, a)].
Por otro lado,
Z ∞ Z a Z ∞
d2
d
L(θ, a)f (θ|x)dθ = c1 f (θ|x)dθ − c2 f (θ|x)dθ
da2 −∞ da −∞ a
= c1 f (a|x) + c2 f (a|x)
= (c1 + c2 )f (a|x),
luego,
∞
d2
Z
L(θ, a)f (θ|x)dθ |a=â = (c1 + c2 )f (â|x) > 0.
da2 −∞
190 Por lo tanto, el percentil c1c+c
2
2
es un punto mı́nimo local de esta función, y como es el
191 único punto de extremo relativo, entonces la función alcanza en él su mı́nima pérdida
192 lineal.
Ası́, la regla de Bayes con respecto a la funciónde pérdida lineal es el percentil
c2
.
c1 + c2
Un aspecto importante con las regiones de credibilidad (y lo mismo sucede con los
intervalos de confianza) es que no están definidos de manera única. Cualquier región
con probabilidad (1 − α) cumple la definición. Sin embargo, generalmente se desea el
intervalo que contiene únicamente los valores ”más” posibles del parámetro, por lo
que es usual imponer una restricción adicional que indica que el ancho del intervalo
debe ser tan pequeño como sea posible. Para hacer esto se deben considerar sólo
aquellos puntos con f (θ|x) más grandes. Esto conduce a un intervalo (o región) de la
forma
C = Cα (x) = {θ : f (θ|x) ≥ γ},
R
205 donde γ es elegido tal que C f (θ|x)dθ = 1 − α.
206 La región C que cumple las anteriores condiciones se denomina ”región de densidad
207 de probabilidad más grande” (HPD).
Ejemplo 14. (Media de una normal) Sea (X1 , X2 , ..., Xn ) una muestra aleatoria de
una distribución N (θ, σ 2 ), con σ 2 conocido y θ ∼ N (b, d2 ). Del ejemplo 6 se sabe que
!
b nx̄
d2 + σ 2 1
θ|x ∼ N 1 n , 1 n .
d2 + σ 2 d2 + σ 2
Sean
b nx̄
d2 + σ2
µn = 1 n ,
d2 + σ2
y
1
τn2 = 1 n .
d2 + σ2
2
208 Si n es grande, entonces µn ≈ x̄ y τn2 ≈ σn , luego el intervalo del 100(1 − α) % de
209 credibilidad de θ es aproximadamente igual al intervalo del 100(1 − α) % de confianza
210 de θ, de la estadı́stica clásica. Sin embargo, las interpretaciones de ambos intervalos
211 son distintas.
Ejemplo 15. Sea (X1 , X2 , ..., Xn ) una muestra aleatoria de una distribución de Pois-
son, P (λ), con λ ∼gamma (a, b), donde a es un entero positivo. Entonces
λ
f (λ|x) ∝ λΣxi e−nλ λa−1 e− b ,
o sea
1
f (λ|x) ∝ λΣxi +a−1 e−λ(n+ b ) ,
de donde se tiene que
−1 !
1
λ|x ∼ gamma a + Σxi , n + .
b
Si
2(nb + 1)
θ= λ,
b
entonces
θ
f (θ) ∝ θΣxi +a−1 e− 2 ,
es decir,
θ ∼ χ22(Σxi +a) .
Si χ22(Σxi +a),α es el percentil α de la distribución χ22(Σxi +a) , un intervalo del 100(1−α) %
de credibilidad de λ es
b b
χ22(Σxi +a), α , χ22(Σxi +a),1− α .
2(nb + 1) 2 2(nb + 1) 2
[0,299, 1,077].
212 Definición 5. Sea f (x) una función de densidad. Se dice que f (x) es unimodal si
213 existe a ∈ R que satisface las dos condiciones siguientes:
220 El siguiente teorema (ver [3]) nos dice cómo obtener el intervalo de credibilidad de
221 mı́nima longitud, cuando la densidad f (θ|x) es unimodal.
222 Teorema 4. Sea f (x) una función de densidad unimodal. Si el intervalo [a, b] satis-
223 face
Rb
224 (i) a f (x)dx = 1 − α,
225 (ii) f (a) = f (b) > 0, y
226 (iii) a ≤ x∗ ≤ b, donde x∗ es una moda de f (x),
227 entonces [a, b] es el intervalo más corto que satisface (i).
0 0 0 0
228 Prueba. Sea [a , b ] cualquier intervalo con b −a < b−a. Se probará que esto implica
R b0 0
229 que a0 f (x)dx < 1 − α. El resultado sólo se demostrará para a ≤ a; la prueba es
0 0 0
230 similar si a < a . También se consideran dos casos, b ≤ a y b > a.
0 0 0 0 0
Si b ≤ a, entonces a ≤ b ≤ a ≤ x∗ , luego, si a ≤ x ≤ b ≤ x∗ , tenemos
0 0
f (a ) ≤ f (x) ≤ f (b ), por lo tanto
0
Z b
0 0 0
f (x)dx ≤ f (b )(b − a ).
0
a
0 0 0 0
Como b ≤ a ≤ x∗ , entonces f (b ) ≤ f (a); también b − a < b − a. De aquı́
0
Z b
0 0
f (x)dx ≤ f (a)(b − a ) < f (a)(b − a).
0
a
∗
Ahora, como a ≤ x ≤ b y f (a) = f (b), entonces f (a) ≤ f (x) si x ∈ [a, b], de donde
Z b
f (a)(b − a) ≤ f (x)dx.
Ası́,
0
Z b Z b
f (x)dx < f (a)(b − a) ≤ f (x)dx = 1 − α.
a0 a
231 Esto completa la demostración del primer caso.
0 0 0
Si b ≥ b, entonces b − a ≥ b − a, luego en este caso nada hay que hacer. Supon-
0 0
gamos ahora que a ≤ a < b < b. En este caso se puede escribir
Z 0 b Z "Z
b Z #
a b
f (x)dx = f (x)dx + f (x)dx − f (x)dx
a0 a a0 b0
"Z #
a Z b
= (1 − α) + f (x)dx − f (x)dx ,
a0 b0
Ejemplo 17. Sea (X1 , X2 , ..., Xn ) como en el ejemplo 15. Por el teorema anterior, la
región HPD está dada por
{λ : f (λ|x) ≥ k},
y
Z λU
f (λ|x)dλ = 1 − α.
λL
Las pruebas de hipótesis son decisiones en las que se debe elegir una de dos hipótesis
diferentes,
H0 : θ ∈ Θ0 ,
H1 : θ ∈ Θc0 ,
y
c1 si θ ∈ Θ0 ,
L(θ, a1 ) =
0 si θ ∈ Θc0 ,
244 donde c0 > 0 y c1 > 0.
245 Con esta función de pérdida, c1 es el costo de un error de tipo I (el error de
246 equivocarse al rechazar H0 ), y c0 es el costo de un error de tipo II (el error de
247 equivocarse al aceptar H0 ).
Sea k la importancia relativa del error de tipo I con respecto al error de tipo II, es
decir,
c1
k= .
c0
si y sólo si
kc0 P (θ ∈ Θ0 |x) < c0 P (θ ∈ Θc0 |x),
si y sólo si
kP (θ ∈ Θ0 |x) < P (θ ∈ Θc0 |x),
si y sólo si
1
P (θ ∈ Θc0 |x) + P (θ ∈ Θ0 |x) < P (θ ∈ Θc0 |x) + P (θ ∈ Θc0 |x),
k
es decir, rechazamos H0 si y sólo si
k
P (θ ∈ Θc0 |x) > . (6)
k+1
Si k = 1, esto es si ambos tipos de errores tienen la misma importancia, de (6) se
tiene que rechazamos H0 si y sólo si
1
P (θ ∈ Θc0 |x) > .
2
Si k = 9, rechazamos H0 si y sólo si
Ejemplo 18. Sean x1 , x2 , ..., xn los valores observados de las v.a.i.i.d. X1 , X2 , ..., Xn
con distribución N (θ, σ 2 ), donde θ tiene distribución inicial N (µ, τ 2 ), con σ 2 , µ y
τ 2 conocidos. Queremos probar H0 : θ ≤ θ0 contra H1 : θ > θ0 . Del ejemplo 6, la
densidad final f (θ|x) es normal con media
nτ 2 x̄ + σ 2 µ
nτ 2 + σ 2
y varianza
σ2 τ 2
.
nτ 2 + σ 2
Puesto que f (θ|x) es simétrica con respecto a su media, la desiguadad (8) se cumple
si y sólo si
nτ 2 x̄ + σ 2 µ
< θ0 ,
nτ 2 + σ 2
si y sólo si
σ 2 (θ0 − µ)
x̄ < θ0 + .
nτ 2
Por lo tanto, H0 será aceptada como verdadera si y sólo si
σ 2 (θ0 − µ)
x̄ < θ0 + .
nτ 2
248 En caso contrario H1 será aceptada como verdadera.
253 Dada la relevancia que cada vez más están teniendo los métodos estadı́sticos ba-
254 yesianos, es conveniente que las personas interesadas en la estadı́stica tengan un co-
255 nocimiento por lo menos básico de la Estadı́stica Bayesiana. En particular, los planes
256 de estudio de las licenciaturas cuyo propósito es formar profesionistas con una bue-
257 na preparación estadı́stica, deberı́an tener al menos una asignatura sobre Inferencia
258 Bayesiana.
259 Agradecimientos
260 Gracias a los revisores por sus crı́ticas y sugerencias, las cuales contribuyeron signi-
261 ficativamente a mejorar el contenido y la presentación de este trabajo de divulgación.
262 Referencias
263 [1] Berger, J. O. (1985). Statistical Decisión Theory and Bayesian Analysis. Springer-Verlag,
264 New York.
265 [2] Bernardo, J. M. and A. F. M. Smith (2004) Bayesian Theory. John Wiley and Sons,
266 England.
268 [4] Jeffreys, H. (1946). An Invariant Form for the Prior Probability in Estimation Pro-
269 blems. Proceedings of the Royal Society of London. Series A, Mathematical and Physical
270 Sciences 186(1007), 453-461.
271 [5] O’Hagan, A. (1994). Kendall’s Advanced Theory of Satatistics, Volume 2B, Bayesian
272 Inference. John Wiley y Sons, USA.
273 [6] Robert, C. P. and G. Casella (2004). Monte Carlo Statistical Methods. Springer-Verlag,
274 USA.