Estadistica Bayesiana PDF

Estadística Bayesiana
Ms. Carlos López de Castilla Vásquez1
19 de octubre de 2011
1 Si
tienes comentarios o correcciones envíalos al siguiente correo electrónico:
clopez@lamolina.edu.pe
Índice general
1. Introducción 1
2. Teoría de la probabilidad y Estadística Clásica 3

2.1. Reglas de probabilidad . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Algunas distribuciones importantes . . . . . . . . . . . . . . . 4
2.2.1. Distribución binomial . . . . . . . . . . . . . . . . . . . 4
2.2.2. La distribución multinomial . . . . . . . . . . . . . . . 4
2.2.3. La distribución de Poisson . . . . . . . . . . . . . . . . 5
2.2.4. La distribución normal . . . . . . . . . . . . . . . . . . 5
2.2.5. La distribución normal multivariada . . . . . . . . . . . 5
2.2.6. La distribución t de student . . . . . . . . . . . . . . . 5
2.3. Estimación por máxima verosimilitud . . . . . . . . . . . . . . 5
2.3.1. Construyendo la función de verosimilitud . . . . . . . . 6
2.3.2. Obteniendo los errores estándar . . . . . . . . . . . . . 6
3. Estadística Bayesiana 8
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2. El teorema de Bayes para probabilidades puntuales . . . . . . 8
3.3. El teorema de Bayes aplicado a distribuciones de probabilidad 9
3.4. Distribución predictiva . . . . . . . . . . . . . . . . . . . . . . 10
3.5. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . 11
3.6. La distribución a priori . . . . . . . . . . . . . . . . . . . . . . 11
3.6.1. Principio de invariancia de Jeffreys . . . . . . . . . . . 11
3.6.2. Algunas distribuciones a priori útiles . . . . . . . . . . 12
3.6.2.1. La distribución Dirichlet . . . . . . . . . . . . 12
3.6.2.2. La distribución gamma inversa . . . . . . . . 13
3.6.2.3. Distribución Wishart y Wishart Inversa . . . 13
3.7. Críticas a la estadística Bayesiana . . . . . . . . . . . . . . . . 13
i
ÍNDICE GENERAL ii
4. Modelos basados en la distribución normal 14

4.1. Distribución normal con un solo parámetro desconocido . . . . 14
4.1.1. Distribución normal con σ 2 conocida . . . . . . . . . . 14
4.1.2. Distribución normal con µ conocida . . . . . . . . . . . 15
4.2. Distribución normal con ambos parámetros desconocidos . . . 16
4.2.1. Distribución a priori no informativa . . . . . . . . . . . 16
4.2.2. Distribución a priori informativa . . . . . . . . . . . . . 17
4.3. Características de la aproximación Bayesiana . . . . . . . . . . 19
4.4. Objeciones a la inferencia Bayesiana . . . . . . . . . . . . . . . 20
4.5. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.6. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.7. Odds y razón de verosimilitud . . . . . . . . . . . . . . . . . . 22
4.8. La naturaleza secuencial del teorema de Bayes . . . . . . . . . 23
5. Modelos uniparamétricos 28
5.1. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . 28
5.2. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.1. Estimación de la media con varianza conocida . . . . . 35
5.2.2. Distribución normal con media conocida y varianza de-
sconocida . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3. El modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . 39
5.4. Modelo exponencial . . . . . . . . . . . . . . . . . . . . . . . . 41
5.5. Distribuciones a priori no informativas . . . . . . . . . . . . . 42
5.6. Mixtura de distribuciones a priori . . . . . . . . . . . . . . . . 46
6. Modelos multiparamétricos 48
6.1. Distribución normal con media y varianza desconocidas . . . . 48
6.2. Distribución marginal posterior de la media . . . . . . . . . . 49
6.3. Distribución marginal posterior de la varianza . . . . . . . . . 50
6.4. Distribución condicional de la media dada la varianza . . . . . 50
Capítulo 1
Introducción
La estadística Bayesiana le debe su nombre al trabajo pionero del rev-

erendo Thomas Bayes titulado “An Essay towards solving a Problem in the
Doctrine of Chances” publicado póstumamente en 1764 en la “Philosophical
Transactions of the Royal Society of London”. El artículo fue enviado a la
Real Sociedad de Londres por Richard Price, amigo de Bayes, en 1763, quién
escribió:
“Yo ahora le mando un ensayo que he encontrado entre los

papeles de nuestro fallecido amigo Thomas Bayes, y el cual, en
mi opinión, tiene un gran mérito, y bien merece ser preservado
... En una introducción que él ha escrito para este ensayo, él
dice, que su objetivo en un principio fue, descubrir un método
por el cual se pueda juzgar la probabilidad de que un evento
tenga que ocurrir bajo circunstancias dadas, y bajo la suposición
de que nada es conocido sobre dicho evento, salvo que, bajo las
mismas circunstancias, éste ha ocurrido un cierto número de veces
y fallado otro tanto ... Cualquier persona juiciosa verá que el
problema aquí mencionado no es de ninguna manera una simple
especulación producto de la curiosidad, sino un problema que
se necesita resolver para contar con un fundamento seguro para
todos nuestros razonamientos concernientes a hechos pasados y a
lo que probablemente ocurra de ahí en adelante ... El propósito
a mí me parece es, mostrar qué razones nosotros tenemos para
creer que en la constitución de las cosas existen leyes fijas de
acuerdo con las cuales las cosas pasan, y que, por lo tanto, el
1
CAPÍTULO 1. INTRODUCCIÓN 2
funcionamiento del mundo debe ser el efecto de la sabiduría y

el poder de una causa inteligente, y así, confirmar el argumento
tomado desde las causas finales para la existencia de la deidad.”
Aunque la obra de Thomas Bayes data ya de hace más de dos siglos, la

estadística Bayesiana es relativamente nueva, y actualmente ostenta un gran
desarrollo aunque no ajeno a también grandes controversias.
El marco teórico en el cual se desarrolla la inferencia Bayesiana es idéntico
al de la teoría clásica. Se tiene un parámetro poblacional θ sobre el cual se
desea hacer inferencias y se tiene un modelo de probabilidad f (x/θ) el cual
determina la probabilidad de los datos observados x bajo diferentes valores
de θ. La diferencia fundamental entre la teoría clásica y la bayesiana está en
que θ es tratado como una cantidad aleatoria. Así, la inferencia Bayesiana se
basa en f (θ/x) en vez de f (x/θ), esto es, en la distribución de probabilidades
del parámetro dados los datos.
La inferencia Bayesiana, se puede resumir como el proceso de ajustar un
modelo de probabilidad a un conjunto de datos y resumir los resultados me-
diante una distribución de probabilidades para los parámetros del modelo y
para cantidades desconocidas pero observables tales como predicciones para
nuevas observaciones. La característica esencial de los métodos Bayesianos
está en su uso explícito de probabilidades para cuantificar la incertidumbre
en inferencias basadas en el análisis estadístico de los datos. Esto permite un
manejo mucho más natural e intuitivo de la inferencia, salvando por ejemplo
el problema de la interpretación frecuencial de los resultados. Sin embargo,
para hacer uso de un enfoque Bayesiano, es necesario especificar una dis-
tribución de probabilidades a priori f (θ), la cual representa el conocimiento
que se tiene sobre la distribución de θ previo a la obtención de los datos. Esta
noción de una distribución a priori para el parámetro constituye el centro del
pensamiento Bayesiano y, dependiendo de si se es un defensor o un opositor
a esta metodología, su principal ventaja sobre la teoría clásica o su mayor
vulnerabilidad.
Capítulo 2
Teoría de la probabilidad y
Estadística Clásica
2.1. Reglas de probabilidad

La definición de probabilidad es una tarea complicada. Una forma es través
de la frecuencia relativa de resultados para una serie infinita de eventos. Según
esta perspectiva la razón de considerar que la probabilidad de obtener cara al
lanzar una moneda es 1/2 es que en una serie infinita de lanzamientos obser-
varíamos este resultado el 50 % de las veces. La definición anterior constituye
la base de la estadística clásica. Otra forma de definir la probabilidad es a
través de la representación subjetiva de la incertidumbre sobre los eventos.
Cuando se afirma que la probabilidad de obtener cara en una moneda es 1/2
se asume que la modena es justa y que a partir de nuestra experiencia a priori
sabemos que las caras se obtienen el 50 % de las veces. Esta útima defini-
ción es la base del pensamiento Bayesiano que considera existen elementos
subjetivos que juegan un rol importante en el análisis de la incertidumbre.
En cualquiera de las dos definiciones se requiere conocer los axiomas fun-
damentales de la probabilidad. Se representa la probabilidad de un evento
particular E como Pr(E). Todos los eventos posibles de un experimento con-
stituyen el espacio muestral S, y la suma de las probabilidades de todos estos
eventos definidos en S es 1:
Pr(E) = 1 (2.1.1)
X
∀E∈S
Si el espacio muestral es continuo entonces debe integrarse en lugar de
3
CAPÍTULO 2. TEORÍA DE LA PROBABILIDAD Y ESTADÍSTICA CLÁSICA4
sumar. Si se esta interesado en la ocurrencia del evento A o el evento B se

usa la siguiente regla:
Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) (2.1.2)
donde Pr(A ∩ B) representa la probabilidad de ocurrencia del evento A
y el evento B.
Existen dos reglas de probabilidad para probabilidades conjuntas. Primero:
Pr(A ∩ B) = Pr(A) Pr(B) (2.1.3)
si y solo si A y B son eventos independientes. Segundo, si A y B no son
eventos independientes entonces:
Pr(A ∩ B) = Pr(A|B) Pr(B) (2.1.4)
que puede expresarse como:
Pr(A ∩ B)
Pr(A|B) = (2.1.5)
Pr(B)
2.2. Algunas distribuciones importantes

2.2.1. Distribución binomial
Esta distribución representa la probabilidad de observar x éxitos en n ensayos
independientes cuya probabilidad de éxito es p. Si X ∼ BI (n, p) entonces:
!
n x
f (x|n, p) = p (1 − p)n−x (2.2.1)
x
Cuando n = 1 la distribución binomial se reduce a la distribución Bernoulli.
2.2.2. La distribución multinomial

La distribución multinomial es la generalización de la distribución binomial
ya que se tienen más de dos posibles categorías, cada una con una probabil-
idad de éxito correspondiente. Si X ∼ M (n, p1 , · · · , pk ) entonces:
n!
f (x1 , · · · , xk |n, p1 , · · · , pk ) = px1 1 · · · pxkk (2.2.2)
x1 !, · · · , xk !
donde xi = n y pi = 1.
Pk Pk
i=1 i=1
2.2.3. La distribución de Poisson

La distribución de Poisson permite calcular la probabilidad de obtener un
número particular de éxitos para una cantidad infinita de eventos. Si X ∼
P (λ), entonces:
e−λ λx
f (x|λ) = (2.2.3)
x!
2.2.4. La distribución normal

La distribución más usada en estadística y en la mayoría de las ciencias es
la distribución normal. Si X ∼ N (µ, σ), entonces:
1 (x − µ)2
( )
f (x|µ, σ) = √ exp − (2.2.4)
2πσ 2 2σ 2
2.2.5. La distribución normal multivariada

La distribución normal puede extenderse a más de una dimensión. Si X ∼
N M (µ, Σ), entonces:
1

k 1
f (X|µ, Σ) = (2π)− 2 |Σ|− 2 exp − (X − µ)T Σ (X − µ) (2.2.5)
2
2.2.6. La distribución t de student

La función de densidad de la distribución t aparece mucho más complicada
que la distribución normal. Si X ∼ T (µ, σ, υ), entonces:
2 !− υ+1

Γ υ+1
2

x−µ 2
f (x|µ, σ, υ) = √ 1+υ −1
(2.2.6)
Γ υ
2
σ υπ σ
2.3. Estimación por máxima verosimilitud

El método clásico de enseñanza de la estadística tiene dos etapas básicas:
(1) la estimación del modelo y (2) el proceso de inferencia. La primera etapa
involucra determinar un modelo de probabilidad apropiado para la data a
través de la estimación de sus parámetros. El método más popular es el de
máxima verosimilitud.
La idea fundamental detrás del método es elegir como estimación del parámetro
el valor que hace que la data observada tenga la mayor probabilidad de ocur-
rencia. Para realizar este proceso se requiere establecer una función para las
probabilidades en la data conocida como la función de verosimilitud y se
obtiene como el producto de la función de probabilidad o densidad de cada
observación en la muestra. El proceso de estimación involucra los siguientes
pasos:
1. Construir la función de verosimilitud para el parámetro(s) de interés.
2. Simplificar la función anterior y tomarle el logaritmo.
3. Tomar la derivada parcial de la función logverosimilitud con respecto

a cada parámetro e igualar la(s) ecuacion(es) resultantes a cero.
4. Resolver el sistema de ecuaciones para encontrar los estimadores.
2.3.1. Construyendo la función de verosimilitud

Si x1 , · · · , xn son observaciones independientes de una variable aleatoria X,
en una muestra de tamaño n, entonces la función de verosimilitud para el
vector x es: n
f (x|θ) = L (θ|x) = f (xi |θ) (2.3.1)
Y
i=1
2.3.2. Obteniendo los errores estándar

Una característica importante de este método es que la segunda derivada del
logaritmo de L (θ|x) puede usarse para estimar la variancia del estimador.
Especificamente: !!−1
−1 ∂ 2 log L
I (θ) = −E (2.3.2)
∂θ2
donde θ es el parámetro o quizás un vector de parámetros y I (θ) es llamada
la matriz de información. La raíz cuadrada de los elementos de la diagonal
de esta matriz son los errores estándar.
Ejemplo 2.3.1 Un médico sugiere un nuevo tratamiento para una forma

de cáncer. Con el tratamiento normal un 40 % de las pacientes sobreviven
más de seis meses después del diagnóstico. El médico cree que con el nuevo
tratamiento la tasa de supervivencia será mejor. Sea θ la probabilidad de que

un paciente con el nuevo tratamiento sobreviva más de seis meses. Suponga
que una muestra de 150 pacientes ha recibido el tratamiento y 60 de ellos
han sobrevivido más de 6 meses. Hallar el estimador de máxima verosimilitud
para θ y su error estándar.
Capítulo 3
Estadística Bayesiana
3.1. Introducción
Suponga que una mujer cree que se encuentra embarazada después de un
encuentro sexual pero no esta de todo segura. Ella decide tomar una prueba
de embarazo que sabe es 90 % segura y la prueba resulta ser positiva. Obvi-
amente, la mujer desea conocer cual es la probabilidad de estar embarazada,
dado el resultado de la prueba en función a la probabilidad de obtener un
resultado positivo en la prueba, dado que esta embarazada y además con-
siderando el hecho de que la prueba resultó positiva.
3.2. El teorema de Bayes para probabilidades

puntuales
El teorema de Bayes aplicado a las probabilidades puntuales es:
Pr (A|B) Pr (B)
Pr (B|A) = (3.2.1)
Pr (A)
En el denominador Pr (A) es la probabilidad marginal del evento A, tam-
bien llamada probabilidad total. Si el espacio muestral es discreto:
Pr (A) = Pr (A|Bi ) Pr (Bi )
X
Bi ∈SB
Voviendo al ejemplo, suponga que también se sabe que la prueba da falsos

positivos el 50 % de las veces. Se tienen entonces dos eventos: B1 = Embarazo
8
CAPÍTULO 3. ESTADÍSTICA BAYESIANA 9
y B2 = No embarazo. Sin embargo, para calcular la probabilidad de interés

para la mujer se requiere cierta información a priori sobre la probabilidad
de embarazo en un encuentro sexual.
La información a priori necesaria es la probabilidad marginal de estar
embarazada sin saber nada más que el hecho de que la mujer tuvo un en-
cuentro sexual. Esta información es considerada a priori por que es la que
se tiene antes de conocer el resultado de la prueba. Se podía cosiderar que
sin ninguna información adicional la probabilidad de concepción es aprox-
imadamente 15 % para un encuentro sexual. Usando el teorema de Bayes
se obtiene que la probabilidad que la mujer se encuentre embarazada, dado
que la prueba resulto positiva es 0.241. Usando la terminología Bayesiana la
probabilidad anterior es llamada a probabilidad posterior ya que es obtenida
luego de observar la data (el resultado de la prueba).
Suponga que la mujer decide volverse a hacer la prueba de embarazo. Se
puede utilizar la probabilidad calculada en la primera prueba como probabili-
dad a priori para calcular la probabilidad posterior actualizada. Si la segunda
prueba resulto positiva entonces la nueva probabilidad posterior es 0.364.
Si el resultado anterior no es convincente para ella, puede volver a repetir
la prueba y de obtener nuevamente un resultado positivo su probabilidad se
incrementa a 0,507. Si el proceso nuevamente se repite se tendria: prueba 4
= 0.649, prueba 5 = 0.769, prueba 6 = 0.857, prueba 7 = 0.915, prueba 8 =
0.951, prueba 9 = 0.972 y prueba 10 = 0.984.
Este proceso de repetir la prueba y recalcular la probabilidad de interés es
el proceso básico en la estadística Bayesiana. Desde esta perspectiva se puede
tener cierta información inicial sobre algún evento que puede actualizarse con
información nueva para obtener una probabilidad posterior. Esta probabili-
dad posterior puede ser utilizada como probabilidad a priori en un siguiente
análisis. Desde el punto de vista Bayesiano se trata de una estrategia apropi-
ada para conducir el análisis científico.
3.3. El teorema de Bayes aplicado a distribu-

ciones de probabilidad
El teorema de Bayes expresado en términos de distribuciones de proba-
bilidad es:
f (data|θ) f (θ)
f (θ|data) = (3.3.1)
f (data)
donde f (θ|data) es la distribución posterior para el parámetro θ, f (data|θ)

es la distribución de muestreo de la data, la cual es proporcional a la función
de verosimilitud, f (θ) es la distribución a priori para el parámetro y f (data)
es la función de probabilidad marginal para la data, tambien conocida como
distribución predictiva a priori. Para un espacio muestral continuo se calcula
por: ˆ
f (data) = f (data|θ) f (θ) dθ
El valor anterior actua como una constante normalizadora que hace posi-
ble que la distribución posterior sea propia, es decir:
Posterior ∝ Verosimilitud × Priori
Ejemplo 3.3.1 Se toma una muestra aleatoria de tamaño n desde la dis-

tribución E (θ). Suponga que la distribución a priori para θ es GI (α, β).
Hallar la distribución posterior para θ.
Ejemplo 3.3.2 Se toma una muestra aleatoria de tamaño n desde la dis-

tribución P (λ). Suponga que la distribución a priori para λ es G (α, β). De-
mostrar que la media posterior siempre se encuentra entre la media a priori
y el estimador de máxima verosimilitud para λ.
3.4. Distribución predictiva

Después que observar la data se pueden predecir nuevos valores desde el
mismo proceso usando la distribución predictiva posterior:
ˆ
f (y|data) = f (y|θ) f (θ|data) dθ
Ejemplo 3.4.1 Considere una secuencia de n ensayos independientes cuya

probabilidad de éxito es θ. Suponga que la distribución a priori para θ es
BE (α, β). Hallar la distribución predictiva posterior para el número de éxitos
obtenidos en otra muestra de tamaño m.
Ejemplo 3.4.2 Resolver el ejemplo anterior asumiendo que la distribucion

a priori para θ es uniforme.
3.5. Familias conjugadas

Una gran parte de la literatura Bayesiana esta dedicada a encontrar dis-
tribuciones a priori conjugadas ya que permiten encontrar la distribución
posterior sin mayores complicaciones.
Definición 3.5.1 Si F es una familia de distribuciones de muestreo para

f (data|θ) y P es una familia de distribuciones a priori para θ, entonces la
famila P es conjugada para F si f (θ|data) ∈ P para todo f (data|θ) ∈ F y
f (θ) ∈ P.
Ejemplo 3.5.1 La familia de distribuciones gamma es conjugada con la dis-

tribución de muestreo de Poisson.
3.6. La distribución a priori

Cuando las distribuciones a priori no tienen ninguna base poblacional
pueden ser difíciles de construir, y ha habido por mucho tiempo un deseo
por contar con aquellas que puedan garantizar una mínima influencia en
la distribución posterior. Tales distribuciones son llamadas distribuciones a
priori de referencia y la densidad a priori es descrita como vaga, plana,
difusa o no informativa. La razón para utilizar distribuciones a priori no
informativas es frecuentemente explicada como la intención de dejar que los
datos hablen por sí mismos, de modo que el proceso de inferencia no esté
afectado por información externa a los datos.
En general, se llamará a una densidad a priori f (θ) propia si esta no
depende de datos e integra a uno. Si f (θ) integra a cualquier valor positivo
finito, será llamada una densidad no normalizada y que puede ser normalizada
multiplicándola por una constante para que integre uno.
3.6.1. Principio de invariancia de Jeffreys

Una aproximación usada para definir distribuciones a priori no informa-
tivas fue desarrollada por Jeffreys a partir de una transformación uno a uno
del parámetro. El principio general de Jeffreys es que cualquier procedimien-
to para determinar la densidad a priori f (θ) debe conducir a un resultado
equivalente si se aplica al parámetro transformado φ = h (θ).
Definición 3.6.1 La distribución a priori no informativa de Jeffreys es:

q
f (θ) ∝ J (θ)
donde J (θ) es la información de Fisher para θ definida por:

" #
d2
J (θ) = −E log f (X|θ)
dθ2
Ejemplo 3.6.1 Suponga que X|θ ∼ E (θ−1 ). Hallar la distribución a priori

no informativa de Jeffreys para θ.
Ejemplo 3.6.2 Suponga que X|θ ∼ N (θ, σ 2 ) con σ 2 conocido. Hallar la

distribución a priori no informativa de Jeffreys para θ.
El principio de Jeffreys puede ser extendido a modelos multiparamétricos,
pero los resultados son más controvertidos.
Definición 3.6.2 La distribución a priori no informativa de Jeffreys para el

vector de parámetros θ es:
q
f (θ) ∝ J (θ)
donde J (θ) es el determinante de la matriz cuyo elemento (i, j) es:

" #
∂2
E log f (X|θ)
∂θi ∂θj
Ejemplo 3.6.3 Suponga que X|µ, σ 2 ∼ N (µ, σ 2 ). Hallar la distribución a

priori no informativa de Jeffreys para θ = (µ, σ 2 ).
3.6.2. Algunas distribuciones a priori útiles

3.6.2.1. La distribución Dirichlet
Así como la distribución multinomial es la generalización de la distribu-
ción binomial, la distribución Dirichlet es la extensión de la distribución beta.
Si X ∼ D (α1 , α2 , · · · , αk ) entonces:
Γ (α1 + α2 + · · · + αk ) α1 −1
f (X) = x · · · xαk k −1
Γ (α1 ) Γ (α2 ) · · · Γ (αk ) 1
3.6.2.2. La distribución gamma inversa

Si 1/X ∼ G (α, β) entonces X ∼ GI (α, β) cuya función de densidad es:
β α −(α+1)
( )
β
f (x) = x exp −
Γ (α) x
para x > 0.
3.6.2.3. Distribución Wishart y Wishart Inversa

Las distribuciones Wishart y Wishart inversa son generalizaciones de las
distribuciones gamma y gamma inversa respectivamente. Si X ∼ WI (S),
donde S es la matriz de escala de dimensión d, entonces:
1

f (X) ∝ |X| (υ−d−1)/2
exp − tr S−1 X
2
donde υ representa los grados de libertad. Si X ∼ WII (S−1 ) entonces:
1

f (X) ∝ |X| (υ+d+1)/2
exp − tr SX−1
2
3.7. Críticas a la estadística Bayesiana

La principal objeción a la inferencia bayesiana, es que las conclusiones de-
penden de la selección específica de la distribución a priori. Aunque para otros
esto es lo interesante de la aproximación Bayesiana, este es un debate aún
no cerrado. Sin embargo, antes de dejar esta característica, se debe señalar
que inclusive en inferencia clásica, y además en investigación científica en
general, estos conocimientos a priori son utilizados implícitamente. Así por
ejemplo, el conocimiento a priori es utilizado para formular un modelo de
verosimilitud apropiado. En pruebas de hipótesis, las creencias a priori ac-
erca de la plausibilidad de una hipótesis son frecuentemente utilizadas para
ajustar el nivel de significancia de la prueba. Así, si se cree que los datos
pueden conducir al rechazo de la hipótesis, esto se puede ajustar escogiendo
un nivel de significancia bastante alto. En este sentido entonces, la inferencia
bayesiana formaliza la incorporación de la información a priori, la cual es
incorporada frecuentemente debajo de la mesa en el análisis clásico.
Capítulo 4
Modelos basados en la
distribución normal
4.1. Distribución normal con un solo parámetro

desconocido
4.1.1. Distribución normal con σ 2 conocida
La distribución normal es fundamental en la mayoría de los modelos
estadísticos. El teorema del límite central ayuda a justificar el uso de la
verosimilitud normal en muchos problemas. Suponga que X|θ ∼ N (θ, σ 2 )
con σ 2 conocida. La función de verosimilitud para x es:
n
1 (xi − θ)2
( )
L (θ|x) = exp −
Y
√
i=1 2πσ 2 2σ 2
Si además se asume que la distribución priori para θ ∼ N (µ1 , τ12 ), se

tiene:
1 (θ − µ1 )2
( )
f (θ) = q exp −
2πτ12 2τ12
La distribución posterior es el producto de la verosimilitud y la distribu-

ción a priori, es decir:
(θ − µ1 )2 (xi − θ)2
( Pn )
f (θ|x) ∝ exp − − i=1
2τ12 2σ 2
14
CAPÍTULO 4. MODELOS BASADOS EN LA DISTRIBUCIÓN NORMAL15
Con un poco de álgebra puede demostrarse que:
σ 2 µ1 + nτ12 x 2
!
τ12 σ 2
θ|x ∼ N µ2 = , τ =
nτ12 + σ 2 2
nτ12 + σ 2
La distribución predictiva posterior para una nueva observación es:

ˆ
f (y|x) = f (y|θ) f (θ|x) dθ
θ
ˆ
(y − θ)2 (θ − µ2 )2
( ) ( )
∝ exp − exp − dθ
θ 2σ 2 2τ22
Claramente la expresión dentro del integral corresponde a una distribu-

ción normal bivariada para y y θ, y por lo tanto se puede demostrar que
la distribución predictiva posterior de y tiene una media igual a la media
posterior de θ y dos componentes de variancia: la variancia predictiva σ 2 del
modelo y la variancia τ22 debida a la incertidumbre posterior sobre θ.
4.1.2. Distribución normal con µ conocida

El modelo normal con media conocida y variancia desconocida es un im-
portante ejemplo, no necesariamente por su aplicación directa, sino como
parte de modelos útiles más complicados, quizá el más inmediato, el mod-
elo normal con ambos parámetros desconocidos que se verá en la siguiente
sección. Además, la distribución normal con media conocida y variancia de-
sconocida provee un ejemplo introductorio de la estimación de un parámetro
de escala.
Sea X|σ 2 ∼ N (θ, σ 2 ) con θ conocido. La función de verosimilitud para x
es:
1 Xn
( )
−n/2
2
L σ |x ∝ σ 2
exp − 2 (xi − θ)2
2σ i=1
La distribución a priori conjugada es GI (α, β) se tiene:
1 Xn
( ) ( )

2 −n/2
−(α+1) β
f σ |x2
∝ σ exp − 2 (xi − θ)2
σ 2
exp − 2
2σ i=1 σ
1 1X n
( !)
2 −(α+n/2+1)

∝ σ exp − 2 (xi − θ)2 + β
σ 2 i=1
La distribución posterior para σ 2 es:

1X n
!
n
σ |x ∼ GI α = α + , β ∗ =
2 ∗
(xi − θ)2 + β
2 2 i=1
Una reparametrización importante realizada sobre la distribución gamma

inversa nos lleva hacia la distribución χ2 inversa de escala cuya función de
densidad es:
(υ/2)υ/2 υ −(υ/2+1)
( )
υs2
f (θ) = s θ exp −
Γ (υ/2) 2θ
que corresponde a la distribución GI (α = υ/2, β = υs2 /2) .
4.2. Distribución normal con ambos parámet-

ros desconocidos
Un modelo de probabilidad completo para θ y σ 2 es:

f θ, σ 2 |x ∝ f x|θ, σ 2 f θ, σ 2
Luego, es necesario especificar una función de probabilidad conjunta para

µ y σ 2 . Si se asume que son independientes entonces f (θ, σ 2 ) = f (θ) f (σ 2 ).
¿Como especificar esta distribución a priori?
4.2.1. Distribución a priori no informativa

Una primera metodología considera una distribución a priori no informa-
tiva sobre θ y σ 2 asumiendo independencia, es decir la distribución a priori
conjunta es f (θ, σ 2 ) ∝ σ −2 .
Bajo esta distribución a priori impropia, la distribución posterior conjunta
es proporcional a:
1

2
f θ, σ |x ∝ σ −n−2
exp − 2 (n − 1) s + n (x − θ)
2
2σ
donde s2 es la varianza muestral de los datos. La distribución posterior
conjunta se puede factorizar de la siguiente manera:

f θ, σ 2 |x = f θ|σ 2 , x f σ 2 |x
tal que:
n−1 (n − 1) s2
! !
σ2
2
θ|σ , x ∼ N x, y σ |x ∼ GI α =
2
,β =
n 2 2
La media poblacional es generalmente la cantidad de interés y, por lo

tanto, el objetivo del análisis bayesiano es la distribución posterior marginal
para θ la cual se puede obtener integrando la distribución posterior conjunta
con respecto de σ 2 obteniendo:
!
s2
θ|x ∼ Tn−1 x,
n
Además la distribución predictiva posterior para una nueva observación

puede ser escrita como:
¨
f (y|x) = f y|θ, σ 2 f θ, σ 2 |x dθdσ 2
lo cual conduce a:

y|x ∼ N x, σ 2 (1 + 1/n)
4.2.2. Distribución a priori informativa

Una segunda metodología considera una distribución a priori propia (no
uniforme sobre la linea real, la cual es impropia). Si se asume que µ ∼
N (M, τ 2 ) se puede elegir una distribución a priori relativamente no informa-
tiva para σ 2 considerando que su distribución es gamma inversa:
( )

2 −(a+1)
b
2
f σ |a, b ∝ σ exp − 2
σ
cuando a y b tienden a cero se obtiene la distribución a priori no infor-

mativa σ −2 .
La distribución poterior resultante para µ y σ 2 es:
1 Y
n
1 (xi − µ)2
( )

2
f µ, σ |x ∝ 2 √ exp − (4.2.1)
σ i=1 2πσ 2 2σ 2
Para determinar la distribución posterior para µ se tiene que:

−nµ2 − 2nx
( )

f µ|σ 2 , x ∝ exp
2σ 2
2

lo cual resulta en µ|σ 2 , x ∼ N x, σn .
Para hallar la distribución posterior para σ 2 hay que notar que:
1 (xi − µ)2
( P )

2
f µ|σ , x ∝ n exp −
(σ 2 ) 2 +1 2σ 2
tiene la forma de la distribución gamma
inversa. Si P
µ fuese conocido,
la
distribución condicional para σ 2 sería GI a = n/2, b = (xi − µ)2 /2 .
Otra forma de abordar el problema es considerando que la distribución
posterior conjunta para µ y σ 2 puede factorizarse usando las reglas de prob-
abilidad condicional como:

f µ, σ 2 |x = f µ|σ 2 , x f σ 2 |x
donde el último término es la disribución posterior marginal para σ 2 . Téc-

nicamente puede obtenerse una expresión
´ exacta integrando la distribución
conjunta posterior sobre µ, es decir f (µ, σ 2 ) dµ (ver Gelman et al 1995).
Finalmente σ 2 |x ∼ GI (a = (n − 1)/2, b = (n − 1)s2 /2).
Ejemplo 4.2.1 Considere el modelo X/θ ∼ BI (10, θ) para evaluar si la

hipótesis H0 : θ = 0,5 puede ser rechazada a favor de H1 : θ < 0,5 en cada
una de las siguientes situaciones:
Una bebedora de té que afirma que es capaz de detectar si en una taza
de té la leche fue agregada antes o después del té.
Un músico experto que afirma poder distinguir entre una partitura de
Hayden y una de Mozart.
Un borracho que afirma poder predecir el resultado del lanzamiento de
una moneda regular.
Suponga que en los tres casos se obtuvieron 10 éxitos en 10 intentos. Con esta
información, fijándonos solamente en los datos, tendríamos que aceptar H0
en los tres casos, pero nuestras creencias a priori nos inducirían a permanecer
muy escépticos en cuanto al borracho (tuvo suerte), muy impresionados con
la bebedora de té y no tanto con el experto en música.
El punto esencial es el siguiente: los experimentos no son procedimientos

abstractos. Definitivamente, nosotros tenemos cierto conocimiento acerca de
los procesos que están siendo investigados antes de obtener los datos. Por
esto, muchos expertos (sobre todo los bayesianos) sostienen que las inferencias
deben basarse en información combinada del conocimiento previo y los datos,
y la inferencia bayesiana es el mecanismo que posibilita esto.
Sin embargo, es esta extremada dependencia en las creencias previas la
que los opositores al punto de vista bayesiano más objetan. Diferentes creen-
cias a priori pueden conducir a diferentes inferencias (demasiada subjetivi-
dad) en el análisis bayesiano, y es el hecho de que a usted le parezca bien o mal
esta característica el cual determinará su simpatía o no con el procedimiento
bayesiano.
4.3. Características de la aproximación Bayesiana

De acuerdo con O’Hagan (1994), se pueden identificar cuatro aspectos
fundamentales que caracterizan la aproximación Bayesiana a la inferencia
estadística:
Información a priori. Todos los problemas son únicos y tienen su propio

contexto. De tal contexto se deriva información a priori, y es la formu-
lación y uso de esta información a priori la que diferencia la inferencia
Bayesiana de la estadística clásica.
Probabilidad subjetiva. La estadística bayesiana formaliza la noción de

que todas las probabilidades son subjetivas, dependiendo de las creen-
cias individuales y la información disponible. Así, el análisis bayesiano
resulta personal, único de acuerdo con las creencias individuales de
cada uno.
Auto consistente. Al tratar al parámetro θ como aleatorio, la inferencia

bayesiana se basa completamente en la teoría de la probabilidad. Esto
tiene muchas ventajas y significa que toda inferencia puede ser tratada
en términos de declaraciones probabilísticas para θ.
No adhockery. Debido a que la inferencia clásica no puede hacer declara-

ciones probabilísticas acerca de θ, se desarrollan varios criterios para
juzgar si un estimador particular es en algún sentido bueno. Esto ha
conducido a una proliferación de procedimientos, frecuentemente en

conflicto unos con otros. La inferencia bayesiana deja de lado esta ten-
dencia a inventar criterios ad hoc para juzgar y comparar estimadores
al basarse exclusivamente en la distribución posterior para expresar
en términos exclusivamente probabilísticos toda inferencia referente al
parámetro.
4.4. Objeciones a la inferencia Bayesiana

4.5. Teorema de Bayes
En su forma básica, el teorema de Bayes es un simple resultado de prob-
abilidades condicionales. Sean A y B dos eventos con Pr (A) > 0, entonces:
Pr (A/B) Pr (B)
Pr (B/A) =
Pr (A)
El uso principal de este teorema, en aplicaciones de probabilidad, es rever-

tir el condicionamiento de los eventos, es decir, mostrar como la probabilidad
de B/A está relacionada con la de A/B. Este teorema puede extenderse a k
eventos B1 , · · · , Bk , los cuales constituyen una partición del espacio muestral
Ω. Así se tiene:
Pr (A/Bi ) Pr (Bi ) Pr (A/Bi ) Pr (Bi )
Pr (Bi /A) = = Pk
Pr (A) j=1 Pr (A/Bj ) Pr (Bj )
donde Pr (A) se le conoce como probabilidad total.
Ejemplo 4.5.1 Cuando se envian mensajes codificados pueden existir er-

rores en la transmisión. En particular, el código Morse usa puntos y guiones
en las proporciones 3:4, es decir que para cualquier símbolo:
3 4
Pr (B1 ) = y Pr (B2 ) =
7 7
donde B1 = enviar un punto, B2 = enviar un guión. Suponga que existe
interferencia en la línea de transmisión y que, con probabilidad 1/8, un punto
es recibido equivocadamente como un guión y viceversa. Si se recibe un punto,
¿cual es la probabilidad de haberlo recibido correctamente?
Si se define el evento A = recibir un punto, entonces usando el teorema

de Bayes:
Pr (A/B1 ) Pr (B1 ) 7/8 × 3/7 25

Pr (B1 /A) = = =
Pr (A) 7/8 × 3/7 + 1/8 × 4/7 56
Desde el punto de vista Bayesiano, el objetivo es relacionar probabilís-

ticamente a un parámetro θ con los datos por lo que el teorema de Bayes
puede presentarse en términos de densidades:
f (θ, x) f (x/θ) f (θ)

f (θ/x) = = (4.5.1)
f (x) f (x)
donde f (x) puede ser obtenido, dependiendo de si θ es continuo o discreto,

de la siguiente manera:
P
 f (x/θ) f (θ) si θ es discreto
f (x) = ´ θ
 f (x/θ) f (θ) dθ si θ es continuo
θ
En la expresión anterior:
f (θ) representa lo que es conocido de θ antes de recolectar los datos y

es llamada la distribución a priori de θ.
f (θ/x) representa lo que se conoce de θ después de recolectar los datos

y es llamada la distribución posterior de θ dado x.
f (x/θ) es la distribución fundamental que incorpora al modelo la in-

formación proporcionada por los datos. Dado que x es conocido y θ no,
f (x/θ) puede ser reconocido como una función de θ en vez de x, a la
cual se le denomina la función de verosimilitud de θ dado x y a la que
se le denota usualmente por l (θ/x).
Una forma equivalente de presentar f (x/θ) omite el factor f (x) ya que no

depende de θ y, al ser x fijo, puede ser considerado como una constante:
f (θ/x) ∝ f (x/θ) f (θ) (4.5.2)
Lo que se obtiene al lado derecho es la distribución posterior no normal-

izada.
4.6. Predicción
Antes que los datos sean observados, la distribución de los x desconocidos
pero observables es: ˆ
f (x) = f (x/θ) f (θ) dθ
θ
Esta distribución marginal de X es llamada la distribución predictiva a
priori. A priori debido a que no está condicionada por ninguna observación
previa, y predictiva porque es la distribución de una cantidad que es observ-
able.
Después que los datos han sido observados, se pueden predecir nuevos
valores, y, desde el mismo proceso. La distribución de los Y es llamada la
distribución predictiva posterior, debido a que se encuentra condicionada por
los datos ya observados x:
ˆ
f (y/x) = f (y, θ/x) dθ
ˆ θ
= f (y/θ, x) f (θ/x) dθ
ˆθ
= f (y/θ) f (θ/x) dθ
θ
4.7. Odds y razón de verosimilitud

La razón de la densidad de θ evaluada en dos puntos θ1 y θ2 es llamada
odds:
f (θ1 )
Odds a priori:
f (θ2 )
f (θ1 /x)
Odds posterior:
f (θ2 /x)
Los odds son de gran aplicación en el caso discreto donde θ1 y θ2 son
dos eventos complementarios (por ejemplo los eventos sano y enfermo, con
tratamiento y sin tratamiento, vivo y muerto, etc.), ya que permiten evaluar
cuan más probable es un evento que el otro. Note que el odds posterior puede
escribirse como:
f (θ1 /x) f (θ1 ) f (x/θ1 ) /f (x) f (θ1 ) f (x/θ1 )
= =
f (θ2 /x) f (θ2 ) f (x/θ2 ) /f (x) f (θ2 ) f (x/θ2 )
por lo que el odds posterior es igual al odds a priori multiplicado por la

razón de verosimilitud. A esta razón de verosimilitud se le conoce como el
factor de Bayes. La importancia del factor de Bayes es que es una medida
de la información contenida exclusivamente en los datos.
Los odds y el factor de Bayes son utilizados en inferencia Bayesiana
para contrastar dos modelos de probabilidad (pruebas de hipótesis sobre los
parámetros).
4.8. La naturaleza secuencial del teorema de

Bayes
La expresión f (θ/x) ∝ f (θ/x) f (θ) proporciona un mecanismo que com-
bina el conocimiento previo con conocimiento nuevo y además permite con-
tinuar actualizando la información acerca del parámetro θ conforme se tienen
más observaciones.
Suponga que se tiene una muestra inicial x1 , entonces aplicando el teore-
ma de Bayes:
f (θ/x1 ) ∝ l (θ/x1 ) f (θ)
Ahora, suponga que se tiene una segunda muestra x2 , independiente de
la primera, entonces:
f (θ/x1 , x2 ) ∝ f (θ) l (θ/x1 ) l (θ/x2 )

∝ f (θ/x1 ) l (θ/x2 )
El proceso anterior puede ser repetido muchas veces. En particular, si
se tienen n observaciones independientes la distribución posterior puede ser
recalculada después de cada nueva observación tal que en la m-ésima eta-
pa la verosimilitud asociada con la m-ésima observación se combina con la
distribución posterior de θ después de m − 1 observaciones lo cual permite
obtener:
f (θ/x1 , · · · , xm ) ∝ f (θ/x1 , · · · , xm−1 ) l (θ/xm )

para m = 2, · · · , n. Luego, el teorema de Bayes describe en forma clara el
proceso de aprendizaje de la experiencia y demuestra como el conocimiento
acerca de θ se modifica continuamente conforme estan disponibles nuevos
datos.
Ejemplo 4.8.1 Los hombres tienen un cromosoma X y uno Y, mientras

que las mujeres tienen dos cromosomas X, siendo cada cromosoma heredado
desde un padre. La hemofilia es una enfermedad heredada mediante un gen
recesivo ligado al cromosoma X, lo cual significa que un hombre que hereda
el gen que causa esta enfermedad en su cromosoma X es afectado por la
enfermedad, mientras que una mujer que hereda este gen en solo uno de sus
cromosomas X no es afectada. La enfermedad es generalmente fatal para las
mujeres que heredan dos de tales genes, aunque esto es muy raro, ya que la
frecuencia de ocurrencia de este gen es baja en poblaciones humanas.
Considere una mujer que tiene un hermano enfermo, lo cual implica que
su madre debe ser una portadora del gen de la hemofilia con un gen bueno y
uno malo. Se sabe además que el padre no está enfermo, por lo que la mujer
tiene una probabilidad del 50 % de llevar el gen. La cantidad desconocida
de interés, el estado de la mujer, tiene solo dos posibles valores: la mujer
es portadora (θ = 1) o no (θ = 0). Basado en la información dada has-
ta el momento, la distribución a priori para θ puede ser expresada como
Pr (θ = 1) = Pr (θ = 0) = 0,5.
Los datos utilizados para actualizar esta información a priori consisten
en el estado, sano o enfermo, de los hijos de la mujer. Suponga que ella tiene
dos hijos, ninguno de los cuales está afectado. Sea xi = 1 ó 0 que denota
un hijo enfermo o sano respectivamente. Los resultados de los dos hijos son
intercambiables y, condicionados sobre θ, independientes. Se asumirá que los
dos hijos no son gemelos. Esta información genera la siguiente función de
verosimilitud:
Pr (x1 = 0, x2 = 0/θ = 1) = (0,5) (0,5) = 0,25
Pr (x1 = 0, x2 = 0/θ = 0) = (1) (1) = 1
El teorema de Bayes puede ser ahora usado para combinar la información
de los datos con las probabilidades a priori. El interés principal probable-
mente esté en la probabilidad posterior de que la mujer sea una portadora.
Usando z para denotar la información conjunta (x1 , x2 ) se tiene:
Pr (z/θ = 1) Pr (θ = 1)
Pr (θ = 1/z) =
Pr (z/θ = 1) Pr (θ = 1) + Pr (z/θ = 0) Pr (θ = 0)
(0,25) (0,5)
= = 0,2
(0,25) (0,5) + (1) (0,5)
Intuitivamente es claro que si una mujer tiene un hijo sano, es menos
probable que sea una portadora, y el teorema de Bayes provee un mecanismo
formal para determinar el alcance de la corrección. El resultado puede tam-

bién ser descrito en términos de odds a priori y posterior. El odds a priori de
que la mujer sea portadora es 0,5/0,5 = 1. La razón de verosimilitud basada
en la información de sus dos hijos sanos es 0,25/1 = 0,25, y el odds posterior
será (1)(0,25) = 0,25. Volviendo a partir de estos resultados a términos de
probabilidad se tiene 0,25 / (1 + 0,25) = 0,2, igual que al principio.
Un aspecto clave del análisis bayesiano es la facilidad con la que puede
realizarse un análisis secuencial. Por ejemplo, suponga que la mujer tiene un
tercer hijo, el cual también resulta sano. El cálculo completo no necesita ser
hecho de nuevo; en lugar de eso, se usará los resultados posteriores obtenidos
anteriormente como la nueva distribución a priori para obtener:
(0,5) (0,20)
Pr (θ = 1/x1 , x2 , x3 ) = = 0,1111
(0,5) (0,20) + (1) (0,80)
De igual manera, si se supone que el tercer hijo está enfermo, es fácil veri-
ficar que la probabilidad posterior de que la mujer sea portadora se convierte
en 1. La naturaleza secuencial del teorema de Bayes puede ser interpretada
como un proceso de aprendizaje en términos de probabilidades, el cual per-
mite incorporar al análisis de un problema nuevos datos y con ellos ajustar
la distribución posterior.
Ejemplo 4.8.2 Se tienen dos ratones de dos colores: negro y marrón. Los
ratones negros son de dos tipos genéticos: homocigotes (BB) y heterozigotes
(Bb) mientras que los ratones marrones son de un tipo (bb). Resultados
genéticos indican que las probabilidades asociadas son:
Tabla 4.1: Probabilidades de carácter genético
Ratones BB (Negro) Bb (Negro) bb (Marrón)

BB con bb 0 1 0
Bb con bb 0 1/2 1/2
Bb con Bb 1/4 1/2 1/4
Suponga que se tiene un ratón de prueba que es negro y ha sido obtenido

de dos ratones (Bb). Usando la información de la última linea de la tabla,
se deduce que en este caso, las probabilidades a priori del ratón de prue-
ba de ser (BB) y (Bb) son 1/3 y 2/3 respectivamente (conocidas previa-
mente). Dada esta información a priori, podemos calcular las probabilidades
posteriores usando el teorema de Bayes. Supongamos que el ratón de prue-

ba fue cruzado con un ratón marrón y se obtuvieron 7 negros. Entonces
Pr (θ = 0) = Pr (BB) = 1/3 y Pr (θ = 1) = Pr (Bb) = 2/3. Si x es la variable
aleatoria que denota la descendencia, luego:
l (θ = 0/x = 7 negros) ∝ Pr (7 negros/BB) = 1

l (θ = 1/x = 7 negros) ∝ Pr (7 negros/Bb) = (1/2)7
Recordando que f (θ/x) ∝ l (θ/x) f (θ), entonces:
Pr (θ = 0/x = 7 negros) ∝ 1/3

Pr (θ = 1/x = 7 negros) ∝ (2/3) (1/2)7
Normalizando las probabilidades posteriores se tiene:
Pr (θ = 0/x = 7 negros) = 64/65

Pr (θ = 1/x = 7 negros) = 1/65
lo cual representa el conocimiento posterior del ratón de prueba de ser

(BB) o (Bb). Se puede observar que, dadas las característica genéticas de la
descendencia, el resultado de tener 7 descendientes negros cambia consider-
ablemente nuestro conocimiento acerca del ratón de prueba de ser (BB) o
(Bb) de una razón a priori de 2:1 a favor de (Bb) a una razón posterior de
64:1 en contra de éste.
Para ilustrar la naturaleza secuencial del teorema de Bayes, suponga que
los siete descendientes de ratones negros son vistos como una secuencia de si-
ete observaciones independientes. Es decir y = (x1 , · · · , x7 ) y la verosimilitud
puede ser escrita:
l (θ/y = 7 negros) = l (θ/x1 = negros) · · · l (θ/x7 = negros)
donde 
1 θ=0
l (θ/xm = negros) ∝
1/2 θ = 1
para m = 1, · · · , 7. Aplicando la ecuación:
Pr (θ/x1 , · · · , xm ) ∝ Pr (θ/x1 , · · · , xm−1 ) l (θ/xm )

para m = 2, · · · , 7 es posible calcular las probabilidades del ratón de

prueba de ser (BB) o (Bb) después de la m-ésima observación. Estas proba-
bilidades se muestran en la siguiente tabla:
Tabla 4.2: Probabilidades del ratón de prueba
Probabilidades
Ratón θ = 0 (BB) θ = 1 (Bb)
Inicial 1/3 2/3
1º negro 1/2 1/2
2º negro 2/3 1/3
3º negro 4/5 1/5
4º negro 8/9 1/9
5º negro 16/17 1/17
6º negro 32/33 1/33
7º negro 64/65 1/65
Lo cual demuestra la certeza creciente del ratón de prueba de ser (BB)

conforme son observados más y más descendientes negros .
Capítulo 5
Modelos uniparamétricos
5.1. Distribución binomial

En el modelo binomial, el objetivo es estimar una proporción poblacional
desconocida a partir de los resultados de una secuencia de ensayos de Bernoul-
li, es decir x1 , x2 , · · · , xn , cada uno de los cuales puede ser 0 ó 1.
La distribución binomial provee un modelo para información proveniente
de una secuencia de n ensayos o extracciones intercambiables obtenidas des-
de una gran población donde cada ensayo puede tomar uno de dos posibles
resultados, convencionalmente llamados éxito y fracaso. Debido a la inter-
cambiabilidad, los datos pueden ser resumidos por el número total de éxitos
en los n ensayos, al cual se denotará por x. Se puede pasar de una for-
mulación basada en términos de ensayos intercambiables a una basada en
variables aleatorias independientes e idénticamente distribuidas definiendo
al parámetro θ como la proporción de éxitos en la población o, equivalente-
mente, como la probabilidad de éxito en cada ensayo. El modelo muestral
binomial queda definido por:
!
n x
f (x/θ) = θ (1 − θ)n−x
x
Para efectuar una inferencia bayesiana en el modelo binomial, se debe

especificar una distribución a priori para θ. Por simplicidad, en este punto,
se asumirá que la distribución a priori para θ tiene distribución uniforme en
el intervalo [0,1]. La aplicación del teorema de Bayes a este modelo da la
28
CAPÍTULO 5. MODELOS UNIPARAMÉTRICOS 29
siguiente distribución posterior:
f (θ/x) ∝ θx (1 − θ)n−x

Con n y x fijos, el factor nx no depende del parámetro desconocido θ,
y por lo tanto puede ser considerado como una constante al calcular la dis-
tribución posterior. Como es común en muchos casos, la densidad posterior
puede ser escrita inmediatamente en una forma definida sobre una constante
de proporcionalidad. En problemas uniparamétricos esto permite una rep-
resentación gráfica inmediata de la distribución posterior. Por ejemplo la
figura 5.1 presenta la densidad no normalizada para cuatro experimentos
diferentes, esto es, con diferentes valores de n y x, pero con la misma propor-
ción de éxitos. En este caso, la forma de la densidad posterior no normalizada
corresponde a una distribución beta:
1
f (θ/x) = θx (1 − θ)n−x
B (x + 1, n − x + 1)
Predicción
En el ejemplo binomial con distribución a priori uniforme, la distribución
predictiva a priori puede ser evaluada explícitamente.
ˆ 1 !
n x 1
f (x) = θ (1 − θ)n−x dθ = , x = 0, 1, · · · , n
0 x n+1
Bajo este modelo, todos los posibles valores de x son igualmente proba-
bles a priori. Para la predicción posterior a partir de este modelo, el interés
principal estará en el resultado de un nuevo ensayo, en vez de en otro grupo
de n nuevos ensayos. Usando y para denotar el resultado de un nuevo ensayo,
intercambiable con los primeros n:
ˆ 1
Pr (y = 1/x) = Pr (y = 1/θ, x) f (θ/x) dθ
0
ˆ 1
x+1
= θf (θ/x) dθ =
0 n+2
a partir de las propiedades de la distribución beta.
Figura 5.1: Distribución posterior no normalizada para θ
La distribución posterior como un resultado entre los

datos y la distribución a priori
El proceso de inferencia bayesiana involucra pasar desde una distribución
a priori, a una distribución posterior, y por lo tanto, es natural esperar que
existan algunas relaciones generales entre estas dos distribuciones. Por ejem-
plo, se podría esperar que, debido a que la distribución posterior incorpora la
información de los datos, esta sea menos variable que la distribución a priori.
Estas nociones son formalizadas, con respecto a la media y la variancia de θ,
por las siguientes expresiones:
E [θ] = E [E [θ/x]] y Var (θ) = E [Var (θ/x)] + Var (E [θ/x])

En el ejemplo binomial con distribución a priori uniforme, la media a pri-

ori es 1/2 y la variancia a priori es 1/12. La media posterior, (x + 1) / (n + 2),
es un resultado entre la media a priori y la proporción muestral x/n, donde
claramente, la media a priori tiene un efecto menor conforme el tamaño de
la muestra aumenta.
Inferencia posterior
La distribución posterior contiene toda la información actual sobre el
parámetro θ e idealmente, uno podría reportar la distribución posterior f (θ/x).
En muchos casos, sin embargo, se requiere conocer los valores de algunas me-
didas de posición como la media, mediana y moda; medidas de dispersión
como la desviación estándar, el rango intercuartílico y otros cuantiles.
Adicionalmente a las estimaciones puntuales, es importante reportar la in-
certidumbre posterior. El método usual para esto consiste en presentar cuan-
tiles de la distribución posterior o intervalos centrales de probabilidad pos-
terior, los cuales corresponden, en el caso de un intervalo del 100 (1 − α) %,
al rango de valores abajo y arriba de los cuales cae exactamente 100 (α/2) %
de la probabilidad posterior. Tales intervalos son conocidos como intervalos
posteriores. En modelos simples, tales como el binomial y el normal, los in-
tervalos posteriores pueden ser calculados directamente desde las función de
distribución acumulada, y en general, pueden ser calculados usando el proce-
so de simulación a partir de la distribución posterior. Un método alternativo
para resumir la incertidumbre posterior consiste en calcular el intervalo de
máxima densidad posterior, esto es, la región de valores que contienen el
100 (1 − α) % de la probabilidad posterior pero que además, tienen la car-
acterística de que la densidad dentro de la región nunca es menor a la de
cualquier punto fuera de la misma. Obviamente, tal región es idéntica a la
de un intervalo central posterior si la distribución posterior es unimodal y
simétrica. En general, los intervalos centrales posteriores son preferibles a los
intervalos de máxima densidad posterior debido a que:
Estos tienen una interpretación directa como los cuantiles posteriores

α/2 y 1 − α/2.
Son invariantes a las trasformaciones uno a uno de las cantidades esti-

madas.
Son usualmente más fáciles de calcular.

La figura 5.2 presenta una comparación entre un intervalo central posterior

y un intervalo de máxima densidad posterior para una distribución bimodal
hipotética.
Figura 5.2: Intervalo central posterior e intervalo de máxima densidad pos-

terior
Distribuciones a priori informativas

En el ejemplo binomial, se ha considerado una distribución a priori uni-
forme para θ. ¿Cómo se puede justificar esta elección, y cómo en general se
puede resolver el problema de construir distribuciones a priori? Definitiva-
mente, la distribución a priori debe incluir todos los valores posibles de θ,
pero la distribución no tiene que estar necesariamente concentrada en torno
al verdadero valor ya que frecuentemente la información acerca de θ obtenida
en los datos modificará y dominará cualquier razonable especificación prob-
abilística a priori.
En el ejemplo binomial, se ha visto que la distribución a priori uniforme
para θ implica que la distribución predictiva a priori para x (dado n) es
uniforme sobre el conjunto discreto {0, 1, · · · , n}, dando igual probabilidad
a cada uno de los n + 1 posibles valores. En su tratado original sobre este
problema, la justificación de Bayes para la distribución a priori uniforme
parece haberse basado en esta observación; el argumento es atractivo debido a
que está expresado enteramente en términos de las cantidades observables x y
n. El razonamiento de Laplace para esta densidad a priori uniforme fue menos

claro, pero interpretaciones posteriores le atribuyen a él el llamado principio
de la razón insuficiente, el cual declara que si nada es conocido acerca de
θ, entonces no hay ninguna razón para asignar probabilidades diferentes a
algunos de sus valores.
Binomial con diferentes distribuciones a priori

Considerada como una función de θ, la verosimilitud binomial es de la
forma:
f (x/θ) ∝ θa (1 − θ)b
Así, si la densidad a priori es de la misma forma, con sus propios valores
de a y b, entonces la densidad posterior será también de esta forma. Aquí se
reparametrizará tal densidad a priori como:
f (θ) ∝ θα−1 (1 − θ)β−1
la cual es una distribución beta con parámetros α y β. Comparando ambas

distribuciones, f (θ) y f (x/θ), se puede intuir que la distribución a priori es
equivalente a α − 1 éxitos y β − 1 fracasos a priori.
Con estas distribuciones, la densidad posterior de θ es:
f (θ/x) ∝ θx (1 − θ)n−x θα−1 (1 − θ)β−1

∝ θx+α−1 (1 − θ)n−x+β−1
∼ BE (x + α, n − x + β)
Dado que la distribución posterior sigue la misma forma paramétrica que

la distribución a priori, se dice que la distribución a priori beta es una familia
conjugada para la verosimilitud binomial. Trabajar con familias conjugadas
es matemáticamente conveniente ya que esto determina que la distribución
posterior siga una forma paramétrica conocida.
Continuando con el modelo binomial con distribución a priori beta, la
media posterior de θ, la cual puede ser interpretada como la probabilidad
posterior de éxito para un ensayo futuro, es:
α+x
E [θ/x] =
α+β+n
la cual cae entre la proporción muestral x/n y la media a priori α/ (α + β).

La variancia posterior es:
(α + x) (β + n − x) E [θ/x] (1 − E [θ/x])
Var (θ/x) = =
(α + β + n) (α + β + n + 1)
2
α+β+n+1
Con α y β fijos, conforme x y n − x aumentan:

x 1x x

E [θ/x] ≈ Var (θ/x) = 1−
n nn n
Claramente, en el límite los parámetros de la distribución a priori no
tienen influencia en la distribución posterior. Adicionalmente, el teorema del
límite central de la teoría de la probabilidad puede ser puesto en un contexto
bayesiano para mostrar:
θ − E [θ/x]
q −→ N (0, 1)
Var (θ/x)
Este resultado es frecuentemente usado para justificar la aproximación de

la distribución posterior con una distribución normal. Para el parámetro bino-
mial θ, la distribución normal será una aproximación más exacta si se aplica
una transformación logit a θ, esto es, efectuar inferencias para ln (θ/ (1 − θ))
en vez de para θ, con lo cual se expande el espacio paramétrico de [0, 1] a
(−∞, ∞). Debe tenerse en cuenta que la aproximación normal no es aplicable
en los casos límite en los que x = 0 ó 1 o, desde otro punto de vista, los casos
en los que x/n −→ 0 ó 1.
Distribuciones a priori conjugadas

Formalmente, una familia conjugada de distribuciones puede definirse co-
mo sigue.
Definición 5.1.1 Si F es una clase de distribuciones muestrales f (x/θ),

y P es una clase de distribuciones a priori para θ, entonces la clase P es
conjugada para F si:
f (θ/x) ∈ P para todo f (•/θ) ∈ F y f (•) ∈ P.

Esta definición puede resultar vaga desde que si P es escogida como la

clase de todas las distribuciones, entonces P será siembre conjugada sin im-
portar qué clase de distribuciones de muestreo sea usada. El interés funda-
mental aquí, sin embargo, estará en las familias de distribuciones a priori
conjugadas naturales, las cuales se definen al tomar a P como el conjunto de
todas las densidades que tienen la misma forma funcional que la verosimili-
tud.
Las distribuciones a priori conjugadas tienen la ventaja práctica, adi-
cionalmente a su conveniencia para el cálculo, de ser interpretables como in-
formación adicional, así como se ha visto en el ejemplo binomial aquí tratado.
Por otro lado, aunque la interpretación de las inferencias posteriores pudiera
ser menos clara y los cálculos más complicados, las distribuciones a priori
no conjugadas no poseen ningún problema conceptual. En la práctica, para
modelos más complicados, distribuciones a priori conjugadas podrían no ser
posibles.
5.2. Distribución normal

5.2.1. Estimación de la media con varianza conocida
La distribución normal es fundamental en la mayoría de los modelos
estadísticos. El teorema del límite central ayuda a justificar el uso de la
verosimilitud normal en muchos problemas.
Verosimilitud para una observación

Considere una simple observación x desde una distribución normal parametriza-
da por una media θ y una variancia σ 2 conocida. La distribución de muestreo
es:
1 1

f (x/θ) = √ exp − 2 (x − θ)2
2πσ 2σ
Distribución a priori conjugada y distribución posterior

Considerada como una función de θ, la verosimilitud es un exponencial
de una forma cuadrática en θ, por lo que la familia de densidades a priori
conjugadas es de la forma:
n o
f (θ) = exp aθ2 + bθ + c
la cual se puede reparametrizar como:
1
( )
f (θ) ∝ exp − 2 (θ − µ0 )2
2τ0
esto es, θ ∼ N (µ0 , τ02 ).

La densidad a priori conjugada implica que la distribución posterior para
θ es el exponencial de una forma cuadrática y por lo tanto normal. En la
densidad posterior, todas las variables excepto θ son consideradas como con-
stantes, lo cual da la siguiente densidad condicional:
1 (x − θ)2 (θ − µ0 )2
( " #)
f (θ/x) ∝ exp − +
2 σ2 τ02
Aplicando algunas operaciones algebraicas se tiene:
1
( )
f (θ/x) ∝ exp − 2 (θ − µ1 )2
2τ1
donde
1
µ + σ12 x
τ02 0 1 1 1
µ1 = = 2+ 2
1
τ02
+ σ12 τ12
τ0 σ
Se puede notar que esta distribución es normal con media µ1 y variancia

τ12 . En distribuciones normales, la inversa de la variancia tiene un papel
importante y es llamada la precisión. El resultado anterior indica que la
precisión posterior es igual a la precisión a priori más la precisión del dato,
mientras que la media posterior es igual a la media ponderada de la media a
priori y el dato, donde las ponderaciones están dadas por las precisiones.
Distribución predictiva posterior

La distribución predictiva posterior para una futura observación puede
ser calculada directamente por integración:
ˆ
f (y/x) = f (y/θ) f (θ/x) dθ
ˆθ
1 1
( )
∝ exp − 2 (y − θ) exp − 2 (θ − µ1 ) dθ
2 2
θ 2σ 2τ1
Claramente la expresión dentro del integral corresponde a una distribu-

ción normal bivariada para y y θ, y por lo tanto, por las propiedades de
la distribución normal bivariada, la distribución posterior marginal de y es
también normal.
Para determinar la media y la variancia de la distribución predictiva
posterior, se puede hacer uso de las siguientes propiedades sabiendo que,
por la definición del modelo, E [Y /θ] = θ y Var (Y /θ) = σ 2 .
E [Y /x] = E [E [Y /θ] /x]

= E [θ/x]
= µ1
Luego
Var (Y /x) = E [Var (Y /θ) /x] + Var (E [Y /θ] /x)

h i
= E σ 2 /x + Var (θ/x)
= σ 2 + τ12
Así, la distribución predictiva posterior de Y tiene una media igual a la

media posterior de θ y dos componentes de variancia: la variancia predictiva
σ 2 del modelo y la variancia τ12 debida a la incertidumbre posterior sobre θ.
Modelo normal con múltiples observaciones

El desarrollo del modelo normal con una observación puede ser fácilmente
extendido a la situación más realista en la que se dispone de una muestra de
observaciones idénticas e independientemente distribuidas x = (x1 , · · · , xn ).
La densidad posterior en este caso será:
f (θ/x) ∝ f (θ) l (θ/x)

n
∝ f (θ) f (xi /θ)
Y
i=1
1 n
1
( )
∝ exp − 2 (θ − µ0 ) 2
exp − 2 (xi − θ)2
Y
2τ0 i=1 2σ
1 1 1 X n
( " #)
∝ exp − (θ − µ 0 ) 2
+ (xi − θ)2
2 τ02 σ 2 i=1
Una simplificación algebraica de esta expresión muestra que la distribu-

ción posterior depende de x solo a través de la media muestral, esto es x,
es una estadística suficiente para este modelo. De hecho, dado que X ∼
N (θ, σ 2 /n), los resultados obtenidos para una simple observación pueden
aplicarse aquí inmediatamente para obtener f (θ/x) = f (θ/x) donde:
1
µ + σn2 x
τ02 0 1 1 n
µn = = 2+ 2
1
τ02
+ σn2 τn2 τ0 σ
Tenga en cuenta que el mismo resultado sería obtenido si, en vez de incor-
porar la información de las n observaciones en un solo paso, se incorporara la
información de los puntos x1 , · · · , xn , de uno en uno, usando la distribución
posterior obtenida en cada paso como la distribución a priori para el paso
siguiente.
5.2.2. Distribución normal con media conocida y var-

ianza desconocida
El modelo normal con media conocida y variancia desconocida es un im-
portante ejemplo, no necesariamente por su aplicación directa, sino como
parte de modelos útiles más complicados, quizá el más inmediato, el mod-
elo normal con ambos parámetros desconocidos que se verá en el siguiente
capítulo. Además, la distribución normal con media conocida y variancia de-
sconocida provee un ejemplo introductorio de la estimación de un parámetro
de escala.
Para f (x/θ, σ 2 ) = N (x/θ, σ 2 ), con θ conocida y σ 2 desconocida, la
verosimilitud para un vector x de n observaciones independientes e iden-
ticamente distribuidas es:
1 Xn
( )

f x/σ 2
∝ σ exp − 2
−n
(xi − θ)2
2σ i=1
n
−n/2
∝ σ2 exp − 2 u
2σ
donde la estadística suficiente es:
1X n
u= (xi − θ)2
n i=1
La correspondiente densidad a priori conjugada es la gamma inversa:

( )

2 −(α+1)
β
f σ 2
∝ σ exp − 2
σ
con parámetros α y β. Una parametrización conveniente es la distribución

χ inversa de escala con parámetro de escala σ02 y υ0 grados de libertad, esto
2
es, la distribución a priori de σ 2 es la distribución de σ02 υ0 /X, donde X es una

variable aleatoria χ2υ0 . Aquí se utilizará la notación σ 2 ∼ χ2 inversa(υ0 , σ02 ) .
La densidad posterior resultante para σ 2 es:

f σ 2 /x ∝ f σ 2 f x/σ 2
! ( )
σ02 υ0 σ02 2 −n/2 n u

∝ exp − 2 σ exp − 2
σ2 2σ 2σ
1
−((n+υ0 )/2+1)
∝ σ 2
exp − 2 υ0 σ0 + nu
2
2σ
y así:
υ0 σ02 + nu
!
σ 2 /x ∼ χ2 inversa υ0 + n,
υ0 + n
la cual es una distribución χ2 inversa de escala con parámetro de escala
igual a la media ponderada por los grados de libertad del parámetro de escala
a priori y el parámetro de escala de los datos, y grados de libertad iguales
a la suma de los grados de libertad a priori y los grados de libertad de los
datos. La distribución a priori puede ser interpretada como portadora de la
información de υ0 observaciones con una desviación al cuadrado media de σ02 .
5.3. El modelo de Poisson

La distribución de Poisson es utilizada frecuentemente en información
tomada desde conteos; por ejemplo, el número de enfermos por unidad de
tiempo, o el número de individuos encontrados por unidad de área. Si X
sigue una distribución de Poisson con tasa media de ocurrencias θ, entonces
la probabilidad de una observación x es:
θx exp {−θ}
f (x/θ) = , x = 0, 1, · · ·
x!
y para un vector x = (x1 , · · · , xn ) de observaciones independientes e

identicamente distribuidas, la verosimilitud es:
n
θxi exp {−θ}
f (x/θ) =
Y
i=1 xi !
∝ θt(x)
exp {−nθ}
donde t (x) = ni=1 xi es una estadística suficiente. Esta verosimilitud se
P
puede escribir en la forma de la familia exponencial:

f (x/θ) ∝ exp {−nθ} exp {−t (x) ln θ}
lo cual revela que el parámetro natural es φ (θ) = ln θ. Esta verosimilitud
es de la forma θa exp {−bθ}, y por lo tanto, la densidad a priori conjugada
debe ser de la forma f (θ) ∝ θA exp {−Bθ}. En una parametrización más
conveniente:
f (θ) ∝ exp {−βθ} θα−1
la cual es una densidad gamma con parámetros α y β. Una comparación
entre f (x/θ) y f (θ) revela que la densidad a priori es, en cierto sentido,
equivalente a un total de α − 1 ocurrencias en β observaciones a priori. Con
esta distribución a priori conjugada, la distribución posterior es:
θ/x ∼ G (α + nx, β + n)
Con familias conjugadas, la forma conocida de las distribuciones a priori
y posterior puede ser usada para encontrar la distribución marginal f (x),
usando la fórmula:
f (x/θ) f (θ)
f (x) =
f (θ/x)
Por ejemplo, en el modelo Poisson para una observación x, la distribución
predictiva a priori es:
P (x/θ) G (θ/α, β)
f (x) =
G (θ/α + x, 1 + β)
Γ (α + x) β α
=
Γ (α) x! (1 + β)α+x
la cual se reduce a:
!α !x
α+x−1 1
!
β
f (x) =
x β+1 β+1
que es conocida como la distribución binomial negativa:
X ∼ BN (α, β)
El análisis anterior demuestra que:

ˆ
BN (x/α, β) = P (x/θ) G (θ/α, β) dθ
θ
En muchas aplicaciones, es conveniente extender el modelo de Poisson a

múltiples observaciones x1 , · · · , xn de la forma:
xi ∼ P (zi θ)
donde los zi son valores conocidos positivos de una variable explicatoria

Z, y θ es el parámetro desconocido de interés. En epidemiología, el parámetro
θ es frecuentemente llamado la tasa, y zi , es llamado la exposición de la i-
ésima unidad. Este modelo no es intercambiable en los xi pero si en los pares
(zi , xi ). La verosimilitud para θ en este modelo será:
n
( )
Pn
f (x/θ) ∝ θ x
exp −θ
X
i=1 i zi
i=1
y así, la distribución gamma para θ es conjugada con esta verosimilitud.

Con la distribución a priori θ ∼ G (α, β), la distribución posterior resultante
es:
n n
!
θ/x ∼ G α + xi , β +
X X
zi
i=1 i=1
5.4. Modelo exponencial

La distribución exponencial es comúnmente usada para modelar tiempos
de espera y otras variables aleatorias continuas positivas, usualmente medidas
en una escala de tiempo. La distribución de muestreo de un resultado x, dado
el parámetro θ , es:
f (x/θ) = θ exp {−xθ} , x>0
y θ = E−1 [X/θ] es llamado la tasa. Matemáticamente, la distribución

exponencial es un caso especial de la distribución gamma con parámetros
(α, β) = (1, θ). En este caso sin embargo, esta distribución está siendo usa-
da como una distribución de muestreo para el resultado x, y no como una
distribución a priori para el parámetro θ, como en el ejemplo de Poisson.
La distribución exponencial tiene la propiedad de pérdida de memoria,
lo cual la convierte en un modelo natural para información de supervivencia
o tiempos de vida. La probabilidad de que un objeto sobreviva un tiem-
po adicional t es independiente del tiempo transcurrido hasta ese punto:
Pr (X > t + s/X > s, θ) = Pr (X > t/θ) para cualquier valor positivo s y t.
La distribución a priori conjugada para el parámetro exponencial θ, así como
para la media Poisson, es la G (θ/α, β) con la correspondiente distribución
posterior G (θ/α + 1, β + x). La distribución muestral de n observaciones ex-
ponenciales independientes, x = (x1 , · · · , xn ), con tasa constante θ es:
f (x/θ) = θn exp {−nxθ} , x≥0
la cual vista como la verosimilitud de θ, para x fijo, es proporcional a la

densidad G (n + 1, nx). Así, la distribución a priori G (θ/α, β) para θ puede
ser vista como α − 1 observaciones exponenciales con un tiempo de espera
total de β.
5.5. Distribuciones a priori no informativas

Cuando las distribuciones a priori no tienen ninguna base poblacional,
pueden ser difíciles de construir, y ha habido por mucho tiempo un deseo
por contar con distribuciones a priori que puedan garantizar una mínima
influencia en la distribución posterior. Tales distribuciones son algunas ve-
ces llamadas distribuciones a priori de referencia y la densidad a priori es
descrita como vaga, plana, difusa o no informativa. La razón para utilizar
distribuciones a priori no informativas es frecuentemente explicada como la
intención de “dejar que los datos hablen por sí mismos”, de modo que las
inferencias no estén afectadas por información externa a los datos.
Distribuciones a priori propias e impropias

Volvamos al problema de estimar la media θ de un modelo normal con
variancia conocida σ 2 , con una distribución a priori para θ ∼ N (µ0 , τ02 ).
Si la precisión a priori, 1/τ02 , es pequeña en relación a la precisión de los
datos, n/σ 2 , entonces la distribución posterior es, en tanto que τ02 = ∞,

aproximadamente:
f (θ/x) ≈ N θ/x, σ 2 /n
Dicho de otra forma, la distribución posterior es aproximadamente aquella
que resultaría al asumir que f (θ) es proporcional a una constante para θ ∈
(−∞, ∞). Tal distribución no es estrictamente posible dado que la integral de
la f (θ) asumida es infinito, lo cual viola la asunción de que las probabilidades
suman 1. En general, se llamará a una densidad a priori f (θ) propia si esta
no depende de datos e integra 1. Si f (θ) integra a cualquier valor positivo
finito, será llamada una densidad no normalizada y que puede ser normalizada
multiplicándola por una constante para que integre uno. A pesar de que la
distribución a priori de este ejemplo es impropia, la distribución posterior es
propia, dada al menos una observación.
Como un segundo ejemplo de una distribución a priori no informativa,
considere el modelo normal con media conocida pero variancia desconocida,
con la distribución a priori conjugada χ2 inversa de escala. Si los grados
de libertad a priori υ0 son pequeños en relación con los grados de libertad
de los datos n, entonces la distribución posterior es, en tanto que υ0 = 0,
aproximadamente:

f σ 2 /x ≈ χ2 -Inversa σ 2 /n, µ
Esta forma límite de la distribución posterior puede también ser deducido
al definir la densidad a priori para σ 2 como f (σ 2 ) ∝ 1/σ 2 , la cual es impropia
ya que integra infinito sobre el rango (0, ∞).
Distribuciones a priori impropias pueden con-

ducir a distribuciones posteriores propias
En ninguno de los dos casos anteriores la densidad a priori se combina
con la verosimilitud para definir un modelo de probabilidad conjunta pro-
pio, f (x, θ). Sin embargo, se puede proceder con el álgebra de la inferencia
bayesiana y definir una función de densidad posterior no normalizada dada
por:
f (θ/x) ∝ f (x/θ) f (θ)
En los ejemplos anteriores
´ (aunque no siempre), la densidad posterior es
de hecho propia, esto es, f (x/θ) dθ es finito para todo x.
Principio de invariancia de Jeffreys

Una aproximación que es algunas veces usada para definir distribuciones a
priori no informativas fue desarrollada por Jeffreys, quien se basó en consider-
ar transformaciones uno a uno del parámetro: φ = h (θ). Por transformación
de variables, la densidad a priori es equivalente, en términos de expresar la
misma información, a la siguiente densidad a priori para φ:

dθ
f (φ) = f (θ)

dφ
El principio general de Jeffreys es que cualquier regla para determinar la
densidad a priori f (θ) debe conducir a un resultado equivalente si se aplica al
parámetro transformado; esto es, f (φ) calculado a partir de f (θ) aplicando la
transformación anterior debe coincidir con la distribución que sería obtenida
determinando f (φ) directamente usando el modelo transformado, f (x, φ) =
f (φ) f (x/φ).
La selección de Jeffreys para una densidad a priori no informativa es:
f (θ) ∝ [J (θ)]1/2
donde J (θ) es la información de Fisher para θ:
 !   ! 
d ln f (x/θ) d2 ln f (x/θ)
J (θ) = E  = −E 

θ  θ 
dθ
dθ2

Para verificar que el modelo a priori de Jeffreys es invariante a la reparametrización,

evalúe J (θ) en θ = h−1 (φ):
d2 ln f (x/φ)
" !#
J (φ) = −E
dφ2
d2 ln f (x/θ = h−1 (φ)) dθ
" ! #
= −E
dθ2

dφ
dθ 2

= J (θ)

dφ

Así, J (φ)1/2 = J(θ)1/2 dφ , tal y
como es requerido.
dθ
El principio de Jeffreys puede ser extendido a modelos multiparamétricos,

pero los resultados son más controvertidos. Aproximaciones simples basadas
al asumir distribuciones a priori no informativas para los componentes de un
vector de parámetros θ pueden dar diferentes resultados que los obtenidos
con el principio de Jeffreys.
Cantidades pivotales
Para el modelo binomial y otros modelos uniparamétricos, principios
diferentes dan distribuciones a priori ligeramente diferentes. Pero para dos
casos, parámetros de posición y de escala, todos los principios parecen con-
cordar.
1. Si la densidad de x es tal que f (x − θ/θ) es una función que no depende

ni de θ ni de x, digamos f (u) donde u = x − θ, entonces u es una can-
tidad pivotal, y θ es llamado un parámetro de posición puro. En tales
casos, es razonable que una distribución a priori no informativa para θ
genere para la distribución posterior f (x − θ/x) . Esto es, bajo la dis-
tribución posterior, y − θ debe seguir siendo una cantidad pivotal, cuya
distribución no depende ni de x ni de θ. Bajo esta condición, usando
la regla de Bayes, f (x − θ/x) ∝ f (θ) f (x − θ/θ), y esto implica que la
densidad a priori no informativa es uniforme en θ, esto es, f (θ) ∝cte.
sobre el rango (−∞, ∞).

2. Si la densidad de x es tal que f xθ /θ es una función que no depende
ni de θ ni de x, digamos g (u) donde u = xθ , entonces u es una cantidad
pivotal, y θ es llamado un parámetro de escala puro. En tales casos, es
razonable que una distribución a priori no informativa
para θ genere
g (x/θ) para la distribución posterior f θ /x . Por transformación de
x
variables, la distribución condicional de x dado θ puede ser expresada

en términos de la distribución de u dado θ:
1
f (x/θ) = f (u/θ)
θ
y similarmente:
x
f (θ/x) = f (u/x)
θ2
Al igualar ambas distribuciones, f (u/θ) y f (u/x) a g (u), se obtiene la
siguiente identidad:
x
f (θ/x) = f (x/θ)
θ
Así, en este caso, la distribución a priori de referencia es f (θ) ∝ 1/θ o,
equivalentemente, f (ln θ) ∝cte.
Algunas distribuciones a priori no informativas para el

parámetro binomial
Considere la distribución binomial, X ∼ BI (n, θ), para la cual el logar-
itmo de la verosimilitud es:
ln f (x/θ) = Constante + x ln θ + (n − x) ln (1 − θ)
La evaluación de la segunda derivada y la sustitución de E [X/θ] = nθ da

la siguiente información de Fisher:
 ! 
d2 ln f (x/θ) n
J (θ) = −E  =

θ 
dθ2
θ (1 − θ)
La densidad a priori de Jeffreys es entonces f (θ) ∝ θ−1/2 (1 − θ)−1/2 , la

cual es una densidad BE (1/2, 1/2).
De acuerdo al criterio de Bayes y Laplace, una densidad a priori uniforme
podría ser adecuada, esto es, una densidad BE (1, 1). Por otro lado, la densi-
dad a priori que es uniforme sobre el parámetro natural de la representación
bajo la forma de la familia exponencial de la distribución es f (logit (θ)) ∝cte.,
la cual corresponde a la densidad a priori impropia para θ, BE (0, 0).
En la práctica, la diferencia entre estas distribuciones a priori es pequeña,
dado que la diferencia desde una BE (0, 0) hasta una BE (1, 1) puede ser
interpretada como el paso de una distribución a priori a una posterior dado
por un éxito y un fracaso adicional, y usualmente 2 es una pequeña fracción
del número total de observaciones. Sin embargo, uno debe tener cuidado con
la distribución impropia BE (0, 0) dado que si en la muestra se obtiene x = 0
o x = n, la distribución posterior resultante también será impropia.
5.6. Mixtura de distribuciones a priori

El uso de distribuciones a priori conjugadas es solo posible cuando existe
una distribución que representa en forma adecuada el conocimiento previo so-
bre el parámetro. En algunos casos, la distribución a priori conjugada natural
puede ser demasiado restrictiva para que esto sea posible.
Considere el siguiente ejemplo. Cuando una moneda es lanzada, la prob-
abilidad de que una cara aparezca es casi siempre igual a 0.5. Sin embargo,
cuando la moneda es hecha girar sobre una mesa, suele ocurrir que ligeras
imperfecciones en el borde la moneda produzcan una tendencia a obtener

más caras o más sellos. Teniendo esto en cuenta, se podría esperar dar a la
probabilidad θ de que aparezca una cara una distribución a priori que fa-
vorezca por ejemplo los valores de 0.3 y 0.7. Esto es, el conocimiento a priori
puede ser representado por una distribución bimodal (o inclusive trimodal si
se va contemplar la posibilidad de que la moneda sea regular, en cuyo caso
θ = 0,5). La verosimilitud para el número de caras en n intentos sería una
binomial y por lo tanto la familia a priori conjugada es la distribución beta;
sin embargo, ningún miembro de esta familia es bimodal.
Una solución es usar una mixtura de distribuciones conjugadas. Esta fa-
milia extendida también será una familia a priori conjugada por la siguiente
razón. Suponga que f1 (θ) , · · · , fk (θ), son todas distribuciones a priori con-
jugadas para θ, las cuales conducen a las respectivas distribuciones posteri-
ores f1 (θ/x) , · · · , fk (θ/x). Ahora considere la siguiente mixtura de distribu-
ciones:
k
f (θ) = wi fi (θ)
X
i=1
donde wi es el peso o ponderación de la distribución a priori fi (θ) en

f (θ). Entonces:
f (θ/x) ∝ f (θ) f (x/θ)

k
= wi fi (θ) f (x/θ)
X
i=1
k
= wi∗ fi (θ/x)
X
i=1
y por lo tanto, la distribución posterior pertenece a la misma familia de

distribuciones mixtas. Note que en general, las ponderaciones en la distribu-
ción posterior, wi∗ , serán diferentes que aquellas de la distribución a priori.
El uso de una mixtura de distribuciones a priori conjugadas puede ser
implementado sin mayor dificultad con software, y el First Bayes permite
usar mixturas de distribuciones a priori para los cuatro modelos conjuga-
dos más comunes (modelo binomial, modelo Poisson, modelo exponencial y
modelo normal). Por último, tenga presente que el uso de una mixtura de
distribuciones a priori no está limitado al uso de familias conjugadas.
Capítulo 6
Modelos multiparamétricos
6.1. Distribución normal con media y varian-

za desconocidas
La función de densidad de distribución N (µ, σ 2 ), con ambos parámetros
son desconocidos, se denota por:
1
−1/2
f x/µ, σ 2 = 2πσ 2 exp − 2 (x − µ)2
2σ ( ) ( )
−1/2
−1/2 µ2 xµ x2
= (2π) σ 2
exp − 2 exp − 2
2σ σ2 2σ
La densidad anterior pertenece a una familia exponencial de dos parámet-
ros. Suponga que se tiene un conjunto de observaciones x = (x1 , · · · , xn ),
entonces la función de verosimilitud es:
n
l µ, σ 2 /x f xi /µ, σ 2
Y
∝
i=1
1 Xn
( )
−n/2
∝ σ2 exp − 2 (xi − µ)2
2σ i=1
1 X n
( !)
2 −n/2

∝ σ exp − 2 (xi − x)2 + n (x − µ)2
2σ i=1
1
−n/2
∝ σ 2
exp − 2 S + n (x − µ) 2
2σ
donde S = (xi − x)2 , es decir s2 = S/ (n − 1). Además el vector bidi-
P
mensional (x, S), equivalente a (x, s2 ), es suficiente para (µ, σ 2 ) dado x.
48
CAPÍTULO 6. MODELOS MULTIPARAMÉTRICOS 49
Supongamos que la función de densidad conjunta para (µ, σ 2 ) es:

1
f µ, σ 2 ∝
σ2
que es el producto de las distribuciones a priori de referencia f (µ) ∝ 1 y
f (σ 2 ) ∝ 1/σ 2 . Entonces:
1
−n/2−1
f µ, σ 2 /x ∝ σ2 exp − S + n (x − µ) 2
2σ 2
Si se definen υ = n − 1 y σ 2 = φ se tiene:
1
( )

f (µ, φ/x) ∝ φ −(υ+1)/2−1
exp − S + n (x − µ)2
2φ
6.2. Distribución marginal posterior de la me-

dia
En muchos problemas reales el interés se centra en la media µ y φ se
considera como un parámetro de ruido. En la teoría clásica los parámetros de
ruido pueden traer complicaciones, sin embargo éstos no constituyen proble-
mas en la teorá Bayesiana. Todo lo que se requiere es hallar la distribución
posterior marginal de µ. Es decir:
ˆ
f (µ/x) = f (µ, φ/x) dφ
φ
ˆ ∞
1
( )

∝ −(υ+1)/2−1
φ exp − S + n (x − µ)2 dφ
0 2φ
−(υ+1)/2
∝ S + n (x − µ)2
corresponde al núcleo de la distribución posterior de µ, sin embargo no

es la forma más conveniente de expresar el resultado. Es usual definir:
µ−x
t= √
s/ n
donde s2 = S/ (n − 1) = S/υ. Como el jacobiano |dµ/dt| de la transfor-

mación desde µ hacia t es constante, la distribución posterior de t está dada
por:
n o−(υ+1)/2
f (t/x) ∝ υs2 + (st)2
n o−(υ+1)/2
∝ 1 + t2 /υ
que corresponde a la densidad de una variable aleatoria con distribución
t-student con υ grados de libertad. Notar que si υ → ∞ el límite exponencial
es proporcional a exp {−t2 /2} que tiene la forma de la distribución normal
estándar. Por otro lado, si υ = 1 entonces t tiene distribución C (0, 1), o
equivalentemente µ ∼ C (x, s2 /n).
6.3. Distribución marginal posterior de la var-

ianza
Si el interés esta en φ en lugar de µ, se tiene:
ˆ
f (φ/x) = f (µ, φ/x) dµ
µ
ˆ ∞
1
( )

= φ exp −
−(υ+1)/2−1
S + n (x − µ)2 dµ
−∞ 2φ
)ˆ ∞
1
( ( )
S −1/2
∝ φ−υ/2−1
exp − (2πφ/n) exp − n (x − µ) dµ
2
2φ −∞ 2φ
( )
S
∝ φ−υ/2−1 exp −
2φ
es decir que la distribución posterior de φ es Sχ−2
υ .
6.4. Distribución condicional de la media da-

da la varianza
En algunas situaciones resulta útil expresar la distribución posterior en
la forma:
f (µ, φ/x) = f (φ/x) f (µ/φ, x)
donde:
1
( )

f (µ, φ/x) ∝ φ exp −
−(υ+1)/2−1
S + n (x − µ)2
2φ
( )
S
f (φ/x) = φ−υ/2−1 exp −
2φ
lo cual implica que:
1
( )
f (µ/φ, x) ∝ φ exp − n (x − µ)2
−1/2
2φ
1
( )
−1/2
= (2πφ/n) exp − n (x − µ) 2
2φ
es decir que, dados φ y x, la distribución de la media es N (x, φ/n).

Estadistica Bayesiana PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Bayesiana PDF

Cargado por

Copyright:

Formatos disponibles

Estadística Bayesiana

Ms. Carlos López de Castilla Vásquez1

2. Teoría de la probabilidad y Estadística Clásica 3

4. Modelos basados en la distribución normal 14

La estadística Bayesiana le debe su nombre al trabajo pionero del rev-

“Yo ahora le mando un ensayo que he encontrado entre los

funcionamiento del mundo debe ser el efecto de la sabiduría y

Aunque la obra de Thomas Bayes data ya de hace más de dos siglos, la

2.1. Reglas de probabilidad

Si el espacio muestral es continuo entonces debe integrarse en lugar de

sumar. Si se esta interesado en la ocurrencia del evento A o el evento B se

2.2. Algunas distribuciones importantes

2.2.2. La distribución multinomial

2.2.3. La distribución de Poisson

2.2.4. La distribución normal

2.2.5. La distribución normal multivariada

2.2.6. La distribución t de student

2.3. Estimación por máxima verosimilitud

1. Construir la función de verosimilitud para el parámetro(s) de interés.

2. Simplificar la función anterior y tomarle el logaritmo.

3. Tomar la derivada parcial de la función logverosimilitud con respecto

4. Resolver el sistema de ecuaciones para encontrar los estimadores.

2.3.1. Construyendo la función de verosimilitud

2.3.2. Obteniendo los errores estándar

Ejemplo 2.3.1 Un médico sugiere un nuevo tratamiento para una forma

tratamiento la tasa de supervivencia será mejor. Sea θ la probabilidad de que

3.2. El teorema de Bayes para probabilidades

Voviendo al ejemplo, suponga que también se sabe que la prueba da falsos

y B2 = No embarazo. Sin embargo, para calcular la probabilidad de interés

3.3. El teorema de Bayes aplicado a distribu-

donde f (θ|data) es la distribución posterior para el parámetro θ, f (data|θ)

Posterior ∝ Verosimilitud × Priori

Ejemplo 3.3.1 Se toma una muestra aleatoria de tamaño n desde la dis-

Ejemplo 3.3.2 Se toma una muestra aleatoria de tamaño n desde la dis-

3.4. Distribución predictiva

Ejemplo 3.4.1 Considere una secuencia de n ensayos independientes cuya

Ejemplo 3.4.2 Resolver el ejemplo anterior asumiendo que la distribucion

3.5. Familias conjugadas

Definición 3.5.1 Si F es una familia de distribuciones de muestreo para

Ejemplo 3.5.1 La familia de distribuciones gamma es conjugada con la dis-

3.6. La distribución a priori

3.6.1. Principio de invariancia de Jeffreys

Definición 3.6.1 La distribución a priori no informativa de Jeffreys es:

donde J (θ) es la información de Fisher para θ definida por:

Ejemplo 3.6.1 Suponga que X|θ ∼ E (θ−1 ). Hallar la distribución a priori

Ejemplo 3.6.2 Suponga que X|θ ∼ N (θ, σ 2 ) con σ 2 conocido. Hallar la

Definición 3.6.2 La distribución a priori no informativa de Jeffreys para el

donde J (θ) es el determinante de la matriz cuyo elemento (i, j) es:

Ejemplo 3.6.3 Suponga que X|µ, σ 2 ∼ N (µ, σ 2 ). Hallar la distribución a

3.6.2. Algunas distribuciones a priori útiles

3.6.2.2. La distribución gamma inversa

3.6.2.3. Distribución Wishart y Wishart Inversa

3.7. Críticas a la estadística Bayesiana

4.1. Distribución normal con un solo parámetro

Si además se asume que la distribución priori para θ ∼ N (µ1 , τ12 ), se

La distribución posterior es el producto de la verosimilitud y la distribu-

Con un poco de álgebra puede demostrarse que:

La distribución predictiva posterior para una nueva observación es:

Claramente la expresión dentro del integral corresponde a una distribu-

4.1.2. Distribución normal con µ conocida

La distribución posterior para σ 2 es:

Una reparametrización importante realizada sobre la distribución gamma

que corresponde a la distribución GI (α = υ/2, β = υs2 /2) .