Estadistica Bayesiana

ESTADSTICA BAYESIANA
Notas
ndice
1. INTRODUCCIN .............................................................................................................1
2. ESTADSTICA BAYESIANA ............................................................................................2
3. QU ES LA INFERENCIA BAYESIANA?......................................................................3
4. CONCEPTOS BAYESIANOS BSICOS .........................................................................5
4.1. Teorema de Bayes ..................................................................................................................................... 5
4.2. Naturaleza secuencial del teorema de Bayes ............................................................................................ 7
4.3. Distribucin a priori difusa o no informativa ............................................................................................... 7
4.4. Distribucin a priori conjugada ................................................................................................................. 10
5. INFERENCIA BAYESIANA............................................................................................12
5.1. Estimacin puntual ................................................................................................................................... 12
5.2. Intervalos de credibilidad o regiones veraces .......................................................................................... 16
5.3. Prueba de hiptesis para una muestra .................................................................................................... 17
5.4. Prueba de hiptesis para dos muestras................................................................................................... 18
6. CONCLUSIONES ..........................................................................................................20
7. BIBLIOGRAFA..............................................................................................................20
1. Introduccin
Como anunciaba Lindley en el primer Congreso Internacional de Estadstica Bayesiana, falta menos para el
2021 ao en el que el adjetivo bayesiano para la estadstica sera superfluo al ser bayesianas todas las
aproximaciones a la estadstica.
El objetivo de la estadstica, y en particular de la estadstica Bayesiana, es proporcionar una metodologa
para analizar adecuadamente la informacin con la que se cuenta (anlisis de datos) y decidir de manera
razonable sobre la mejor forma de actuar (teora de decisin).
Toma de
decisiones
Poblacin
Inferencia
Muestreo
Muestra
Anlisis de
datos
Figura 1. Diagrama de la Estadstica

Tipos de inferencia: clsica y bayesiana
La toma de decisiones es un aspecto primordial en la vida de un profesional, por ejemplo, un mdico

debe de tomar decisiones.
La metodologa estadstica clsica se puede ver como un conjunto de recetas que resultan apropiadas
en determinados casos y bajo ciertas condiciones.
Sin embargo, existe una metodologa unificada y general que se deriva de analizar el proceso lgico
que debe de seguirse para tomar una decisin (teora de la decisin), y que incluye como caso
particular al conjunto de recetas clsicas.
La estadstica esta basada en la teora de probabilidades. Formalmente la probabilidad es una funcin

que cumple con ciertas condiciones, pero en general puede entenderse como una medida o
cuantificacin de la incertidumbre.
Aunque la definicin de funcin de probabilidad es una, existen varias interpretaciones de la

probabilidad:
(a) clsica: Supone que el experimento aleatorio produce resultados igualmente verosmiles (posibles)
y propone como medida de probabilidad el cociente entre los casos favorables y los casos totales,
Pr ( A ) =
nA
n
(b) frecuentista: Supone que un experimento aleatorio puede ser repetido un nmero infinito de veces
bajo condiciones similares y propone como medida de probabilidad la proporcin de veces que
ocurri el evento de inters,
Pr ( A ) =
lim
nA
n
(c) subjetiva: Es simplemente una medida de la incertidumbre, asociada a un evento, asignada por un
decisor. En otras palabras, es un juicio personal sobre la verosimilitud de que ocurra un resultado.
Pr ( A ) =
La metodologa bayesiana est basada en la interpretacin subjetiva de la probabilidad y tiene como

punto central el Teorema de Bayes.
Figura 2. Retrato del Reverendo Thomas Bayes (1702-1761)
2. Estadstica bayesiana
El inters por el teorema de Bayes trasciende la aplicacin clsica, especialmente cuando se ampla a otro
contexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un suceso
a largo plazo, sino como el grado de conviccin personal acerca de que el suceso ocurra o pueda ocurrir
(definicin subjetiva de la probabilidad). Afirmaciones del tipo "es muy probable que el partido X gane las
prximas elecciones", "es improbable que Juan haya sido quien llam por telfono" o "es probable que se
encuentre un tratamiento eficaz para el sida en los prximos cinco aos", normales en el lenguaje comn,
no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodologa que se desenvuelva en
un marco frecuentista. Una cuantificacin sobre base subjetiva resulta, sin embargo, familiar y fecunda para
el enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podr emitir
juicios de probabilidad sobre una hiptesis H y expresar por esa va su grado de conviccin al respecto,
tanto antes como despus de haber observado los datos. En su versin ms elemental y en este contexto,
el teorema de Bayes asume la forma siguiente:
Pr ( H | datos ) =
Pr ( datos | H )
Pr ( H )
Pr ( datos )
2
La probabilidad a priori de una hiptesis, Pr ( H ) , se ve transformada en una probabilidad a posteriori,
Pr ( H | datos ) , una vez incorporada la evidencia que aportan los datos. El caso considerado se
circunscribe a la situacin ms simple, aquella en que Pr ( H ) representa un nmero nico; sin embargo, si
se consiguiera expresar la conviccin inicial (y la incertidumbre) mediante una distribucin de
probabilidades.
Entonces una vez observados los datos, el teorema "devuelve" una nueva distribucin, que no es otra cosa
que la percepcin probabilstica original actualizada por los datos.
Esta manera de razonar de la inferencia bayesiana, radicalmente diferente a la inferencia clsica o
frecuentista (que desdea en lo formal toda informacin previa de la realidad que examina), es sin embargo
muy cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que esta metodologa, a
diferencia del enfoque frecuentista, no tiene como finalidad producir una conclusin dicotmica (significacin
o no significacin, rechazo o aceptacin, etc.) sino que cualquier informacin emprica, combinada con el
conocimiento que ya se tenga del problema que se estudia, "actualiza" dicho conocimiento, y la
trascendencia de dicha visin actualizada no depende de una regla mecnica.
Los mtodos bayesianos han sido cuestionados argumentando que, al incorporar las creencias o
expectativas personales del investigador, pueden ser caldo de cultivo para cualquier arbitrariedad o
manipulacin. Se podra argir, por una parte, que el enfoque frecuentista no est exento de decisiones
subjetivas (nivel de significacin, usar una o dos colas, importancia que se concede a las diferencias, etc.);
de hecho, la subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un fenmeno inevitable,
especialmente en un marco de incertidumbre como en el que operan las ciencias biolgicas y sociales. Por
otra parte, las "manipulaciones" son actos de deshonestidad, que pueden producirse en cualquier caso
(incluyendo la posibilidad de que se inventen datos) y que no dependen de la metodologa empleada sino
de la honradez de los investigadores.
Aunque las bases de la estadstica bayesiana datan de hace ms de dos siglos, no es hasta fechas
recientes cuando empieza a asistirse a un uso creciente de este enfoque en el mbito de la investigacin.
Una de las razones que explican esta realidad y que a la vez anuncian un impetuoso desarrollo futuro es la
absoluta necesidad de clculo computarizado para la resolucin de algunos problemas de mediana
complejidad. Hoy ya existe software disponible (BUGS, macros para MINITAB, prxima versin de EPIDAT
y First Bayes, entre otros) que hace posible operar con estas tcnicas y augura el "advenimiento de una era
Bayesiana".
El proceso intelectual asociado a la inferencia bayesiana es mucho ms coherente con el pensamiento
usual del cientfico que el que ofrece el paradigma frecuentista. Los procedimientos bayesianos constituyen
una tecnologa emergente de procesamiento y anlisis de informacin para la que cabe esperar una
presencia cada vez ms intensa en el campo de la aplicacin de la estadstica a la investigacin clnica y
epidemiolgica.
3. Qu es la inferencia bayesiana?
El marco terico en que se aplica la inferencia bayesiana es similar a la clsica: hay un parmetro
poblacional respecto al cual se desea realizar inferencias y se tiene un modelo que determina la
probabilidad de observar diferentes valores de X, bajo diferentes valores de los parmetros. Sin embargo, la
diferencia fundamental es que la inferencia bayesiana considera al parmetro como una variable aleatoria.
Esto parecera que no tiene demasiada importancia, pero realmente si lo tiene pues conduce a una
aproximacin diferente para realizar el modelamiento del problema y la inferencia propiamente dicha.
Algunos ejemplos que justifican lo anterior son: la verdadera proporcin de artculos defectuosos que
produce un proceso de manufactura puede fluctuar ligeramente pues depende de numerosos factores, la
verdadera proporcin de casas que se pierden por concepto de hipoteca varia dependiendo de las
condiciones econmicas, la demanda promedio semanal de automviles tambin fluctuar como una
funcin de varios factores incluyendo la temporada.
En esencia, la inferencia bayesiana esta basada en la distribucin de probabilidad del parmetro dado los
datos (distribucin a posteriori de probabilidad Pr
( y)
, en lugar de la distribucin de los datos dado el
parmetro. Esta diferencia conduce a inferencias mucho ms naturales, lo nico que se requiere para el
proceso de inferencia bayesiana es la especificacin previa de una distribucin a priori de probabilidad
Pr ( ) , la cual representa el conocimiento acerca del parmetro antes de obtener cualquier informacin
respecto a los datos.
La nocin de la distribucin a priori para el parmetro es el corazn del pensamiento bayesiano. El anlisis
bayesiano hace uso explcito de las probabilidades para cantidades inciertas (parmetros) en inferencias
basadas en anlisis estadsticos de datos.
El anlisis bayesiano lo podemos dividir en las siguientes etapas:
1. Eleccin de un modelo de probabilidad completo. Eleccin de una distribucin de probabilidad conjunta
para todas las cantidades observables y no observables. El modelo debe ser consistente con el
conocimiento acerca del problema fundamental y el proceso de recoleccin de la informacin;
2. Condicionamiento de los datos observados. Calcular e interpretar la distribucin a posteriori apropiada
que se define como la distribucin de probabilidad condicional de las cantidades no observadas de
inters, dados los datos observados;
3. Evaluacin del ajuste del modelo y las implicancias de la distribucin a posteriori resultante. Es el
modelo apropiado a los datos?, son las conclusiones razonables?, qu tan sensibles son los
resultados a las suposiciones de modelamiento de la primera etapa?. Si fuese necesario, alterar o
ampliar el modelo, y repetir las tres etapas mencionadas.
La inferencia bayesiana se basa en el uso de una distribucin de probabilidad para describir todas las
cantidades desconocidas relevantes a un problema de estimacin, la concrecin tcnica de este resultado
consiste en lo siguiente:
Si se dispone de una coleccin de variables aleatorias intercambiables
{x , x
1
, , x n } es decir que su
distribucin slo depende del valor de esas variables y no del orden en que han sido observadas, entonces
la distribucin de probabilidad
n
f ( x 1 , x 2 , , x n ) =
donde
f ( x | ) ( ) d
i =1
es la distribucin inicial
f ( x i | ) es el modelo de probabilidad;
es el lmite de alguna funcin de las observaciones; y
( )
es una distribucin de probabilidad sobre la distribucin inicial .
El concepto de intercambiabilidad es ms dbil que el de muestra aleatoria simple. Por ejemplo, si las
variables intercambiables x i toman el valor 0 1, el teorema de representacin toma la forma
f ( x 1 , x 2 , , x n ) =
(1 )
xi
1 x i
( ) d
i =1
donde:
= n lim
x
i =1
Es importante notar que lo que quiere decir el anterior resultado es que siempre que se tenga una coleccin
de variables intercambiables, y en una muestra aleatoria sencilla lo son, existe una distribucin inicial sobre
el parmetro . Adems, el valor del parmetro puede obtenerse como lmite de las frecuencias relativas.
La aproximacin bayesiana implica entonces, que la informacin muestral y la distribucin inicial se
actualizan mediante el teorema de Bayes para dar lugar a la distribucin final.
( | x1 , x 2 , , x n ) =
( ) f ( x1 , x 2 , , x n | )
( ) f ( x
, x 2 , , x n | ) d
Ahora todas las inferencias, la estimacin por punto, la estimacin por regiones veraces y los contrastes de
hiptesis, se realizan mediante la distribucin final.
4. Conceptos bayesianos bsicos

4.1. Teorema de Bayes
Sea Y = y 1 , y 2 , , y n ' un vector de n observaciones cuya distribucin de probabilidad Pr ( y | )

depende de k parmetros involucrados en el vector =
, 2 , , n } ' . Supngase tambin que q tiene
una distribucin de probabilidades Pr ( ) . Entonces, la distribucin de conjunta de e Y es:
Pr ( y | ) = Pr ( y | ) Pr ( ) = Pr ( | y ) Pr ( y )
de donde la distribucin de probabilidad condicional de dado el vector de observaciones Y resulta:
Pr ( | y ) =
Pr ( y | ) Pr ( )
Pr ( y )
con Pr ( y ) 0
A esta ecuacin se lo conoce como el teorema de Bayes, donde Pr ( y ) es la distribucin de probabilidad
marginal de Y y puede ser expresada como:
Pr ( y | ) Pr ( ) d
Pr ( y ) =
Pr ( y | ) Pr ( )
si es continuo
si es discreto
donde la suma o integral es tomada sobre el espacio paramtrico de . De este modo, el teorema de
Bayes puede ser escrito como:
Pr ( | y ) = c Pr ( y | ) Pr ( ) Pr ( y | ) Pr ( )
donde: Pr ( )
[1]
representa lo que es conocido de antes de recolectar los datos y es llamada la

distribucin a priori de
Pr ( | y ) representa lo que se conoce de despus de recolectar los datos y es llamada la

distribucin posterior de dado Y ;
es una constante normalizadora necesaria para que Pr ( | y ) sume o integre uno.
Dado que el vector de datos Y es conocido a travs de la muestra, Pr ( Y | ) es una funcin de y no de
Y . En este caso a Pr ( Y | ) se le denomina funcin de verosimilitud de dado Y y se le denota por

l ( | Y ) . Entonces la formula de Bayes puede ser expresada como:
Pr ( |y ) l ( |y ) Pr ( )
Ejemplo. Sea el parmetro que a priori tiene una distribucin uniforme en el intervalo [0,1] y la variable
aleatoria Y que tiene una distribucin de probabilidades binomial con parmetros m y , m conocido por
conveniencia. Entonces se tienen las siguientes funciones de distribucin:
Pr ( )
0 1
= 1
m
m y
Pr ( y | ) = y (1 )
y = 0,1, , m
y
Ahora, para una muestra aleatoria de tamao n la funcin de verosimilitud estar dada por:
n m
nm
y
y
l ( | y ) = i (1 ) i
y
i =1 i
5
y i = 0,1, , m
y aplicar el teorema de Bayes dado en [1], la distribucin a posteriori de

expresada como:
Pr ( | y ) = c
n ( m !)
n
y ! ( m y )!
i
i =1
yi
(1 )
mn
dada la muestra y queda
yi
i =1
Esta expresin puede escribirse de la siguiente manera:
Pr ( | y ) = c
n ( m !)
n
y ! ( m y )!
i =1
y i + 1 1
(1 ) (
nm
y i +1) 1
i =1
que tiene la forma de una distribucin beta con parmetros y + 1 y n m y + 1 .

i
i
Luego el valor adecuado de la constante normalizadora c ser:
c =
y + 1
i
y ! m y !
i
i
n ( m !)
n m y + 1
i
( n m + 2)
Ntese que es a travs de l ( | Y ) que los datos (informacin muestral) modifican el conocimiento previo
de q dado por Pr ( ) . Este proceso de revisin de las probabilidades iniciales, dada la informacin
muestral, se ilustra en la figura 3.
Informacin
inicial
Informacin
nueva
Distribucin
a priori
Pr()
Teorema de
Bayes
Distribucin
a posteriori
Funcin de
verosimilitud
l( | y)
Figura 3.
Por ultimo, es conveniente sealar que la informacin muestral Y por lo general ser introducida en el
modelo a travs de estadsticas suficientes para , dado que estas contienen toda la informacin referente
a los datos. As, dado un conjunto de estadsticas suficientes t para los parmetros en
, Pr ( y | )
podr
ser intercambiada por Pr ( t | ) , para lo cual bastara con calcular la distribucin condicional de t dado .
Valoracin a priori acerca de si la hiptesis

es verdadera antes de ver los datos
Componente subjetivo
Factor de Bayes
Componente de los datos (evidencia)
Valoracin a posteriori de que

hiptesis nula sea verdadera
Probabilidad de la veracidad
Figura 4. Teorema de Bayes
4.2. Naturaleza secuencial del teorema de Bayes

Supngase que se tiene una muestra inicial y 1 . Entonces, por la frmula de Bayes dada anteriormente se
tiene:
Pr ( | y 1 ) l ( | y 1 ) Pr ( )
Ahora supngase que se tiene una segunda muestra y 2 independiente de la primera muestra, entonces:
Pr ( | y 1 , y 2 ) l ( | y 1 , y 2 ) Pr ( ) = l ( | y 1 ) l ( | y 2 ) Pr ( )
Pr ( | y 1 , y 2 ) l ( | y 2 ) Pr ( | y 1 )
De esta manera, la distribucin a posteriori obtenida con la primera muestra se convierte en la nueva
distribucin a priori para ser corregida por la segunda muestra.
En este proceso puede repetirse indefinidamente. As, si se tienen r muestras independientes, la
distribucin a posteriori puede ser recalculada secuencialmente para cada muestra de la siguiente manera:
Pr ( | y 1 , y 2 , , y m ) l ( | y m ) Pr ( | y 1 , y 2 , , y m 1 )
Ntese que
( | y
para m = 2,3, , r
, y 2 , , y m ) podra tambin ser obtenido partiendo de Pr ( ) y considerando al total
de las r muestras como una sola gran muestra.

La naturaleza secuencial del teorema de Bayes, es tratada por Bernardo como un proceso de aprendizaje
en trminos de probabilidades, el cual permite incorporar al anlisis de un problema de decisin, la
informacin proporcionada por los datos experimentales relacionados con los sucesos (parmetros)
inciertos relevantes.
4.3. Distribucin a priori difusa o no informativa

La distribucin a priori cumple un papel importante en el anlisis bayesiano ya que mide el grado de
conocimiento inicial que se tiene de los parmetros en estudio. Si bien su influencia disminuye a medida que
ms informacin muestral es disponible, el uso de una u otra distribucin a priori determinara ciertas
diferencias en la distribucin a posteriori.
Si se tiene un conocimiento previo sobre los parmetros, este se traducir en una distribucin a priori. As,
ser posible plantear tantas distribuciones a priori como estados iniciales de conocimiento existan y los
diferentes resultados obtenidos en la distribucin a posteriori bajo cada uno de los enfoques, adquirirn una
importancia en relacin con la conviccin que tenga el investigador sobre cada estado inicial. Sin embargo,
cuando nada es conocido sobre los parmetros, la seleccin de una distribucin a priori adecuada adquiere
una connotacin especial pues ser necesario elegir una distribucin a priori que no influya sobre ninguno
de los posibles valores de los parmetros en cuestin. Estas distribuciones a priori reciben el nombre de
difusas o no informativas y en esta seccin se tratara algunos criterios para su seleccin.
Mtodo de Jeffreys
En situaciones generales, para un parmetro el mtodo mas usado es el de Jeffreys (1961) que sugiere
que, si un investigador es ignorante con respecto a un parmetro , entonces su opinin a cerca de
dado las evidencias X debe ser la misma que el de una parametrizacin para o cualquier
transformacin uno a uno de
, g ( ) , una priori invariante sera:

Pr ( )
donde I ( )
es la matriz de informacin de Fisher:
I ( )
Si =
( ,
1
2 Lnf ( y | )
= E
, , n ) ' es un vector, entonces:

Pr ( )
donde I ( )
I ( )
det I ( )
[2]
es la matriz de informacin de Fisher de orden p p
El elemento ( i j ) de esta matriz es:
2 Lnf ( y | )
I i j = E0
i j
Por transformacin de variables, la densidad a priori Pr ( ) es equivalente a la siguiente densidad a priori
para
:
Pr ( ) = Pr ( = h 1 ( ) )
d
d
[3]
El principio general de Jeffreys consiste en que al aplicar el mtodo para determinar la densidad a priori
Pr ( ) , debe obtenerse un resultado equivalente en Pr ( ) si se aplica la transformacin del parmetro
para calcular Pr ( ) a partir de Pr ( ) en la ecuacin [3] o si se obtiene Pr ( ) directamente a partir del

mtodo inicial. Es decir, debe cumplirse la siguiente igualdad:
I ( ) =
I ( )
Ejemplo. Sea la variable Y con una distribucin B ( n , )
d
d
n
n y
= Pr ( y | ) = y (1 )
y
n
= log + y log + ( n y ) log (1 )
y
f ( y | )
log f ( y | )
d log f ( y | )
d
d log f ( y | )
d 2
y
n y
E 2 +
2

(1 )
y
n y
E 2 +
2

(1 )
n y
1
n y
(1 )
n E ( n y )
2 +
2

(1 )
n
(1 )
n
1
Prescindiendo de n se obtiene que la distribucin a priori de
Pr ( )
esto es,
es:
Beta ( 0,5 , 0,5 ) .
Ejemplo. Se aplicara el mtodo de Jeffreys para calcular una distribucin conjunta a priori para los
parmetros de un modelo normal.
Sea y N
( , ) , ambos parmetros desconocidos. Entonces:

2
( y )2
1
exp
2
2
f ( y| )
ln f ( y | )
( y)
1
= ln
ln
2 2
2
y la matriz de informacin de Fisher estar dada por:
I ( )
2
ln f ( y | , )
= E0
2
ln f ( y | , )
I ( )
1
2
= E0
2( y )
2
ln f ( y | , )

2
ln f ( y | , )
2
2( y )
y
3
(
)
1
2
4
1
2
= E0
0
I ( )
2
2
Ahora, segn la ecuacin [2], la distribucin a priori no informativa para
Pr ( , )
Ntese que aplicando las reglas anteriores, dado que
escala, las distribuciones a priori para
= ( , )
ser:
es un parmetro de posicin y
serian Pr ( ) = 1 y Pr ( ) =
independencia entre ambos parmetros se tendra Pr ( , ) = Pr ( ) Pr ( ) =
un parmetro de
, por lo que si se supone
en vez de
2.
Jeffreys resolvi este problema estableciendo que y deberan ser tratados a priori
independientemente y por separado. As, cuando el mtodo de Jeffreys es aplicado al modelo normal con
fijo, resulta una a priori uniforme para y cuando es aplicado con fijo, se obtiene la a priori
Pr ( ) = 1 lo cual conduce a: Pr ( , ) = 1 , que es lo ms deseable.
4.4. Distribucin a priori conjugada

En este caso, la distribucin a priori es determinada completamente por una funcin de densidad conocida.
Berger presenta la siguiente definicin para una familia conjugada: una clase P de distribuciones a priori es
denominada una familia conjugada para la clase de funciones de densidad F , si Pr ( | y ) est en la clase
P para todo f ( y | ) F y Pr ( ) P .
En este caso, la distribucin inicial dominar a la funcin de verosimilitud y Pr ( | y ) tendr la misma forma
que Pr ( ) , con los parmetros corregidos por la informacin muestral.
Ejemplo. Sea el parmetro
que a priori tiene una distribucin beta con parmetros
aleatoria Y que tiene una distribucin de probabilidad binomial con parmetros m y

conveniencia. Entonces se tienen las siguientes funciones de distribucin:
Pr ( )
y la variable
, m conocido por
( + )
1
1 (1 )
I 0,1 ( )
( ) ( )
m
m y
y = 0,1, , m
Pr ( y | ) = y (1 )
y
Ahora para una muestra aleatoria de tamao n la funcin de verosimilitud estar dada por:
n m
m n
y
y
l ( y | ) = i (1 ) i
i =1 y
y al aplicar el teorema de Bayes, la distribucin posterior de
siguiente manera:
Pr ( | y )
y = 0,1, , m
dada la muestra y queda expresada de la
y i 1 (1 ) + m n y i 1
que tiene la forma de una distribucin beta con parmetros
( + y )
i
+ n m yi .
Luego, la
distribucin tiene la misma forma que la distribucin a priori por lo que la clase de distribuciones a priori beta
es una familia conjugada para la clase de funciones de densidad binomial.
10
Otro caso importante es el de la distribucin normal
Sea el parmetro
con una distribucin N
variable X con una distribucin N
, 0 ) , donde 0 y 0 son parmetros conocidos y la
( , ) donde
2
es un parmetro conocido. Entonces tenemos las
siguientes funciones de distribucin:
Pr ( )
2 0
1 ( 0 )
exp
2
02
1
1 ( x )
exp
2 2
2
Pr ( x | ) =
y al aplicar el teorema de Bayes, la distribucin posterior de

siguiente manera:
Pr ( | x ) =
1
donde
1 =
2
0
0 +
1
2
1
2
0
2
0
2 0
dada la muestra x queda expresada de la
1 ( 1 )
exp
2 12
Luego Pr ( | x ) N
, 12 ) de donde se pueden sacar conclusiones:
Precisiones de las distribuciones a priori y a posteriori

Precisin = 1/varianza
Precisin a posteriori = precisin a priori + precisin de los datos
2
1
2
0
Otro caso importante es el de la distribucin normal con mltiples observaciones
Sea x1 , x 2 , , x n un vector de n observaciones, siendo x i observaciones idnticamente distribuidas
N ( 0 , 02 )
x N ( , 2 )
Entonces al aplicar el teorema de Bayes, la distribucin posterior de
dada la muestra x i queda
expresada de la siguiente manera:
Pr ( | x ) Pr ( ) Pr ( x | ) = Pr ( ) Pr ( x1 | ) Pr ( x 2 | ) Pr ( x n | )
n
Pr ( | x ) Pr ( ) Pr ( x | ) = Pr ( ) Pr ( x i | )
i =1
11
2
2
1 ( 0 ) n
1 ( x i )
Pr ( | x ) exp
exp
2 02
2 2
i =1
2
n n
1 ( 0 )
+ 2 ( x i )
Pr ( | x ) exp
i =1
2 02
Pr ( | x ) depende nicamente de X a travs de x =

modelo.
( ,
Ya que, x | N
donde
n =
2
0
NOTA: Si
valor
2
n
0 +
1
2
0
, es decir, x es un estadstico suficiente del
Pr ( | x1 , x 2 , , x n ) = Pr ( | x ) N ( | n , n2 )
i =1
| n ) y considerando a x como una simple observacin, se aplican los resultados
anteriores, luego:
2
0
02 = 2
2
entonces la distribucin a priori tiene el mismo peso como una observacin extra con el
0 . Es decir, si 0
con n fijo, o conforme n con
02
fijo, entonces:
2
Pr ( | x ) N | x ,
5. Inferencia bayesiana
Dado que la distribucin posterior, contiene toda la informacin concerniente al parmetro de inters
(informacin a priori y muestral), cualquier inferencia con respecto a consistir en afirmaciones hechas a
partir de dicha distribucin.
5.1. Estimacin puntual

La distribucin posterior reemplaza la funcin de verosimilitud como una expresin que incorpora toda la
informacin. ( | y ) es un resumen completo de la informacin acerca del parmetro
Sin embargo,
para algunas aplicaciones es deseable (o necesario) resumir esta informacin en alguna forma.
Especialmente, si se desea proporcionar un simple mejor estimado del parmetro desconocido. (Ntese la
distincin con la estadstica clsica en que los estimados puntuales de los parmetros son la consecuencia
natural de una inferencia).
Por lo tanto, en el contexto bayesiano, cmo se puede reducir la informacin en una Pr ( | y ) a un simple
mejor estimado?, qu se debe entender por mejor?
Existen dos formas de enfrentar el problema:
(a) Estimador de Bayes posterior
(b) Aproximacin de teora de decisin
12
Estimador de Bayes posterior

El estimador de Bayes posterior se define de la siguiente manera:
Sean
{x , x
1
, , x n } una muestra aleatoria de f ( x | ) , donde es un valor de la variable aleatoria
con funcin de densidad g ( i ) . El estimador de Bayes posterior de

es definida como E
Ejemplo. Sean
( ( ) | x , x
1
{x , x
1
( )
, , x n ) .
con respecto a la priori g ( i )
, , x n } una muestra aleatoria de f ( x | ) = x (1 )
1 x
para
x = 1, 0 y
g ( ) = I ( 0,1) ( ) . Cules son los estimadores de y (1 ) ?

n
g ( ) f ( x i | )
f ( | x1 , x 2 , , x n ) =
i =1
i =1
g ( ) f ( x | ) d
f ( | x1 , x 2 , , x n ) =
xi
(1 )
x i I ( )
( 0,1)
x i (1 )n x i d
x i (1 )n x i d
E ( | x1 , x 2 , , x n ) =
x i (1 )n x i d
E ( | x1 , x 2 , , x n )
n
n
B x i + 2 , n x i + 1
i =1
i =1
=
n
n
B x i + 1 , n x i + 1
i =1
i =1
E ( | x1 , x 2 , , x n ) =
i =1
+1
2
n
Luego el estimador a posteriori de Bayes de
x
i =1
+1
es un estimador sesgado. El estimador mximo
n+2
verosmil de
x
i =1
es un estimador insesgado.
1
E ( (1 ) | x1 , x 2 , , x n ) =
(1 )
x i (1 )n x i d
13
x i (1 )n x i d
E ( (1 ) | x1 , x 2 , , x n )
n
n

xi + 2 n xi + 2
i =1
i =1

=
=
( n + 4)
E ( (1 ) | x1 , x 2 , , x n )
estimador de
(1 )
( n + 2)
n

x i + 1 n
i =1

x
i =1
+ 1
n
n
x i + 1 n x i + 1
i =1
i =1
=
( n + 3) ( n + 2 )
con respecto a la a priori uniforme.
Aproximacion a la teora de la decisin

Para los bayesianos, el problema de estimacin es un problema de decisin. Asociada con cada estimador
a hay una prdida L ( , a ) que refleja la diferencia entre
y a.
Se especifica una funcin de perdida L ( , a ) que cuantifica las posibles penalidades en estimar
por a .
Hay muchas funciones prdida que se pueden usar. La eleccin en particular de una de ellas depender de
contexto del problema. Las ms usadas son:
1. Prdida cuadrtica:
L ( , a ) = ( a ) ;
2
2. Prdida error absoluto o lineal absoluta:
L ( , a ) = a ;
3. Prdida 0,1:
a
a >
0
L ( , a ) = si
1
4. Prdida lineal: para g , h > 0 :
a >
g ( a )
L ( , a ) =
si
a <
h ( a )
En cada uno de los casos anteriores, por la minimizacin de la prdida esperada posterior, se obtienen
formas simples para la regla de decisin de Bayes, que es considerado como el estimado punto de para
la eleccin en particular de la funcin prdida.
Nota: L ( , a ) es la prdida incurrida al adoptar la accin a cuando el verdadero estado de la naturaleza
es
. Pr ( a , x )
es la perdida esperada posterior. Luego:
R a ( ) = E ( L ( , a ) ) = Pr ( a , x ) = L ( , a ) Pr ( | x ) d
Regla de decisin de Bayes (estimador de Bayes): d ( x ) es la accin que minimiza Pr ( a , x ) .
Riesgo de Bayes: RB ( d ) =
Ejemplo. Sean
{x , x
1
( d ( x ) , x ) ( x ) dx
, , x n } una muestra aleatoria de una distribucin normal,
L ( , a ) = ( a ) , y N ( 0 ,1) .
2
(a) El estimador de Bayes posterior es la media de la distribucin posterior de
14
N ( ,1) ,
f ( | x ) =
1 n
2
2
1
1
exp ( 0 )
exp ( x i )
2
2 i =1
2
n
1 n
2
2
1
1
1
exp ( 0 ) d
exp ( x i )
2
2
2 i =1
2
1
2
Considerando x 0 = 0 :
f ( | x ) =
f ( | x ) =
1 n
2
1
exp ( x i )
2
2 i =1
n
1
2
1
exp ( x i ) d
2
2 i =1
n +1
1
exp

2
2
n +1
E ( | x1 , x 2 , , x n ) =
xi
i =1 n + 1
n
xi
n +1
i=0
var ( | x1 , x 2 , , x n ) =
1
n +1
(b) Aproximacin bayesiana

Cuando L ( , a ) = ( a ) , la regla de Bayes (o estimador de Bayes ) es la media de ( | x ) = Pr ( | x ) .
2
Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la perdida cuadrado del error es:
n
x0 + xi
i =1
n +1
0 + xi
i =1
n +1
Es decir, en este caso, la decisin ptima que minimiza la prdida esperada es
= E ( ) .
La mejor estimacin de con prdida cuadrtica es la media de la distribucin de

producirse la estimacin.
en el momento de
Si L ( , a ) = w ( )( a ) , la regla de Bayes es:

2
d ( x) =
d ( x) =
Si L ( , a ) = q a
( | x )
( w ( ) )
( w ( ) )
( | x )
w ( ) f ( x | ) d
w ( ) f ( x | ) d
, cualquier mediana de ( | x ) es un estimador de Bayes de
K 0 ( a ) a 0
K0
si
cualquier
fractil de ( | x ) es un estimador de Bayes
a < 0
K 0 + K1
K 1 ( a )
Si L ( , a ) =
de
15
Resumen
En el contexto bayesiano, un estimado puntual de un parmetro es una simple estadstica descriptiva de la
distribucin posterior ( | x ) .
Utilizando la calidad de un estimador a travs de la funcin perdida, la metodologa de la teora de decisin

conduce a elecciones optimas de estimados puntuales. En particular, las elecciones ms naturales de
funcin perdida conducen respectivamente a la media posterior, mediana y moda como estimadores
puntuales ptimos.
5.2. Intervalos de credibilidad o regiones veraces

La idea de una regin veraz o intervalo de credibilidad es proporcionar el anlogo de un intervalo de
confianza en estadstica clsica. El razonamiento es que los estimados puntuales no proporcionan una
medida de la precisin de la estimacin. Esto causa problemas en la estadstica clsica desde que los
parmetros no son considerados como aleatorios, por lo tanto no es posible dar un intervalo con la
interpretacin que existe una cierta probabilidad que el parmetro este en el intervalo. En la teora
bayesiana, no hay dificultad para realizar esta aproximacin porque los parmetros son tratados como
aleatorios.
Definicin: Un conjunto veraz 100 (1 ) para
1 Pr ( C | x ) =
dF
( | x )
es un subconjunto C de
( )
( | x ) d
C
=
( | x )
C
tal que:
( caso continuo )
( caso discreto )
Un aspecto importante con los conjuntos veraces (y lo mismo sucede con los intervalos de confianza) es
que ellos no son nicamente definidos.
Cualquier regin con probabilidad (1 ) cumple la definicin. Pero solamente se desea el intervalo que
contiene nicamente los valores ms posibles del parmetro, por lo tanto es usual imponer una restriccin
adicional que indica que el ancho del intervalo debe ser tan pequeo como sea posible.
Para hacer esto, uno debe considerar solo aquellos puntos con ( | x ) ms grandes. Esto conduce a un
intervalo (o regin) de la forma:
donde
C = C ( x ) = { : f ( | x ) }
es elegido para asegurar que
f ( | x ) d = 1
La regin C que cumple las anteriores condiciones se denomina regin de densidad posterior ms grande
(HPD), mxima densidad.
Generalmente, un HPD es encontrado por mtodos numricos, aunque para muchas distribuciones
univariadas a posteriori, los valores de la variable aleatoria correspondientes son tabulados para un rango
de valores de .
Ejemplo (media de una normal). Sean
{x , x
1
, , x n } una muestra aleatoria de una distribucin normal
N ( , 2 ) , con 2 conocido, con una a priori para de la forma: N ( b , d 2 ) .

Se sabe que:
b nx
d 2 + 2
1
|x N
,
1
n
1
n
2+ 2
+ 2
2
d
d
Si n , entonces x z
n
16
luego el conjunto veraz es igual al de estadstica clsica. Pero sus interpretaciones son distintas.
Cmo se obtiene el intervalo de mnima longitud (mxima densidad)?
Los pasos a seguir son:
1. Localizar la moda de la funcin de densidad (posterior) de
2. A partir de la moda trazar lneas rectas horizontales en forma descendiente hasta que se acumule
(1 ) de probabilidad.
Figura 5. Distribucin gamma
5.3. Prueba de hiptesis para una muestra

Pruebas de hiptesis son decisiones de la forma en que se deben elegir entre dos hiptesis diferentes
H 0 : 0
H 1 : 1
Se considera el caso simple donde 0 y 1 consisten de puntos simples, por lo tanto la prueba es de la
forma:
H 0 : = 0
H 1 : = 1
Aproximacin clsica
Ejecutar la prueba utilizando la razn de verosimilitud
f ( x | 1 )
f ( x | 0 )
Si asume valores grandes significa que los datos observados X son mas probables que hayan ocurrido
si es el verdadero valor de en lugar de 0 .
Aproximacin bayesiana
La aproximacin natural es realizar la prueba bajo las consideraciones en las probabilidades a posteriori
relativas de los valores formulados en las hiptesis. Es decir:
B =
f ( 1 | x )
f ( 2 | x )
f ( 1 ) f ( x | 1 )
f ( 0 ) f ( x | 0 )
razn de apuestas a posteriori = razn de apuestas a priori x razn de verosimilitud

Si
asume valores grandes significa que hay preferencia por H 1
17
Definicin: la razn
f ( 1 | x )
1
=
0
f ( 0 | x )
es la razn de apuestas a posteriori de H 1 a H 0 , y
de apuestas a priori. La cantidad:
B =
1
0
es la razn
f ( 1 | x )
razon de apuestas a posteriori

=
razon de apuestas a priori
f ( 0 | x )
f ( 1 )
f ( 0 )
B =
f ( 1 | x ) f ( 0 )
f ( x | 1 )
1 0
= =
0 1
f ( x | 0 )
f ( 0 | x ) f ( 1 )
se denomina factor de Bayes en favor de 1 .
B es una medida del peso de la informacin que contienen los datos en favor de H 1 sobre H 0 . Si B es
grande, este anula cualquier preferencia a priori por H 0 . La preferencia a posteriori es H 1 .
5.4. Prueba de hiptesis para dos muestras

A continuacin se tratar el caso de dos muestras donde aplicaremos la prueba de hiptesis para dos
muestras. La forma general de hacerlo es generalizando el factor de Bayes para el caso de dos muestras
esto quiere decir en vez de tomar una distribucin de probabilidad para una muestra ahora se tomar para
dos muestras, es decir una distribucin conjunta:
Dadas las hiptesis:
H 0 : 1 = 2
H 1 : 1 2
Sean
1 = { x 1 , x 2 , , x n }
2 = { y 1 , y 2 , , y n }
a posteriori ser para el caso discreto:
Pr ( 1 , 2 | x ) =
dos muestras independientes, entonces la distribucin
Pr ( 1 , 2 ) Pr ( x | 1 , 2 )
Pr (
, 2 ) Pr ( x | 1 , 2 )
la distribucin a posteriori ser para el caso continuo:
f ( 1 , 2 | x) =
f ( 1 , 2 ) f ( x | 1 , 2 )
f (
, 2 ) f ( x | 1 , 2 ) d 1 d 2
Y se proceder de manera similar que el caso de una muestra.

Con fines prcticos, suponiendo que se trabaja con poblaciones normales y que las varianzas poblacionales
son conocidas, se puede tomar la prueba de hiptesis de otra forma:
El problema de dos muestras normales
Ahora se considerara la situacin de dos muestras independientes con distribucin normal:
x1 , x 2 , , xn N ( , )
y 1 , y 2 , , yn N ( , )
Que son independientes, aunque realmente el valor de inters es la distribucin a posteriori de:
=
18
El problema se da en situaciones comparativas, por ejemplo, al comparar los valores de colesterol entre
nios y nias.
Combinaciones pareadas
Antes de continuar, se debera tomar precauciones contra una posible mala aplicacin del modelo. Si
m = n y cada una de las x esta de algn sentido emparejados con las y , es decir que x i e y i deben
estar definidos: w i = x i y i y entonces investigar los w como una muestra w1 , w 2 , , w n N ( , ) ,
para algn
. Esto se conoce como el mtodo de comparaciones pareadas.
El caso cuando las varianzas son conocidas

En el caso del problema de dos muestras, se pueden presentar tres casos:
1. Cuando
y son conocidos;
2. Cuando se sabe que

3. Cuando
pero se desconocen sus valores;
y son desconocidos.
Cindose al primer caso, ya que esta situacin implica menor complejidad cuando las varianzas son
conocidas. Si
tienen como referencia unas a prioris independientes (constante) Pr ( ) = Pr ( ) 1
entonces, como se ha visto anteriormente con varias observaciones normales con una a priori normal, la
distribucin a posteriori para
ser N x ,
y, de forma similar, la distribucin a posteriori para ser

m

N y , que es independientemente de . De lo cual se deduce:
n
= Nxy , +
m n
Informacin a priori importante

El mtodo se generaliza para este caso cuando la informacin a priori importante esta disponible. Cuando la
distribucin a priori para
es N
, 0 ) entonces la distribucin a posteriori es:
N ( 1 , 1 )
1
1 1
donde: 1 = 0 + ; y
0
x
1 = 1
+

0
m
De modo semejante si la distribucin a priori para

para
es N
es N
, 0 ) y entonces la distribucin a posteriori
, 1 ) y donde 1 y 1 estn definidos de modo semejante, como sigue:
= N ( 1 1 , 1 + 1 )
y las inferencias se proceden igual que antes.
19
6. Conclusiones
Los procedimientos basados en la distribucin en el muestreo son ad hoc para prcticamente cada
aplicacin o grupo de aplicaciones con los que se est trabajando. En contraposicin, los procedimientos
bayesianos siempre funcionan de la misma manera; hay que determinar una distribucin inicial que recoja la
informacin que se tenga del problema, construir la distribucin final y esta es la que recoge, en forma de
una distribucin de probabilidad, la informacin suministrada por la muestra.
Una crtica que suele hacerse a la aproximacin bayesiana es que est influenciada por la distribucin
inicial, pero es hoy perfectamente factible examinar el problema con una variedad de distribuciones iniciales,
o bien emplear distribuciones iniciales objetivas, y en todo caso se debe tener en cuenta que para tamaos
muestrales grandes la verosimilitud domina a la distribucin inicial por lo que las inferencias se ven poco
afectadas por la distribucin inicial. A cambio, los mtodos bayesianos siempre tratan la incertidumbre
mediante la probabilidad y la precisin de los mismos se mide siempre en trminos de probabilidad.
7. Bibliografa
1. Berger JO. Statistical decision theory and Bayesian analysis. Springer-Verlag: New York, 1985.
2. Bernardo JM. Intrinsic credible regions. An objetcive Bayesian approach to interval estimation. Test
2005;14(2): 317-384 (disponible en http://www.uv.es/~bernardo/2005Test.pdf)
3. Chu J. Bayesian function estimation using overcomplete dictionaries with application in genomics.
Department of Statistical Science. Duke University, 2007 (disponible en www.stat.duke.edu/people/theses/
jenhwa.html)
4. Gunn LH. Bayesian order restricted methods with biomedical applications. Institute of Statistics and
Decision Sciences. Duke University, 2004 (disponible en www.isds.duke.edu/people/theses/laura.ps).
5. House LL. Nonparametric bayesian models in expression proteomic applications. Institute of Statistic and
Decision Sciences. Duke University, 2006 (disponible en: http://www.isds.duke.edu/people/theses/
leanna.pdf)
6. OHagan A, Luce BR. A primer on bayesian statistics in health economics and outcomes Research.
MEDTAP International Inc., 2003 (disponible en http://www.shef.ac.uk/content/1/c6/07/15/10/primer.pdf).
7. Rodriguez A. Some advances in Bayesian nonparametric modelling. Institute of Statistic and Decision
Sciences. Duke University, 2007 (disponible en: http://www.stat.duke.edu/people/theses/abel.pdf).
8. Thornburg H. Introduction to bayesian statistics. CCRMA. Stanford University 2006 (disponible en
http://ccrma.stanford.edu/~jos/bayes/bayes.pdf).
9. Yupanqui Pacheco RM: Introduccin a la estadstica bayesiana. UNMSM. Facultad de Ciencias
Matemticas. EAP de Estadstica, Lima, 2005 (disponible en: http://sisbib.unmsm.edu.pe/
bibvirtualdata/Tesis/Basic/yupanqui_pr/yupanqui_pr.pdf).
10.
http://halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/Bayesian_Methods/apuntes
.html
20

Estadistica Bayesiana

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Bayesiana

Cargado por

Copyright:

Formatos disponibles

ESTADSTICA BAYESIANA

Figura 1. Diagrama de la Estadstica

La toma de decisiones es un aspecto primordial en la vida de un profesional, por ejemplo, un mdico

La estadstica esta basada en la teora de probabilidades. Formalmente la probabilidad es una funcin

Aunque la definicin de funcin de probabilidad es una, existen varias interpretaciones de la

La metodologa bayesiana est basada en la interpretacin subjetiva de la probabilidad y tiene como

Figura 2. Retrato del Reverendo Thomas Bayes (1702-1761)

La probabilidad a priori de una hiptesis, Pr ( H ) , se ve transformada en una probabilidad a posteriori,

, en lugar de la distribucin de los datos dado el

es el lmite de alguna funcin de las observaciones; y

es una distribucin de probabilidad sobre la distribucin inicial .

4. Conceptos bayesianos bsicos

Sea Y = y 1 , y 2 , , y n ' un vector de n observaciones cuya distribucin de probabilidad Pr ( y | )

, 2 , , n } ' . Supngase tambin que q tiene

una distribucin de probabilidades Pr ( ) . Entonces, la distribucin de conjunta de e Y es:

representa lo que es conocido de antes de recolectar los datos y es llamada la

Pr ( | y ) representa lo que se conoce de despus de recolectar los datos y es llamada la

es una constante normalizadora necesaria para que Pr ( | y ) sume o integre uno.

Dado que el vector de datos Y es conocido a travs de la muestra, Pr ( Y | ) es una funcin de y no de

Y . En este caso a Pr ( Y | ) se le denomina funcin de verosimilitud de dado Y y se le denota por

y aplicar el teorema de Bayes dado en [1], la distribucin a posteriori de

dada la muestra y queda

Esta expresin puede escribirse de la siguiente manera:

que tiene la forma de una distribucin beta con parmetros y + 1 y n m y + 1 .

Valoracin a priori acerca de si la hiptesis

Componente de los datos (evidencia)

Valoracin a posteriori de que

Figura 4. Teorema de Bayes

4.2. Naturaleza secuencial del teorema de Bayes

, y 2 , , y m ) podra tambin ser obtenido partiendo de Pr ( ) y considerando al total

de las r muestras como una sola gran muestra.

4.3. Distribucin a priori difusa o no informativa

, g ( ) , una priori invariante sera:

es la matriz de informacin de Fisher:

, , n ) ' es un vector, entonces:

es la matriz de informacin de Fisher de orden p p

El elemento ( i j ) de esta matriz es:

Pr ( ) , debe obtenerse un resultado equivalente en Pr ( ) si se aplica la transformacin del parmetro

para calcular Pr ( ) a partir de Pr ( ) en la ecuacin [3] o si se obtiene Pr ( ) directamente a partir del

Ejemplo. Sea la variable Y con una distribucin B ( n , )

Prescindiendo de n se obtiene que la distribucin a priori de

Beta ( 0,5 , 0,5 ) .

( , ) , ambos parmetros desconocidos. Entonces:

y la matriz de informacin de Fisher estar dada por:

Ahora, segn la ecuacin [2], la distribucin a priori no informativa para

independencia entre ambos parmetros se tendra Pr ( , ) = Pr ( ) Pr ( ) =

, por lo que si se supone

Pr ( ) = 1 lo cual conduce a: Pr ( , ) = 1 , que es lo ms deseable.

4.4. Distribucin a priori conjugada

que a priori tiene una distribucin beta con parmetros

aleatoria Y que tiene una distribucin de probabilidad binomial con parmetros m y

dada la muestra y queda expresada de la

que tiene la forma de una distribucin beta con parmetros

Otro caso importante es el de la distribucin normal

con una distribucin N

variable X con una distribucin N

, 0 ) , donde 0 y 0 son parmetros conocidos y la

es un parmetro conocido. Entonces tenemos las

siguientes funciones de distribucin:

y al aplicar el teorema de Bayes, la distribucin posterior de

dada la muestra x queda expresada de la

, 12 ) de donde se pueden sacar conclusiones:

Precisiones de las distribuciones a priori y a posteriori