Foro31 (Dia 1)

Intro Inferencia Decisiones C
omputo
Estadstica Bayesiana
Teora y Conceptos B
asicos
Eduardo Gutierrez Pe
na
UNIVERSIDAD NACIONAL AUTONOMA

DE MEXICO
Instituto de Investigaciones en Matem
aticas Aplicadas y en Sistemas
eduardo@sigma.iimas.unam.mx
XXXI Foro de Estadstica - Universidad Aut
onoma Chapingo
XXXI Foro de Estadstica
Estadstica Bayesiana: Teora y Conceptos B

asicos

omputo
Temario
1 Introducci
on
Conceptos fundamentales
M
etodos estadsticos tradicionales
2 Inferencia Estadstica
El enfoque bayesiano
Interpretaci
on subjetiva de la probabilidad
El proceso de aprendizaje
Predicci
on
An
alisis secuencial
El concepto de intercambiabilidad
3 Teora de la Decisi
on
Elementos de un problema de decisi
on
Funci
on de utilidad
Soluci
on bayesiana
Otros criterios
Problemas de decisi
on estadsticos
4 Aspectos Computacionales
Aproximaciones asint
oticas

asicos

omputo
Fundamentos M
etodos cl
asicos
Conceptos fundamentales
Que es la Estadstica?

asicos

omputo
Fundamentos M
etodos cl
asicos
Definiciones de Estadstica
Conjunto de tecnicas para describir un fen
omeno, a partir de un
conjunto de datos que presentan variabilidad.
Conjunto de metodos para alcanzar conclusiones acerca de una o
varias caractersticas de interes de una poblaci
on a partir de
informaci
on parcial provista por una muestra de dicha poblacion.

asicos

omputo
Fundamentos M
etodos cl
asicos
Ensayemos otra...
De manera muy general, puede decirse que la estadstica es la
disciplina que estudia los fen
omenos inciertos (aleatorios), es decir,
aquellos que no se pueden predecir con certeza.
El estudio se lleva a cabo a partir del posible conocimiento previo
sobre el fen
omeno y de observaciones que se realizan sobre el mismo.

asicos

omputo
Fundamentos M
etodos cl
asicos
Ensayemos otra...
De manera muy general, puede decirse que la estadstica es la
disciplina que estudia los fen
omenos inciertos (aleatorios), es decir,
aquellos que no se pueden predecir con certeza.
El estudio se lleva a cabo a partir del posible conocimiento previo
sobre el fen
omeno y de observaciones que se realizan sobre el mismo.
Variabilidad o incertidumbre?

asicos

omputo
Fundamentos M
etodos cl
asicos
Toda la Estadstica es descriptiva!

*
Caso A: se cuenta con todos los datos posibles del fenomeno bajo
estudio (e.g. censos)
Descripci
on: Exacta An
alisis Exploratorio de Datos
Caso B: se cuenta solamente con una parte de todos los datos
posibles (e.g. encuestas)
Descripci
on: Aproximada Inferencia Estadstica

asicos

omputo
Fundamentos M
etodos cl
asicos
En este u
ltimo caso,
Pero...
c
omo seleccionar la muestra?
c
omo medir el grado de aproximaci
on?

asicos

omputo
Fundamentos M
etodos cl
asicos
Soluci
on:
Selecci
on probabilstica de la muestra (i.e. por sorteo)
x
Dato
X
Variable (aleatoria)
Pr[X = x]
Modelo de probabilidad
As,
Describir el fen
omeno Describir el modelo

asicos

omputo
Fundamentos M
etodos cl
asicos
Inferencia parametrica y no parametrica

- En ocasiones resulta conveniente suponer que
Pr[X = x] = p(x|)
(si X es discreta)
donde p(|) tiene forma conocida pero el valor de es desconocido

As,
Describir el fen
omeno Caracterizar el valor de
- En otros casos, la propia forma funcional de Pr[X = x] se supone
desconocida
A fin de cuentas... que es un modelo?

asicos

omputo
Fundamentos M
etodos cl
asicos
Metodos estadsticos tradicionales

Planteamientos m
as comunes de la Estadstica cl
asica:
- Estimaci
on puntual:
- Estimaci
on por intervalo: (, )
- Prueba de hip
otesis: H0 : 0 vs H1 : 1
Criterios: suficiencia, insesgamiento, varianza mnima, consistencia,

eficiencia, confianza, significancia, potencia,...
C
omo y cu
ando aplicar cada receta?

asicos

omputo
Fundamentos M
etodos cl
asicos
Veamos un ejemplo...
Problema: hacer inferencias sobre la proporci
on de individuos de una
poblaci
on determinada que sufren de cierta enfermedad.
Se selecciona una muestra aleatoria de individuos, de manera que
cada individuo en la muestra sufra de la enfermedad con probabilidad
independientemente de los otros individuos en la muestra ( denota
la proporci
on de individuos enfermos en la poblaci
on).
La variable aleatoria X denota el n
umero de individuos enfermos en
la muestra.
El valor observado X = x es usado para hacer inferencias acerca del
par
ametro (caracterstica poblacional) .

asicos

omputo
Fundamentos M
etodos cl
asicos
Las inferencias pueden tomar la forma de

un estimador puntual : = 0.1
un intervalo de confianza: (0.08,0.12) con 95 % de confianza
una prueba de hip
otesis: rechazar H0 : < 0.07 con = 0.05
un pron
ostico: predecir cu
antos individuos sufriran de la
enfermedad el a
no pr
oximo
una decisi
on: aplicar un nuevo tratamiento a los individuos que
padecen la enfermedad

asicos

omputo
Fundamentos M
etodos cl
asicos
Estas inferencias se realizan especificando un modelo probabilstico,

p(x|), que determina las probabilidades de los posibles valores de X
para un valor dado de , e.g.
X Bin(, n),
de manera que el problema de inferencia estadstica se reduce a hacer
inferencias sobre con base en el valor observado X = x.
Principio de M
axima Verosimilitud : valores de que asignan una
probabilidad alta al valor observado x son m
as verosmiles que
aquellos valores de que asignan a x una probabilidad peque
na.

asicos

omputo
Fundamentos M
etodos cl
asicos
Si todo esto suena muy bien... Para que otro enfoque?

asicos

omputo
Fundamentos M
etodos cl
asicos
Si todo esto suena muy bien... Para que otro enfoque?

Notemos lo siguiente:
El par
ametro es desconocido, pero se considera constante, no
aleatorio.
De ah que en la terminologa cl
asica se hable de verosimilitud,
confianza, nivel de significancia, etc., y no de probabilidad.
Sin embargo, es com
un que la gente interprete intuitivamente a un
intervalo de confianza del 95 % para , digamos (0.08, 0.12), como si
Pr(0.08 < < 0.12) = 0.95.
De manera similar, no es raro que la gente interprete el nivel de
significancia descriptivo (p-value) como la probabilidad de que la
hip
otesis nula sea verdadera.

asicos

omputo
EB PS PA DP AS CI
El enfoque bayesiano
Idea: dise
nar una Teora Estadstica, basada en una peque
na serie de
principios b
asicos, que nos permita estructurar la solucion a cualquier
problema de inferencia.
La va: la Teora de la Decisi
on
Para que una Teora Estadstica?

- Para darle a la Estadstica una estructura coherente
- Porque con otros enfoques pueden presentarse casos en los que:
(i) no hay una soluci
on razonable; (ii) se presentan paradojas.

asicos

omputo
EB PS PA DP AS CI
Teorema de Bayes. Dados dos eventos A y B tales que Pr(B) > 0,

Pr(A|B) =
Pr(B|A) Pr(A)
.
Pr(B)
Si {Ai : i = 1, 2, . . . , M } es un conjunto exhaustivo de eventos

mutuamente excluyentes, entonces
Pr(B|Ai ) Pr(Ai )
Pr(Ai |B) = PM
.
j=1 Pr(B|Aj ) Pr(Aj )
Ejemplo. Pruebas de diagn
ostico.
- Se desarrolla una nueva prueba para detectar el VIH con una
sensitividad de 95 % y una especificidad del 98 %.
- En una poblaci
on con una prevalencia de VIH de 1/1000, cual
es la probabilidad de que una persona cuya prueba resulta
positiva realmente tenga el VIH?

asicos

omputo
EB PS PA DP AS CI
Sean
A = la persona tiene VIH y Ac = la persona no tiene VIH
B = la prueba resulta positiva
- Sensitividad de 95 % significa que Pr(B|A) = 0.95
- Especificidad de 98 % significa que Pr(B c |Ac ) = 0.98
Queremos calcular Pr(A|B). El Teorema de Bayes nos dice que
Pr(A|B) =
Pr(B|A) Pr(A)
.
Pr(B|A) Pr(A) + Pr(B|Ac ) Pr(Ac )
Es decir,
Pr(A|B) =
0.95 0.001
= 0.045
(0.95 0.001) + (0.02 0.999)
M
as del 95 % de las personas cuya prueba resulta positiva
en realidad no tienen el VIH!

asicos

omputo
EB PS PA DP AS CI
Discusi
on
Nuestra intuici
on no es suficientemente buena al procesar
evidencia probabilstica.
El punto crucial es de que manera el resultado de la prueba debe
cambiar mis juicios sobre el evento de que la persona tenga VIH?
La prevalencia de VIH puede pensarse como la probabilidad a
priori que describe nuestros juicios sobre el evento de que la
persona tenga VIH antes de conocer el resultado de la prueba:
Pr(A) = 0.001.
Al observar un resultado positivo, nuestros juicios cambian y la
probabilidad del evento se modifica: Pr(A|B) = 0.045. Esta

es la
probabilidad a posteriori que describe nuestros juicios sobre la
ocurrencia de A despues de conocer el resultado de la prueba.

asicos

omputo
EB PS PA DP AS CI
Reformulaci
on del Ejemplo
Sea un par
ametro que toma el valor 1 si la persona tiene el VIH y el
valor 0 si no lo tiene.
Sea X una variable aleatoria que toma el valor 1 si la prueba resulta
positiva y el valor 0 en caso contrario.
Sabemos que
Pr(X = 1| = 1) = 0.95
Pr(X = 0| = 1) = 0.05
Pr(X = 1| = 0) = 0.02
Pr(X = 0| = 0) = 0.98
y
Pr( = 1) = 0.001
Pr( = 0) = 0.999
Entonces
Pr( = 1|X = 1) = 0.045
Pr( = 0|X = 1) = 0.955

asicos

omputo
EB PS PA DP AS CI
Si la prueba resulta positiva (es decir, si X = 1):

- El estimador de m
axima verosimilitud es = 1 debido a que
Pr(X = 1| = 1) = 0.95 y Pr(X = 1| = 0) = 0.02
- Al probar las hip
otesis H0 : = 0 vs H1 : = 1, usando la
estadstica de prueba X, el p-valor es 0.02.
Esto se debe a que
Pr(X = 0| = 0) = 0.98 y Pr(X = 1| = 0) = 0.02
lo que llevara a rechazar H0 si se utilizara un nivel de
significancia del 0.05.
En cualquier caso, la conclusi
on es que la persona tiene VIH.

asicos

omputo
EB PS PA DP AS CI
Por otro lado, como se mencion

o anteriormente, el Teorema de Bayes
nos dice que
Pr( = 1|X = 1) =
Pr(X = 1| = 1) Pr( = 1)
Pr(X = 1)
Es decir,
Pr( = 1|X = 1) =
0.95 0.001
= 0.045
0.021
Por lo tanto, en contra de la conclusi

on obtenida usando los metodos
tradicionales, el an
alisis desde el punto de vista bayesiano indica que
es mucho m
as probable que la persona no tenga VIH a pesar de que
la prueba result
o positiva.
A que se debe esta discrepancia?

asicos

omputo
EB PS PA DP AS CI
Discusi
on
El uso del Teorema de Bayes en pruebas de diagnostico es

bastante com
un y no causa controversias.
Mucho m
as controversial es el uso del Teorema de Bayes en
an
alisis estadsticos generales, en los que los parametros son
las cantidades desconocidas de interes y por lo tanto se
requiere especificar probabilidades sobre sus valores.

asicos

omputo
EB PS PA DP AS CI
Diferencias
Inferencia estadstica tradicional :
Que nos dicen los datos X acerca del par
ametro ?
(Ignora toda evidencia externa)
Inferencia bayesiana:
C
omo cambian nuestros juicios originales acerca del valor de la
cantidad desconocida a la luz de los datos X?
(Puede tomar en cuenta cualquier evidencia externa)

asicos

omputo
EB PS PA DP AS CI
En general tenemos:
(1) Datos, X; y
(2) Cantidades desconocidas, , cuyo valor nos interesa.
Las cantidades desconocidas descritas por pueden ser: par
ametros del
modelo, observaciones faltantes, mediciones que no podemos observar
directamente o con suficiente precisi
on, etc.
Como estadsticos, postulamos un modelo de probabilidad

p(x|)
Desde el punto de vista bayesiano, adem
as,
debe tener una distribuci
on de probabilidad, p(), que refleje
nuestra incertidumbre inicial acerca de su valor.
X es conocido, as que debemos condicionar en su valor
observado, x.

asicos

omputo
EB PS PA DP AS CI
Por lo tanto, nuestro conocimiento acerca del valor de queda

descrito a traves de su distribuci
on final
p(|x)
El Teorema de Bayes nos dice c
omo encontrarla:
p(|x) = R
p() p(x|)
p() p(x|) d
*
El Teorema de Bayes es la clave del proceso de aprendizaje.

asicos

omputo
EB PS PA DP AS CI
Interpretacion subjetiva de la probabilidad

C
omo debe interpretarse la probabilidad?
Existen por lo menos tres interpretaciones:
Cl
asica: basada en ciertas simetras o en propiedades fsicas de
objetos tales como dados, cartas de una baraja, bolas dentro de
una urna, etc.
Frecuentista: basada en el lmite de frecuencias relativas de
eventos repetibles bajo condiciones similares.
Subjetiva: refleja juicios personales acerca de eventos u
nicos.
Un ejemplo...
Cu
al es la probabilidad que t
u asignaras en este momento al evento
A = El PRI ganar
a las elecciones presidenciales en el 2018?

asicos

omputo
EB PS PA DP AS CI
- Quiere decir esto que podemos reportar cualquier n

umero que
queramos?
No! Las probabilidades que asignemos deben ser coherentes,
i.e., deben obedecer las leyes de la probabilidad. Ademas, deben
reflejar honestamente nuestro estado de conocimiento.
Para ser tomadas en serio, las probabilidades que asignemos
deben tener relaci
on con la realidad. Usualmente estas
probabilidades son asignadas por expertos y/o con base en
informaci
on (muestral) previa.
Ejemplo:
Preguntas de opci
on m
ultiple

asicos

omputo
EB PS PA DP AS CI
Al hacer inferencias sobre un par

ametro , generalmente se cuenta con
alg
un tipo de informaci
on (juicios, creencias) acerca de su valor,
incluso antes de observar los datos.
Consideremos las siguientes tres situaciones:
Una mujer afirma que puede detectar, con un solo sorbo de una
taza de cafe, si la leche fue agregada antes o despues del cafe. La
mujer detecta correctamente el orden en diez tazas.
Un experto en m
usica afirma que puede distinguir entre una
p
agina de una obra de Hayden y una de Mozart. El experto
clasifica correctamente diez p
aginas.
Un amigo ebrio afirma que puede predecir el resultado del
lanzamiento de una moneda honesta. El amigo predice
correctamente el resultado de diez lanzamientos.

asicos

omputo
EB PS PA DP AS CI
En cada uno de los tres casos, el modelo es X Bin(, 10) y se

observa x = 10, de manera que se rechaza la hip
otesis H0 : 0.5
en favor de H1 : > 0.5.
Por lo tanto, en terminos de los datos observados, nos veramos
obligados a hacer las mismas inferencias en los tres casos.
Sin embargo, dada nuestra informaci
on inicial, muy probablemente
permaneceramos escepticos acerca de la capacidad del amigo ebrio,
ligeramente impresionados por la bebedora de cafe y solo un poco
sorprendidos por el experto en m
usica.

asicos

omputo
EB PS PA DP AS CI
El ejemplo anterior muestra que las inferencias deben basarse tanto

en los datos como en la informaci
on inicial, incluso si esta es de
naturaleza subjetiva.
La teora bayesiana proporciona el mecanismo para combinar estas
dos fuentes de informaci
on de una manera natural.
Como consecuencia, y a diferencia de los metodos cl
asicos, no es
necesario desarrollar criterios ad hoc (por ejemplo, insesgamiento,
potencia) para juzgar si un procedimiento determinado es bueno
en alg
un sentido.
Distintas distribuciones iniciales pueden dar lugar a inferencias distintas.

Es esto una ventaja o una desventaja del enfoque bayesiano?

asicos

omputo
EB PS PA DP AS CI
El precio adicional que hay que pagar es la especificacion de una

distribuci
on de probabilidad sobre que describa la informacion
que se tiene sobre su valor.
Cabe mencionar que los procedimientos cl
asicos tambien se basan
(implcitamente) en apreciaciones subjetivas (Por que un modelo
normal?, Por que = 0.05?)

asicos

omputo
EB PS PA DP AS CI
El proceso de aprendizaje
Los cuatro pasos a seguir dentro del enfoque bayesiano:
1
Especificaci
on de un modelo muestral, p(x|)
Especificaci
on de una distribuci
on inicial, p()
C
alculo de la distribuci
on final, p(|x), va el Teorema de Bayes
Resumen de la informaci
on contenida en p(|x) para hacer
inferencias sobre las cantidades de interes (par
ametros,
observaciones futuras, etc.)

asicos

omputo
Modelo muestral
EB PS PA DP AS CI
(Verosimilitud)
El problema de elegir un modelo para describir el proceso que

gener
o los datos es esencialmente el mismo que desde el punto de
vista cl
asico.
El modelo elegido depender
a del problema en turno y del proposito
del an
alisis.
En ocasiones, la forma en la que se obtuvieron los datos puede sugerir
modelos apropiados como punto de partida (e.g., muestreo binomial,
conteos Poisson).
Con frecuencia, el modelo refleja una hip
otesis cuya plausibilidad es
verificada posteriormente en el contexto de los datos (e.g., Y y X se
relacionan linealmente entre s).

asicos

omputo
Modelo muestral
EB PS PA DP AS CI
(Verosimilitud)
El problema de elegir un modelo para describir el proceso que

gener
o los datos es esencialmente el mismo que desde el punto de
vista cl
asico.
El modelo elegido depender
a del problema en turno y del proposito
del an
alisis.
En ocasiones, la forma en la que se obtuvieron los datos puede sugerir
modelos apropiados como punto de partida (e.g., muestreo binomial,
conteos Poisson).
Con frecuencia, el modelo refleja una hip
otesis cuya plausibilidad es
verificada posteriormente en el contexto de los datos (e.g., Y y X se
relacionan linealmente entre s).
Todos los modelos son incorrectos, pero algunos modelos son mas
u
tiles que otros. (George E.P. Box )

asicos

omputo
EB PS PA DP AS CI
Distribuci
on inicial
Este es un aspecto fundamental del enfoque bayesiano.
El an
alisis es subjetivo dado que depende del conocimiento que el
investigador tiene antes de observar los datos (y que describe a traves
de su distribuci
on inicial).
Sin embargo, si la distribuci
on inicial es razonable, su efecto sobre las
inferencias disminuye conforme se tienen m
as datos.
En ocasiones tenemos una idea vaga de la forma que debera tener la
distribuci
on inicial. Tal vez incluso somos capaces de asignar valores,
por ejemplo, a su media y su varianza, pero no podemos ser mas
precisos.
En estos casos es com
un usar una distribuci
on inicial consistente con
nuestra informaci
on pero cuya forma sea conveniente, e.g. tal que de
lugar a an
alisis m
as sencillos.
( Familias conjugadas)

asicos

omputo
EB PS PA DP AS CI
En otros casos puede considerarse que no se tiene informacion inicial

sobre el valor del par
ametro (o, por alg
un motivo, no es deseable
incluir nuestra informaci
on inicial en el an
alisis).
En estas situaciones nos gustara poder utilizar una distribucion
inicial que refleje nuestra ignorancia acerca del valor del parametro.
En terminos generales siempre es posible encontrar este tipo de
distribuciones iniciales no-informativas.
Sin embargo, excepto en modelos relativamente simples, esta labor es
complicada y no est
a exenta de problemas.

asicos

omputo
EB PS PA DP AS CI
Distribuci
on final
En terminos de variables aleatorias, el Teorema de Bayes toma la
forma
p()p(x|)
.
p(|x) = R

p()p(x|
)d
R
,
no depende de , por lo que
El denominador, p(x) = p()p(x|
)d
es com
un escribir
p(|x) p()p(x|).
* En la pr
actica, el c
alculo de la distribuci
on final puede ser un asunto
complicado, especialmente si la dimensi
on del par
ametro no es peque
na.
* Sin embargo, para ciertas combinaciones de distribuciones iniciales y
verosimilitudes es posible simplificar el an
alisis.
( Familias conjugadas)
* En otros casos se requieren aproximaciones analticas y/o tecnicas
computacionales relativamente sofisticadas.
( Sesi
on de ma
nana!)

asicos

omputo
EB PS PA DP AS CI
Inferencia
El enfoque bayesiano proporciona inferencias m
as completas en el
sentido de que toda la informaci
on disponible sobre el valor de
queda representada a traves de la distribuci
on final.
Es decir, desde el punto de vista bayesiano, el problema de inferencia
se reduce a encontrar p(|x): la distribuci
on final es la inferencia.
La u
nica receta de la Inferencia Bayesiana. . .
. . .consiste en encontrar la distribuci
on condicional de todas aquellas
cantidades de interes cuyo valor desconocemos dado el valor conocido
de las variables observadas.
Por supuesto, en la pr
actica generalmente es deseable resumir este tipo de
inferencias en la forma de una estimaci
on puntual, una estimaci
on por
intervalo, una prueba de hip
otesis, etc.
Ejemplo: eliminaci
on de par
ametros de ruido.

asicos

omputo
EB PS PA DP AS CI
Robustez
- En Estadstica, independientemente del enfoque que se utilice, es
importante entender hasta que punto el modelo usado es robusto
antes posibles violaciones a los supuestos.
- Lo anterior tambien es cierto dentro del enfoque bayesiano en lo
que se refiere a la especificaci
on de la distribucion inicial.
- En ocasiones el modelo es tal que las inferencias no se modifican
sustancialmente ante cambios moderados en la distribucion final.
Esto ocurre, por ejemplo, cuando el tama
no de la muestra es
suficientemente grande.
- En otros casos, sin embargo, puede ocurrir que incluso cambios
aparentemente insignificantes en la distribuci
on inicial produzcan
inferencias completamente distintas.

asicos

omputo
EB PS PA DP AS CI
Algunos autores sugieren que, en la pr

actica, es conveniente comparar los
resultados de los an
alisis derivados de por lo menos tres distribuciones
iniciales distintas:
- Una distribuci
on inicial no-informativa
- Una distribuci
on inicial (tentativa) que refleje los aspectos m
as
importantes nuestra informaci
on inicial
- Una distribuci
on inicial (tal vez artificialmente) m
as informativa
La idea es que, si las inferencias no son muy distintas en cada uno de estos
casos, el an
alisis (dados los datos observados) ser
a relativamente robusto en
lo que se refiere a la elecci
on de la distribuci
on inicial. No ser
a necesario
entonces preocuparse demasiado por especificar una distribuci
on inicial con
mucha precisi
on.
En caso contrario, es importante hacer el esfuerzo necesario para especificar
una distribuci
on que refleje genuinamente nuestra informaci
on inicial.

asicos

omputo
EB PS PA DP AS CI
Un ejemplo simple de inferencia bayesiana (distribucion Binomial)

- Datos: x exitos en n ensayos independientes, cada uno con
probabilidad de exito .
Por ejemplo, puede representar la tasa de respuesta ante cierta
dosis de una sustancia t
oxica, y x el n
umero de individuos, de un
total de n expuestos, que presentan efectos adversos.
- Funci
on de verosimilitud:

n x
p(x|) = Bin(x|; n) =
(1 )nx x (1 )nx
x

asicos

omputo
EB PS PA DP AS CI
- Distribuci
on inicial:
p() = Beta(|a, b) =
(a + b) a1
(1 )b1 a1 (1 )b1
(a)(b)
- Distribuci
on final:
p(|x) p() p(x|)
x+a1 (1 )nx+b1
Beta(|x + a, n x + b)
Notemos que tanto la distribuci
on inicial como la final son Beta.
En este caso se dice que la familia de distribuciones Beta es
conjugada para el modelo Binomial.

asicos

omputo
EB PS PA DP AS CI
Supongamos que, dada la informaci

on inicial disponible, se determina
que E() = 0.40 y que Pr( > 0.54) = 0.10
Esto implica que a = 9.2 y b = 13.8
Interpretaci
on: esta informaci
on inicial es equivalente a la de una
muestra de tama
no a + b = 23 en la que se obtuvieron a = 9.2 exitos.
Para la distribuci
on Beta(a, b) se sabe que la media esta dada por
m = a/(a + b) y la varianza por s2 = m(1 m)/(a + b + 1)
Entonces, a priori, la media de es m = 0.40 y la desviacion estandar
es s = 0.1

asicos

omputo
EB PS PA DP AS CI
Supongamos ahora que, al realizar un experimento con n = 20

individuos expuestos, observamos x = 15 individuos afectados.
Desglose de la informaci
on
Exitos
Fracasos
Total
Inicial
9.2
13.8
23
Datos
15
5
20
Final
24.2
18.8
43
La media y la desviaci
on est
andar de la distribuci
on final de estan
dadas por E(|x) = 0.563 y sd(|x) = 0.075, respectivamente.
Notemos que Pr( > 0.54|x) = 0.62

asicos

omputo
EB PS PA DP AS CI

asicos

omputo
EB PS PA DP AS CI
Caso no informativo
Supongamos que no se tiene o no se desea utilizar la informacion
inicial.
Esto se puede especificar a traves de una distribuci
on inicial
uniforme, lo que implica que a = b = 1.
En este caso, con x = 15 individuos afectados de un total de n = 20
individuos expuestos, tenemos:
Desglose de la informaci
on
Exitos
Fracasos
Total
Inicial
1
1
2
Datos
15
5
20
Final
16
6
22

asicos

omputo
EB PS PA DP AS CI
La media y la desviaci
on est
andar de la distribuci
on final de estan
dadas por E(|x) = 0.727 y sd(|x) = 0.093, respectivamente.
Por otro lado, la moda de la distribuci
on final es igual a 0.75, valor
que coincide con el estimador de m
axima verosimilitud para en este
caso.
Cabe hacer notar que en este caso Pr( > 0.54|x) = 0.97
Supongamos ahora que estamos interesados en probar la hipotesis
H0 : 0.40. Entonces, la probabilidad Pr( 0.40|x) = 0.0008
puede usarse para determinar que los datos no apoyan esta hipotesis
nula.

asicos

omputo
EB PS PA DP AS CI

asicos

omputo
EB PS PA DP AS CI
Distribucion predictiva
Hasta el momento s
olo hemos discutido el problema de hacer
inferencias acerca del valor desconocido de un par
ametro.
En muchas situaciones, sin embargo, el prop
osito de formular un
modelo estadstico es hacer predicciones sobre el valor de una o
m
as observaciones futuras.
Este problema se resuelve de manera m
as elegante desde el punto de
vista bayesiano que desde el punto de vista cl
asico.

asicos

omputo
EB PS PA DP AS CI
Al hacer inferencias predictivas sobre el valor de una observacion

futura con base en un modelo, deben tomarse en cuenta dos fuentes
de incertidumbre:
- Incertidumbre sobre el valor del par
ametro (sobre el cual se
pueden hacer inferencias con base en la distribucion final).
- Incertidumbre por el hecho de que cualquier observacion futura
es aleatoria en s misma (a
un si conocieramos el verdadero valor
del par
ametro, no podramos predecir con certeza el valor de una
observaci
on futura).

asicos

omputo
EB PS PA DP AS CI
Dentro del enfoque cl

asico de la Estadstica, es com
un ajustar el
modelo con base en los datos (obteniendo un estimador puntual ),

como si
y entonces hacer predicciones con base en el modelo p(x|)
este fuera el modelo verdadero.
De esta manera, se ignora completamente la primera fuente de
incertidumbre, lo que produce predicciones que aparentan ser mas
precisas de lo que realmente son.
En contraste, el enfoque bayesiano toma en cuenta las dos fuentes de
incertidumbre de manera natural.

asicos

omputo
EB PS PA DP AS CI
Distribuci
on predictiva
Supongamos que tenemos una muestra observada x = (x1 , . . . , xn )0
de p(x|) y que se desea hacer inferencias acerca del valor futuro de
Y = Xn+1 .
Dada una distribuci
on inicial p(), el Teorema de Bayes produce la
distribuci
on final p(|x).
Siguiendo la
unica receta de la inferencia bayesiana, debemos
entonces encontrar la distribuci
on condicional de Y dado el valor
observado de x.

asicos

omputo
EB PS PA DP AS CI
Dicha distribuci
on est
a dada por
Z
p(y|x) =
p(y|, x)p(|x) d
Z
=
p(y|)p(|x) d
= Ep(|x) [p(y|)]
y se conoce como la distribuci
on predictiva (final).

asicos

omputo
EB PS PA DP AS CI
Continuaci
on del ejemplo (distribuci
on Binomial)
- Supongamos que estamos considerando detener el estudio si por lo
menos 25 de 40 nuevos individuos tratados presentan efectos adversos.
Con base en la informaci
on disponible, Cu
al es la probabilidad de
que detengamos el estudio?
- Estamos considerando observar n ensayos adicionales y nos interesa
predecir el n
umero de exitos, X , en esos n ensayos.
La distribuci
on predictiva (final) es Binomial-Beta:

n (n + a + b)(x + x + a)(n x + n x + b)
p(x |x) =
.
(x + a)(n x + b)(n + n + a + b)
x
- Esta distribuci
on tiene media E(X |x) = 22.5 y desviacion estandar
sd(X |x) = 4.3. Adem

as, es tal que Pr(X 25|x) = 0.33.

asicos

omputo
EB PS PA DP AS CI
Recapitulando...
Modelo de probabilidad p( x | ),
Informaci
on inicial p()
Muestra x = ( x1 , x2 , . . . , xn )
Distribuci
on final p( | x)
Inferencias a posteriori
Estimaci
on
Puntual
Prueba de Hip
otesis
Intervalo
Predicci
on p( xn+1 | x)
Puntual
Intervalo

asicos

omputo
EB PS PA DP AS CI
Analisis secuencial
Hemos visto que el Teorema de Bayes proporciona el mecanismo
para actualizar nuestro estado de informaci
on, llev
andonos de la
distribuci
on inicial a la distribuci
on final.
Esta distribuci
on final se convierte entonces en la nueva distribucion
inicial antes de observar nuevos datos.
Dado p(), supongamos que observamos X1 = x1 de la densidad
p(x|). Por el Teorema de Bayes,
p(|x1 ) p() p(x1 |).
Esta
es nuestra nueva distribuci
on inicial antes de observar X2 = x2
de la densidad p(x|), condicionalmente independiente de X1 .

asicos

omputo
EB PS PA DP AS CI
Aplicando de nuevo el Teorema de Bayes, obtenemos

p(|x1 , x2 )
p(|x1 )p(x2 |, x1 )
{ p() p(x1 |) } p(x2 |)
p() p(x1 , x2 |).
Este
es el mismo resultado que hubiesemos obtenido de haber
actualizado de un solo golpe la distribuci
on inicial p() con base
en la muestra completa {x1 , x2 }.
Este argumento puede extenderse, por inducci
on, a cualquier n
umero
de observaciones.
Los procedimientos cl
asicos de an
alisis secuencial no necesariamente
son coherentes en este sentido.

asicos

omputo
EB PS PA DP AS CI
El concepto de intercambiabilidad
Definici
on. Las variables aleatorias X1 , . . . , Xn son (finitamente)
intercambiables bajo una medida de probabilidad P si la distribucion
inducida por P satisface
p(x1 , . . . , xn ) = p(x(1) , . . . , x(n) )
para toda permutaci
on definida sobre el conjunto {1, 2, . . . , n}.
- En otras palabras, las etiquetas que identifican a cada una
de las variables no proporcionan informaci
on alguna.
- Si las variables aleatorias X1 , . . . , Xn son independientes e
identicamente distribuidas entonces son intercambiables.
- Sin embargo, X1 , . . . , Xn pueden ser intercambiables sin ser
independientes.

asicos

omputo
EB PS PA DP AS CI
Definici
on. La sucesi
on infinita de variables aleatorias X1 , X2 , . . .
es (infinitamente) intercambiable si toda subsucesi
on finita es
intercambiable en el sentido de la definici
on anterior.
- El concepto de intercambiabilidad es fundamental en la construcci
on
de los modelos jer
arquicos que discutiremos en la sesi
on de ma
nana.
- El siguiente teorema, que presentaremos en su forma m
as simple,
permite integrar en un paradigma unificado los conceptos
estadsticos frecuentistas asociados a modelos parametricos con el
concepto de probabilidad como grado de creencia (interpretaci
on
subjetiva).
- El resultado proporciona una justificaci
on del enfoque Bayesiano.
- Otra justificaci
on la proporciona la Teora de la Decisi
on, que
discutiremos m
as adelante.

asicos

omputo
EB PS PA DP AS CI
Teorema de Representaci
on (Bruno de Finetti)
Si X1 , X2 , . . . es una sucesi
on infinita de variables aleatorias definidas
sobre {0, 1}, intercambiables con respecto a la medida de probabilidad
P , entonces existe una distribuci
on Q tal que la distribucion conjunta
p(x1 , . . . , xn ) tiene la forma
)
Z 1 (Y
n
1xi
xi
(1 )
dQ(),
p(x1 , . . . , xn ) =
0
i=1
donde Q() = lmn Pr(Yn /n ), con Yn = X1 + + Xn , y

= lmn Yn /n (c. s.).

asicos

omputo
EB PS PA DP AS CI
El Teorema de Representaci
on tiene un significado muy profundo desde el
punto de vista de la modelaci
on subjetiva.
El resutaldo nos dice que el modelo predictivo para una sucesi
on
intercambiable de variables aleatorias binarias puede ser descrito en
terminos de una situaci
on en la que:
(i) condicional en el valor de una variable aleatoria, , las variables
aleatorias Xi se consideran independientes con distribuci
on Bernoulli;
(ii) a se le asigna una distribuci
on de probabilidad Q.
Por la Ley de los Grandes N
umeros, = lmn Yn /n (c. s.), de manera
que Q puede interpretarse como una descripci
on de los juicios acerca del
lmite de la frecuencia relativa de los exitos en una sucesi
on de ensayos
Bernoulli.

asicos

omputo
EB PS PA DP AS CI
Corolario. Si X1 , X2 , . . . es una sucesi

on infinita de variables aleatorias
definidas sobre {0, 1} e intercambiables con respecto a la medida de
probabilidad P , entonces
)
Z 1( Y
n
xi
1xi
(1 )
dQ(|x1 , . . . , xm )
p(xm+1 , . . . , xn |x1 , . . . , xm ) =
0
i=m+1
donde 1 m < n,
Qm
dQ(|x1 , . . . , xm ) = Z
xi (1 )1xi
dQ()

xi
1xi
dQ()
i=1 (1 )
i=1
(1)
Qm
0
y Q() = lmn Pr(Yn /n ).

- La expresi
on (1) no es m
as que una versi
on del Teorema de Bayes.
- Notemos que la forma de la representaci
on no cambia.
- En la terminologa usual, la distribuci
on inicial Q() ha sido actualizada
a trav
es del T. de Bayes, obteni
endose la distribuci
on final Q(|x1 , . . . , xm ).

asicos

omputo
Elementos PyU Soluci

on Otras Estadstica
Teora de la decision
- Nos hallamos frente a un problema de decisi
on cuando debemos
elegir entre dos o m
as formas de actuar.
La mayor parte de nuestras decisiones cotidianas son triviales
(e.g. elegir una pelcula para el fin de semana).
En otras ocasiones, las consecuencias de nuestras decisiones pueden
ser muy importantes y deben ser consideradas cuidadosamente antes
de llegar a una conclusi
on (e.g. elegir una carrera).
- Nuestro interes aqu no es describir c

omo la gente toma
decisiones, sino c
omo debera tomarlas si quiere ser coherente.
- Cualquier problema de inferencia estadstica puede en principio
ser visto como un problema de decisi
on.
Una teora de la decisi
on racional nos permitira producir una teora
estadstica que no presente contradicciones internas.

asicos

omputo

on Otras Estadstica
Elementos de un problema de decisi

on en ambiente de incertidumbre
A = {a1 , . . . , ak } : Conjunto de acciones potenciales
Debe definirse de manera que sea exhaustivo (i.e. que agote todas las
posibilidades que en principio parezcan razonables) y excluyente (i.e.
que la elecci
on de uno de los elementos de A excluya la elecci
on de
cualquier otro).
E = {E1 , . . . , Em } : Conjunto de eventos

Contiene todos los eventos relevantes al problema de decisi
on.
C = A E : Conjunto de consecuencias posibles

Describe las consecuencias de elegir una acci
on a A cuando ocurre
un evento E E. Por lo tanto podemos escribir c = (a, E).
: Relaci
on de preferencia entre las distintas consecuencias
Se define de manera que c1 c2 si c1 no es preferible a c2 (c1 , c2 C).

asicos

omputo

on Otras Estadstica
Es posible representar la estructura del problema de decision

mediante un
arbol de decisi
on.
Por ejemplo, en el caso m
as simple:
Tanto el conjunto de acciones como el de eventos relevantes puede contener

un n
umero infinito de elementos.

asicos

omputo

on Otras Estadstica
En general, el conjunto de eventos relevantes puede ser distinto para

cada una de las acciones potenciales ai , en cuyo caso lo denotamos
por Ei = {Ei1 , , Eimi }
La idea es producir un criterio para elegir la mejor accion, tomando
en cuenta nuestras preferencias sobre las posibles consecuencias
as como nuestra incertidumbre sobre los eventos en E.
La teora bayesiana se basa en Axiomas de Coherencia que describen
intuitivamente lo que debe entenderse por comportamiento racional.
Por ejemplo:
- Comparabilidad : para cada para de consecuencias c1 y c2 en C,
una y s
olo una de las siguiente condiciones puede ser cierta:
c1 c2 , c1 c2
o c1 c2
- Transitividad : si c1 c2 y c2 c3 entonces c1 c3

asicos

omputo

on Otras Estadstica
Probabilidad y utilidad
De los axiomas se deriva lo siguiente:
La informaci
on que el decisor tiene sobre la verosimilitud de los
distintos eventos relevantes al problema de decision debe ser
cuantificada a traves de una medida de probabilidad.
De la misma manera, las preferencias del decisor entre las
distintas consecuencias debe de cuantificarse a traves de una
funci
on de utilidad.
A cada una de las consecuencias c se le asigna un n
umero u(c)
que mide la utilidad que c tiene para el decisor, de manera tal
que
ci cj si y s
olo si u(ci ) u(cj ).

asicos

omputo

on Otras Estadstica
Solucion bayesiana
Maximizaci
on de la utilidad esperada
El resultado fundamental de la teora bayesiana de decisiones en
ambiente de incertidumbre establece que debe elegirse aquella
acci
on ai tal que
u
(ai ) = m
ax u
(ai )
i
donde
u
(ai ) =
m
X
u(ai , Ej ) Pr(Ej )
(i = 1, . . . , k)
j=1
denota la utilidad esperada de la acci

on ai .
Equivalentemente, la mejor acci
on es la que minimiza la perdida esperada

asicos

omputo

on Otras Estadstica
Otros criterios
Se han propuesto otras formas de resolver problemas de decision en
ambiente de incertidumbre. Aqu describiremos dos de ellas.
Notemos que si el conjunto de eventos relevantes es el mismo para
cada una de las acciones, entonces el problema de decision puede
representarse de manera conveniente mediante una tabla como la
siguiente:
Pr(E)
u(a, E)
a1
a2
..
.
ak
Pr(E1 )
E1
u(a1 , E1 )
u(a2 , E1 )
..
.
Pr(E2 )
E2
u(a1 , E2 )
u(a2 , E2 )
..
.
...
...
...
...
..
.
Pr(Em )
Em
u(a1 , Em )
u(a2 , Em )
..
.
u(ak , E1 ) u(ak , E2 ) . . .
u(ak , Em )

asicos

omputo
Criterio maximin

on Otras Estadstica
(Criterio minimax en caso de funciones de perdida)
Sea
um (ai ) = mn u(ai , Ej )
j
(i = 1, . . . , k).
El criterio maximin consiste entonces en elegir aquella accion ai

tal que
um (ai ) = m
ax um (aj ).
j
Criterio condicional
(Criterio de la consecuencia m
as probable)
Sea Ej tal que Pr(Ej ) = m

axj Pr(Ej ) y definamos
up (ai ) = u(ai , Ej )
(i = 1, . . . , k).
El criterio de la consecuencia m
as probable consiste en elegir la
acci
on ai tal que
up (ai ) = m
ax up (ai ).
i

asicos

omputo

on Otras Estadstica
Ejemplo. Al prepararse para el examen final, un estudiante debe decidir

entre repasar con mucho detalle una de las dos partes de su curso, o
repasar con menos detalle las dos partes.
El estudiante juzga que lo m
as probable es que el examen contenga m
as
preguntas de la segunda parte. Analizaremos este problema de acuerdo a
los distintos criterios de decisi
on mencionados antes.
Espacio de acciones: A = {a1 , a2 , a3 }
a1 = Repasar con detalle la primera parte
a2 = Repasar con detalle la segunda parte
a3 = Repasar todo el curso con menos detalle
Conjunto de eventos relevantes al problema: E = {E1 , E2 , E3 }
E1 = El examen contiene m
as preguntas de la primera parte
E2 = El examen contiene m
as preguntas de la segunda parte
E3 = El examen est
a equilibrado

asicos

omputo

on Otras Estadstica
Una tabla de utilidades razonable sera entonces del tipo

Pr(E)
u(a, E)
a1
a2
a3
p
E1
0.9
0.2
0.6
q
E2
0.2
0.9
0.6
1pq
E3
0.5
0.5
0.7
Por hip
otesis Pr(E2 ) > Pr(E1 ) y Pr(E2 ) > Pr(E3 ).
Criterio maximin:
En este caso um (a1 ) = 0.2, um (a2 ) = 0.2 y um (a3 ) = 0.6, por lo que el
criterio maximin recomienda elegir a3 .
Criterio condicional :
Dado que q > p y q > 1 p q, tenemos que up (a1 ) = 0.2, up (a2 ) = 0.9
y up (a3 ) = 0.6. Por lo tanto, el criterio condicional recomienda elegir a2 .

asicos

omputo

on Otras Estadstica
Criterio de la utilidad esperada m

axima:
u
(a1 ) =
=
u
(a2 ) =
=
u
(a3 ) =
=
0.9 p + 0.2q + 0.5(1 p q)

0.5 + 0.4p 0.3q
0.2p + 0.9q + 0.5(1 p q)
0.5 0.3p + 0.4q
0.6p + 0.6q + 0.7(1 p q)
0.7 0.1p 0.1q
Por ejemplo,
Si p = 0.33 y q = 0.50 entonces la mejor acci
on es a3 .
mientras que
Si p = 0.33 y q = 0.60 entonces la mejor acci
on es a2 .

asicos

omputo

on Otras Estadstica
Problemas de decision estadsticos

En el contexto de la Estadstica, los elementos de un problema de
decisi
on en ambiente de incertidumbre son los siguientes:
El espacio de acciones potenciales disponibles: A
El espacio parametral, que contiene los posibles estados de
la naturaleza:
El espacio de las consecuencias: C = A
Recordemos que, para poder resolver un problema de decision, es
necesario cuantificar tanto la incertidumbre sobre como las
consecuencias en C.
La u
nica forma racional de cuantificar la incertidumbre es a traves
de una medida de probabilidad, p(), y las consecuencias deben
cuantificarse por medio de una funci
on de utilidad, u(a, ).

asicos

omputo

on Otras Estadstica
En la literatura estadstica es m
as com
un trabajar, de manera
equivalente, en terminos de una funci
on de perdida L(a, ).
Dicha funci
on de perdida puede definirse, a partir de una funcion
de utilidad, como
L(a, ) = B() A u(a, )
donde A > 0 y B() es una funci
on de cuyo valor esperado existe.
En este caso, el resultado fundamental de la teora es que debe

elegirse aquella acci
on que minimice la perdida esperada
Z
L (a) =
L(a, ) p() d.

asicos

omputo

on Otras Estadstica
Por otra parte, en problemas de inferencia estadstica por lo regular

se cuenta con informaci
on adicional en la forma de una muestra
X1 , . . . , Xn p(x|).
C
omo incorporar esta informaci
on?
El Teorema de Bayes nos permite combinar las dos fuentes de
informaci
on (la inicial y la muestral) y de esta manera producir
la distribuci
on final p(|x).
En este caso, la soluci
on bayesiana al problema de decision consiste
en elegir aquella acci
on que minimice la perdida esperada final
Z
Lx (a) =
L(a, ) p(|x) d.

asicos

omputo

on Otras Estadstica
Procesos de inferencia como problemas de decisi

on
Sea
F = {p(x|) : }
una familia parametrica de distribuciones de probabilidad.
Problema: hacer inferencias sobre el valor de .
Estimaci
on puntual: en este caso A = , E = (),
p() es una distribuci
on de probabilidad sobre , y
) es una funci
L(,
on de perdida.
Como ejemplo, supongamos que usamos la funci
on de perdida
) = ( )2 .
cuadr
atica: L(,

asicos

omputo
Entonces

on Otras Estadstica
R
=
) p(|x) d
Lx ()
L(,
= E|x [ ( )2 ].
Notemos que
E|x [ ( )2 ] = E|x [ ( E|x [] + E|x [] )2 ]
= E|x [ ( E|x [])2 ] + E|x [( E|x [])2 ]
= E|x [ ( E|x [])2 ] + Var|x [],
de manera que E|x [ ( )2 ] es mnimo cuando = E|x [].
Por lo tanto, la acci
on
optima (el estimador bayesiano) es
= E|x [].

asicos

omputo

on Otras Estadstica
Prueba de hip
otesis: supongamos que deseamos contrastar
Ho : = 0
vs.
H1 : = 1
En este caso
A = {a0 , a1 }
con
a0 =
Actuar como si H0 fuera cierta
a1 =
Actuar como si H1 fuera cierta
y
E = {0 , 1 }.

asicos

omputo

on Otras Estadstica
Como ejemplo, supongamos la siguiente funci

on de perdida:
L(a, ) 0
a0
0
a1
k1
1
k0
0
donde k0 > 0 y k1 > 0.

En este caso
Lx (a0 ) = L(a0 , 0 ) p(0 |x) + L(a0 , 1 ) p(1 |x) = k0 p(1 |x)
Lx (a1 ) = L(a1 , 0 ) p(0 |x) + L(a0 , 1 ) p(1 |x) = k1 p(0 |x)

asicos

omputo

on Otras Estadstica
Debe rechazarse H0 si y s
olo si
Lx (a0 ) > Lx (a1 ).
Es decir, si y s
olo si
k1
p(1 |x)
> .
p(0 |x)
k0
Equivalentemente, si y s
olo si
p(x|0 )
k0 p(1 )
<
.
p(x|1 )
k1 p(0 )
En particular, si k0 = k1 entonces H0 se rechaza si y solo si
p(1 |x) > p(0 |x).

asicos

omputo

on Otras Estadstica
El problema de reportar inferencias como problema de decision

A
un si no se tiene en mente un problema de decision especfico,
nuestra descripci
on de la incertidumbre presente en una situacion
dada puede ser usada por otros (e.g., reportes meteorologicos).
En otros casos, el reporte de inferencias puede ser un fin en
s mismo (no s
olo un medio), independiente de cualquier
problema de decisi
on pr
actico.
En esta situaci
on, el espacio de acciones potenciales es el
espacio de todas las distribuciones de probabilidad que
podran representar nuestro estado de informacion al
momento de tomar la decisi
on.
El papel del estadstico sera an
alogo al de un estudiante que se
enfrenta a una pregunta de opci
on m
ultiple y al que se le pide
responderla con una distribuci
on de probabilidad sobre las
posibles respuestas.

asicos

omputo
Aproximaciones
Aproximaciones asintoticas
Aproximaci
on normal asint
otica
Bajo ciertas condiciones de regularidad, y para tama
nos de muestra
grandes,
V ()),
p(|x) N (|,
donde denota al estimador de m

axima verosimilitud para y V ()
es la inversa de la matriz de informaci

on de Fisher evaluada en .
En este caso, pr
acticamente cualquier resumen inferencial de interes,
(e.g. distribuciones marginales o momentos de funciones lineales de )
puede aproximarse f
acilmente.
Sin embargo, en aplicaciones especficas no siempre es f
acil determinar si la
aproximaci
on normal es adecuada para el tama
no de muestra dado.
Es conveniente trabajar en terminos de una parametrizaci
on = () tal
que la distribuci
on final de sea m
as parecida a una distribuci
on normal.

asicos

omputo
Aproximaciones
Ejemplo: Distribuci
on Binomial.
Verosimilitud: p(x|) = Bin(x|; n) x (1 )nx
EMV: = x/n
Informaci
on de Fisher: I() = n 1 (1 )1
Distribuci
on final: p(|x) = Beta(|x + a, n x + b)
(1
)/n)
Aproximaci
on normal: p(|x) N (|,
Ejercicio: Supongan que n = 10, x = 1, a = 1 y b = 1. Calculen y comparen
gr
aficamente la aproximaci
on con la verdadera densidad final de .
Ahora consideren la reparametrizaci
on = log{/(1 )}, encuentren
la distribuci
on final de y calculen la correspondiente aproximaci
on
asint
otica.
Comparen gr
aficamente esta aproximaci
on con la verdadera densidad final
de . Cu
al aproximaci
on es mejor?

asicos

omputo
Aproximaciones
Aproximaci
on de Laplace
Supongamos que se desea calcular una integral de la forma
Z
I = q() exp{n h()} d
donde q : IRd IR y h : IRd IR son funciones suaves de .
Supongamos tambien que h() tiene un mnimo en .

El metodo de Laplace aproxima I a traves de
1/2 q()
exp{n h()},
I = (2 /n)d/2 |()|
donde

() =
2 h()
T
1
.

asicos

omputo
Aproximaciones
Proposici
on. Conforme n ,
I = I {1 + O(n1 )}.
Ejemplo: Supongamos que se desea calcular E(g()|x).

Sean q() = g() y h() = n1 log p(|x); es decir, p(|x) = exp{nh()}.
Entonces
(2 /n)d/2 |()|
1/2 p(|x)
E(g()|x) g()
La aproximaci
on de Laplace es particularmente u
til para aproximar
densidades marginales.

asicos

omputo
Aproximaciones
Sea = ( 1 , 2 ), 1 IRd1 y 2 IRdd1 . Supongamos que la distribuci

on
de se puede escribir como
p( 1 , 2 ) q( 1 , 2 ) exp{h( 1 , 2 )}
y que nos interesa calcular la densidad marginal de 1 , i.e.
Z
p( 1 ) q( 1 , 2 ) exp{h( 1 , 2 )} d 2 .
Para cada valor de 1 , definamos q1 ( 2 ) = q( 1 , 2 ) y h1 ( 2 ) = h( 1 , 2 ).
2 =
2 ( 1 ).
Finalmente, supongamos que h1 () tiene un mnimo en
Entonces
2 ( 1 )),
p( 1 ) |( 1 )|1/2 p( 1 ,
2 ( 1 )), con
donde ( 1 ) = 1 (

1 ( 2 ) =
2 h1 ( 2 )
T2 2
1
.

asicos

omputo
Aproximaciones
Ejemplo: Distribuci
on logstica bivariada
p(1 , 2 ) =
2e1 e2
, (1 , 2 ) IR2 .
(1 + e1 + e2 )3
La densidad marginal de 1 es
p(1 ) =
e1
,
(1 + e1 )2
1 IR.
Ejercicio: Calculen la aproximaci

on de Laplace para la densidad
marginal de 1 , tomando q(1 , 2 ) 1 y h(1 , 2 ) = log p(1 , 2 ).

asicos

omputo
Fin de la primera parte

A manera de conclusi
on...
Los siguientes tres aspectos fundamentales caracterizan al enfoque
bayesiano:
Informaci
on inicial: cada problema es u
nico y tiene su propio contexto, del
cual se deriva la informaci
on inicial sobre el par
ametro (o cualquier otra
caracterstica) de interes.
Probabilidad subjetiva: se reconoce explcitamente que toda asignaci
on de
probabilidades es subjetiva (i.e., dependen del estado de informaci
on del
individuo que las asigna). No pretende ser un enfoque objetivo.
Coherencia interna: al considerar a como aleatorio, los metodos bayesianos
de inferencia se desarrollan de manera natural a partir de la teora de la
probabilidad y por lo tanto no presentan contradicciones internas.

asicos

omputo
Muchas gracias por su atencion

asicos

omputo
Muchas gracias por su atencion
La sesion de ma
nana sera mucho mas interesante!

asicos

Foro31 (Dia 1)

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Foro31 (Dia 1)

Cargado por

Copyright:

Formatos disponibles

Intro Inferencia Decisiones C

UNIVERSIDAD NACIONAL AUTONOMA

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Toda la Estadstica es descriptiva!

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Inferencia parametrica y no parametrica

donde p(|) tiene forma conocida pero el valor de es desconocido

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Metodos estadsticos tradicionales

Criterios: suficiencia, insesgamiento, varianza mnima, consistencia,

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Las inferencias pueden tomar la forma de

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Estas inferencias se realizan especificando un modelo probabilstico,

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Si todo esto suena muy bien... Para que otro enfoque?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Si todo esto suena muy bien... Para que otro enfoque?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Para que una Teora Estadstica?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B

Intro Inferencia Decisiones C

Teorema de Bayes. Dados dos eventos A y B tales que Pr(B) > 0,