Está en la página 1de 93

Intro Inferencia Decisiones C

omputo

Estadstica Bayesiana
Teora y Conceptos B
asicos

Eduardo Gutierrez Pe
na

UNIVERSIDAD NACIONAL AUTONOMA


DE MEXICO
Instituto de Investigaciones en Matem
aticas Aplicadas y en Sistemas
eduardo@sigma.iimas.unam.mx
XXXI Foro de Estadstica - Universidad Aut
onoma Chapingo

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Temario
1 Introducci
on
Conceptos fundamentales
M
etodos estadsticos tradicionales
2 Inferencia Estadstica
El enfoque bayesiano
Interpretaci
on subjetiva de la probabilidad
El proceso de aprendizaje
Predicci
on
An
alisis secuencial
El concepto de intercambiabilidad
3 Teora de la Decisi
on
Elementos de un problema de decisi
on
Funci
on de utilidad
Soluci
on bayesiana
Otros criterios
Problemas de decisi
on estadsticos
4 Aspectos Computacionales
Aproximaciones asint
oticas

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Conceptos fundamentales
Que es la Estadstica?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Definiciones de Estadstica
Conjunto de tecnicas para describir un fen
omeno, a partir de un
conjunto de datos que presentan variabilidad.
Conjunto de metodos para alcanzar conclusiones acerca de una o
varias caractersticas de interes de una poblaci
on a partir de
informaci
on parcial provista por una muestra de dicha poblacion.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Ensayemos otra...
De manera muy general, puede decirse que la estadstica es la
disciplina que estudia los fen
omenos inciertos (aleatorios), es decir,
aquellos que no se pueden predecir con certeza.
El estudio se lleva a cabo a partir del posible conocimiento previo
sobre el fen
omeno y de observaciones que se realizan sobre el mismo.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Ensayemos otra...
De manera muy general, puede decirse que la estadstica es la
disciplina que estudia los fen
omenos inciertos (aleatorios), es decir,
aquellos que no se pueden predecir con certeza.
El estudio se lleva a cabo a partir del posible conocimiento previo
sobre el fen
omeno y de observaciones que se realizan sobre el mismo.

Variabilidad o incertidumbre?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Toda la Estadstica es descriptiva!


*
Caso A: se cuenta con todos los datos posibles del fenomeno bajo
estudio (e.g. censos)
Descripci
on: Exacta An
alisis Exploratorio de Datos
Caso B: se cuenta solamente con una parte de todos los datos
posibles (e.g. encuestas)
Descripci
on: Aproximada Inferencia Estadstica

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

En este u
ltimo caso,

Pero...

c
omo seleccionar la muestra?
c
omo medir el grado de aproximaci
on?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Soluci
on:
Selecci
on probabilstica de la muestra (i.e. por sorteo)

x
Dato

X
Variable (aleatoria)

Pr[X = x]
Modelo de probabilidad

As,
Describir el fen
omeno Describir el modelo

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Inferencia parametrica y no parametrica


- En ocasiones resulta conveniente suponer que
Pr[X = x] = p(x|)

(si X es discreta)

donde p(|) tiene forma conocida pero el valor de es desconocido


As,
Describir el fen
omeno Caracterizar el valor de
- En otros casos, la propia forma funcional de Pr[X = x] se supone
desconocida
A fin de cuentas... que es un modelo?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Metodos estadsticos tradicionales


Planteamientos m
as comunes de la Estadstica cl
asica:
- Estimaci
on puntual:

- Estimaci
on por intervalo: (, )
- Prueba de hip
otesis: H0 : 0 vs H1 : 1

Criterios: suficiencia, insesgamiento, varianza mnima, consistencia,


eficiencia, confianza, significancia, potencia,...

C
omo y cu
ando aplicar cada receta?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Veamos un ejemplo...
Problema: hacer inferencias sobre la proporci
on de individuos de una
poblaci
on determinada que sufren de cierta enfermedad.
Se selecciona una muestra aleatoria de individuos, de manera que
cada individuo en la muestra sufra de la enfermedad con probabilidad
independientemente de los otros individuos en la muestra ( denota
la proporci
on de individuos enfermos en la poblaci
on).
La variable aleatoria X denota el n
umero de individuos enfermos en
la muestra.
El valor observado X = x es usado para hacer inferencias acerca del
par
ametro (caracterstica poblacional) .

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Las inferencias pueden tomar la forma de


un estimador puntual : = 0.1
un intervalo de confianza: (0.08,0.12) con 95 % de confianza
una prueba de hip
otesis: rechazar H0 : < 0.07 con = 0.05
un pron
ostico: predecir cu
antos individuos sufriran de la
enfermedad el a
no pr
oximo
una decisi
on: aplicar un nuevo tratamiento a los individuos que
padecen la enfermedad

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Estas inferencias se realizan especificando un modelo probabilstico,


p(x|), que determina las probabilidades de los posibles valores de X
para un valor dado de , e.g.
X Bin(, n),
de manera que el problema de inferencia estadstica se reduce a hacer
inferencias sobre con base en el valor observado X = x.

Principio de M
axima Verosimilitud : valores de que asignan una
probabilidad alta al valor observado x son m
as verosmiles que
aquellos valores de que asignan a x una probabilidad peque
na.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Si todo esto suena muy bien... Para que otro enfoque?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fundamentos M
etodos cl
asicos

Si todo esto suena muy bien... Para que otro enfoque?


Notemos lo siguiente:
El par
ametro es desconocido, pero se considera constante, no
aleatorio.
De ah que en la terminologa cl
asica se hable de verosimilitud,
confianza, nivel de significancia, etc., y no de probabilidad.
Sin embargo, es com
un que la gente interprete intuitivamente a un
intervalo de confianza del 95 % para , digamos (0.08, 0.12), como si
Pr(0.08 < < 0.12) = 0.95.
De manera similar, no es raro que la gente interprete el nivel de
significancia descriptivo (p-value) como la probabilidad de que la
hip
otesis nula sea verdadera.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

El enfoque bayesiano

Idea: dise
nar una Teora Estadstica, basada en una peque
na serie de
principios b
asicos, que nos permita estructurar la solucion a cualquier
problema de inferencia.
La va: la Teora de la Decisi
on

Para que una Teora Estadstica?


- Para darle a la Estadstica una estructura coherente
- Porque con otros enfoques pueden presentarse casos en los que:
(i) no hay una soluci
on razonable; (ii) se presentan paradojas.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Teorema de Bayes. Dados dos eventos A y B tales que Pr(B) > 0,


Pr(A|B) =

Pr(B|A) Pr(A)
.
Pr(B)

Si {Ai : i = 1, 2, . . . , M } es un conjunto exhaustivo de eventos


mutuamente excluyentes, entonces
Pr(B|Ai ) Pr(Ai )
Pr(Ai |B) = PM
.
j=1 Pr(B|Aj ) Pr(Aj )
Ejemplo. Pruebas de diagn
ostico.
- Se desarrolla una nueva prueba para detectar el VIH con una
sensitividad de 95 % y una especificidad del 98 %.
- En una poblaci
on con una prevalencia de VIH de 1/1000, cual
es la probabilidad de que una persona cuya prueba resulta
positiva realmente tenga el VIH?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Sean
A = la persona tiene VIH y Ac = la persona no tiene VIH
B = la prueba resulta positiva
- Sensitividad de 95 % significa que Pr(B|A) = 0.95
- Especificidad de 98 % significa que Pr(B c |Ac ) = 0.98
Queremos calcular Pr(A|B). El Teorema de Bayes nos dice que
Pr(A|B) =

Pr(B|A) Pr(A)
.
Pr(B|A) Pr(A) + Pr(B|Ac ) Pr(Ac )

Es decir,
Pr(A|B) =

0.95 0.001
= 0.045
(0.95 0.001) + (0.02 0.999)

M
as del 95 % de las personas cuya prueba resulta positiva
en realidad no tienen el VIH!
XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Discusi
on
Nuestra intuici
on no es suficientemente buena al procesar
evidencia probabilstica.
El punto crucial es de que manera el resultado de la prueba debe
cambiar mis juicios sobre el evento de que la persona tenga VIH?
La prevalencia de VIH puede pensarse como la probabilidad a
priori que describe nuestros juicios sobre el evento de que la
persona tenga VIH antes de conocer el resultado de la prueba:
Pr(A) = 0.001.
Al observar un resultado positivo, nuestros juicios cambian y la

probabilidad del evento se modifica: Pr(A|B) = 0.045. Esta


es la
probabilidad a posteriori que describe nuestros juicios sobre la
ocurrencia de A despues de conocer el resultado de la prueba.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Reformulaci
on del Ejemplo
Sea un par
ametro que toma el valor 1 si la persona tiene el VIH y el
valor 0 si no lo tiene.
Sea X una variable aleatoria que toma el valor 1 si la prueba resulta
positiva y el valor 0 en caso contrario.
Sabemos que
Pr(X = 1| = 1) = 0.95

Pr(X = 0| = 1) = 0.05

Pr(X = 1| = 0) = 0.02

Pr(X = 0| = 0) = 0.98

y
Pr( = 1) = 0.001

Pr( = 0) = 0.999

Entonces
Pr( = 1|X = 1) = 0.045

XXXI Foro de Estadstica

Pr( = 0|X = 1) = 0.955

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Si la prueba resulta positiva (es decir, si X = 1):


- El estimador de m
axima verosimilitud es = 1 debido a que
Pr(X = 1| = 1) = 0.95 y Pr(X = 1| = 0) = 0.02
- Al probar las hip
otesis H0 : = 0 vs H1 : = 1, usando la
estadstica de prueba X, el p-valor es 0.02.
Esto se debe a que
Pr(X = 0| = 0) = 0.98 y Pr(X = 1| = 0) = 0.02
lo que llevara a rechazar H0 si se utilizara un nivel de
significancia del 0.05.
En cualquier caso, la conclusi
on es que la persona tiene VIH.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Por otro lado, como se mencion


o anteriormente, el Teorema de Bayes
nos dice que
Pr( = 1|X = 1) =

Pr(X = 1| = 1) Pr( = 1)
Pr(X = 1)

Es decir,
Pr( = 1|X = 1) =

0.95 0.001
= 0.045
0.021

Por lo tanto, en contra de la conclusi


on obtenida usando los metodos
tradicionales, el an
alisis desde el punto de vista bayesiano indica que
es mucho m
as probable que la persona no tenga VIH a pesar de que
la prueba result
o positiva.

A que se debe esta discrepancia?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Discusi
on

El uso del Teorema de Bayes en pruebas de diagnostico es


bastante com
un y no causa controversias.

Mucho m
as controversial es el uso del Teorema de Bayes en
an
alisis estadsticos generales, en los que los parametros son
las cantidades desconocidas de interes y por lo tanto se
requiere especificar probabilidades sobre sus valores.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Diferencias
Inferencia estadstica tradicional :
Que nos dicen los datos X acerca del par
ametro ?
(Ignora toda evidencia externa)
Inferencia bayesiana:
C
omo cambian nuestros juicios originales acerca del valor de la
cantidad desconocida a la luz de los datos X?
(Puede tomar en cuenta cualquier evidencia externa)

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

En general tenemos:
(1) Datos, X; y
(2) Cantidades desconocidas, , cuyo valor nos interesa.
Las cantidades desconocidas descritas por pueden ser: par
ametros del
modelo, observaciones faltantes, mediciones que no podemos observar
directamente o con suficiente precisi
on, etc.

Como estadsticos, postulamos un modelo de probabilidad


p(x|)
Desde el punto de vista bayesiano, adem
as,
debe tener una distribuci
on de probabilidad, p(), que refleje
nuestra incertidumbre inicial acerca de su valor.
X es conocido, as que debemos condicionar en su valor
observado, x.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Por lo tanto, nuestro conocimiento acerca del valor de queda


descrito a traves de su distribuci
on final
p(|x)
El Teorema de Bayes nos dice c
omo encontrarla:
p(|x) = R

p() p(x|)
p() p(x|) d

*
El Teorema de Bayes es la clave del proceso de aprendizaje.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Interpretacion subjetiva de la probabilidad


C
omo debe interpretarse la probabilidad?
Existen por lo menos tres interpretaciones:
Cl
asica: basada en ciertas simetras o en propiedades fsicas de
objetos tales como dados, cartas de una baraja, bolas dentro de
una urna, etc.
Frecuentista: basada en el lmite de frecuencias relativas de
eventos repetibles bajo condiciones similares.
Subjetiva: refleja juicios personales acerca de eventos u
nicos.
Un ejemplo...
Cu
al es la probabilidad que t
u asignaras en este momento al evento
A = El PRI ganar
a las elecciones presidenciales en el 2018?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

- Quiere decir esto que podemos reportar cualquier n


umero que
queramos?
No! Las probabilidades que asignemos deben ser coherentes,
i.e., deben obedecer las leyes de la probabilidad. Ademas, deben
reflejar honestamente nuestro estado de conocimiento.
Para ser tomadas en serio, las probabilidades que asignemos
deben tener relaci
on con la realidad. Usualmente estas
probabilidades son asignadas por expertos y/o con base en
informaci
on (muestral) previa.
Ejemplo:
Preguntas de opci
on m
ultiple

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Al hacer inferencias sobre un par


ametro , generalmente se cuenta con
alg
un tipo de informaci
on (juicios, creencias) acerca de su valor,
incluso antes de observar los datos.
Consideremos las siguientes tres situaciones:
Una mujer afirma que puede detectar, con un solo sorbo de una
taza de cafe, si la leche fue agregada antes o despues del cafe. La
mujer detecta correctamente el orden en diez tazas.
Un experto en m
usica afirma que puede distinguir entre una
p
agina de una obra de Hayden y una de Mozart. El experto
clasifica correctamente diez p
aginas.
Un amigo ebrio afirma que puede predecir el resultado del
lanzamiento de una moneda honesta. El amigo predice
correctamente el resultado de diez lanzamientos.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

En cada uno de los tres casos, el modelo es X Bin(, 10) y se


observa x = 10, de manera que se rechaza la hip
otesis H0 : 0.5
en favor de H1 : > 0.5.
Por lo tanto, en terminos de los datos observados, nos veramos
obligados a hacer las mismas inferencias en los tres casos.
Sin embargo, dada nuestra informaci
on inicial, muy probablemente
permaneceramos escepticos acerca de la capacidad del amigo ebrio,
ligeramente impresionados por la bebedora de cafe y solo un poco
sorprendidos por el experto en m
usica.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

El ejemplo anterior muestra que las inferencias deben basarse tanto


en los datos como en la informaci
on inicial, incluso si esta es de
naturaleza subjetiva.
La teora bayesiana proporciona el mecanismo para combinar estas
dos fuentes de informaci
on de una manera natural.
Como consecuencia, y a diferencia de los metodos cl
asicos, no es
necesario desarrollar criterios ad hoc (por ejemplo, insesgamiento,
potencia) para juzgar si un procedimiento determinado es bueno
en alg
un sentido.

Distintas distribuciones iniciales pueden dar lugar a inferencias distintas.


Es esto una ventaja o una desventaja del enfoque bayesiano?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

El precio adicional que hay que pagar es la especificacion de una


distribuci
on de probabilidad sobre que describa la informacion
que se tiene sobre su valor.
Cabe mencionar que los procedimientos cl
asicos tambien se basan
(implcitamente) en apreciaciones subjetivas (Por que un modelo
normal?, Por que = 0.05?)

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

El proceso de aprendizaje
Los cuatro pasos a seguir dentro del enfoque bayesiano:
1

Especificaci
on de un modelo muestral, p(x|)

Especificaci
on de una distribuci
on inicial, p()

C
alculo de la distribuci
on final, p(|x), va el Teorema de Bayes

Resumen de la informaci
on contenida en p(|x) para hacer
inferencias sobre las cantidades de interes (par
ametros,
observaciones futuras, etc.)

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Modelo muestral

EB PS PA DP AS CI

(Verosimilitud)

El problema de elegir un modelo para describir el proceso que


gener
o los datos es esencialmente el mismo que desde el punto de
vista cl
asico.
El modelo elegido depender
a del problema en turno y del proposito
del an
alisis.
En ocasiones, la forma en la que se obtuvieron los datos puede sugerir
modelos apropiados como punto de partida (e.g., muestreo binomial,
conteos Poisson).
Con frecuencia, el modelo refleja una hip
otesis cuya plausibilidad es
verificada posteriormente en el contexto de los datos (e.g., Y y X se
relacionan linealmente entre s).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Modelo muestral

EB PS PA DP AS CI

(Verosimilitud)

El problema de elegir un modelo para describir el proceso que


gener
o los datos es esencialmente el mismo que desde el punto de
vista cl
asico.
El modelo elegido depender
a del problema en turno y del proposito
del an
alisis.
En ocasiones, la forma en la que se obtuvieron los datos puede sugerir
modelos apropiados como punto de partida (e.g., muestreo binomial,
conteos Poisson).
Con frecuencia, el modelo refleja una hip
otesis cuya plausibilidad es
verificada posteriormente en el contexto de los datos (e.g., Y y X se
relacionan linealmente entre s).
Todos los modelos son incorrectos, pero algunos modelos son mas
u
tiles que otros. (George E.P. Box )

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Distribuci
on inicial
Este es un aspecto fundamental del enfoque bayesiano.
El an
alisis es subjetivo dado que depende del conocimiento que el
investigador tiene antes de observar los datos (y que describe a traves
de su distribuci
on inicial).
Sin embargo, si la distribuci
on inicial es razonable, su efecto sobre las
inferencias disminuye conforme se tienen m
as datos.
En ocasiones tenemos una idea vaga de la forma que debera tener la
distribuci
on inicial. Tal vez incluso somos capaces de asignar valores,
por ejemplo, a su media y su varianza, pero no podemos ser mas
precisos.
En estos casos es com
un usar una distribuci
on inicial consistente con
nuestra informaci
on pero cuya forma sea conveniente, e.g. tal que de
lugar a an
alisis m
as sencillos.
( Familias conjugadas)

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

En otros casos puede considerarse que no se tiene informacion inicial


sobre el valor del par
ametro (o, por alg
un motivo, no es deseable
incluir nuestra informaci
on inicial en el an
alisis).
En estas situaciones nos gustara poder utilizar una distribucion
inicial que refleje nuestra ignorancia acerca del valor del parametro.
En terminos generales siempre es posible encontrar este tipo de
distribuciones iniciales no-informativas.
Sin embargo, excepto en modelos relativamente simples, esta labor es
complicada y no est
a exenta de problemas.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Distribuci
on final
En terminos de variables aleatorias, el Teorema de Bayes toma la
forma
p()p(x|)
.
p(|x) = R


p()p(x|
)d
R

,
no depende de , por lo que
El denominador, p(x) = p()p(x|
)d
es com
un escribir
p(|x) p()p(x|).
* En la pr
actica, el c
alculo de la distribuci
on final puede ser un asunto
complicado, especialmente si la dimensi
on del par
ametro no es peque
na.
* Sin embargo, para ciertas combinaciones de distribuciones iniciales y
verosimilitudes es posible simplificar el an
alisis.
( Familias conjugadas)
* En otros casos se requieren aproximaciones analticas y/o tecnicas
computacionales relativamente sofisticadas.
( Sesi
on de ma
nana!)

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Inferencia
El enfoque bayesiano proporciona inferencias m
as completas en el
sentido de que toda la informaci
on disponible sobre el valor de
queda representada a traves de la distribuci
on final.
Es decir, desde el punto de vista bayesiano, el problema de inferencia
se reduce a encontrar p(|x): la distribuci
on final es la inferencia.
La u
nica receta de la Inferencia Bayesiana. . .
. . .consiste en encontrar la distribuci
on condicional de todas aquellas
cantidades de interes cuyo valor desconocemos dado el valor conocido
de las variables observadas.
Por supuesto, en la pr
actica generalmente es deseable resumir este tipo de
inferencias en la forma de una estimaci
on puntual, una estimaci
on por
intervalo, una prueba de hip
otesis, etc.
Ejemplo: eliminaci
on de par
ametros de ruido.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Robustez
- En Estadstica, independientemente del enfoque que se utilice, es
importante entender hasta que punto el modelo usado es robusto
antes posibles violaciones a los supuestos.
- Lo anterior tambien es cierto dentro del enfoque bayesiano en lo
que se refiere a la especificaci
on de la distribucion inicial.
- En ocasiones el modelo es tal que las inferencias no se modifican
sustancialmente ante cambios moderados en la distribucion final.
Esto ocurre, por ejemplo, cuando el tama
no de la muestra es
suficientemente grande.
- En otros casos, sin embargo, puede ocurrir que incluso cambios
aparentemente insignificantes en la distribuci
on inicial produzcan
inferencias completamente distintas.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Algunos autores sugieren que, en la pr


actica, es conveniente comparar los
resultados de los an
alisis derivados de por lo menos tres distribuciones
iniciales distintas:
- Una distribuci
on inicial no-informativa
- Una distribuci
on inicial (tentativa) que refleje los aspectos m
as
importantes nuestra informaci
on inicial
- Una distribuci
on inicial (tal vez artificialmente) m
as informativa
La idea es que, si las inferencias no son muy distintas en cada uno de estos
casos, el an
alisis (dados los datos observados) ser
a relativamente robusto en
lo que se refiere a la elecci
on de la distribuci
on inicial. No ser
a necesario
entonces preocuparse demasiado por especificar una distribuci
on inicial con
mucha precisi
on.
En caso contrario, es importante hacer el esfuerzo necesario para especificar
una distribuci
on que refleje genuinamente nuestra informaci
on inicial.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Un ejemplo simple de inferencia bayesiana (distribucion Binomial)


- Datos: x exitos en n ensayos independientes, cada uno con
probabilidad de exito .
Por ejemplo, puede representar la tasa de respuesta ante cierta
dosis de una sustancia t
oxica, y x el n
umero de individuos, de un
total de n expuestos, que presentan efectos adversos.

- Funci
on de verosimilitud:
 
n x
p(x|) = Bin(x|; n) =
(1 )nx x (1 )nx
x

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

- Distribuci
on inicial:
p() = Beta(|a, b) =

(a + b) a1

(1 )b1 a1 (1 )b1
(a)(b)

- Distribuci
on final:
p(|x) p() p(x|)
x+a1 (1 )nx+b1
Beta(|x + a, n x + b)
Notemos que tanto la distribuci
on inicial como la final son Beta.
En este caso se dice que la familia de distribuciones Beta es
conjugada para el modelo Binomial.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Supongamos que, dada la informaci


on inicial disponible, se determina
que E() = 0.40 y que Pr( > 0.54) = 0.10
Esto implica que a = 9.2 y b = 13.8
Interpretaci
on: esta informaci
on inicial es equivalente a la de una
muestra de tama
no a + b = 23 en la que se obtuvieron a = 9.2 exitos.

Para la distribuci
on Beta(a, b) se sabe que la media esta dada por
m = a/(a + b) y la varianza por s2 = m(1 m)/(a + b + 1)
Entonces, a priori, la media de es m = 0.40 y la desviacion estandar
es s = 0.1

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Supongamos ahora que, al realizar un experimento con n = 20


individuos expuestos, observamos x = 15 individuos afectados.
Desglose de la informaci
on

Exitos
Fracasos
Total

Inicial
9.2
13.8
23

Datos
15
5
20

Final
24.2
18.8
43

La media y la desviaci
on est
andar de la distribuci
on final de estan
dadas por E(|x) = 0.563 y sd(|x) = 0.075, respectivamente.
Notemos que Pr( > 0.54|x) = 0.62

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

XXXI Foro de Estadstica

EB PS PA DP AS CI

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Caso no informativo
Supongamos que no se tiene o no se desea utilizar la informacion
inicial.
Esto se puede especificar a traves de una distribuci
on inicial
uniforme, lo que implica que a = b = 1.
En este caso, con x = 15 individuos afectados de un total de n = 20
individuos expuestos, tenemos:
Desglose de la informaci
on

Exitos
Fracasos
Total

XXXI Foro de Estadstica

Inicial
1
1
2

Datos
15
5
20

Final
16
6
22

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

La media y la desviaci
on est
andar de la distribuci
on final de estan
dadas por E(|x) = 0.727 y sd(|x) = 0.093, respectivamente.
Por otro lado, la moda de la distribuci
on final es igual a 0.75, valor
que coincide con el estimador de m
axima verosimilitud para en este
caso.
Cabe hacer notar que en este caso Pr( > 0.54|x) = 0.97
Supongamos ahora que estamos interesados en probar la hipotesis
H0 : 0.40. Entonces, la probabilidad Pr( 0.40|x) = 0.0008
puede usarse para determinar que los datos no apoyan esta hipotesis
nula.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

XXXI Foro de Estadstica

EB PS PA DP AS CI

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Distribucion predictiva

Hasta el momento s
olo hemos discutido el problema de hacer
inferencias acerca del valor desconocido de un par
ametro.
En muchas situaciones, sin embargo, el prop
osito de formular un
modelo estadstico es hacer predicciones sobre el valor de una o
m
as observaciones futuras.
Este problema se resuelve de manera m
as elegante desde el punto de
vista bayesiano que desde el punto de vista cl
asico.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Al hacer inferencias predictivas sobre el valor de una observacion


futura con base en un modelo, deben tomarse en cuenta dos fuentes
de incertidumbre:
- Incertidumbre sobre el valor del par
ametro (sobre el cual se
pueden hacer inferencias con base en la distribucion final).
- Incertidumbre por el hecho de que cualquier observacion futura
es aleatoria en s misma (a
un si conocieramos el verdadero valor
del par
ametro, no podramos predecir con certeza el valor de una
observaci
on futura).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Dentro del enfoque cl


asico de la Estadstica, es com
un ajustar el

modelo con base en los datos (obteniendo un estimador puntual ),


como si
y entonces hacer predicciones con base en el modelo p(x|)
este fuera el modelo verdadero.
De esta manera, se ignora completamente la primera fuente de
incertidumbre, lo que produce predicciones que aparentan ser mas
precisas de lo que realmente son.
En contraste, el enfoque bayesiano toma en cuenta las dos fuentes de
incertidumbre de manera natural.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Distribuci
on predictiva
Supongamos que tenemos una muestra observada x = (x1 , . . . , xn )0
de p(x|) y que se desea hacer inferencias acerca del valor futuro de
Y = Xn+1 .
Dada una distribuci
on inicial p(), el Teorema de Bayes produce la
distribuci
on final p(|x).
Siguiendo la
unica receta de la inferencia bayesiana, debemos
entonces encontrar la distribuci
on condicional de Y dado el valor
observado de x.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Dicha distribuci
on est
a dada por
Z
p(y|x) =
p(y|, x)p(|x) d
Z
=
p(y|)p(|x) d
= Ep(|x) [p(y|)]
y se conoce como la distribuci
on predictiva (final).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Continuaci
on del ejemplo (distribuci
on Binomial)
- Supongamos que estamos considerando detener el estudio si por lo
menos 25 de 40 nuevos individuos tratados presentan efectos adversos.
Con base en la informaci
on disponible, Cu
al es la probabilidad de
que detengamos el estudio?
- Estamos considerando observar n ensayos adicionales y nos interesa
predecir el n
umero de exitos, X , en esos n ensayos.
La distribuci
on predictiva (final) es Binomial-Beta:
 
n (n + a + b)(x + x + a)(n x + n x + b)
p(x |x) =
.
(x + a)(n x + b)(n + n + a + b)
x
- Esta distribuci
on tiene media E(X |x) = 22.5 y desviacion estandar

sd(X |x) = 4.3. Adem


as, es tal que Pr(X 25|x) = 0.33.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Recapitulando...
Modelo de probabilidad p( x | ),

Informaci
on inicial p()
Muestra x = ( x1 , x2 , . . . , xn )
Distribuci
on final p( | x)
Inferencias a posteriori
Estimaci
on
Puntual

Prueba de Hip
otesis
Intervalo

XXXI Foro de Estadstica

Predicci
on p( xn+1 | x)
Puntual

Intervalo

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Analisis secuencial
Hemos visto que el Teorema de Bayes proporciona el mecanismo
para actualizar nuestro estado de informaci
on, llev
andonos de la
distribuci
on inicial a la distribuci
on final.
Esta distribuci
on final se convierte entonces en la nueva distribucion
inicial antes de observar nuevos datos.
Dado p(), supongamos que observamos X1 = x1 de la densidad
p(x|). Por el Teorema de Bayes,
p(|x1 ) p() p(x1 |).

Esta
es nuestra nueva distribuci
on inicial antes de observar X2 = x2
de la densidad p(x|), condicionalmente independiente de X1 .

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Aplicando de nuevo el Teorema de Bayes, obtenemos


p(|x1 , x2 )

p(|x1 )p(x2 |, x1 )

{ p() p(x1 |) } p(x2 |)

p() p(x1 , x2 |).

Este
es el mismo resultado que hubiesemos obtenido de haber
actualizado de un solo golpe la distribuci
on inicial p() con base
en la muestra completa {x1 , x2 }.
Este argumento puede extenderse, por inducci
on, a cualquier n
umero
de observaciones.
Los procedimientos cl
asicos de an
alisis secuencial no necesariamente
son coherentes en este sentido.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

El concepto de intercambiabilidad
Definici
on. Las variables aleatorias X1 , . . . , Xn son (finitamente)
intercambiables bajo una medida de probabilidad P si la distribucion
inducida por P satisface
p(x1 , . . . , xn ) = p(x(1) , . . . , x(n) )
para toda permutaci
on definida sobre el conjunto {1, 2, . . . , n}.
- En otras palabras, las etiquetas que identifican a cada una
de las variables no proporcionan informaci
on alguna.
- Si las variables aleatorias X1 , . . . , Xn son independientes e
identicamente distribuidas entonces son intercambiables.
- Sin embargo, X1 , . . . , Xn pueden ser intercambiables sin ser
independientes.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Definici
on. La sucesi
on infinita de variables aleatorias X1 , X2 , . . .
es (infinitamente) intercambiable si toda subsucesi
on finita es
intercambiable en el sentido de la definici
on anterior.
- El concepto de intercambiabilidad es fundamental en la construcci
on
de los modelos jer
arquicos que discutiremos en la sesi
on de ma
nana.
- El siguiente teorema, que presentaremos en su forma m
as simple,
permite integrar en un paradigma unificado los conceptos
estadsticos frecuentistas asociados a modelos parametricos con el
concepto de probabilidad como grado de creencia (interpretaci
on
subjetiva).
- El resultado proporciona una justificaci
on del enfoque Bayesiano.
- Otra justificaci
on la proporciona la Teora de la Decisi
on, que
discutiremos m
as adelante.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Teorema de Representaci
on (Bruno de Finetti)
Si X1 , X2 , . . . es una sucesi
on infinita de variables aleatorias definidas
sobre {0, 1}, intercambiables con respecto a la medida de probabilidad
P , entonces existe una distribuci
on Q tal que la distribucion conjunta
p(x1 , . . . , xn ) tiene la forma
)
Z 1 (Y
n
1xi
xi
(1 )
dQ(),
p(x1 , . . . , xn ) =
0

i=1

donde Q() = lmn Pr(Yn /n ), con Yn = X1 + + Xn , y


= lmn Yn /n (c. s.).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

El Teorema de Representaci
on tiene un significado muy profundo desde el
punto de vista de la modelaci
on subjetiva.
El resutaldo nos dice que el modelo predictivo para una sucesi
on
intercambiable de variables aleatorias binarias puede ser descrito en
terminos de una situaci
on en la que:
(i) condicional en el valor de una variable aleatoria, , las variables
aleatorias Xi se consideran independientes con distribuci
on Bernoulli;
(ii) a se le asigna una distribuci
on de probabilidad Q.
Por la Ley de los Grandes N
umeros, = lmn Yn /n (c. s.), de manera
que Q puede interpretarse como una descripci
on de los juicios acerca del
lmite de la frecuencia relativa de los exitos en una sucesi
on de ensayos
Bernoulli.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

EB PS PA DP AS CI

Corolario. Si X1 , X2 , . . . es una sucesi


on infinita de variables aleatorias
definidas sobre {0, 1} e intercambiables con respecto a la medida de
probabilidad P , entonces
)
Z 1( Y
n
xi
1xi
(1 )
dQ(|x1 , . . . , xm )
p(xm+1 , . . . , xn |x1 , . . . , xm ) =
0

i=m+1

donde 1 m < n,
Qm
dQ(|x1 , . . . , xm ) = Z

xi (1 )1xi

dQ()

xi
1xi
dQ()
i=1 (1 )

i=1

(1)

Qm
0

y Q() = lmn Pr(Yn /n ).


- La expresi
on (1) no es m
as que una versi
on del Teorema de Bayes.
- Notemos que la forma de la representaci
on no cambia.
- En la terminologa usual, la distribuci
on inicial Q() ha sido actualizada
a trav
es del T. de Bayes, obteni
endose la distribuci
on final Q(|x1 , . . . , xm ).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Teora de la decision
- Nos hallamos frente a un problema de decisi
on cuando debemos
elegir entre dos o m
as formas de actuar.
La mayor parte de nuestras decisiones cotidianas son triviales
(e.g. elegir una pelcula para el fin de semana).
En otras ocasiones, las consecuencias de nuestras decisiones pueden
ser muy importantes y deben ser consideradas cuidadosamente antes
de llegar a una conclusi
on (e.g. elegir una carrera).

- Nuestro interes aqu no es describir c


omo la gente toma
decisiones, sino c
omo debera tomarlas si quiere ser coherente.
- Cualquier problema de inferencia estadstica puede en principio
ser visto como un problema de decisi
on.
Una teora de la decisi
on racional nos permitira producir una teora
estadstica que no presente contradicciones internas.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Elementos de un problema de decisi


on en ambiente de incertidumbre
A = {a1 , . . . , ak } : Conjunto de acciones potenciales
Debe definirse de manera que sea exhaustivo (i.e. que agote todas las
posibilidades que en principio parezcan razonables) y excluyente (i.e.
que la elecci
on de uno de los elementos de A excluya la elecci
on de
cualquier otro).

E = {E1 , . . . , Em } : Conjunto de eventos


Contiene todos los eventos relevantes al problema de decisi
on.

C = A E : Conjunto de consecuencias posibles


Describe las consecuencias de elegir una acci
on a A cuando ocurre
un evento E E. Por lo tanto podemos escribir c = (a, E).

 : Relaci
on de preferencia entre las distintas consecuencias
Se define de manera que c1  c2 si c1 no es preferible a c2 (c1 , c2 C).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Es posible representar la estructura del problema de decision


mediante un
arbol de decisi
on.
Por ejemplo, en el caso m
as simple:

Tanto el conjunto de acciones como el de eventos relevantes puede contener


un n
umero infinito de elementos.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

En general, el conjunto de eventos relevantes puede ser distinto para


cada una de las acciones potenciales ai , en cuyo caso lo denotamos
por Ei = {Ei1 , , Eimi }
La idea es producir un criterio para elegir la mejor accion, tomando
en cuenta nuestras preferencias sobre las posibles consecuencias
as como nuestra incertidumbre sobre los eventos en E.
La teora bayesiana se basa en Axiomas de Coherencia que describen
intuitivamente lo que debe entenderse por comportamiento racional.
Por ejemplo:
- Comparabilidad : para cada para de consecuencias c1 y c2 en C,
una y s
olo una de las siguiente condiciones puede ser cierta:
c1 c2 , c1  c2
o c1 c2
- Transitividad : si c1  c2 y c2  c3 entonces c1  c3

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Probabilidad y utilidad
De los axiomas se deriva lo siguiente:
La informaci
on que el decisor tiene sobre la verosimilitud de los
distintos eventos relevantes al problema de decision debe ser
cuantificada a traves de una medida de probabilidad.
De la misma manera, las preferencias del decisor entre las
distintas consecuencias debe de cuantificarse a traves de una
funci
on de utilidad.
A cada una de las consecuencias c se le asigna un n
umero u(c)
que mide la utilidad que c tiene para el decisor, de manera tal
que
ci  cj si y s
olo si u(ci ) u(cj ).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Solucion bayesiana
Maximizaci
on de la utilidad esperada
El resultado fundamental de la teora bayesiana de decisiones en
ambiente de incertidumbre establece que debe elegirse aquella
acci
on ai tal que
u
(ai ) = m
ax u
(ai )
i

donde
u
(ai ) =

m
X

u(ai , Ej ) Pr(Ej )

(i = 1, . . . , k)

j=1

denota la utilidad esperada de la acci


on ai .
Equivalentemente, la mejor acci
on es la que minimiza la perdida esperada

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Otros criterios
Se han propuesto otras formas de resolver problemas de decision en
ambiente de incertidumbre. Aqu describiremos dos de ellas.
Notemos que si el conjunto de eventos relevantes es el mismo para
cada una de las acciones, entonces el problema de decision puede
representarse de manera conveniente mediante una tabla como la
siguiente:
Pr(E)
u(a, E)
a1
a2
..
.
ak

Pr(E1 )
E1
u(a1 , E1 )
u(a2 , E1 )
..
.

Pr(E2 )
E2
u(a1 , E2 )
u(a2 , E2 )
..
.

...
...
...
...
..
.

Pr(Em )
Em
u(a1 , Em )
u(a2 , Em )
..
.

u(ak , E1 ) u(ak , E2 ) . . .

u(ak , Em )

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Criterio maximin

Elementos PyU Soluci


on Otras Estadstica

(Criterio minimax en caso de funciones de perdida)

Sea
um (ai ) = mn u(ai , Ej )
j

(i = 1, . . . , k).

El criterio maximin consiste entonces en elegir aquella accion ai


tal que
um (ai ) = m
ax um (aj ).
j

Criterio condicional

(Criterio de la consecuencia m
as probable)

Sea Ej tal que Pr(Ej ) = m


axj Pr(Ej ) y definamos
up (ai ) = u(ai , Ej )

(i = 1, . . . , k).

El criterio de la consecuencia m
as probable consiste en elegir la
acci
on ai tal que
up (ai ) = m
ax up (ai ).
i

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Ejemplo. Al prepararse para el examen final, un estudiante debe decidir


entre repasar con mucho detalle una de las dos partes de su curso, o
repasar con menos detalle las dos partes.
El estudiante juzga que lo m
as probable es que el examen contenga m
as
preguntas de la segunda parte. Analizaremos este problema de acuerdo a
los distintos criterios de decisi
on mencionados antes.
Espacio de acciones: A = {a1 , a2 , a3 }
a1 = Repasar con detalle la primera parte
a2 = Repasar con detalle la segunda parte
a3 = Repasar todo el curso con menos detalle
Conjunto de eventos relevantes al problema: E = {E1 , E2 , E3 }
E1 = El examen contiene m
as preguntas de la primera parte
E2 = El examen contiene m
as preguntas de la segunda parte
E3 = El examen est
a equilibrado

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Una tabla de utilidades razonable sera entonces del tipo


Pr(E)
u(a, E)
a1
a2
a3

p
E1
0.9
0.2
0.6

q
E2
0.2
0.9
0.6

1pq
E3
0.5
0.5
0.7

Por hip
otesis Pr(E2 ) > Pr(E1 ) y Pr(E2 ) > Pr(E3 ).
Criterio maximin:
En este caso um (a1 ) = 0.2, um (a2 ) = 0.2 y um (a3 ) = 0.6, por lo que el
criterio maximin recomienda elegir a3 .
Criterio condicional :
Dado que q > p y q > 1 p q, tenemos que up (a1 ) = 0.2, up (a2 ) = 0.9
y up (a3 ) = 0.6. Por lo tanto, el criterio condicional recomienda elegir a2 .

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Criterio de la utilidad esperada m


axima:
u
(a1 ) =
=
u
(a2 ) =
=
u
(a3 ) =
=

0.9 p + 0.2q + 0.5(1 p q)


0.5 + 0.4p 0.3q
0.2p + 0.9q + 0.5(1 p q)
0.5 0.3p + 0.4q
0.6p + 0.6q + 0.7(1 p q)
0.7 0.1p 0.1q

Por ejemplo,
Si p = 0.33 y q = 0.50 entonces la mejor acci
on es a3 .
mientras que
Si p = 0.33 y q = 0.60 entonces la mejor acci
on es a2 .

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Problemas de decision estadsticos


En el contexto de la Estadstica, los elementos de un problema de
decisi
on en ambiente de incertidumbre son los siguientes:
El espacio de acciones potenciales disponibles: A
El espacio parametral, que contiene los posibles estados de
la naturaleza:
El espacio de las consecuencias: C = A
Recordemos que, para poder resolver un problema de decision, es
necesario cuantificar tanto la incertidumbre sobre como las
consecuencias en C.
La u
nica forma racional de cuantificar la incertidumbre es a traves
de una medida de probabilidad, p(), y las consecuencias deben
cuantificarse por medio de una funci
on de utilidad, u(a, ).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

En la literatura estadstica es m
as com
un trabajar, de manera
equivalente, en terminos de una funci
on de perdida L(a, ).
Dicha funci
on de perdida puede definirse, a partir de una funcion
de utilidad, como
L(a, ) = B() A u(a, )
donde A > 0 y B() es una funci
on de cuyo valor esperado existe.

En este caso, el resultado fundamental de la teora es que debe


elegirse aquella acci
on que minimice la perdida esperada
Z
L (a) =
L(a, ) p() d.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Por otra parte, en problemas de inferencia estadstica por lo regular


se cuenta con informaci
on adicional en la forma de una muestra
X1 , . . . , Xn p(x|).
C
omo incorporar esta informaci
on?
El Teorema de Bayes nos permite combinar las dos fuentes de
informaci
on (la inicial y la muestral) y de esta manera producir
la distribuci
on final p(|x).
En este caso, la soluci
on bayesiana al problema de decision consiste
en elegir aquella acci
on que minimice la perdida esperada final
Z

Lx (a) =
L(a, ) p(|x) d.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Procesos de inferencia como problemas de decisi


on
Sea
F = {p(x|) : }
una familia parametrica de distribuciones de probabilidad.
Problema: hacer inferencias sobre el valor de .
Estimaci
on puntual: en este caso A = , E = (),
p() es una distribuci
on de probabilidad sobre , y
) es una funci
L(,
on de perdida.
Como ejemplo, supongamos que usamos la funci
on de perdida
) = ( )2 .
cuadr
atica: L(,

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Entonces

Elementos PyU Soluci


on Otras Estadstica

R
=
) p(|x) d
Lx ()
L(,

= E|x [ ( )2 ].

Notemos que
E|x [ ( )2 ] = E|x [ ( E|x [] + E|x [] )2 ]
= E|x [ ( E|x [])2 ] + E|x [( E|x [])2 ]
= E|x [ ( E|x [])2 ] + Var|x [],
de manera que E|x [ ( )2 ] es mnimo cuando = E|x [].
Por lo tanto, la acci
on
optima (el estimador bayesiano) es
= E|x [].

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Prueba de hip
otesis: supongamos que deseamos contrastar
Ho : = 0

vs.

H1 : = 1

En este caso
A = {a0 , a1 }
con
a0 =

Actuar como si H0 fuera cierta

a1 =

Actuar como si H1 fuera cierta

y
E = {0 , 1 }.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Como ejemplo, supongamos la siguiente funci


on de perdida:
L(a, ) 0
a0
0
a1
k1

1
k0
0

donde k0 > 0 y k1 > 0.


En este caso
Lx (a0 ) = L(a0 , 0 ) p(0 |x) + L(a0 , 1 ) p(1 |x) = k0 p(1 |x)
Lx (a1 ) = L(a1 , 0 ) p(0 |x) + L(a0 , 1 ) p(1 |x) = k1 p(0 |x)

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

Debe rechazarse H0 si y s
olo si
Lx (a0 ) > Lx (a1 ).
Es decir, si y s
olo si
k1
p(1 |x)
> .
p(0 |x)
k0
Equivalentemente, si y s
olo si
p(x|0 )
k0 p(1 )
<
.
p(x|1 )
k1 p(0 )
En particular, si k0 = k1 entonces H0 se rechaza si y solo si
p(1 |x) > p(0 |x).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Elementos PyU Soluci


on Otras Estadstica

El problema de reportar inferencias como problema de decision


A
un si no se tiene en mente un problema de decision especfico,
nuestra descripci
on de la incertidumbre presente en una situacion
dada puede ser usada por otros (e.g., reportes meteorologicos).
En otros casos, el reporte de inferencias puede ser un fin en
s mismo (no s
olo un medio), independiente de cualquier
problema de decisi
on pr
actico.
En esta situaci
on, el espacio de acciones potenciales es el
espacio de todas las distribuciones de probabilidad que
podran representar nuestro estado de informacion al
momento de tomar la decisi
on.
El papel del estadstico sera an
alogo al de un estudiante que se
enfrenta a una pregunta de opci
on m
ultiple y al que se le pide
responderla con una distribuci
on de probabilidad sobre las
posibles respuestas.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Aproximaciones

Aproximaciones asintoticas
Aproximaci
on normal asint
otica
Bajo ciertas condiciones de regularidad, y para tama
nos de muestra
grandes,
V ()),

p(|x) N (|,

donde denota al estimador de m


axima verosimilitud para y V ()

es la inversa de la matriz de informaci


on de Fisher evaluada en .
En este caso, pr
acticamente cualquier resumen inferencial de interes,
(e.g. distribuciones marginales o momentos de funciones lineales de )
puede aproximarse f
acilmente.
Sin embargo, en aplicaciones especficas no siempre es f
acil determinar si la
aproximaci
on normal es adecuada para el tama
no de muestra dado.
Es conveniente trabajar en terminos de una parametrizaci
on = () tal
que la distribuci
on final de sea m
as parecida a una distribuci
on normal.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Aproximaciones

Ejemplo: Distribuci
on Binomial.
Verosimilitud: p(x|) = Bin(x|; n) x (1 )nx
EMV: = x/n
Informaci
on de Fisher: I() = n 1 (1 )1
Distribuci
on final: p(|x) = Beta(|x + a, n x + b)
(1
)/n)

Aproximaci
on normal: p(|x) N (|,
Ejercicio: Supongan que n = 10, x = 1, a = 1 y b = 1. Calculen y comparen
gr
aficamente la aproximaci
on con la verdadera densidad final de .
Ahora consideren la reparametrizaci
on = log{/(1 )}, encuentren
la distribuci
on final de y calculen la correspondiente aproximaci
on
asint
otica.
Comparen gr
aficamente esta aproximaci
on con la verdadera densidad final
de . Cu
al aproximaci
on es mejor?

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Aproximaciones

Aproximaci
on de Laplace
Supongamos que se desea calcular una integral de la forma
Z
I = q() exp{n h()} d
donde q : IRd IR y h : IRd IR son funciones suaves de .

Supongamos tambien que h() tiene un mnimo en .


El metodo de Laplace aproxima I a traves de
1/2 q()
exp{n h()},

I = (2 /n)d/2 |()|
donde

() =

XXXI Foro de Estadstica

2 h()
T

1
.

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Aproximaciones

Proposici
on. Conforme n ,
I = I {1 + O(n1 )}.

Ejemplo: Supongamos que se desea calcular E(g()|x).


Sean q() = g() y h() = n1 log p(|x); es decir, p(|x) = exp{nh()}.
Entonces
(2 /n)d/2 |()|
1/2 p(|x)

E(g()|x) g()

La aproximaci
on de Laplace es particularmente u
til para aproximar
densidades marginales.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Aproximaciones

Sea = ( 1 , 2 ), 1 IRd1 y 2 IRdd1 . Supongamos que la distribuci


on
de se puede escribir como
p( 1 , 2 ) q( 1 , 2 ) exp{h( 1 , 2 )}
y que nos interesa calcular la densidad marginal de 1 , i.e.
Z
p( 1 ) q( 1 , 2 ) exp{h( 1 , 2 )} d 2 .
Para cada valor de 1 , definamos q1 ( 2 ) = q( 1 , 2 ) y h1 ( 2 ) = h( 1 , 2 ).
2 =
2 ( 1 ).
Finalmente, supongamos que h1 () tiene un mnimo en
Entonces
2 ( 1 )),
p( 1 ) |( 1 )|1/2 p( 1 ,
2 ( 1 )), con
donde ( 1 ) = 1 (

1 ( 2 ) =

XXXI Foro de Estadstica

2 h1 ( 2 )
T2 2

1
.

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Aproximaciones

Ejemplo: Distribuci
on logstica bivariada
p(1 , 2 ) =

2e1 e2
, (1 , 2 ) IR2 .
(1 + e1 + e2 )3

La densidad marginal de 1 es
p(1 ) =

e1
,
(1 + e1 )2

1 IR.

Ejercicio: Calculen la aproximaci


on de Laplace para la densidad
marginal de 1 , tomando q(1 , 2 ) 1 y h(1 , 2 ) = log p(1 , 2 ).

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Fin de la primera parte


A manera de conclusi
on...
Los siguientes tres aspectos fundamentales caracterizan al enfoque
bayesiano:
Informaci
on inicial: cada problema es u
nico y tiene su propio contexto, del
cual se deriva la informaci
on inicial sobre el par
ametro (o cualquier otra
caracterstica) de interes.
Probabilidad subjetiva: se reconoce explcitamente que toda asignaci
on de
probabilidades es subjetiva (i.e., dependen del estado de informaci
on del
individuo que las asigna). No pretende ser un enfoque objetivo.
Coherencia interna: al considerar a como aleatorio, los metodos bayesianos
de inferencia se desarrollan de manera natural a partir de la teora de la
probabilidad y por lo tanto no presentan contradicciones internas.

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Muchas gracias por su atencion

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

Intro Inferencia Decisiones C


omputo

Muchas gracias por su atencion

La sesion de ma
nana sera mucho mas interesante!

XXXI Foro de Estadstica

Estadstica Bayesiana: Teora y Conceptos B


asicos

También podría gustarte