Está en la página 1de 207

ii

Introducción a la
Estadı́stica Bayesiana

Juan Carlos Correa Morales


Escuela de Estadı́stica
Universidad Nacional de Colombia
Sede Medellı́n

2008
Prefacio

Estas notas presentan una introducción a la estadı́stica bayesiana. Este es un


campo que ha tenido un desarrollo impresionante en los últimos años, en espe-
cial desde la introducción de la parte computacional. Muchas ideas han estado
circulando desde hace mucho tiempo, pero su imposibilidad práctica hacı́an que
se miraran con cierto pesar, ya que eran muy atractivas pero inaplicables. Esto
afortunadamente ha cambiado. Es lamentable los libros básicos en estadı́stica
no hagan una presentación de los elementos básicos de esta aproximación para
la solución de problemas estadı́sticos.
Aquı́ vamos a presentar una aproximación eminentemente práctica, esto es,
el lector puede aplicar de forma casi inmediata los métodos a problemas reales.
El software que se utilizará es de dominio público como el R o de permiso
libre para educación como el W inBU GS. Se requiere familiaridad con el primer
programa al menos a un nivel operativo básico.
Se asume que el lector tiene familiaridad con los métodos estadı́sticos a un
nivel operativo, al menos. Conocimiento de inferencia a un nivel de un texto
básico de estadı́stica matemática ayuda bastante.

iii
iv
Índice general

1. Introducción 3
1.1. Aproximaciones al análisis bayesiano . . . . . . . . . . . . . . . . 6
1.2. Problemas con la aproximación clásica . . . . . . . . . . . . . . . 6

2. Probabilidad Subjetiva “Apriori” 9


2.1. Probabilidad Personal . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Probabilidad Subjetiva y Apuestas . . . . . . . . . . . . . . . . . 9
2.3. Clasificación de las Distribuciones Apriori . . . . . . . . . . . . . 10
2.4. Distribuciones Apriori No Informativas . . . . . . . . . . . . . . . 11
2.5. Distribuciones Apriori Informativas . . . . . . . . . . . . . . . . . 11
2.6. Elicitación de Probabilidades Subjetivas . . . . . . . . . . . . . . 11
2.6.1. Supuestos de Coherencia . . . . . . . . . . . . . . . . . . . 12
2.7. Formas de Elicitación . . . . . . . . . . . . . . . . . . . . . . . . 12
2.8. Un Diálogo para la Obtención de la Proporción . . . . . . . . . . 13
2.9. Análisis preposterior . . . . . . . . . . . . . . . . . . . . . . . . . 17

3. Teorema de Bayes 19
3.1. Usos de la Función de Verosimilitud en Análisis Bayesiano . . . . 22

4. Distribuciones Conjugadas 23
4.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Elicitación de los Parámetros de la Beta para Proporciones 26
4.2. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . . . 28
4.3. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . . . 28
4.5. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . 30
4.7. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.7.1. Precisión Conocida . . . . . . . . . . . . . . . . . . . . . . 30
4.7.2. Precisión Desconocida . . . . . . . . . . . . . . . . . . . . 31
4.7.3. Media y Precisión Desconocidas . . . . . . . . . . . . . . . 31

v
vi ÍNDICE GENERAL

4.8. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 32

5. Distribuciones No Informativas 35
5.1. El Principio de la Razón Insuficiente de Laplace . . . . . . . . . . 36
5.2. Apriori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.3. Otras Alternativas . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4. Marginalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6. Inferencia Bayesiana 43
6.1. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2. Regiones de Credibilidad . . . . . . . . . . . . . . . . . . . . . . . 49
6.3. Región de la Densidad Posterior Más Alta (RDPMA) . . . . . . 49
6.3.1. Intervalos frecuentistas tradicionales para la Poisson . . . 51
6.4. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.4.1. Comparación de Modelos . . . . . . . . . . . . . . . . . . 58
6.5. La aproximación BIC . . . . . . . . . . . . . . . . . . . . . . . . . 61

7. Inferencia Predictiva 65
7.1. Tamaño Muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

8. WinBUGS 69
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8.2. Qué se espera de un software para estadı́stica bayesiana? . . . . . 69
8.3. Utilización de WinBUGS . . . . . . . . . . . . . . . . . . . . . . 70
8.4. Algunos de los comandos del WinBUGS . . . . . . . . . . . . . . 76
8.4.1. Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.4.2. Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

9. Modelos Lineales 81
9.1. La regresión clásica . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.1.1. Usos del Análisis de Regresión . . . . . . . . . . . . . . . 81
9.1.2. Estrategia Tı́pica en un Análisis de Regresión . . . . . . 82
9.1.3. Regresión simple . . . . . . . . . . . . . . . . . . . . . . . 82
9.1.4. Modelo de Regresión Lineal Múltiple . . . . . . . . . . . 83
9.1.5. Notación Matricial . . . . . . . . . . . . . . . . . . . . . . 83
9.2. Aproximación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 84
9.3. Distribución Normal-Gamma . . . . . . . . . . . . . . . . . . . . 84
9.4. Distribución Aposteriori . . . . . . . . . . . . . . . . . . . . . . . 85
9.5. Análisis Conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.5.1. Distribución Predictiva . . . . . . . . . . . . . . . . . . . 88
9.5.2. Inferencias . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.5.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . 89
9.6. Precios de Oferta de Vehı́culos . . . . . . . . . . . . . . . . . . . 90
9.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.8. Estrategias en Modelación . . . . . . . . . . . . . . . . . . . . . . 97
9.9. Regresión Inversa o Calibración . . . . . . . . . . . . . . . . . . . 98
ÍNDICE GENERAL vii

10.Modelo Lineal Generalizado 101


10.1. Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
10.1.1. Selección de la Distribución Apriori . . . . . . . . . . . . 102
10.1.2. Análisis Bayesiano de Residuales de Modelos Logı́sticos . 106
10.2. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.3. Log-concavidad de la log-verosimilitud . . . . . . . . . . . . . . . 111

11.Estadı́stica Bayesiana Empı́rica 113

12.Análisis Multivariable 115


12.1. Distribución Normal Multivariable . . . . . . . . . . . . . . . . . 115

13.Datos Categóricos 117


13.1. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . . . 117
13.1.1. Obtención de la prevalencia verdadera from prevalencia
aparente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
13.1.2. La Razón de Odds . . . . . . . . . . . . . . . . . . . . . . 122
13.1.3. Modelos Loglineales . . . . . . . . . . . . . . . . . . . . . 123
13.1.4. Tablas con faltantes . . . . . . . . . . . . . . . . . . . . . 123
13.1.5. Estimación de N (El tamaño de toda una población) . . . 123

14.Métodos Computacionales 125


14.0.6. Muestreo de Importancia . . . . . . . . . . . . . . . . . . 128
14.0.7. Muestreo por Rechazo . . . . . . . . . . . . . . . . . . . . 128
14.1. MCMC: Monte Carlo por Cadenas de Markov . . . . . . . . . . . 130
14.1.1. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . 131
14.1.2. Muestreador Griddy Gibbs . . . . . . . . . . . . . . . . . 140
14.2. Cálculo de Integrales via Simulación . . . . . . . . . . . . . . . . 141
14.2.1. Composición . . . . . . . . . . . . . . . . . . . . . . . . . 141
14.3. Métodos Monte Carlo de Cadenas de Markov (MCMC) . . . . . 141
14.3.1. Glosario de Cadenas de Markov . . . . . . . . . . . . . . . 141
14.3.2. Muestreador Gibbs . . . . . . . . . . . . . . . . . . . . . . 142
14.4. Simulación Exacta . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.4.1. El Muestreador Perfecto . . . . . . . . . . . . . . . . . . . 142
14.5. Algoritmo E − M . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
14.5.1. Modelo Probit para Datos Binarios . . . . . . . . . . . . . 144
14.6. Diagnósticos de los Muestreadores MCMC . . . . . . . . . . . . . 146
14.6.1. Monitoreo y Convergencia de una MCMC . . . . . . . . . 147

15.Modelos Jerárquicos 165


15.1. Meta-análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

16.Datos 169
16.1. Apellidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
16.2. Mordeduras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
ÍNDICE GENERAL 1

17.Probabilidad Subjetiva: Fundamentos 183


17.1. Verosimilitud Relativa . . . . . . . . . . . . . . . . . . . . . . . . 183
17.2. El Experimento Auxiliar . . . . . . . . . . . . . . . . . . . . . . . 185

18.Referencias 187
2 ÍNDICE GENERAL
Capı́tulo 1
Introducción

La escuela bayesiana en estadı́stica ha tomado fuerza en los últimos años


debido a su potencial para resolver problemas que no se pueden atacar con
otros métodos y porque permite incorporar naturalmente información que es
útil en la solución del problema enfrentado. El siguiente ejemplo ilustra una
situación tı́pica:

Ejemplo 1.1 La loterı́a que jugó anoche Suponga que a usted un amigo le
ofrece un billete de loterı́a, pero con el problema que la loterı́a jugó anoche. Su
amigo, que ha demostrado ser una persona honesta le informa que él no sabe el
resultado de la loterı́a, y usted tampoco. En una situación como ésta podemos
pensar en una probabilidad de que el billete sea el ganador es la misma que el
billete tenı́a antes de que se jugara la loterı́a, no lo piensa ası́?

Nadie niega que ante un problema debemos utilizar toda la información


disponible acerca de un problema particular. Para nuestro caso estadı́stico la
incertidumbre sobre parámteros poblacionales se resume por medio de distribu-
ciones de probabilidad, que anterior a recoger información muestral relevante
para ellos, se conoce como ‘distribución apriori.’ El problema está en la forma
de cuantificar esta información sin generar alguna contradicción.
Un problema que se ha planteado cuando se habla de la escuela bayesiana
es que dos personas enfrentadas ante un problema y una decisión a tomar,
y asumiendo que tengan la misma información muestral, pueden llegar a dos
decisiones opuestas si su información adicional es diferente. Greenland (2001)
afirma que “los epidemiólogos perciben la especificación de la distribución apriori
como impráctica y además pocos epidemiólogos emplearı́an métodos que no
están disponibles en paquetes estadı́sticos lı́deres.”
Albert (1997) presenta las siguientes razones por las cuales se deberı́a enseñar
estadı́stica desde el punto de vista bayesiano:

3
4 CAPÍTULO 1. INTRODUCCIÓN

El paradigma bayesiano es un medio natural de implementar el método


cientı́fico donde la distribución apriori representa sus creencias iniciales
acerca del modelo, usted recoge los datos adecuados, y la distribución
posterior representa sus creencias actualizadas después de ver los datos.

Si la incertidumbre acerca de los modelos es expresada utilizando proba-


bilidad subjetiva, entonces la regla de Bayes es la única receta que uno
necesita para realizar inferencias de los datos.

Las afirmaciones inferenciales bayesianas son más fáciles de entender que


las basadas en la inferencia tradicional basadas en muestreo repetido. La
probabilidad que un parámetro caiga dentro de un intervalo calculado es
igual a 0.95. También, en contraste con los procedimientos tradicionales
de pruebas de hipótesis, tiene sentido hablar acerca de la probabilidad que
una hipótesis estadı́stica sea cierta.

Por el principio de condicionalidad, los únicos datos relevantes para eje-


cutar inferencias son los datos realmente observados. Uno puede ignorar
otros resultados de un espacio muestral que no son observados.

Los problemas de predicción no son más difı́ciles que los problemas de esti-
mación de parámetros. Parámetros y observaciones futuras son cantidades
desconocidas que son modeladas subjetivamente.

Ejemplo 1.2 Estatura de los colombianos. Si pensamos en la estatura


promedio de los hombres colombianos podemos pensar seriamente que este valor
no es mayor que 180 cms. ni menor que 160 cms. Es claro que si conocemos
muchos hombres colombianos nuestra información puede utilizarse en un proceso
inferencial, pero confiarı́amos más si la información sobre la estatura proviene
de algún estudio previo realizado sobre el mismo tema.

Ejemplo 1.3 La nota esperada. A un estudiante que acaba de presentar


un examen se le puede preguntar cuál será su nota esperada. Con base en su
propio conocimiento de su capacidad y de su preparación, de cómo respondió el
examen él puede tener una idea sobre la nota que espera obtener al ser calificado
su examen. Obviamente la nota exacta no la conoce ya que existen múltiples
factores que entran en una evaluación, pero puede proporcionar un rango dentro
del cual se sienta muy seguro.

Ejemplo 1.4 Sobre una proporción. Ya que estamos familiarizados con


el tipo de estudiantes que están en este lugar, podemos establecer valores entre
los cuales creemos cae el porcentaje de mujeres que estudian en la universidad.

La aproximación bayesiana es una herramienta fundamental en situaciones


donde la recolección de información muestral sea muy difı́cil, por ejemplo en
5

tópicos de alta sensibilidad social o extremadamente costosa o imposible, como


serı́a el caso de la determinación del riesgo de falla de una nueva nave espacial
o cuál es la probabilidad de que haya vida inteligente en nuestra galaxia. Un
problema adicional es cómo cuantificar la información que se tenga.

Ejemplo 1.5 Porcentaje de estudiantes que consumen una droga. Si


queremos determinar el porcentaje de estudiantes que consumen un tipo de dro-
gas, podemos utilizar la información que se haya recogido en estudios pasados.

Ejemplo 1.6 Tasa de estudiantes que ejercen la prostitución. Si quer-


emos determinar el porcentaje de estudiantes que ejercen la prostitución en
nuestra universidad, no parece fácil resolver esto mediante una simple encuesta,
aunque es posible utilizar procedimientos como el de la respuesta aleatorizada,
el hecho de enfrentar un encuestador puede llevar a dar respuestas socialmente
aceptables.

Las ideas iniciales de la probabilidad surgieron relacionadas con los juegos


de azar y su interpretación es básicamente frecuentista. Esta formulación fre-
cuentista trabaja bien en muchas situaciones, pero no en todas.
Una caracterı́stica distintiva de la estadı́stica bayesiana es que tiene en cuenta
de forma explı́cita la información previa y se involucra en el análisis en forma de
distribución, llamada distribución apriori. La teorı́a clásica la considera básica-
mente para determinar tamaños muestrales y el diseño de experimentos y, a
veces, como forma de crı́tica de los resultados hallados.
La expresión de la información previa en forma cuantitativa puede ser un
proceso complejo y delicado, aunque se han hallado soluciones que pueden lle-
gar a parecer extrañas, como lo puede ser el uso de lo que se conoce como
distribuciones no informativas, pero que se utilizan extensamente en el trabajo
bayesiano aplicado.
Fuentes tradicionales para la construcción de la distribución apriori son:

Estudios previos similares. La utilización de estudios previos sobre unos


pocos parámetros especı́ficos ha dado origen a un área conocida como
metanálisis, la cual puede trabajarse desde el punto clásico y bayesiano.
Un problema cuando se trabaja con datos sacados de pubicaciones y no
con los estudios originales, es el que se conoce como sesgo de publicación,
que hace referencia a la publicación, por parte de los editores o autores,
solo a aquellos resultados que son significativos.

Opinión de expertos. La utilización de expertos es casi obligatoria en situa-


ciones completamente nuevas donde experimentar puede ser muy costoso,
por ejemplo en la implementación de polı́ticas a nivel macroeconómico.
6 CAPÍTULO 1. INTRODUCCIÓN

1.1. Aproximaciones al análisis bayesiano


Esta sección está basada en Berger (1999).

1. Análisis bayesiano objetivo: Esta posición se caracteriza por la utilización


de distribuciones no informativas.

2. Análisis bayesiano subjetivo: La utilización de distribuciones apriori sub-


jetivas es a menudo disponible como alternativa en algunos problemas.

3. Análisis bayesiano robusto: Esta posición asume que es imposible especi-


ficar completamente la distribución apriori o el modelo, en cuyo caso es
mejor trabajar dentro de clases donde haya un nivel de incertidumbre
sobre esta distribución o modelo.

4. Análisis bayesiano-frecuentista: Hay problemas en los cuales la aproxi-


mación frecuentista produce resultados satisfactorios, como en los méto-
dos no paramétricos, y al bayesiano le toca aceptarlos como soluciones
seudobayesianas.

5. Análisis cuasibayesiano: Esta aproximación utiliza distribuciones apriori


seleccionadas de una forma que acomoden a la solución “bonita” del prob-
lema, ajustando estas distribuciones apriori de diversas formas, por ejem-
plo seleccionando distribuciones apriori vagas, o ajustando los parámetros.

1.2. Problemas con la aproximación clásica


Harrell (1998) ha presentado algunos de los problemas que ocurren con la
aproximación clásica a varios problemas estadı́sticos:

1. En pruebas de hipótesis:

Un experimento proporciona los elementos para una posibilidad de


rechazar la hipótesis nula.
El rechazo de una hipótesis nula es diferente de su rechazo lógico.
Una hipótesis contradicha por los datos (un valor-p pequeño) significa
que un evento improbable ha ocurrido, o que la hipótesis nula es falsa,
o ambas.
Qué hacer si la hipótesis nula no es rechazada?
De acuerdo a Fisher una hipótesis nula nunca es aceptada.
Cuál estadı́stico de prueba utilizar?
• No hay una regla general sobre cuál estadı́stico de prueba utilizar.
• Diferentes estadı́sticos pueden llevar a diferentes conclusiones del
mismo análisis.
1.2. PROBLEMAS CON LA APROXIMACIÓN CLÁSICA 7

• Se pueden obtener conclusiones inconsistentes de manera lógi-


ca, por ejemplo colapasando tablas de contingencia y realizando
pruebas χ2 .
En la teorı́a de Neyman-Pearson una prueba estadı́stica de hipótesis
(Ho ) no está sola sino contra teorı́as competidoras (H1 ). Se pueden
cometer dos tipos de errores y la idea es tener probabililidades de
ambos errores tan pequeñas como sean posibles. El problema es de
interpretación: Qué significa aceptar o rechazar?
En ambas escuelas no hay probabilidades de que las teorı́as sean
correctas.
Problemas con los valores-p.
• Solo pueden ser utilizados como evidencia contra una hipótesis,
no proporcionan evidencia a favor de una hipótesis.
• Valores-p iguales no proporcionan igual evidencia acerca de una
hipótesis.
• Si usamos valor-p < 0,05 como un evento binario, la evidencia es
mayor en estudios más grandes.
• Si usamos el valor-p real, la evidencia es mayor en estudios más
pequeños.
Muchos resultados pueden ser estadı́sticamente significativos debido
a un n grande y no a una diferencia significativa.

2. En estimación:

Los intervalos de confianza son a menudo malinterpretados

Diferencias entre la teorı́a clásica


y la teorı́a bayesiana
Caracterı́stica Teorı́a Clásica Teorı́a Bayesiana
Parámetros de interés Constantes desconocidas Variables aleatorias
Distribución apriori No existe Existe y es explı́cita
Modelo muestral Se asume Se asume
Distribución posterior No existe Existe y se deriva
Razonamiento Inductivo Deductivo

Utilizaremos la siguiente notación:

θ ′ = (θ1 , · · · , θk ) Vector de parámetros


x1 , · · · , xn Observaciones muestrales (i.i.d.)
ξ(θ) Distribución apriori conjunto de Θ
f (xi |θ) Distribución de Xi dado θ
8 CAPÍTULO 1. INTRODUCCIÓN
Capı́tulo 2
Probabilidad Subjetiva “Apriori”

El trabajo estadı́stico descansa en el concepto de probabilidad. La definición


matemática es clara: Es una función aditiva no negativa, cuyo máximo valor
es la unidad (Jackman). El problema fundamental está en la forma como se
determine esa función.

2.1. Probabilidad Personal


Horowitz (1968) define la probabilidad como

“La probabilidad no es sino un número ı́ndice entre 0 y 1, que


expresa un pensamiento del individuo sobre la posibilidad del resul-
tado, relativo, de una experiencia... Debemos por tanto, reconocer
que podemos evaluar la probabilidad, bien cuando el suceso es único
o se trata de un suceso de carácter repetitivo, que pueda presen-
tarse en varias pruebas. El hecho de que el suceso vaya a ocurrir una
vez no impide que un individuo pueda formar un juicio acerca de lo
probable que suceda respecto a otros posibles resultados; es decir,
puede asignar probabilidades a cada uno de los posibles resultados.”

2.2. Probabilidad Subjetiva y Apuestas


Las creencias pueden ser expresadas en términos de apuestas, esto se hace
mucho en la práctica, y esto puede ser utilizado como una forma general de hacer
las creencias relativas explı́citas (D’Agostini, 2000). Hay condiciones naturales
a ser impuestas sobre las apuestas:

La apuesta debe ser reversible y que ninguna apuesta pueda ser elaborada
tal que uno pierda o gane con certeza. Esta condición obliga al sujeto a
asignar las apuestas consistentemente con sus creencias.

9
10 CAPÍTULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

La anterior también obliga a aceptar la segunda condición: una vez él ha


fijado los odds, él debe estar preparado para apostar en cualquier dirección.
Esta coherencia juega dos papeles importantes:
1. es moral y obliga a la gente a ser honesta,
2. y otro formal, que permite que las reglas básicas de la probabilidad
sean derivadas como teoremas.
Es evidente que “subjetividad” no se puede confundir con “arbitrariedad”,
ya que todos los elementos para la asignación de probabilidades deben tenerse
en cuenta, incluyendo el conocimiento que otros puedan asignar a las diferentes
posibilidades de los mismos eventos.

2.3. Clasificación de las Distribuciones Apriori



Propias
Distribuciones Apriori =
Impropias
Definición 2.1 (Distribución Apriori Propia) Es una distribución que asigna
pesos no negativos y que suman o integran hasta uno, a todos los valores posibles
del parámetro.
Ası́, una distribución propia satisface las condiciones de función de densidad
de probabilidad. Una distribución impropia es la que suma o integra a un valor
diferente de uno, digamos K. Si K es finito, entonces la distribución impropia
induce una distribución propia normalizando la función. Si K es infinito, en-
tonces la distribución tiene un papel de ponderación o de herramienta técnica
para llegar a una dsitribución posterior.

Informativas
Distribuciones Apriori =
No informativas
Definición 2.2 (Distribución Apriori No Informativa) Decimos que una
distribución apriori es no informativa cuando refleja una ignorancia total o un
conocimiento muy limitado sobre el parámetro de interés.
El área de las distribuciones no informativas es grande y polémica. Existen
diferentes posiciones sobre cómo reflejar ignorancia mediante una distribución.
A este tema le dedicaremos una sección ya que es de crucial importancia en
estadı́stica bayesiana.

Conjugadas
Distribuciones Apriori =
No conjugadas
Definición 2.3 (Distribución Apriori Conjugada) Decimos que una dis-
tribución apriori es conjugada, si al proceder a su actualización mediante la
información muestral, la distribución aposteriori es igual a la apriori, excepto
en los hiperparámetros.
2.4. DISTRIBUCIONES APRIORI NO INFORMATIVAS 11

2.4. Distribuciones Apriori No Informativas


En muchas ocasiones sabemos nada o muy poco acerca del parámetro de
interés o no queremos involucrar en nuestro estudio información previa, sino
más bien dejar que sean los datos los que “hablen por ellos mismos”. En este
caso la distribución debe reflejar nuestro total desconocimento de los valores
posibles del parámetro. Esta es un área de trabajo que ha crecido enormemente.

2.5. Distribuciones Apriori Informativas


Una de las mayores dificultades en la ejecución de un análisis bayesiano
concierne con la identificación, de la selección y la justificación de la distribución
apriori. Preguntas como:

Qué clase de distribución apriori debemos utilizar?

Qué tipos de datos están disponibles para seleccionar el modelo apriori?

Cómo cuantificificamos la información subjetiva?

Cómo ajustamos la distribución apriori con los datos subjetivos disponibles?

deben ser resueltas sin lugar a dudas.

2.6. Elicitación de Probabilidades Subjetivas


En muchas situaciones es de importancia cuantificar la información subjetiva
que sobre la posibilidad de la ocurrencia de un evento sientan uno o varios
individuos. La idea es entonces “desarrollar métodos que ayuden a la persona
que asigna las probabilidades, las asigne de acuerdo con sus juicios” ( Winkler,
1967a, 1967b). Esta tarea es difı́cil y puede llegar a ser frustante.
En esta asignación de probabilidades personales a eventos hay dos requisitos:

1. La asignación debe obedecer ciertos postulados de coherencia, y

2. las asignaciones deben corresponder a los juicios de la persona.

Es fácil chequear el primer punto, pero en el segundo una probabilidad asig-


nada a un evento es el resultado de la interacción de numerosas creencias o
juicios que solo existen en la mente de la persona. Y hay que tener en cuenta
que esta asignación se realiza en un punto del tiempo y que la misma persona
puede revisarlas a la luz de nueva información. Uno definitivamente no puede
probar que las probabilidades asignadas corresponden realmente a los juicios de
la persona.
12 CAPÍTULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

2.6.1. Supuestos de Coherencia


Asumimos que la persona que asigna las probabilidades subjetivas mediante
interrogación directa, posee las siguientes condiciones ideales:

1. Ella nunca viola el supuesto de coherencia.

2. Ella entiende perfectamente los métodos utilizados para la asignación de


probabilidades. Esto es, ella entiende las alternativas que se le presentan
y las implicaciones de cada alternativa.

3. Ella tiene una función de utilidad que es lineal con respecto al dinero en
el rango relevante. Además, ella escoge sus respuestas de tal forma que
maximiza su utilidad esperada.

2.7. Formas de Elicitación


Una forma de asignación de probabilidades es la interrogación directa, que
consiste en preguntas que conciernen con

las probabilidades,

CDF (Función de Distribución Acumulada)


PDF (Función Densidad de Probabilidad)
• No paramétrica
• Paramétrica.
Ejemplo 2.1 Para ilustrar esta situación consideremos este ca-
so presentado en Bracken (1966). Supongamos que una persona
quiere asignar una distribución apriori beta a la variable aleato-
ria π que representa el voto liberal en una elección futura como
la fracción del total de votos. Asumamos que él encuentra difı́cil
asignar un valor esperado subjetivo al valor de π, pero es capaz
de expresar sus juicios asignando una probabilidad de 0.50 a la
afirmación π ≤ 0,50 y asignando una probabilidad de 0.75 a la
proposición π ≤ 0,60.

previsión de muestras futuras,

HFS (Muestras Hipotéticas Futuras)


EPS (Información Muestral Apriori Equivalente)

apuestas,

loterı́as hipotéticas,

gráficos de distribuciones de probabilidad, etc.


2.8. UN DIÁLOGO PARA LA OBTENCIÓN DE LA PROPORCIÓN 13

Oakley y O’Hagan (2002) consideran el caso de elicitación de la información


apriori de un sujeto que solo puede dar información parcial. De todas formas
en un proceso de elicitación hay incertidumbre con relación a la información
proporcionada por el experto. Ellos se limitan al caso en el cual el experto
proporciona información sobre un θ observable.
Chesley (1978) hace una comaparación entre diferentes métodos de elic-
itación. la técnica usada para la elicitación afecta cómo el sujeto mira el prob-
lema, la exactitud de sus respuestas y la consistencia de las mismas.

2.8. Un Diálogo para la Obtención de la Pro-


porción
El siguiente diálogo ilustra una posible forma de elicitar información sobre
una proporción y es presentado en Raiffa (1970)

Analista: Quisiera mostrarle una forma de obtener una distribución de prob-


abilidad subjetiva acerca de una proporción π. Quiero elegir un contexto
que sea lo suficientemente significativo para usted porque sus opiniones son
las que interesan. Consideremos la población de médicos no abstemios en
Colombia. Supongamos que π es la propoción de estos bebedores que con-
sumieron más cerveza que aguardiente durante el último año. Por cierto,
sabe usted algo de los hábitos alcohólicos de los médicos?
Cliente: No mucho. Conozco personalmente a tres o cuatro médicos, pero me
imagino que los doctores no serán muy diferentes de los abogados, los
dentistas o los ingenieros. El problema es que no sabrı́a responder a su
pregunta para cualquiera de esos grupos. No tengo ni la más remota idea
del valor de π.
Analista: Bueno. Esto es justamente lo que querı́a.
Cliente: Supongo que quiere que haga una predicción óptima de π. No sé si
podrı́a hacerlo.
Analista: No, no es eso lo que quiero. De hecho no creo que tenga sentido
hablar de una predicción “óptima”. Optima para qué? Déjeme hacerle unas
preguntas de precalentamiento. Cree usted que es probable que π sea menor
o mayor que 0.10?
Cliente: Mayor, seguro.
Analista: Es probable que π sea mayor o menor que 0.90?
Cliente: Menor.
Analista: Estas preguntas eran fáciles. Vea usted, ya sabe algo sobre π. Ahora
quiero que piense bien antes de contestarme. Déme una proporción tal que
sea extremadamente difı́cil decidir si es probable que π sea mayor o menor
14 CAPÍTULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

que ese valor. En otras palabras, quiero que me dé un valor para el que
crea que es igualmente probable que π sea mayor o menor que él.

Cliente: (Después de pensar un rato). Yo dirı́a que 0.60. Pero no estoy nada
seguro. Creo que la mayorı́a de los médicos prefieren tomar cerveza.

Analista: No se preocupe demasiado; si quiere cambiar de opinión más tarde,


no hay inconveniente. Me acaba de decir que cree que es igualmente prob-
able que π sea mayor o menor que 0.60.

Cliente: Exactamente. Pero no me pida que defina lo que significa “igualmente


probable”.

Analista: Por “igualmente probable” , en este contexto, quiero decir que ust-
ed es indiferente entre recibir un premio muy deseable condicionado a
que π sea menor que 0.60, y recibir este mismo premio condicionado a
que π sea mayor que 0.60. O, de forma más dramática, si su vida de-
pendiera de ello, optarı́a igualmente por un π ≤ 0,60 que por un π ≥ 0,60.
Está siguiéndome?

Cliente: Hasta ahora sı́.

Analista: Esencialmente, me acaba de decir, y usted lo cree, que 0.60 divide


el intervalo de cero a uno en dos partes igualmente probables,en su opi-
nión. Ahora voy a pedirle que repita este proceso de dividir imaginaria-
mente diferentes intervalos en dos partes igualmente probables. Por ejem-
plo, qué cree usted que es más probable, que π sea menor que 0.20 o que
esté comprendido entre 0.20 y 0.60?

Cliente: Entre 0.20 y 0.60.

Analista: Entre cero y 0.58, o entre 0.58 y 0.60?

Cliente: Entre 0 y 0.58.

Analista: De acuerdo. Ahora deme un número para el que crea que es igual-
mente probable que π esté comprendido entre cero y ese número y ese
número y 0.60.

Cliente: Qué ocurre si π es mayor que 0.60?

Analista: Tal como están las cosas usted pierde. Mire, si me dice que el número
es π ∗ , esto quiere decir que sus probabilidades de ganar el premio son
igualmente buenas si elege el intervalo de cero a π ∗ como lo son si elige el
intervalo de π ∗ a 0.60. Si π es mayor que 0.60 , no obtendrı́a el premio
sea cual sea el lado de π ∗ que elija, porque π no estarı́a en esos intervalos.

Cliente: De acuerdo. Veamos... Diré que 0.50 divide el intervalo de cero a 0.60
en dos partes igualmente probables.
2.8. UN DIÁLOGO PARA LA OBTENCIÓN DE LA PROPORCIÓN 15

Analista: Le hubiera sido más fácil si, una vez que me habı́a dado el número
0.60 le hubiera hecho la última pregunta de esta otra manera?: “Mire,
suponga que le digo que π es menor que 0.60. Cómo dividirı́a ahora el
intervalo de cero a 0.60 en dos partes igualmente probables?”

Cliente: Son iguales las preguntas?

Analista: Creo que sı́. Piénselo.

Cliente: Supongo que son iguales. La segunda me parece más fácil, pero las
cosas siempre me parecen más fáciles a la segunda vez.

Analista: Continuemos. Imagı́nese que le digo que π es mayor que 0.60. Cómo
dividirı́a el intervalo 0.60 a 1 en dos partes igualmente probables?

Cliente: 0.70. El intervalo de 0.60 a 0.70 me parece igualmente probable que


los valores superiores a 0.70. Pero realmente me siento un poco incómodo
acerca de 0.50 y 0.70 porque el 0.60 es muy poco firme. Me parece como
si estuviera construyendo sobre una esponja. Espero que se dé cuenta de
que estos números son muy poco firmes.

Analista: Me doy cuenta de ello. Animo! Ahora me ha dado tres números,


0.60, 0.50 y 0.70. Voy a dibujar un intervalo de cero a 1 y colocar estos
puntos en él.
0 1
Me acaba de decir que, en lo que a usted respecta, cree que es igualmente
probable que π esté situado en cualquiera de los cuatro intervalos [0 a
0.50], [0.50 a 0.60], [0.60 a 0.70] y (0.70 a 1.00].

Cliente: Si, creo que eso es lo que he dicho.

Analista: Ahora voy a comprobarlo. No pretendo confudirle ni molestarle, pero


es importante considerar estas cuestiones desde todos los ángulos. Por
ejemplo, prefirirı́a usted apostar que π está en el intervalo [0.50 a 0.70 ]
o apostar que está fuera de este intervalo?

Cliente: Creo que apostarı́a que está dentro del intervalo. Pero estoy siendo
inconsistente, no?

Analista: Sı́, lo está siendo, pero es normal. Quiero que piense más sobre ello.
Es una ventaja que trate conscientemente de ser consistente.

Cliente: Bien, no quiero cambiar el 0.60. Me siento más inseguro con el 0.70.
Supongo que estarı́a dispuesto a admitir un 0.68. En lo que a mı́ respecta,
hay una probabilidad del 50-50 de que π esté en el intervalo [0.50 a 0.68].

Analista: Estarı́a dispuesto a decir que es igualmente probable que π esté en


el intervalo [0.60 a 0.68] o en el intervalo [0.68 a 1]?
16 CAPÍTULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

Cliente: De acuerdo, lo admitiré. Pero, si lo hiciéramos todo otra vez y si


borrara esta convesación de mi memoria, puedo imaginar que, en lugar de
terminar con los números 0.50, 0.60 y 0.68, podrı́a haber terminado con
números como 0.52, 0.64 y 0.74.

Analista: Bien, podrı́a usted imaginar terminar con números tales como 0.20,
0.40 y 0.55?

Cliente: No. Realmente no. Pero, qué harı́a si yo dijera “Sı́”?

Analista: Seguirı́a presionándole y utilizarı́a algún sistema de promedios que


separara aún más los tres que me ha dado. Pero, continuemos. Me referiré al
número 0.60 como su percentil 0.50, al número 0.50 como su percentil 0.25
y al número 0.68 como su percentil 0.75. Necesito unos cuantos porcentajes
más. Cómo dividirı́a usted el intervalo [0 a 0.50] en dos partes igualmente
probables?

Cliente: 0.42.

Analista: Ahora divida el intervalo [0 a 0.42]

Cliente: Me está forzando un poco demasiado.

Analista: Bien. Suponga que yo le dijera que π es menor que 0.42. Preferirı́a
apostar por el intervalo [0 a 0.21] o por el intervalo [0.21 a 0.42]?

Cliente: Por el último, por supuesto. De acuerdo, utilice 0.36.

Analista: Ahora pasemos al extremo superior. Divida [0.68 a 1.00].

Cliente: Utilice 0.75.

Analista: De acuerdo. Divida [0.75 a 1.00].

Cliente: Utilice 0.80.

Analista: Resumamos sus respuestas en una tabla:


Distribución Subjetiva del Cliente
Percentil Valor del Percentil
0.0625 0.36
0.125 0.42
0.25 0.50
0.50 0.60
0.75 0.68
0.875 0.75
0.9375 0.80

Esta discusión puede continuar por largo tiempo y a medida que el cliente
es más y más consciente del proceso de elicitación y su información es cada vez
mejor.
2.9. ANÁLISIS PREPOSTERIOR 17

2.9. Análisis preposterior


Martz y Waller (1982) recomiendan lo siguiente para garantizar la realización
de un buen análisis bayesiano:

Una justificación y análisis detallados de la distribución apriori selecciona-


da, con un claro entendimiento de las implicaciones matemáticas de la
apriori,
Una documentación completa de las fuentes de datos utilizados en la iden-
tificación y selección de la apriori,

Un análisis preposterior de la distribución apriori con resultados de prueba


hipotéticos,

Una distribución aposteriori claramente definida para los parámetros de


interés,

Un análisis de sensibilidad de las inferencias bayesianas para el modelo


apriori seleccionado.
18 CAPÍTULO 2. PROBABILIDAD SUBJETIVA “APRIORI”
Capı́tulo 3
Teorema de Bayes

El Teorema de Bayes es ahora una de las piedras fundamentales del trabajo


estadı́stico y sigue siendo de cierta discusiones tanto de sus orı́genes como de sus
implicaiones filosóficas (Dawid, 2004). Este teorema fue publicado varios años
después de la muerte de reverendo Thomas Bayes por un amigo.

Teorema 3.1 (Teorema de Bayes) Sean B1 , B2 , · · · , Bk eventos mutuamente


excluyentes y exhaustivos. Para cualquier evento nuevo A, tenemos
T
P (Bi A) P (A|Bi ) P (Bi )
P (Bi |A) = = Pk
P (A) i=1 P (A|Bi ) P (Bi )

Prueba: (Ejercicio)

Teorema 3.2 (Teorema de Bayes para Variables Aleatorias) Sean X y


θ variables aleatorias con fdp’s f (x|θ) y ξ(θ).

f (x|θ) ξ(θ)
ξ (θ|x) = R
Θ
f (x|θ) ξ(θ) dθ

Dentro del marco bayesiano tenemos que:

X : Datos (escalar o vector o matriz)

θ: Parámetro desconocido (escalar o vector o matriz)

f (x1 , · · · , xn |θ): Verosimilitud de los datos dado el parámetro (desconoci-


do) θ.

ξ(θ): Distribución apriori de θ.

19
20 CAPÍTULO 3. TEOREMA DE BAYES

Por el teorema anterior


f (x1 , · · · , xn |θ) ξ(θ)
ξ (θ|x1 , · · · , xn ) = R
Θ
f (x1 , · · · , xn |θ) ξ(θ) dθ

Esta es llamada la distribución posterior. La inferencia bayesiana se deriva


de esta distribución. En la práctica, el denominador de la expresión anterior no
necesita ser calculado en general, y la regla de Bayes se escribe como

ξ (θ|x1 , · · · , xn ) ∝ f (x1 , · · · , xn |θ) ξ(θ)

Por lo tanto solo necesitamos conocer la distribución posterior hasta una con-
stante de normalización. Muchas veces somos capaces de identificar la distribu-
ción posterior de θ mirando solamente este numerador. El teorema de Bayes lo
que hace es una “actualización” de ξ(θ) a ξ (θ|x1 , · · · , xn ).
Nota: El aprendizaje bayesiano será

ξ (θ|x1 ) ∝ f (x1 |θ) ξ(θ)


ξ (θ|x1 , x2 ) ∝ f (x2 |θ) f (x1 |θ) ξ(θ)
∝ f (x2 |θ) ξ (θ|x1 )

Por lo tanto el teorema de Bayes nos muestra cómo el conocimiento acerca


del estado de la naturaleza representada por θ es continuamente modificada a
medida que nuevos datos son adquiridos.

Ejemplo 3.1 Distribución Apriori Uniforme Truncada Muchas veces


somos capaces en un problema binomial de especificar claramente en qué región
es imposible que esté el parámetro, pero somos incapaces de especificar mejor
nuestro conocimiento sobre él. Podemos pensar en utilizar una distribución apri-
ori que refleje esta ignorancia, para ello considremos una uniforme truncada, esto
es,

π ∼ U (π0 , π1 )

Esto es,
1
ξ (π|π0 , π1 ) = 0 ≤ π0 < π < π1 ≤ 1
π1 − π0
La distribución posterior de π dado x es
Γ(n+2) (y+1)−1
Γ(y+1)Γ(n−y+1) π (1 − π)(n−y+1)−1
ξ (π|x, π0 , π1 ) = R π1 Γ(n+2)
π0 Γ(y+1)Γ(n−y+1)
π (y+1)−1 (1 − π)(n−y+1)−1 dπ
Pn
donde y = i=1 xi . Notemos que el denominador de la función es la P (π0 < W < π1 |y + 1, n − y + 1),
donde W ∼ Beta(y + 1, n − y + 1), y esto se calcula fácilmente en programas
como el R.
21

Es fácil hallar la media y la varianza aposteriori. Ellas son


y + 1 P (π0 < W < π1 |y + 2, n − y + 1)
E (π|x, π0 , π1 ) =
n + 2 P (π0 < W < π1 |y + 1, n − y + 1)
y

(y + 2)(y + 1) P (π0 < W < π1 |y + 3, n − y + 1)


V ar (π|x, π0 , π1 ) =
(n + 3)(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)
 2
(y + 1) P (π0 < W < π1 |y + 2, n − y + 1)

(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)

Ejemplo 3.2 Aplicación Numérica del Caso Anterior Suponga que


creemos que el porcentaje de mujeres que actualmente estudia en la universidad
está entre el 35 % y el 70 %, o sea

1
ξ(π) = para π ∈ (0,35, 0,70)
0,70 − 0,35
= 0 en otro caso.

Asumamos además que tomamos una muestra al azar de la población de


10 estudiantes y encontramos que 6 son hombres y 4 mujeres, o sea, y = 4 y
n = 10. El intervalo de confianza clásico (clásico porque la mayorı́a de los textos
básicos es el único que presentan) basado en el teorema central del lı́mite, a
pesar del tamaño muestral ser pequeño, dada la casi simetrı́a de la distribución
poblacional, se puede aplicar, será
r
π̂ (1 − π̂)
π̂ ± 1,96
n
lo que produce (0.0963, 0.703).
La aproximación bayesiana nos da una distribución posterior
Γ(12) 4
Γ(5)Γ(5) π (1 − π)6
ξ (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) =
K(0,70; 5, 7) − K(0,35; 5, 7)
donde Z z
Γ(α + β) α−1
K(z; α, β) = x (1 − x)β−1 dx
0 Γ(α)Γ(β)
Entonces

E (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) = 0,4823673

y un intervalo de credibilidad del 95 % es (0.3561442, 0.6680237). Este último


se encuentra resolviendo
22 CAPÍTULO 3. TEOREMA DE BAYES

Z π∗ Γ(12) 4
− π)6
Γ(5)Γ(5) π (1
dπ = 0,95
π∗ K(0,70; 5, 7) − K(0,35; 5, 7)

y formando el intervalo (π∗ , π ∗ ).

3.1. Usos de la Función de Verosimilitud en Análi-


sis Bayesiano
Berger et a. (1998) presenta diferentes usos para la función de verosimilitud,
L(θ):

1. Reporte Cientı́fico: Se considera una buena práctica de reporte presentar


separadamente L(θ) y ξ(θ|x), a menudo gráficamente, para indicar el efecto
de la distribución apriori. Esto le permite a otros investigadores utilizar
sus propias distribuciones apriori.

2. Análisis de Sensibilidad: Es importante estudiar la sensibilidad a ξ(θ), y


tener disponible L(θ) para este propósito es valioso.

3. Costo de Elicitación: Obtener distribuciones apriori subjetivas es a menudo


muy costoso, tanto en tiempo como en esfuerzo. Es a menudo efectivo a
nivel de costos eliminar los parámetros de molestia de una forma básica,
produciendo L(θ), y concentrar la elicitación subjetiva a ξ(θ).

4. Objevitivismo: Aunque la “objetividad” no se puede garantizar en ningún


estudio, el presentar L(θ) ayuda a darle esta impresión a muchos investi-
gadores.

5. Combinación de Verosimilitudes: Si se obtiene información sobre θ de


diferentes fuentes independientes, y vienen con sus respectivas verosimili-
Q
tudes, digamos Li (θ), podemos resumir toda esta información como i Li (θ).
Esta es la base del meta-análisis. De hecho, no se pueden multiplicar apos-
terioris de esta forma.

6. Aprioris Impropias: Se reduce los peligros de utlizar aprioris impropias.


Capı́tulo 4
Distribuciones Conjugadas

Dada la magnitud de la tarea de determinar una distribución apriori que


refleje de una manera clara nuestra información bayesiana, uno intuitivamente
piensa en limitar la búsqueda a familias de distribuciones apriori que posean
ciertas caracterı́sticas, tales como:

1. Tratabilidad analı́tica:

a) Facilidad de determinación de la distribución posterior de la muestra


y de la apriori.
b) Facilidad para obtener caracterı́sticas de interés, por ejemplo, valores
esperados.
c) La apriori y aposteriori deben ser miembros de la misma familia
(cerrada).

2. Flexibilidad y riqueza: Debe permitir modelar una gran variedad de infor-


mación apriori y creencias.

3. Interpretabilidad: Los parámetros deben ser de tal forma que el analista


pueda relacionarlos fácilmente con sus creencias e información.

Las distribuciones conjugadas juegan un papel importante en los métodos


bayesianos, ya que su uso puede simplificar el procedimiento de integración
requerido para la marginalización. Ya que al pertenecer la apriori y la aposteri-
ori a la misma familia, el proceso de actualización de parámetros se simplifica
(Ramoni y Sebastiani, 1998), lo cual es una gran ventaja para los sistemas in-
teligentes.
La conjugación nos limita a la selección de una clase de aprioris limitada y la
información apriori solo puede utilizarse para la selección de los hiperparámet-
ros. Si la clase es lo suficientemente grande esto puede no ser un gran problema.

23
24 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS

4.1. Distribución Binomial


Teorema 4.1 Suponga que X1 , · · · , Xn es una muestra aleatoria de una dis-
tribución Bernoulli con parámetro π, donde el valor de π es desconocido. Tam-
bién supongamos que la distribución apriori de π es una beta con parámetros
α(> 0) y β(> 0). Entonces la distribución posterior
Pn de π cuandoPXi = xi , para
n
i = 1, · · · , n es una beta con parámetros α + i=1 xi y β + n − i=1 xi .

Sean X1 , · · · , Xn variables aleatorias independientes Bernoulli(π). La verosimil-


itud es P P
L(θ) ∝ π i Xi (1 − π)n− i Xi
El parámetro π es univariable, y restringido al intervalo [0, 1]. La distribución
conjugada será
ξ(π) ∝ π α−1 (1 − π)β−1 , con α, β > 0
α y β son llamados hiperparámetros. Esta palabra se utiliza para distiguirlos
del parámetro modelo muestral π. SiP
comparamos la apriori Pcon la verosimilitud
vemos que α−1 puede asociarse con i Xi y β −1 con n− i Xi . Por lo tanto el
experto que debe expresar su información apriori puede realizar la tarea mental
de extraer una muestra imaginaria de 0’s y 1’s de tamaño α + β − 2 y distribuir
tanto los ceros y los unos como su imaginación se lo dicte. El tamaño de esta
muestra imaginaria puede asociarse con el nivel de confianza subjetiva que el
experto tenga en sus asignaciones. Esta distribución apriori se puede resumir
mediante:

α
E(π) =
α+β
α−1
M oda =
α+β−2
αβ E(π)(1 − E(π))
V ariancia = =
(α + β)2 (α + β + 1) α+β+1

La esperanza apriori E(π) corresponde a la probabilidad marginal de tener


un éxito antes de obtener cualquier observación:
Z Z
E(π) = πξ(θ) dπ = p(Y = 1|π)ξ(π) dπ = p(X = 1)

Ya que la varianza de π es una función decreciente de α + β para una media


dada, la suma de los hiperparámetros α + β es también llamada la precisión de
la distribución.
La distribución posterior es
P P
ξ(π|X1 , · · · , Xn ) ∝ π α+ i Xi −1 (1 − π)β+n− i Xi −1
P P
la cual es una distribución beta con hiperparámetros α + i Xi y β +n− i Xi .
Por lo tanto, la precisión posterior se incrementa por el tamaño muestral n.
4.1. DISTRIBUCIÓN BINOMIAL 25

La media aposteriori se puede expresar como


Pn       Pn 
α + i=1 Xi α+β α n i=1 Xi
= +
α+β+n α+β+n α+β α+β+n n

lo que es una media ponderada


Pn
i=1 Xi
E (π|X1 , · · · , Xn , α, β) = w · E(π|α, β) + (1 − w) ·
n
donde w = (α + β)/(α + β + n).

Ejemplo 4.1 Este ejemplo es desarrollado por Draper (2000) y hace referen-
cia a entradas de pacientes a un hospital universitario con Ataque Agudo del
Miocardio (AAM). Se considera la tasa de mortalidad de los pacientes en los
30 dı́as siguientes a la admisión al hospital. Se conoce que en Inglaterra esta
tasa es del 15 % (No necesariamente para este hospital la tasa sea igual). Para
elicitar la distribución apriori sobre la proporción de pacientes con AAM que
muere en lo 30 dı́as siguientes, se utiliza esta información como, digamos el
promedio. Ahora se necesita un poco más de información y el analista,tal vez
usando el Teorema Central del Lı́mite, piensa que el 95 % de las posibles tasas
de mortalidad para este hospital deben estar entre 5 % y 30 %. Debemos buscar
por lo tanto una distribución Beta(α, β) que tenga una media de 0.15 y el área
bajo la curva entre los lı́mites (0.05, 0.30) debe ser igual a 0.95. Mediante ensayo
y error se encuentra que α = 4,5 y β = 25,5 se tiene una distribución con las
caracterı́sticas deseada.
Escrito esto en forma jerárquica el modelo es

(α, β) = (4,5, 25,5) (Hiperparámetros)


π|α, β ∼ Beta(α, β) (Apriori)
X 1 , · · · , Xn ∼ Bernoulli(π) (Verosimilitud)

La función de verosilmilitud de los datos es

L(π) = p (X1 , · · · , Xn |π) = π S (1 − π)n−S ∝ Beta(S + 1, n − S + 1)


Pn
donde S = i=1 Xi . Si hemos observado 400 personas con AMM en el hospi-
tal, de los cuales 72 fallecieron en los siguientes 30 dı́as, lo cual produce una
verosimilitud proporcional a una Beta(73, 329). La distribución posterior será,
por lo tanto,
ξ(π|S = 72, n = 400) ∝ Beta(76,5, 353,5)

La información muestral equivalente en la distribución apriori se puede aso-


ciar con n∗ = α + β, en este caso es n∗ = 4,5 + 25,5 = 30. La información
muestral es muy grande con relación a la apriori 400/30 es más de 13 a 1.
26 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS

4.1.1. Elicitación de los Parámetros de la Beta para Pro-


porciones
1. Determine la probabilidad r de que un elemento sacado al azar sea un
éxito. Esta probabilidad será considerada como la media de la beta

α
r=
α+β

2. Dada la información que el primer elemento sea un éxito, determine la


probabilidad, r+ , de que el segundo elemento seleccionado al azar sea otro
éxito. La regla dice que la densidad actualizada es una Beta (α + 1, β),
ası́ que

α+1
r+ =
α+β+1

3. Resuelva simultáneamente

r (1 − r+ )
α =
r+ − r
(1 − r) (1 − r+ )
β =
r+ − r

4. Chequee consistencia: Pregunte por la probabilidad de que el segundo


artı́culo sea un éxito dado que el primero fue un fracaso, diga r− . Uti-
lizando los valores de α y β calcule

α
r− =
α+β+1

y compruebe si los valores elicitados concuerdan.

5. Si el resultado no es satisfactorio se pueden ajustar los valores de r yr+ o


r− hasta obtener un resultado consistente.

En lugar de una Beta


El modelo apriori Beta tiene limitaciones prácticas para representar conocimien-
to apriori sobre la proporción. Gordy1 revisa algunos modelos y propone otro
para representar una variable continua que esté definida en un intervalo acotado.
1 Gordi, B. M. (1998) A generalization of generalized beta distributions. Board of Governors

of the Federal Reserve System


4.1. DISTRIBUCIÓN BINOMIAL 27

La Hipergeométrica Gaussiana (GH) tiene densidad

xp−1 (1 − x)q−1 (1 + λx)−r


GH (x |p, q, r, λ ) =
B(p, q) 2 F1 (r, p, p + q, −λ)

para 0 < x < 1, p > 0, q > 0 y 2 F1 es la función gaussiana hipergeométri-


ca. Cuando r = 0 ó λ = 0 se tiene la beta ordinaria. Esta distribución se
ha usado en análisis bayesiano.

La beta generalizada se define por


q−1
|a| xap−1 (1 − (1 − c)(x/b)a )
GB (x |a, b, c, p, q ) = p+q
bap B(p, q) (1 + c(x/b)a )

para 0 < xa < ba /(1−c), 0 ≤ c ≤ 1, y b, p y q positivos. Cuando a = b = 0


y c = 1 se tiene la beta prima.

Gordy propone la beta generalizada llamada hipergeométrica confluente


y definida por

xp−1 (1 − p)q−1 exp (−sx)


CH(x |p, q, s ) =
B(p, q) 1 F1 (p, p + q, −s)

para 0 < x < 1. La 1 F1 es la hipergeométrica confluente.

Gordy propone la hipergeométrica confluente compuesta definida por

xp−1 (1 − νx)q−1 (θ + (1 − θ)νx)−r exp(−sx)


CCH(x |p, q, r, s, ν, θ ) =
B(p, q)H(p, q, r, s, ν, θ)

para 0 < x < 1/ν, p > 0, q > 0, r ∈ R, s ∈ R, 0 ≤ ν ≤ 1 y θ > 0. Además


H está dada por

H(p, q, r, s, ν, θ) = ν −p exp (−s/ν) Φ1 (q, r, p + q, s/ν, 1 − θ)

con Φ1 es la función hipergeométrica confluyente definida por

X∞ X ∞
(α)m+n (β)n m n
Φ1 (α, β, γ, x, y) = x y
m=0 n=0
(γ)m+n m!n!

y donde (a)k es la notación de Pochhammer, esto es, (a)0 = 1, (a)1 = a


y (a)k = (a)k−1 (a + k − 1). Para esta distribución el k-ésimo momento se
calcula como
(p)k H(p + k, q, r, s, ν, θ)
E(X k ) =
(p + q)k H(p, q, r, s, ν, θ)
28 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS

4.2. Distribución Binomial Negativa


Teorema 4.2 Suponga que X1 , · · · , Xn es una muestra aleatoria de una dis-
tribución binomial negativa con parámetros r y π, donde r tiene una valor es-
pecı́fico (r > 0) y el valor de π es desconocido. También supongamos que la
distribución apriori de π es una beta con parámetros α(> 0) y β(> 0). Entonces
Pπn cuando Xi = xi , para i = 1, · · · , n es una beta on
la distribución posterior de
parámetros α + rn y β + i=1 xi .

4.3. Distribución Geométrica


Otra distribución de conteo popular es la geométrica, la cual cuenta el
número de fracasos antes de obtener el primer éxito. Su función de probabilidad
está dada por

P (X = k) = (1 − π)π k k = 0, 1, 2, · · ·

Su media es π/(1 − π) y su varianza π/(1 − π)2 . El sesgo es (1 + π)/ π.

4.4. Distribución Multinomial



Definición 4.1 (Distribución Dirichlet) El vector aleatorio X = (X1 , · · · , Xk )

se distribuye como una Dirichlet con vector de parámetros α = (α1 , · · · , αk ) con
Pk
αi > 0; i = 1, · · · , k, si la p.d.f. f (x|α) para x = (x1 , · · · , xk ) y i=1 xi = 1
está dada por:

Γ(α1 + · · · + αk ) α1 −1
f (x|α) = x · · · xkαk −1
Γ(α1 ) · · · Γ(αk ) 1

La media de Xi es
αi
E(Xi ) =
α0
Pk
donde α0 = i=1 α1 .
La varianza de Xi es

αi (α0 − αi )
var(Xi ) =
α02 (α0 + 1)

y la covarianza entre Xi y Xj es, (i 6= j),

αi αj
Cov(Xi , Xj ) = − 2
α0 (α0 + 1)
4.5. DISTRIBUCIÓN POISSON 29

Teorema 4.3 Suponga que Y = (Y1 , · · · , Yk )′ tiene una distribución multino-


mial con parámetros n (fijo) y W = (W1 , · · · , Wk )′ , desconocidos. Suponga tam-
bién que la distribución apriori de W es una Dirichlet con vector de parámetros

α = (α1 , · · · , αk ) con αi > 0; i = 1, · · · , k. Entonces la distribución posterior
de W cuando Yi = yi , i = 1, · · · , k, es una distribución Dirichlet con vector de

parámetros α∗ = (α1 + y1 , · · · , αk + yk ) .

Gustafson y Walker (200*) extienden el problema a datos multinomiales


longitudinales. Ellos penalizan la distribución apriori Dirichlet para mermar
el impacto de grandes cambios en las probabilidades en puntos sucesivos del
tiempo. Si denotamos

Γ(α1 + · · · + αk ) α1 −1
ξD (π|α) = π · · · πkαk −1
Γ(α1 ) · · · Γ(αk ) 1

Entonces esta función es reemplazada por


( T
)
T
!
 Y 1 X i,t 2
i
ξ π |σ = c(σ) i,t
ξD (π |α = 1) exp − 2 π − π i,t−1
t=1
σ t=2

donde ||·|| es la norma euclı́dea, y σ es un hiperparámtero que debe ser especifi-


cado. La i hace referencia al i-ésimo sujeto. Claramente σ gobierna el grado en el
cual la apriori favorece los pequeños cambios en el tiempo. En particular valores
grandes de σ corresponden a menos favoritismo, con independencia surgiendo
cuando σ → ∞.

4.5. Distribución Poisson


El modelo de conteo más utilizado es el modelo Poisson ya que su desarrollo
teórico es claro y muchos problemas reales pueden modelarse muy bien de esta
forma. Decimos que una variable aleatoria de conteo X se distribuye P oisson(θ)
si su función de probabilidad está dada por

θx exp(−θ)
f (x) = x = 0, 1, 2, 3, · · ·
x!

Para esta distribución se tiene que E(X) = V ar(X) = θ.

Teorema 4.4 Suponga que X1 , · · · , Xn es una muestra de una distribución


Poisson con media desconocida θ. También supongamos que la distribución apri-
ori de θ es una gamma con parámetros α(> 0) y β(> 0). Entonces la distribución
Pn de θ cuando Xi = xi , para i = 1, · · · , n es una gamma con parámetros
posterior
α + i=1 xi y β + n.
30 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS

4.6. Distribución Exponencial


La distribución exponencial tiene función de densidad de probabilidad dada
por
f (x) = θe−θx x ∈ (0, ∞)
Teorema 4.5 Suponga que X1 , · · · , Xn es una muestra de una distribución ex-
ponencial con parámetro desconocido θ. También supongamos que la distribución
apriori de θ es una gamma con parámetros α(> 0) y β(> 0). Entonces la dis-
cuando Xi = xi , para i = 1, · · · , n es una gamma con
tribución posterior de θ P
n
parámetros α + n y β + i=1 xi .

4.7. Distribución Normal


La distribución normal es la más ampliamente conocida y utilizada distribu-
ción en el trabajo estadı́stico. Hay básicamente dos razones para ello:
Muchas poblaciones pueden ser modeladas aproximadamente por esta dis-
tribución.
Como resultados lı́mites se llega a ella en muchas situaciones.
Su función de densidad es
 
1 1 (x − µ)2
f (x) = √ exp −
2πσ 2 σ2
con soporte x ∈ (−∞, ∞). Su función de distribución acumulada se denota
Φ(x), su media es µ y su varianza σ 2 . Esta distribución posee dos parámetros,
lo cual nos lleva a considerar diferentes situaciones. La precisión es el inverso de
la varianza.

4.7.1. Precisión Conocida


Teorema 4.6 Suponga que X1 , · · · , Xn es una muestra aleatoria de una dis-
tribución normal con un valor desconocido de la media µ y un valor especificado
de la precisión r (r > 0).
Distribución Apriori: µ ∼ N (µ0 , τ0 ) donde τ0 es la precisión, tal que
−∞ < µ0 < ∞ y τ0 > 0.
Distribución Posterior:
(µ|X = x) ∼ N (µ1 , τ1 )
donde
τ0 µ0 + nrx̄
µ1 =
τ0 + nr
τ1 = τ0 + nr es la precisión
y x̄ es la media muestral.
4.7. DISTRIBUCIÓN NORMAL 31

Prueba: (Ejercicio)

Observe que la media posterior se puede expresar como


τ0 µ0 + nrx̄ nr τ0
µ1 = = x̄ + µ0
τ0 + nr τ0 + nr τ0 + nr
Se ve claramente que la media posterior es una media ponderada de la media
apriori y la media muestral.

4.7.2. Precisión Desconocida


Este tipo de problema surge en control de calidad cuando lo que interesa
controlar es la variabilidad de un proceso determinado.

Teorema 4.7 Suponga que X1 , · · · , Xn es una muestra aleatoria de una dis-


tribución normal con un valor conocido de la media m (−∞ < m < ∞) y un
valor desconocido de la precisión W (W > 0).

Distribución Apriori: W ∼ Gamma2 (α0 , β0 ) donde α0 > 0 y β0 > 0.

Distribución Posterior:

(W |X = x) ∼ Gamma (α1 , β1 )

donde
n
α1 = α0 +
2
n
1X 2
β1 = β0 + (xi − m) .
2 i=1

Prueba: (Ejercicio)

4.7.3. Media y Precisión Desconocidas


Este caso, a pesar de lo simple que puede parecer, muestra la complejidad a la
que puede llegar a enfrentar el estadı́stico ante la presencia de varios parámetros.

Teorema 4.8 Suponga que X1 , · · · , Xn es una muestra aleatoria de una dis-


tribución normal con un valor desconocido de la media µ y un valor desconocido
de la precisión R (R > 0).
2 Asumimos una gamma de la forma
β α α−1 −βx
f (x) = x e
Γ(α)
32 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS

Distribución Apriori Conjunta de µ y R:

1. La distribución condicional de µ cuando R = r es µ ∼ N (µ0 , τ0 r)


donde τ0 r es la precisión, tal que −∞ < µ0 < ∞ y τ0 > 0, y
2. la distribución marginal de R es Gamma (α0 , β0 ) donde α0 > 0 y
β0 > 0.

Distribución Posterior Conjunta de µ y R cuando X = x:

1. La distribución condicional de µ cuando R = r es

(µ|X = x) ∼ N (µ1 , τ1 )

donde
τ0 µ0 + nx̄
µ1 =
τ0 + n
τ1 = (τ0 + n)r

y x̄ es la media muestral.
2. la distribución marginal de R es Gamma(α1 , β1 ) donde

n
α1 = α0 +
2
n
1X
2
2 τ n (x̄ − µ0 )
β1 = β0 + (xi − x̄) +
2 i=1 2(τ + n)

Prueba: (Ejercicio)

4.8. Distribución Gamma


La distribución gamma ha sido ampliamente aplicada en confiabilidad y en
pruebas de vida. Decimos que la variable aleatoria X tiene una distribución
gamma con parámetros β y α si su densidad es

β α α−1
f (x|α, β) = x exp (−βx) x > 0, α > 0
Γ(α)

donde α denota el parámetro de forma y β es el recı́proco de un parámetro de


escala. Si x1 , x2 , · · · , xn es una muestra aleatoria de esta distribución, entonces
la función de densidad conjunta es
n
Y β nα
f (xi |α, β) = pα−1 exp (−sβ)
i=1
[Γ(α)]n
4.8. DISTRIBUCIÓN GAMMA 33

donde
n
X
s = xi
i=1
Yn
p = xi
i=1

Miller (1980) usa una clase conjugada muy general definida por la conjunta

β ν α−1 ′ α−1
ξ(α, β) ∝ (p ) exp (−s′ β)
[Γ(α)]n′

donde α > 0, β > 0, n′ > 0, ν ′ > 0, s′ > 0 y p′ > 0, tal que n′ (p′ )1/n /s′ < 1.
La distribución posterior es proporcional a
′′
β ν α−1 ′′ α−1
ξ(α, β|x) ∝ p exp (−s′′ β)
[Γ(α)]n′′

donde ν ′′ = ν ′ + n, p′′ = p′ p, s′′ = s′ + s y n′′ = n′ + n.


La distribución condicional de β dado α es una Gamma (ν ′′ , s′′ ), y la dis-
tibución marginal posterior de α es proporcional a
 ν ′′ α
Γ (ν ′′ α) r′′
[Γ(α)]′′ n′′

donde
√ ′′ ′ ′ ′
r′′ ν ′′
p (p′ )1/(ν +n) (r/n)n/(ν +n) sn/(ν +n)
= =
n′′ s′′ s′ + s
34 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS
Capı́tulo 5
Distribuciones No Informativas

El uso de distribuciones apriori no informativas buscan que ellas tengan un


impacto mı́nimo sobre la distribución posterior del parámetro de interés y que
sea relativamente plana con relación a la verosimilitud. Esto busca que sean
los datos los que tengan un claro dominio en la distribución posterior, y, por
lo tanto, en todas las inferencias que de ellas se obtengan. También se conocen
como vagas, difusas, planas o de referencia. Estas distribuciones no informativas
se reunen en dos grupos:

Propias: Cuando la distribución de probabilidad integra a una constante finita,


se dice que es propia. Por ejemplo, para el caso de la distribución bino-
mial, su parámetro π, que denota el porcentaje de éxitos en la población,
podemos asumir como apriori la U (0, 1), lo cual refleja nuestra ignorancia
total, al asumir que cualquier valor en este intervalo es igualmente posible
como valor.

Impropias: Una distribución apriori ξ(θ) es impropia si


Z
ξ(θ) dθ = ∞
Θ

Notas:

1. Una distribución apriori impropia puede terminar en una aposteriori im-


propia y por lo tanto no se podrán hacer inferencias.

2. Una distribución apriori impropia puede llevar a una aposteriori propia.

Ejemplo 5.1 Asumamos que y1 , · · · , yn |θ son variables distribuidas normal e


independientemente con media θ y con varianza conocida σ 2 . Asumamos que
ξ(θ) ∝ 1 es la distribución apriori uniforme (impropia) sobre los números reales.
La verosimilitud es

35
36 CAPÍTULO 5. DISTRIBUCIONES NO INFORMATIVAS

!
2
n (ȳ − θ)
L (θ|y) ∝ exp −
2 σ2

y la distribución posterior es
 
σ2
θ|y ∼ N ȳ,
n
la cual es una distribución propia.

Yang y Berger (1998) presentan varias razones por las cuales es importante
considerar las distribuciones no informativas. Tenemos entre ellas
Con frecuencia la elicitación de las distribuciones apriori es imposible, por
múltiples razones, por ejemplo, limitaciones de costo o tiempo, o resisten-
cia o falta de entrenamiento de los clientes.
El análisis estadı́stico debe aparecer como “objetivo”.
La elicitación subjetiva puede producir malas distribuciones subjetivas,
por ejemplo si la elicitación es sesgada.
En problemas de alta dimensión, lo más que se puede esperar es obtener
buenas distribuciones subjetivas para algunos pocos parámetros, y a los
parámetros de perturbación se les asignan distribuciones no informativas.
El análisis bayesiano con distribuciones no informativas puede utilizarse
para obtener procedimientos clásicos buenos.
Aún cuando un investigador tenga creencias apriori fuertes, puede ser más
convincente analizar los datos utilizando una apriori de referencia dominada por
la verosimilitud. Además podemos automatizar el proceso de hallar aprioris.
Yang y Berger (1998) proporcionan un amplio catálogo de distribuciones no
informativas que es útil en el trabajo aplicado.

5.1. El Principio de la Razón Insuficiente de Laplace


Si el espacio parametral es finito se puede utilizar una distribución apriori
uniforme para reflejar ignorancia total.

5.2. Apriori de Jeffreys


La distribución apriori de Jeffreys satisface la propiedad local de uniformidad
para distribuciones apriori no informativas. Esta apriori está basada en la matriz
de información de Fisher. Jeffreys la propuso como una “regla general” para
determinar la distribución apriori (Kass y Wasserman, 1994).
5.2. APRIORI DE JEFFREYS 37

Definición 5.1 Sea f (x|θ) la densidad de x dado θ. La información de Fisher


es definida como
 2 
∂ log (f (x|θ))
I(θ) = −E
∂θ2
Si θ es un vector de p componentes, entonces
 
∂ 2 log (f (x|θ))
I(θ) = −E
∂θi ∂θj p×p

y entonces I(θ) será una matriz de dimensión p × p.

Definición 5.2 La distribución apriori de Jeffreys se define como

1/2
ξ(θ) ∝ |I(θ)|

La distribución apriori de Jeffreys es localmente uniforme y por lo tanto no


informativa. Esta propiedad es importante ya que nos proporciona un esquema
automatizado para hallar distribuciones apriori no informativas para cualquier
modelo paramétrico (Ibrahim, 2002). Esta distribución es impropia para muchos
modelos, sin embargo, es propia para algunos.

Ejemplo 5.2 Asumamos que y1 , · · · , yn son variables distribuidas independi-


entemente Bernoulli(π). Encontremos la distribución apriori de Jeffreys para
π.
La densidad para una variable Bernoulli(π) es

p(y|π) = π y (1 − π)1−y

Entonces tenemos

log (p(y|π))= y log(π) + (1 − y) log(1 − π)


∂ y 1−y
log (p(y|π))= −
∂π π 1−π
∂2 y 1−y
log (p(y|π))= − 2−
∂π 2 π (1 − π)2
 2 

I(π) = −E log (p(y|π))
∂π 2
E(y) 1 − E(y) 1 1−π
= + = +
π2 (1 − π)2 π (1 − π)2
1 1 1
= + = .
π 1−π π(1 − π)

Por lo tanto la distribución apriori de Jeffreys es


38 CAPÍTULO 5. DISTRIBUCIONES NO INFORMATIVAS

ξ(π) ∝ I(π)1/2
 1/2
1
=
π(1 − π)
= π −1/2 (1 − π)−1/2
= π 1/2−1 (1 − π)1/2−1

Ası́ π ∼ Beta 21 , 21 . Por lo que vemos en este caso la distribución apriori de
Jeffreys es propia.

Ejemplo 5.3 Asumamos que y1 , · · · , yn |µ son variables distribuidas normal e


independientemente con media µ y con varianza σ 2 desconocidas. calculemos la
distribución apriori de Jeffreys para (µ, σ)

 
1 1 2
f (x|µ, σ) = √ exp − 2 (x − µ)
2πσ 2σ
1 1 2
log (f (x|µ, σ)) = − log(2π) − log(σ) − 2 (x − µ)
2 2σ
∂ log (f (x|µ, σ)) 1
= (x − µ)
∂µ σ2
2
∂ log (f (x|µ, σ)) 1
= − 2
∂µ2 σ
∂ log (f (x|µ, σ)) 1 1
= − + 3 (x − µ)2
∂σ σ σ
∂ 2 log (f (x|µ, σ)) 1 3
= − 4 (x − µ)2
∂σ 2 σ2 σ
∂ 2 log (f (x|µ, σ)) 2
= − 3 (x − µ)
∂µ∂σ σ
Tomando la esperanza obtenemos
   1 
µ 0
I = σ2 2
σ 0 σ2

Ası́ la distribución apriori será


  1/2
µ
ξ(µ, σ)
∝ I
σ
 1/2
1 2
= × 2
σ2 σ
1

σ2
5.3. OTRAS ALTERNATIVAS 39

Esta distribución apriori de Jeffreys es impropia.

La distribución apriori de Jeffreys tiene la propiedad de invarianza, ya que


para cualquier otra transformación uno a uno sigue siendo no informativa. Esto
surge de la relación
 2
dψ(θ)
I(θ) = I(ψ(θ))

donde ψ(θ) es una transformación uno a uno de θ. Ası́



1/2 1/2 dψ(θ)
(I(θ)) = (I(ψ(θ)))



Note que dψ(θ)
dθ es el valor absoluto del jacobiano de la transformación de θ a
ψ(θ). Ası́
1/2 1/2
(I(θ)) dθ = (I(ψ)) dψ

La apriori de Jeffreys preserva la escala en parametrizaciones.

Ejemplo 5.4 Supongamos x ∼ N (µ, 1). La distribución apriori de Jeffreys para


µ es ξ(µ) ∝ 1. Sea ψ(µ) = eµ . Esta es una transformación uno a uno en µ. La
correspondiente apriori de jeffreys para ψ(µ) es


dψ(µ) −1
(I(ψ(µ))) 1/2
= (I(µ))1/2

= 1 × e−µ
= e−µ

Ası́ la distribución apriori de Jeffreys para ψ(µ) = eµ es

ξ(µ) ∝ e−µ , −∞ < µ < ∞.

La propiedad de invarianza significa que si tenemos una distribución apriori


localmente uniforme en θ, y si ψ(θ) es una función uno a uno de θ, entonces
ξ (ψ(θ)) es una distribución apriori localmente uniforme para ψ(θ).

5.3. Otras Alternativas


Definición 5.3 (Distribución Apriori de Máxima Entropı́a) Cuando θ es
univariable y puede tomar cualquier valor sobre la recta real, y la media y la var-
ianza apriori están especificadas, la distribución apriori de máxima entropı́a es
la Normal con la media y la varianza especificadas.
40 CAPÍTULO 5. DISTRIBUCIONES NO INFORMATIVAS

Kass y Wasserman (1994) presentan la definición planteada por Novick y


Hall:

Definición 5.4 (Distribución Apriori Indiferente) Se define una distribu-


ción apriori indiferente si identificando una clase de conjugadas se selecciona
una apriori de esta clase que satisfaga:

La apriori debe ser impropia y

una “muestra mı́nima necesaria” debe inducir una posterior propia.

Un ejemplo de la anterior definición es claro en el problema binomial, con la


−1
clase conjugada de las Betas, la distribución apriori {π(1 − π)} es una apriori
indiferente.
Box y Tiao (1973) proponen el uso de distribuciones apriori localmente uni-
formes, las cuales consideran el comportamiento local de la apriori en una región
donde la verosimilitud es apreciable, pero la apriori no se asume grande por fuera
de esa región.

5.4. Marginalización
Ejemplo 5.5 Eliminando un término de molestia. En muchas situaciones
tenemos un vector de parámetros, pero solo estamos interesados realmente en
unos pocos. Debemos por lo tanto proceder a “eliminar” aquellos términos de
molestia. Esto lo hacemos mediante la marginalización.
 Suponga
 que x1 , · · · , xn
es una muestra aleatoria de una N µ, σ 2 , donde µ, σ 2 son desconocidos. Sea
τ = 1/σ 2 . Suponga que especificamos una apriori no informativa de Jeffreys

ξ µ, σ 2 ∝ τ

Ahora,
( n
)
n τX 2
ξ (µ, τ |x) ∝ τ 2 −1 exp − (xi − µ) .
2 i=1

Ası́, para eliminar el término nuisance τ marginalizamos


Z ∞ ( n
)
n
−1 τX 2
ξ (µ |x) ∝ τ 2 exp − (xi − µ) dτ.
0 2 i=1

No es difı́cil llegar a
Z ( )

n τ X
n n nτ o
2 −1
2 2
ξ (µ |x) ∝ τ exp − (xi − x̄) exp − (x̄ − µ) dτ.
0 2 i=1 2

Sea
5.4. MARGINALIZACIÓN 41

n
1 X 2
s2 = (xi − x̄)
n − 1 i=1

Entonces

Z n τ
n
∞ o
ξ (µ |x) ∝ τ 2 −1 exp − (n − 1)s2 + n(µ − x̄)2 dτ
0 2
−n/2
∝ (n − 1)s2 + n(µ − x̄)2
 −(n−1+1)/2
n 2
∝ 1+ (µ − x̄)
(n − 1)s2

Ası́
 
s2
µ|x ∼ t n − 1, x̄,
n

Por lo tanto
µ − x̄
√ ∼ t(n−1)
s/ n

A pesar de haber llegado a un resultado que es de uso común en la estadı́stica


clásica, la interpretación aquı́ es diferente.

Ejemplo 5.6 Eliminando otro término de molestia. En el ejemplo anterior


supongamos que el término de molestia es µ. Debemos por lo tanto halla ξ (τ |x).
procedemos de manera similar

Z n τ

n o
ξ (τ |x) ∝ τ 2 −1 exp − (n − 1)s2 + n(µ − x̄)2 dµ
−∞ 2
n−1
n τ  o
∝ τ 2 −1 exp − (n − 1)s2
2
Ası́
 
n − 1 (n − 1)s2
τ |x ∼ Gamma ,
2 2

De lo anterior obtenemos que

(n − 1)s2 τ ∼ ξn−1
2
42 CAPÍTULO 5. DISTRIBUCIONES NO INFORMATIVAS
Capı́tulo 6
Inferencia Bayesiana

6.1. Estimación Puntual


Dada una distribución sobre un parámetro particular, digamos θ, requerimos
seleccionar un mecanismo para escoger un “buen” un estimador θ̂. Supongamos
que θ0 es el verdadero parámetro, desconocido. Sea d nuestra adivinanza de este
valor. Debemos de alguna forma medir el error que cometemos (digamos que
esto puede ser una multa o un pago) al adivinar a θ0 mediante d. Esto puede
2
ser medido por (d − θ0 ) o por |d − θ0 | o mediante alguna otra función.
Un problema estadı́stico puede resumirse como (S, Ω, D, L), donde

S: Es el espacio muestral de un experimento relevante que tiene asociada una


variable aleatoria X cuya distribución de probabilidad está parametrizada
por un elemento de Ω.

Ω: Espacio parametral (en un sentido amplio)

D: Un espacio de decisiones

L: Una función de pérdida.

Una vez un problema estadı́stico ha sido especificado, el problema de infer-


encia estadı́stica es seleccionar un procedimiento (estadı́stico), a veces llamado
una función de decisión, que nos describe la forma de tomar una decisión una
vez un resultado muestral ha sido obtenido.

Definición 6.1 Una función de decisión o procedimiento estadı́stico es una fun-


ción o estadı́stico d que mapea de S a D.

Definición 6.2 Sea D un espacio arbitrario de decisiones. Una función no neg-


ativa L que mapea de Ω × D a R es llamada una función de pérdida.

43
44 CAPÍTULO 6. INFERENCIA BAYESIANA

Definición 6.3 El valor esperado de L(θ, d(X)) cuando θ es el verdadero valor


es llamada la función de riesgo
Z
R(θ, d) = Eθ [L (θ, d(X))] = L (θ, d(x)) dPθ (x)

Función de Pérdida Cuadrática:


2
L(d, θ) = (d − θ)

Miremos el riesgo para esta función de pérdida. Sea


Z
b = Eξ(θ|x) (θ) = θ ξ (θ|x) dθ

el promedio de la distribución aposteriori. Entonces

Z
E [L(d, θ)] = L(a, θ) ξ (θ|x) dθ
Z
= (a − b + b − θ)2 ξ (θ|x) dθ
Z
= (a − b) + (b − θ)2 ξ (θ|x) dθ
2

Z
≥ (b − θ)2 ξ (θ|x) dθ
,

para cualquier valor de d. La desigualdad anterior se convierte en igual-


dad cuando d = b. El estimador bayesiano bajo una función de pérdida
cuadrática es la media de la distribución posterior.
Función de Pérdida Error Absoluto:

L(d, θ) = |d − θ|

El riesgo es minimizado tomando d como la mediana de la distribución


posterior, digamos d∗ . O sea, la mediana es el estimador bayesiano cuando
la función de pérdida es el valor absoluto. Para mostrar esto supongamos
otra decisión tal que d > d∗ . Entonces
 ∗
 d −d si θ ≥ d,
|θ − d| − |θ − d∗ | = d + d∗ − 2θ si d∗ < θ < d,

d − d∗ si θ ≤ d∗ .

Ya que (d + d∗ − 2θ) > (d∗ − d) cuando d∗ < θ < d, entonces el siguiente


resultado se consigue
6.1. ESTIMACIÓN PUNTUAL 45

E(|θ − d| − |θ − d∗ |) ≥ (d∗ − d)P (θ ≥ d) + (d∗ − d)P (d∗ < θ < d)

+(d − d∗ )P (θ ≤ d∗ )
= (d − d∗ ) [P (θ ≤ d∗ ) − P (θ > d∗ )] ≥ 0
Esta última desigualdad sigue del hecho que d∗ es la mediana de la distribución
de θ. La primera desigualdad en este conjunto de ecuaciones será una igualdad
si, y solo si, P (d∗ < θ < d) = 0. La desigualdad final será una igualdad si, y
solo sı́,

1
P (θ ≤ d∗ ) = P (θ > d∗ ) = .
2
Estas condiciones implican que d es también una mediana. Por lo tanto, E(|θ −
d|) ≥ E(|θ − d∗ |), y la igualdad se cumple si, y solo si, d es también mediana.
Una prueba similar puede hacerse si d < d∗ .

Función de Pérdida Escalonada:

L(d, θ) = 0 si |d − θ| ≤ δ
= 1 si |d − θ| > δ

donde δ es un número predeterminado, usualmente pequeño.

Z
E [L(d, θ)] = I (|d − θ| > δ) ξ (θ|x) dθ

= I (1 − (|d − θ| ≤ δ)) ξ (θ|x) dθ
Θ
Z d+δ
= 1− ξ (θ|x) dθ
d−δ
≈ 1 − 2δξ (d|x)

Para minimizar el riesgo es necesario maximizar ξ (d|x) con respecto a d y el


estimador bayesiano es el maximizador. Por lo tanto, el estimador bayesiano
será el que maximiza la posterior, esto es, el valor modal. Este estimador es
llamado el estimador máximo-aposteriori (MAP).
Una estimación que puede ser utilizada en una o más dimensiones, espe-
cialmente cuando la función de pérdida no ha sido definida explı́citamente, es
el valor del parámetro en el cual se maximiza la disribución posterior. Para
cualquier observación de x, sea ψ(·|x) que denota la distribución posterior de
W en el espacio parametral Ω. Sea ŵ(x) el valor de w que satisface la relación
46 CAPÍTULO 6. INFERENCIA BAYESIANA

Ejemplo 6.1 Estimación Puntual de la Media de una Población Nor-


mal con Varianza Conocida

Datos: y = (y1 , y2 , · · · , yn )′ . Asumimos que yi ∼ N (θ, σ 2 ), para todo


i = 1, 2, · · · , n. y la varianza es conocida.

Distribución Apriori para θ:



θ ∼ N µo , σo2 ,

o !
2
1 (θ − µo )
ξ(θ) ∝ exp −
2 σo2

Verosimilitud:
n
!
 Y 1 (yi − θ)
2
2
f y|θ, σ = √ exp −
i=1 2πσ 2 2σ 2
n
!
X (yi − θ)
2
∝ exp − 2
i=1

Distribución Aposterior: Se aplica la regla de Bayes

ξ (θ|y) ∝ ξ(θ) · f (y|θ)


∝ ξ(θ) · L (θ|)
! n
!
1 (θ − µo )
2 X (yi − θ)
2
∝ exp − exp −
2 σo2 i=1
2σ 2
( n
)!
1 (θ − µo )
2 X (yi − θ)
2
∝ exp − +
2 σo2 i=1
σ2

La distribución posterior se puede reorganizar y mostrar que


θ|y ∼ N µn , σn2

donde
1 n
σo2 µo + σ 2 ȳ τo µo + nrȳ
µn = 1 n =
σo2 + σ 2
τo + nr

y
1 1 n
2
= 2+ 2
σn σo σ
6.1. ESTIMACIÓN PUNTUAL 47

Bajo las tres funciones de pérdida el estimador bayesiano para la media será

θ̂ = µn .

Ejemplo 6.2 Poisson


Sea y1 , · · · yn una muestra aleatoria de una P oisson(λ). Supongamos tam-
bién
Pn que la apriori es una Gamma(1, 1). Por lo tanto la aposterior será Gamma(1+
i=1 yi , n + 1).
El estimador bayesiano para λ

bajo la función de pérdida cuadrática es


Pn
1 + i=1 yi
λ̂ =
n+1

bajo la función de pérdida escalonada


Pn
α∗ − 1 i=1 yi
λ̂ = = si α∗ ≥ 1
β∗ n+1

La siguiente función en R calcula los tres estimadores, bajo el supuesto de


una aprori Gamma(α0 , β0 ) :

calcula.estimadores.poisson<-function(alfa0,beta0,x,n=lenght(x)) {

alfa1<-alfa0+sum(x)
beta1<-beta0+n
estimador.fpc<-alfa1/beta1
estimador.fpa<-qgamma(0.5,alfa1,beta1)
estimador.fpe<-(alfa1-1)/beta1
list(estimador.fpc=estimador.fpc,
estimador.fpa=estimador.fpa,
estimador.fpe=estimador.fpe)
}

La utilización será

>calcula.estimadores.poisson(1,1,16,n=4)
$estimador.fpc
[1] 3.4
$estimador.fpa
[1] 3.333571
$estimador.fpe
[1] 3.2
48 CAPÍTULO 6. INFERENCIA BAYESIANA

Figura 6.1: Distribuciones Apriori Gamma(α0 = 1, β0 = 1) y Aposteriori


Gamma(α1 = 17, β1 = 5) para un problema de conteo Poisson con parámetro
P4
λ . La muestra n = 4 y i=1 yi = 16.
6.2. REGIONES DE CREDIBILIDAD 49

Definición 6.4 Estimador generalizado de máxima verosimilitud Si tal


valor de w existe para todo valor de x,

ξ [ŵ(x)|x] = sup ξ(w|x)


w∈Ω

entonces decimos que el estimador ŵ(X) es un estimador generalizado de máxi-


ma verosimilitud de W .

6.2. Regiones de Credibilidad


Los intervalos de confianza clásicos frecuentemente son malinterpretados y
los usuarios actúan como si “grado de confianza” fuera sinónimo de uniformidad
dentr del intervalo.
Valores p iguales no proporcionan igual evedencia acerca de la hipótesis,
Harrel Jr., F. E. (2000)

6.3. Región de la Densidad Posterior Más Alta


(RDPMA)
Si p(θ|Y ) denota la densidad posterior entonces podemos definir un intervalo
de credibilidad utilizando la RDPMA.

Definición 6.5 (Box y Tiao, 1973) Una región R en un espacio parametral Θ


es llamada la región de la densidad posterior más alta (RDPMA) de contenido
α si

1. P (θ ∈ R|Y ) = α

2. Para θ1 ∈ R y θ2 6∈ R, se cumple P (θ1 ∈ R|Y ) ≥ P (θ2 ∈ R|Y ).

Para un contenido de probabilidad α, la RDPMA tiene el volumen más


pequeño en el espacio parametral.

Ejemplo 6.3 Distribución Exponencial Elfessi y Reineke (2001) con-


struyen intervalos de credibilidad para la media de la distribución exponencial
bajo una distribución apriori propia conjugada

ξ(θ) = θα−1 exp (−βθ)

para θ > 0, −∞ < α < ∞ y β ≥ 0. Note que esta distribución apriori cor-
responde al kernel de una distribución gamma cuando α ≥ 0. La distribución
aposteriori es por lo tanto
( n
)!
X
n+α−1
ξ (θ|x1 , · · · xn ) ∝ θ exp −θ β + xi
i=1
50 CAPÍTULO 6. INFERENCIA BAYESIANA

Esta distribución posterior es propia cuando α + n > 0, y la constante de


proporcionalidad es
Pn α+n
(β + i=1 )
.
Γ(α + n)

El intervalo de credilidad de probabilidad C100 % es


!
χ22(α+n),(1−(1−C)/2) χ22(α+n),((1−C)/2)
Pn , Pn
2 (β + i=1 xi ) 2 (β + i=1 xi )

Ejemplo 6.4 Distribución Uniforme Rossman et al. (1998) presentan la


contrucción de la región de mayor probabilidad para el “parámetro” de la dis-
tribución uniforme U (0, θ). La estadı́stica clásica nos presenta, asumiendo que
X1 , · · · , Xn sea una muestra aleatoria,

Estimador de Máxima Verosimilitud máx {Xi }

n+1
Estimador de Mı́nima Varianza Insesgado n máx {Xi }

Si escogemos una distribución apriori impropia o aplanada de la forma


ξ(θ) = 1 para θ > 0, la distribución posterior es proporcional a la función
de verosimilitud,
1
ξ (θ|X) ∝ n para θ ≥ máx {Xi }
θ
La constante de proporcionalidad, que vuelve la distribución posterior propia
n−1
es (n − 1) (máx {Xi }) . Bajo la función de pérdida cuadrática el estimador
bayesiano es igual a la media aposteriori
Z ∞
n−1
E[θ|X] = θ · ξ (θ|X) dθ = máx {Xi }
−∞ n−2

Un intervalo de probabilidad del 95 % se halla resolviendo


Z LS n−1
(n − 1) (máx {Xi })

LI θn

Ejemplo 6.5 la siguiente función permite construir un intervalo del 95 % de


probabilidad de la mayor densidad para el parámetro de la Poisson
6.3. REGIÓN DE LA DENSIDAD POSTERIOR MÁS ALTA (RDPMA) 51

intervalo.poisson <-function(a,b)
{
x1<-1:499/10000
x2<-0.950+x1
dif<-abs(dgamma(qgamma(x1,a,rate=b),a,rate=b)
-dgamma(qgamma(x2,a,rate=b),a,rate=b))
x3<-qgamma(x1[which.min(dif)],a,rate=b)
x4<-qgamma(x2[which.min(dif)],a,rate=b)
list(x3=x3,x4=x4)
}

En el ejemplo que tenı́amos nos da

>intervalo.poisson(17,5)
$x3
[1] 1.871629

$x4
[1] 5.045115

Mientras que el intervalo tradicional hallado con ambas colas iguales a α/2 es

$x3
[1] 1.980625

$x4
[1] 5.1966

6.3.1. Intervalos frecuentistas tradicionales para la Pois-


son
El ejemplo anterior nos permite ilustrar una de la múltiples dificultades que
tiene la aproximación tradicional, en la cual pueden existir más de una regla
para construir intervalos de confianza y muchas veces sin la suficiente claridad
por parte del investigador sobre cúal de ellos usar, debido en parte a la carencia
de elementos de juicio que le permita escoger el mejor en una circunstancia
particular.

Intervalo basado en transformaciones (M.T.)



Si X̄ ∼ λ, σ 2 /n , entonces log(X̄) ∼ (log(λ), 1/n), asumiendo que λ > 0
(Serfling, 1980). El intervalo de confianza está dado por
!
1 √ 
X̄ √  , X̄ exp zα/2 / n
exp zα/2 / n
52 CAPÍTULO 6. INFERENCIA BAYESIANA

Método basado en el Teorema Central del Lı́mite (T.C.L.)


Si el tamaño muestral es lo suficientemente grande, podemos aplicar el teo-
rema central del lı́mite.
 
s s
X̄ − zα/2 √ , X̄ + zα/2 √
n n
Pn 2
donde s2 = 1/n i=1 Xi − X̄ . Este es el intervalo propuesto en la mayorı́a
de textos básicos en estadı́stica (Canavos, 1988; Wonnacott y Wonnacott, 1979;
Roussas, 1973; Walpole, 1992; Meyer, 1986; Mood et al., 1974)

Método basado en la Máxima Verosimilitud


Se sabe que si θ̂ es el estimador máximo verosı́mil para θ (puede ser un vec-

tor), bajo ciertas condiciones suaves (Serfling, 1980), entonces θ̂ ∼ θ, I −1 (θ) ,
con I(θ) siendo la matriz de información de Fisher. Entonces, en el caso expo-
nencial
√ √ !
X̄ X̄
X̄ − zα/2 √ , X̄ + zα/2 √
n n

Método Exacto
Pn
Se sabe que S = i=1 Xi se distribuye Poisson con parámetro nλ. Un in-
tervalo de confianza exacto se obtiene resolviendo
s
X i
(nλL ) α
exp (nλL ) =1−
i=0
i! 2

y
s
X i
(nλU ) α
exp (nλU ) =
i=0
i! 2

Intervalos basados en la Razón de Verosimilitud Relativa


Kalbfleish (1985) presenta la metodologı́a para construir intervalos de verosimi-
litud. Si L(µ) es la función de verosimilitud, se define la función de verosimilitud
relativa como
L(λ)
R(λ) =
L(λ̂)
El conjunto de valores de λ para los cuales R(λ) ≥ p es llamado la intervalo de
100 %p de verosimilitud para λ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %.
6.4. PRUEBAS DE HIPÓTESIS 53

Lo que se debe hacer entonces es hallar las raı́ces que nos dan los lı́mites
del intervalo. Para el caso del parámetro de la exponencial, λ, tenemos que un
intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal que
 nX̄
L(λ) λ
R(λ) = = ≥ K(k, α)
L(λ̂) X̄

Esto se resuelve numéricamente.

Bootstrap
El método bootstrap proporciona una manera directa y sencilla para hallar
intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:

1. A partir de la muestra estime el parámetro por máxima verosimilitud.


n
1X
λ̂ = Xj
n j=1

2. Genere M muestras de tamaño n de una distribución exponencial con


parámetro λ̂. Para cada muestra estime el parámetro λ, digamos que para
la muestra j el estimador es λ̂j
n oM
3. Para los λ̂j , construya un histograma y calcule los percentiles .025/(k-
j=1
(0,025) (0,975)
1) y 0.975/(k-1), denotémoslos por λ̂i y π̂i

Otro Método Exacto, K − B


Kabila y Byrne (2000) presentan un método para calcular intervalos de con-
fianza exactos más cortos.

6.4. Pruebas de Hipótesis


Ejemplo 6.6 Poderes Sobrenaturales Bayarri y Berger en la reunión an-
ual que se lleva a cabo en Valencia (España) presentaron el siguiente caso de
sicokinesis: Tres investigadores (Schmidt, Jahn y Radin) en 1987 utilizaron un
generador cuántico que recibe una fila de partı́culas y él desvı́a cada partı́cula,
independientemente de las otras, hacia una luz roja o una luz verde con igual
probabilidad. Se le pidió a un sujeto quien alegaba tener poderes sicokinéticos
que tratara de influenciar el generador de tal forma que las partı́culas se fueran
para la luz roja. Se generaron 104.490.000 partı́culas y se contaron 52.263.470
partı́culas que se fueron hacia la luz roja. Habrá suficiente evidencia que permita
decir que el sujeto tiene poderes sicokinéticos?
54 CAPÍTULO 6. INFERENCIA BAYESIANA

Podemos pensar en este exprimento ası́: Cada partı́cula corresponde a un


ensayo Bernoulli(π), y un éxito será si la partı́cula se va para la luz roja. Si
X denota el número de éxitos, X ∼ Binomial (n, π). Tenemos x = 52,263,470
como la observación real. Se necesita probar

1
H0 : π = (El sujeto no tiene poderes)
2
1
H1 : π 6= (El sujeto tiene poderes)
2

El valor − p = PH0 X − n2 ≥ x − n2 ≈ 0,0003 nos lleva a concluir que
hay una fuerte evidencia contra H0 .
Si pensamos bayesianamente necesitamos una distribución apriori, pero aho-
ra definida sobre las hipótesis en juego:

ξ (Hi ) = probabilidad apriori de que Hi sea cierta, i = 0, 1.


Bajo H1 : π 6= 1/2, sea ξ(π) la densidad apriori sobre π. El Bayes objetivo
selecciona
1
P r (H0 ) = P r (H1 ) =
2
con ξ(π) = 1 (0 < π < 1)
La probabilidad posterior de la hipótesis

P r (H0 |x) = probabilidad de queH0 sea cierta dados los datos x


f (x|π = 1/2) P r (H0 )
= R
P r (H0 ) f (x|π = 1/2) + P r (H1 ) f (x|π) ξ(π) dπ
Para la apriori objetiva

P r (H0 |x = 52,263,470) ≈ 0,92


La densidad posterior en H1 : π 6= 1/2 es

ξ (π|x, H1 ) ∝ ξ(π)f (x|π) ∝ 1 × π x (1 − π)n−x ,


que es una Beta (52,263,470, 52,226,530)

La aproximación bayesiana a las pruebas de hipótesis está basada en el cálcu-


lo de de la probabilidad condicional de una hipótesis Ho dada la información
T Cuando la hipótesis nula es Ho : θ ∈ Θo
disponible, digamos Io , esto es, p(H|Io ).
y la alternativa H1 : θ ∈ Θ1 , con Θo Θ1 = ∅, son formuladas, hay creencias
apriori sobre ambas, digamos ξ(Ho |Io ) y ξ(H1 |Io ), con ξ(Ho |Io ) + ξ(H1 |Io ) = 1.
Por el teorema de la probabilidad total, la distribución apriori de θ es:
ξ(θ|Io ) = ξ(θ|Ho , Io )ξ(Ho |Io ) + ξ(θ|H1 , Io )ξ(H1 |Io )
6.4. PRUEBAS DE HIPÓTESIS 55

donde ξ(θ|Hi , Io ), son las densidades apriori de θ, condicionadas en cada hipótesis.


La información muestral es utilizada entonces para calcular de los odds apriori:
ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :
ξ(Ho |I1 ) p(y|Ho ) ξ(Ho |Io )
=
ξ(H1 |I1 ) p(y|H1 ) ξ(H1 |Io )
de la cual se deriva la siguiente regla de decisión:

si ξ(Ho |I1 ) < ξ(H1 |I1 ) Rechace Ho


si ξ(Ho |I1 ) > ξ(H1 |I1 ) Acepte Ho
si ξ(Ho |I1 ) = ξ(H1 |I1 ) Indecisión acerca de Ho

Definición 6.6 (Factor de Bayes) La razón p(y|Ho )/p(y|H1 ) es llamado el


factor de Bayes, denotado por BF o B01 (y).
Si queremos probar

H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1
Sea f (x|θ) la verosimilitud de x dado θ. Tenemos las siguientes formas del factor
de Bayes

f (x|θ0 )
B01 (x) = (Prueba simple vs. simple)
f (x|θ1 )
f (x|θ0 )
B01 (x) = R (Prueba simple vs. compuesta)
Θ1
f (x|θ)ξ1 (θ)dθ
R
f (x|θ0 )ξ0 (θ)dθ
B01 (x) = RΘ0 (Prueba compuesta vs. compuesta)
Θ1
f (x|θ)ξ1 (θ)dθ

Jeffreys presenta los siguientes criterios sobre el factor de Bayes para decidir
cuándo optar por H0 :

1 < B Hipótesis Nula se sostiene


10−1/2 < B < 1 Evidencia contra H0 , pero
apenas para mencionar.
10−1 < B < 10−1/2 Evidencia sustancial contra H0 ,
10−3/2 < B < 10−1 Evidencia fuerte contra H0 ,
10−2 < B < 10−3/2 Evidencia muy fuerte contra H0 ,
B < 10−2 Evidencia decisiva contra H0 ,
56 CAPÍTULO 6. INFERENCIA BAYESIANA

Ejemplo 6.7 Continuación del ejemplo de Sicokinesia Calculemos el


factor de Bayes para la situación del individuo con poderes.

f x π = 12
B01 = R 1 ≈ 12
0
f (x|π)ξ(π) dπ
P r(H0 |x) P r(H0 )
P r(H0 |x) = P r(H0 ) × B01
Note que
(Odds posterior) (Odds apriori) (Factor de Bayes)

Una región de credibilidad del 95 % para π bajo el supuesto de H1 es C =


(0,50008, 0,50027).

Cuando las probabilidades apriori son iguales, el factor de Bayes determina


la regla de decisión. La evaluación del factor de Bayes involucra el cálculo de
Z
p(y|Ho ) = p(y|Ho , θ)ξ(θ|Ho , Io ) dθ
Z
p(y|H1 ) = p(y|H1 , θ)ξ(θ|H1 , Io ) dθ

El factor de Bayes proporciona una indicación de cuánto cambian nuestras


razones de probabilidad de una situación sin datos, a la luz de los datos, para fa-
vorecer un modelo. Puede verse como una medida de la evidencia proporcionada
por los datos en favor de un modelo comparado con un competidor. El logaritmo
del factor de Bayes ha sido llamado el peso de la evidencia proporcionada por
los datos (De Santis y Spezzaferri, 1999).
Ejemplo 6.8 La Prueba de Sabor (Sahu, 2000) Se conduce un experi-
mento para determinar si un individuo tiene poder discriminatorio. El individuo
debe identificar correctamente cuál de las dos marcas de un producto ha recibido
(obviamente las condiciones experimentales deben ser óptimas). Si θ denota la
probabilidad de que seleccione la correcta en el i-ésimo ensayo, entonces la vari-
able Bernoulli xi denota el resultado del experimento, tomando el valor de 1 si
acierta y 0 si falla. Supongamos que en los 6 primeros ensayos los resultados son
1, 1, 1, 1, 1 y 0. Nuestro problema es verificar
1 1
H0 : θ = versus H1 : θ > .
2 2
En este caso tenemos  una hipótesis simple contra una compuesta donde
Θ0 = 12 y Θ1 = 21 , 1 . Asumamos una distribución apriori uniforme sobre θ
bajo la hipótesis alternativa. Ası́ ξ1 (θ) = 2 si 12 < θ < 1. Ahora el factor de
Bayes es

1 6
2 1
B01 (x) = R 1 = .
θ5 (1 − θ)2dθ 2,86
1/2
6.4. PRUEBAS DE HIPÓTESIS 57

Esto sugiere que esta persona parece tener algún poder discriminatorio, pero no
mucho.

El factor de Bayes puede verse como la versión bayesiana de la prueba clásica


de la razón de verosimilitudes (De Santis y Spezzaferri, 1999). Si se asumen dos
hipótesis simples, digamos θ 1 y θ 2 , el factor de Bayes se reduce a la razón de
verosimilitud f (y|θ 1 )/f (y|θ 2 ).

Ejemplo 6.9 Sean y1 , · · · , yn |θ variables independientes y distribuidas Poisson


con parámtero θ. Ası́,
θyi e−θ
p (yi |θ) =
yi !
para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipótesis simples,
con ξ (H0 |I0 ) = ξ (H1 |I0 ). El Factor Bayes es
 P yi
θ0 i
exp (θ1 − θ0 )
θ1

y por lo tanto, ya que la distribución apriori asigna igual probabilidad a las


hipótesis, la regla de decisión será aceptar H0 si el Factor de Bayes es mayor
que 1.

Ejemplo 6.10 Comparación de dos proporciones Un problema común


en estadı́stica es el de verificar que dos proporciones son iguales (H0 : π1 = π2 )
contra la alternativa H1 : π1 6= π2 . Bajo el supuesto de H0 solo tenemos un
párametro que puede tomar un valor en (0, 1) y por lo tanto necesitamos es-
pecificar una distribución apriori en esta situación, digamos ξH0 (π) (podemos
pensar en una Beta(α, β)), donde α y β se escogen de tal forma que reflejen el
conocimiento apriori (en caso de ignorancia podemos escoger α = 1 y β = 1). Ba-
jo la alternativa H1 debemos pensar en una distribución conjunta para (π1 , π2 ),
digamos ξH1 (π1 , π2 ). Bajo la alternativa una selección obvia es una uniforme
en el área (0, 1) × (0, 1), con π1 6= π2 y esto corresponde al producto de dos
uniformes independientes. Además asumamos que la probabilidad apriori de H0
es 0.5.
Asumamos que nuestros datos son

Exitos Fracasos Total


Muestra 1 2 13 15
Muestra 2 14 1 15

El factor de Bayes es 0.0000894 y la probabilidad posterior de la hipótesis


nula es 0.0000894.
58 CAPÍTULO 6. INFERENCIA BAYESIANA

6.4.1. Comparación de Modelos


Esta parte está basada en De Santis y Spezzaferri (1999). Si pensamos en
términos de modelos, digamos M1 , · · · , Ms , donde asumimos que Mi está parametriza-
do por θ i ∈ Θi , de dimensión di , y con función de densidad de probabilidad
de los datos fi (y|θ i ) y distribución apriori ξ(θ i ). Si se tienen las probabilidades
apriori para los modelos p1 , · · · , ps , por el teorema de Bayes tenemos
pi mi (y)
P r (Mi |y) = Ps
j=1 pj mj (y)

donde
Z
mi (y) = fi (y|θ i )ξ(θ i ) dθ i , para i = 1, · · · , s,
Θi
es la distribución marginal de los datos bajo el modelo Mi . La razón de las
probabilidades posteriores nos permiten hacer una comparación entre modelos.
Para los modelos Mj y Mk se tiene:
P r (Mj |y) pj
= Bjk (y),
P r (Mk |y) pk
donde
mj (y)
Bjk (y) =
mk (y)
es el factor de Bayes para el modelo Mj contra el modelo Mk a partir de los
datos y.

Ejemplo 6.11 Geométrica vs. Poisson (Sahu, 2000) Supongamos ten-


emos una muestra aleatoria x1 , x2 , · · · , xn de uno de los dos modelos hipotéticos

x
M0 : f (x|θ0 ) = θ0 (1 − θ0 ) , x = 0, 1, · · ·
M1 : f (x|θ1 ) = e−θ1 θ1x /x!, x = 0, 1, · · ·

Por simplicidad asumamos que θ0 y θ1 son conocidos. Cómo nos decidimos entre
los dos modelos utilizando la evidencia muestral?
Ya que los parámetros se asumieron conocidos no necesitamos asumir ningu-
na distribución apriori para ellos. Por lo tanto
nx̄
f (x|M0 ) = θ0n (1 − θ0 )

y
e−nθ1 θnx̄
f (x|M1 ) = Qn 1
i=1 xi !

ahora, el factor de Bayes es la razón de las dos últimas ecuaciones. Supongamos,


θ0 = 1/3 y θ1 = 2, o sea que las dos distribuciones tienen la misma media. Si
6.4. PRUEBAS DE HIPÓTESIS 59

n = 2 y x1 = x2 = 0 entonces B01 (x) = 6,1, sin embargo, si n = 2 y x1 = x2 = 2


entonces B01 (x) = 0,3

Definición 6.7 (Modelos Encajados) Dos modelos Mk y Mj son encajados


(con Mk en Mj ), si θ j = (φ, η) y θ k = φ y fk (y|φ) = fj (y|φ, η 0 ), donde η 0
es un valor especı́fico de η, y φ es un parámetro común.

Asumamos que tenemos datos x que surge de uno de los siguientes modelos
(hipótesis):
M1 : X tiene densidad f1 (x |θ 1 )
M2 : X tiene densidad f2 (x |θ 2 )
.. ..
. .
Mq : X tiene densidad fq (x |θ q )
Le asignamos probabilidades apriori a cada modelo ξ (Mi ). Bajo el modelo

Mi :

Densidad apriori de θ i : ξi (θ i )
Densidad marginal de X:
Z
mi (x) = fi (x | θ i ) ξi (θ i ) dθ i

que mide qué tan verosı́mil es x bajo Mi .


Densidad posterior:
fi (x | θ i ) ξi (θ i )
ξi (θ i |x ) =
mi (x)

El factor de Bayes de Mj con respecto a Mi :

mj (x)
Bji =
mi (x)

La probabilidad posterior de Mi :
 −1
X q
ξ (Mi ) mi (x) ξ (M j )
ξ (Mi |x ) = Pq = Bji 
j=1 ξ (Mj ) mj (x) j=1
ξ (M i )

En el caso particular ξ (Mj ) = 1/q, entonces

mi (x) 1
ξ (Mi |x ) = m̄i (x) = Pq = Pq
j=1 m j (x) j=1 Bji
60 CAPÍTULO 6. INFERENCIA BAYESIANA

Ejemplo 6.12 Localización-Escala Suponga que X1 , X2 , · · · , Xn es una


muestra aleatoria con densidad
 
1 xi − µ
f (xi |µ, σ ) = g
σ σ
Podemos considerar varios modelos:
1. MN : g es N (0, 1)
2. MU : g es U nif orme(0, 1)
1 x−µ

3. ML : g es Exponencial a la izquierda , para x ≤ µ
σe

4. MR : g es Exponencial a la derecha σ1 e−(x−µ) , para x ≥ µ
Observe que estos modelos no son encajados.
Ejemplo 6.13 Localización-Escala Suponga que X1 , X2 , · · · , Xn es una
muestra aleatoria con densidad
 
1 xi − µ
f (xi |µ, σ ) = g
σ σ
Podemos considerar varios modelos:
1. MN : g es N (0, 1)
2. MU : g es U nif orme(0, 1)
1 x−µ

3. ML : g es Exponencial a la izquierda , para x ≤ µ
σe

4. MR : g es Exponencial a la derecha σ1 e−(x−µ) , para x ≥ µ
Observe que estos modelos no son encajados.
Normal:

Γ n−1
2
m (x |MN ) =
√ hP 2
i(n−1/2)
(2π)(n−1)/2 n i (x i − x̄)

Uniforme:
1
m (x |MU ) = (n−1)
n(n − 1) x(n) − x(1)
Exponencial izquierda:
(n − 2)!
m (x |ML ) = (n−1)
nn x(n) − x̄

Exponencial derecha:
(n − 2)!
m (x |MR ) = (n−1)
nn x̄ − x(1)
6.5. LA APROXIMACIÓN BIC 61

6.5. La aproximación BIC


Esta sección está basada en Raftery (1994). La cantidad básica que subyace
en el factor Bayes es la verosimilitud integrada para el modelo, dada por
Z
p(D|M1 ) = p(D|θ 1 , M1 )ξ(θ 1 |M1 ) dθ 1

Primero se derivará una aproximación simple para esta cantidad, y mostrar


posteriormente como lleva a aproximar los factores de Bayes al criterio BIC
para cualificar modelos. Por simplicidad la ecuación anterior se escribe como
Z
p(D) = p(D|θ)ξ(θ) dθ

Consideremos el caso donde D consiste de n observaciones i.i.d. y1 , · · · , yn , que


pueden ser vectores.
Considere la expansión en series de Taylor de g(θ) = log (p(D|θ)ξ(θ)) alrede-
dor de θ̄, el valor de θ que maximiza g(θ), esto es, la moda posterior. La ex-
pansión es
T 1 T  
g(θ) = g(θ̄) + θ − θ̄ g ′ (θ̂) + θ − θ̄ g ′′ (θ̄) θ − θ̄ + o ||θ − θ̄||2
2
donde  
∂g(θ )
∂θ1
 .. 
g ′ (θ) = 
 .


∂g(θ )
∂θd

y g ′′ (θ) es la matriz Hessian de segundas derivadas parciales


 ∂ 2 g(θ ) ∂ 2 g(θ )

∂θ1 ∂θ1 · · · ∂θ 1 ∂θd
 .. .. .. 
g ′′ (θ) = 
 . . .


∂ g(θ )
2
∂ g(θ )
2

∂θd ∂θ1 · · · ∂θd ∂θd

Ahora, ya que g(θ̄) = 0 tenemos


1 T 
g(θ) ≈ g(θ̄) + θ − θ̄ g ′′ (θ̄) θ − θ̄
2
Esta aproximación es buena si θ está cercano a θ̂. Cuando n es grande la
verosimilitud p(D|θ) está concentrada alrededor de su máxima y declina rápi-
damente cuando
R se aleja de θ̂, ası́ que los únicos valores de θ que contribuyen
a p(D) = p(D|θ)ξ(θ) dθ son los que están cercanos a θ̂. Se sigue por lo tanto
que
Z Z 
 T 
p(D) = exp (g(θ)) dθ ≈ exp g(θ̄) exp θ − θ̄ g ′′ (θ̄) θ − θ̄ dθ
62 CAPÍTULO 6. INFERENCIA BAYESIANA

La integral en la ecuación anterior es proporcional a una densidad normal mul-


tivariable, por lo tanto
 d/2
p(D) ≈ exp g(θ̄) (2π) |A|−1/2
 
donde A = −g ′′ θ̄ . El error en la ecuación anterior es O n−1 , ası́
  d 1 
log (p(D)) = log p(D|θ̄) + log ξ(θ̄) + log(2π) − log (|A|) + O n−1
2 2

Ahora, si la muestra es grande, θ̄ ≈ θ̂, donde θ̂ es el estimador de máxima


verosimilitud, y A ≈ nI, donde I es la matrix de Información de Fisher esperada
para una observación.
 Ası́ |A| ≈ nd |I|. Estas dos aproximaciones introducen un
−1/2
error O n en la ecuación anterior, la cual se convierte en
    d d 1  
log (p(D)) = log p(D|θ̂) +log ξ(θ̂) + log(2π)− log(n)− log (|I|)+O n−1/2 (∗)
2 2 2
Removiendo los términos de orden O(1) o menores queda
  d
log (p(D)) = log p(D|θ̂) − log(n) + O(1)
2
La ecuación anterior nos dice que la verosimilitud
 log-integrada,
 log(p(D)),
es igual a la logverosimilitud maximizada, log p(D|θ̂) , menos un factor de
corrección.
La ecuación anterior es la aproximación en la cual está basada el BIC, y
su error O(1) significa que, en general, el error no se deparaece aún con una
cantidad infinita de datos. Esto no es tan malo como parece, ya que los otros
términos de la derecha de la ecuación tienden a infinito cuando n lo hace, por lo
tanto ellos eventualmente dominarán. Ası́ el error en la ecuación tenderá hacia
cero como una proporción del log (p(D)), asegurando que el error no afectará la
conclusión a la cual se llegue, dado que se tengan suficientes datos.
Suponga que la apriori ξ (θ) es normal multivariable con media π̂ y matriz
de covarianzas I −1 . Ası́, hablando aproximadamente, la distribución apriori con-
tiene la misma cantidad de información que una solo observación. Esto parece
razonable en una situación en la cual haya poca información apriori. Entonces
  d 1
log ξ(θ̂) = − log (2π) + log (|I|)
2 2
y sustituyendo en (*) se llega a
  d
log (p(D)) = log p(D|θ̂) − log(n) + O(n−1/2 )
2
Ası́ para la distribución apriori particular seleccionada, el error en la aprox-
imación es O(n−1/2 ) en vez de O(n−1/2 )
Esta aproximación puede usarse para aproximar el factor de Bayes
6.5. LA APROXIMACIÓN BIC 63

p (D|M2 )
B12 = .
p (D|M1 )

Esto queda mejor en la escala logarı́tmica

2 log (B12 ) = 2 (log (p (D|π̂ 2 , M2 )) − log (p (D|π̂ 1 , M1 )))−(d2 − d1 ) log(n)+O(n−1/2 )

Si M1 está encajado en M2 , la ecuación anterior puede re-escribirse

2 log (B12 ) ≈ χ221 − (d2 − d1 ) log(n)

donde χ221 es el estadı́stico de la prueba de la razón de verosimilitud corriente


para probar M1 contra M2 , y d2 − d1 son los grados de libertad asociados con
la prueba.
64 CAPÍTULO 6. INFERENCIA BAYESIANA
Capı́tulo 7
Inferencia Predictiva

Muchas situaciones aplicadas implican realizar inferencias sobre una obser-


vación futura de una variable aleatoria, cuya distribución depende de un número
finito de parámetros (desconocidos), esta distribución se conoce como distribu-
ción predictiva. Smith (1998) argumenta que afirmaciones predictivas acerca de
variables aleatorias no observadas tiene más sentido a menudo que la estimación
tradicional de parámetros.
Asumiendo que ξ (θ) es la distribución apriori y que ξ (θ|x) es la posterior,
la distribución predictiva bayesiana se calcula como

p(z, x)
p (z|x) =
p(x)
R
ΘR
p(z, x, θ) dθ
=
p(x, θ) θ
R Θ
ΘR
p(z, x|θ)ξ(θ) dθ
=
p(x|θ)ξ(θ) θ
R Θ
Θ R
p(z|θ)p(x|θ)ξ(θ) dθ
=
Θ
p(x|θ)ξ(θ) θ
Z  
p(x|θ)ξ(θ)
= p(z|θ) R dθ
Θ Θ
p(x|θ)ξ(θ) θ
Z
= p(z|θ)ξ (θ|x) dθ

Ası́

Z
p (z|x) = p(z|θ)ξ (θ|x) dθ

= Eθ|x [p(z|θ)]

65
66 CAPÍTULO 7. INFERENCIA PREDICTIVA

La función p(z|θ) es la de verosimilitud de θ evaluada en z.

Ejemplo 7.1 Suponga que x1 , · · · , xn es una muestra aleatoria de una Bernoulli(π)


y suponga que la distribución apriori de π es una Beta(α, β). Encontremos la
distribución predictiva de una observación futura z.
Tenemos
Z
p (z|x) = p(z|π)ξ (π|x) dπ

Ahora

p(z|π) = π z (1 − π)1−z , z = 0, 1,

y
P P
xi +α−1
ξ(π|x) ∝ π (1 − π)n− xi +β−1

P P
Ahora, si denotamos por α∗ = xi + α y β ∗ = n − xi + β tenemos que

Z 1
Γ(n + α + β) z+α∗ −1 ∗
p(z|x) = ∗ ∗
π (1 − π)β +1−z−1 dπ
0 Γ(α )Γ(β )
Γ(n + α + β) Γ(z + α∗ )Γ(1 − z + β ∗ )
=
Γ(α∗ )Γ(β ∗ ) Γ(n + α + β + 1)

Ası́

Γ(n + α + β)Γ(1 + β ∗ )
P (z = 0|x) =
Γ(β ∗ )Γ(n + α + β + 1)
β∗
=
n+α+β
β∗
=
α∗ + β ∗
y

α∗
P (z = 1|x) =
α∗ + β∗

Vale la pena notar que

P (z = 1|x) = E(π|x),

la media posterior.
67

Ejemplo 7.2 Suponga que x1 , · · · , xn es una muestra aleatoria de un P oisson(θ).


Además supongamos que la distribución apriori de θ es una Gamma(α, β). En-
contremos la distribución predictiva p(z|x). P
Sabemos que la distribución aposteriori es una Gamma(α∗ = α+ xi , β ∗ =
β + n). Ahora

θz e−θ
p(z|x) =
z!
Ası́

Z ∞ ∗
θz e−θ (β ∗ )α −β ∗ θ
p(z|x) = e dθ
0 z! Γ (α∗ )
∗ Z ∞
(β ∗ )α ∗ ∗
= ∗
θz+α −1 e−(β +1)θ dθ
z!Γ (α ) 0

(β ∗ )α Γ (z + α∗ )
= ∗
z!Γ (α ) (β ∗ + 1)(z+α∗ )
  α∗  z
z + α∗ − 1 β∗ 1
=
z β∗ + 1 β∗ + 1
para z = 0, 1, 2, · · · Por lo tanto
 
1
z|x ∼ Binomial − N egativa α∗ ,
β∗ + 1

Ejemplo 7.3 Sea x1 , · · · , xn una muestra aleatoria de una exponencial con


densidad θe−θx , con x > 0, θ > 0. Sea Z que denota una observación futu-
ra de la misma densidad. Estamos interesados en la probabilidad predictiva
que Z > z para algún nivel dado z. Cuando θ es conocido, esto está dado por
φ = φ(z|θ) = e−θz .
Si asumimos que la distribución apriori de θ es ξ(θ) ∝ θa−1 e−bθ , una apriori
Gamma con parámetros (a, b). La distribución aposteriori de θ es también una
Gamma con parámetros (a + n, b + Sn ), donde Sn = x1 +· · ·+xn , y la esperanza
posterior de φ se calcula como
 a+n
b + Sn
φ̂ =
b + Sn + z
Cuando a = b = 0 se tiene una distribución apriori Jeffreys y la esperanza
se reduce a
 n
Sn
φ̂ =
Sn + z
68 CAPÍTULO 7. INFERENCIA PREDICTIVA

7.1. Tamaño Muestral


Existen varias aproximaciones en estadı́stica bayesiana para la determinación
del tamaño muestral. Joseph et al (1999) presentan los siguientes criterios

Criterio de Cobertura Promedio (ACC): Este criterio permite variar el


nivel de cobertura 1−α con x, mientras se tiene fija la longitud del intervalo
HPD, l. El tamaño muestral se obtiene hallando el mı́nimo n que satisfaga

Z (Z a(x,n)+l
)
ξ(θ|x) dθ f (x) dx ≥ 1 − α
X a(x,n)

donde a(x, n) es el lı́mite inferior del intervalo HPD de longitud l para


la distribución posterior ξ(θ|x), la cual dpende de x y n. f (x) es la dis-
tribución predictiva de x, también conocida como la distribución marginal
pre-posterior de los datos y está dada por
Z
f (x) = f (x|θ)ξ(θ) dθ
Θ

Criterio de Longitud Promedio (ALC): En este caso se fija la probabili-


dad de cobertura, 1 − α, y se permite que la longitud del intervalo HPD
varı́e dependiendo de los datos. En este caso para cada x en X debemos
hallar la longitud HPD l′ (x, n) tal que

Z a(x,n)+l′ (x,n)
ξ(θ|x) dθ = 1 − α
a(x,n)

y el tamaño muestral n es el mı́nimo entero que satisfaga


Z
l′ (x, n)f (x) dx ≤ l,
X

donde l es la longitud promedio preespecificada.

Criterio del Peor Resultado (WOC): Otra aproximación es definir una lon-
gitud máxima permisible l y una probabilidad de cobertura mı́nima de
1 − α, no importa qué datos tengamos. Debemos escoger el mı́nimo valor
de n tal que
(Z )
a(x,n)+l
ı́nf ξ(θ|x) dθ ≥1−α
x∈X a(x,n)
Capı́tulo 8
WinBUGS

8.1. Introducción
Uno de los inconvenientes que han tenido los métodos bayesianos para ser
utilizados en la práctica ha sido la carencia de software especializado. Ninguno
de los grandes paquetes en estadı́stica, SAS, SPSS, etc., tienen módulos para
hacer estadı́stica bayesiana.
Existe un programa de acceso gratuito al público que permite utilizar simu-
lación estadı́stica basada en cadenas de Markov en una forma simple y efectiva
para gran variedad de modelos llamado BUGS, que es un acrónimo de Bayesian
analysis Using the Gibbs Sampler (Muestreador Gibbs, que lo veremos en un
capı́tulo posterior). Este programa está disponible en
http://www.mrc-bsu.cam.ac.uk/bugs
y para el entorno de Windows existe WinBUGS. Este programa fue de-
sarrollado por UK Medical Research Council y el Imperial College of Science,
Technology and Medicine.
Existen otros programas que permiten resolver problemas bayesianos como
el BACC, First Bayes, etc. El R trae algunas librerı́as con soluciones a ciertos
problemas especı́ficos, por ejemplo la MCMCPack y CODA.

8.2. Qué se espera de un software para estadı́sti-


ca bayesiana?
Koop (1999) señala algunos requisitos claves que todo software bayesiano
deberı́a cumplir:

1. Debe ser computacionalmente eficiente.

2. Debe estar bien documentado.

69
70 CAPÍTULO 8. WINBUGS

3. El grupo de soporte debe ser amplio y reconocido.

4. Debe proporcionar simuladores posteriores para la clase de modelos que


los investigadores quieran usar.

5. Para los modelos no incluidos, debe ser fácil la inclusión de los simuladores
posteriores que se necesitan por parte del usuario.

6. Debe tener una base amplia de funciones g(θ).

7. Debe proporcionar medidas del error en la aproximación para las esti-


madas de E (g(θ)|Y ) y las verosimilitudes marginales.

8. Debe permitir al usuario graficar la aposteriori y la apriori.

9. Debe permitirle al usuario realizar un análisis de sensibilidad apriori de


una manera fácil.

10. Todo lo anterior debe poderse llevar a cabo de una manera simple, trans-
parente y conveniente para el usuario.

8.3. Utilización de WinBUGS


La utilización por primera vez del programa puede ser una experiencia ex-
traña, ya que el programa no funciona en una forma lineal, sino que requiere
múltiples pasos que pueden parecer repetitivos, pero que en realidad no lo son.
En W inBU GS el sı́mbolo ∼ significa “distribuido como” y se utiliza para

Especificar la distribución de los datos.

Especificar la distribución apriori.

Los valores a la izquierda de ∼ son llamados “estocásticos”.


La flecha (conformada por dos sı́mbolos) a la izquierda <- se utiliza como el
igual. Por ejemplo var <- 1/precision . Los valores a la izquierda de <- son
llamados “lógicos”.
Los pasos en el programa para correr un modelo son:

1. Los comandos anteriores los escribimos en una ventana que abrimos se-
leccionando File y luego New. Si usted ya tiene algún archivo con un
programa creado y salvado con anterioridad en formato .odc puede abrirlo
para trabajar con él.
Si seleccionamos New el programa muestra una ventana en blanco en la
cual podemos escribir los comados apropiados, como los que se encuentran
enseguida. Con el cursor seleccionamos toda la parte correspondiente al
modelo y seleccionamos Edit y luego Copy.

Ejemplo con la longitud máxima del pie de estudiantes universitarios:


8.3. UTILIZACIÓN DE WINBUGS 71

Figura 8.1: Pantalla al iniciar el programa. Aparece una ventana con la nota
sobre el Copyright.
72 CAPÍTULO 8. WINBUGS

El programa W inBU GS permite utilizar un languaje conciso para


expresar un modelo: β y τ son expresados con distribuciones apriori
propias pero lo más mı́nimo informativas que se pueda, mientras
que la expresión lógica sigma permite que la desviación estándar
sea estimada.
Primero seleccionamos el menú Model.
Abrimos la herramienta Specification. Aquı́ nos aparece una ventana
con varias opciones.
nalamos la palabra check model en el comenzo de la descripción
Se~
del modelo. Necesitamos chequear que la descripción del modelo
define completamente un modelo de probabilidad. Si el modelo fue
especificado correctamente aparece el mensaje model is syntacti-
cally correct en la parte inferior izquierda de la ventana principal.
Sino, nos aparece el tipo de error que tenemos en el modelo.
Luego se~
nalamos los datos (los cuales deben estar en un formato
especial, estilo S−P lus) y los copiamos con Edit y luego Copy.
Nuevamente nos vamos a la ventana Specification Tool y seleccionamos
load data. Si los datos están conformes al modelo, aparece un mensaje
en la parte inferior izquierda de la ventana principal donde se
informa que los datos fueron cargados. (Estos datos pueden estar
copiados en la misma ventana en la cual escribimos nuestro modelo.
Lo que hacemos es se~ nalarlos y copiarlos y luego oprimimimos el
cuadro load data).

list(Y = c(24.2,25.4,25.0,25.9,25.5,24.4), N = 6)

El siguiente paso se ejecuta en la ventana Specification Tool y seleccionamos


compile.
A continuación en la ventana Specification Tool seleccionamos load
inits. Los valores iniciales para el proceso iterativo (Estos valores
iniciales pueden estar copiados también en la misma ventana en
la cual escribimos nuestro modelo y los datos. Lo que hacemos
es se~nalarlos y copiarlos y luego oprimimimos el cuadro load inits).

Otra opción nos permite que el programa genere automáticamente


valores iniciales, esto lo hace generando números aleatorios de
la distribución apriori. El programa permite correr más de una
cadena simultáneamente, para lo cual se necesta especificar más
de un conjunto de valores iniciales.
Del menú model seleccione Update... y del menú Inference seleccione
Samples. Ahora usted tiene dos nuevas ventanas, una con el nombre
Update Tool y la otra con el nombre Sample Monitor Tool.
8.3. UTILIZACIÓN DE WINBUGS 73

Figura 8.2: Tenemos la panatalla para los pasos de definición del modelo.
74 CAPÍTULO 8. WINBUGS

La ventana Update Tool nos permite generar muestras. En MCMC usualmente


hay que dejar correr el muestreador duarante algún tiempo (quizá 1000
iteraciones) para asegurarnos de que el proceso está estable antes
de guardar valores.
Después de una corrida inicial nos ubicamos en la ventana Sam-
ple Monitor Tool. Para empezar escribimos los nombres de los nodos
(parámetros) que queremos estudiar. Escribimos en la parte de
node beta y seleccionamos luego set. Procedemos igual con tau.

De la ventana Update Tool seleccionamos la opción update. Esto lo


podemos realizar tantas veces como sea necesario para que el proceso
converja.
De la ventana Sample Monitor Tool seleccionamos ya lo que sea de
nuestro interés. Por ejemplo, seleccionamos un nodo, diagamos
beta y luego stats, nos aparece una nueva ventana con algunos resultados
de interés acerca de este parámetro. Lo mismo hacemos para tau.

node mean sd MC error 2.5 % median 97.5 % start sample


beta 25.06 0.3443 0.006615 24.34 25.06 25.75 1 3000
sigma 0.778 0.3284 0.0068 0.4095 0.698 1.589 1 3000

Ejemplo 8.1 El caso normal con varianza conocida Supongamos que


tenemos una muestra aleatoria de una normal y asumimos que su varianza es
conocida e igual a 1.

Distribucion apriori mu dnorm(0,1) }


list(y=c(1.84,-0.23,1.12,0.35,-0.24, -0.89,1.65,-1.01,2.01,1.12))

8.4. Algunos de los comandos del WinBUGS


8.4.1. Model
Specification
Este comnado activa una ventana llamada Specification Tool que
nos permite definir completamente el modelo.

check model:
8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 75

Figura 8.3: Ventanas de salida de resultados de la ejecución del programa.


76 CAPÍTULO 8. WINBUGS

Figura 8.4: Ventana de definición del modelo.

load data:
compile:
load inits:
gen inits:
num of chains:
for chain:

Update
Este comando se activa una vez el modelo ha sido compilado e inicializado.
El produce la ventana Update Tool con los siguientes comandos:

updates: número de actualizaciones MCMC a ser llevadas a cabo.


refresh: el número de actualizaciones entre reactualizaciones de
la pantalla.
thin: las muestras de cada k-ésima iteración será guardada, donde
k es el valor de thin. Hacer k > 1 puede ayudar a reducir la autocorrelación
en la muestra.
update: clickee para comenzar a actualizar el modelo.
over relax: esta selección permite trabajar con una versión más
relajada del MCMC.
adapting: Esta selección permite un proceso de adaptación inicial
para un mejor ajuste de los parámetros. Toda la información generada
en este proceso es descartada.
8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 77

Figura 8.5: Ventana de Actualización.

8.4.2. Inference
La opción Inference tiene varias opciones, pero la más importante
es Samples.

Samples...: Bajo este comando aparece una ventana con tı́tulo Sam-
ple Monitor Tool. Contiene los siguientes campos:

node: Se epecifica el parámetro o variable de interés para el


análisis.

chains: Se pueden seleccionar las cadenas con las que se construirán


los estadı́sticos.

to: Opera junto con el comando anterior.

beg: Cuando se utiliza una submuestra para el análisis este comando


nos indica desde dónde empezamos a utilizar los valores originales.
Marca el comienzo de la submuestra.

end: Marca el final de la submuestra que se inició con el comando


anterior.

thin: las muestras de cada k-ésima iteración será utilizada para


los estadı́sticos a producir, donde k es el valor de thin.

percentiles:

clear: Remueve cualquier valor guardado de las variables.

set: Debe utilizarse para empezar a guardar los valores para una
variable.
78 CAPÍTULO 8. WINBUGS

Figura 8.6: Ventana de Muestras.

trace: Presenta una gráfica del valor de la variable contra el


número de la iteración. La traza es dinámica y se está reactualizando.

history: Grafica la traza completa para la variable.

density: Presenta un gráfico de densidad para la variable si es


continua, o un histograma si es discreta,

stats: Produce un resumen estadı́stico para la variable.

coda: Produce una representación ASCII del proceso para ser reanalizada
con CODA.

quantiles:
GR diag: Calcula el estadı́stico para convergencia de Gelman-Rubin.

autoC: Grafica la función de autocorrelación de variable hasta


un rezago de 50.

Fit...: Fit Tool

Correlations:
8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 79

Figura 8.7: Ventana de Ajuste.


80 CAPÍTULO 8. WINBUGS
Capı́tulo 9
Modelos Lineales

9.1. La regresión clásica


Un modelo de regresión es un medio formal para expresar los dos
ingredientes esenciales de una relación estadı́stica:

a ) Una tendencia de la variable dependiente Y que cambia, cuando


la variable independiente cambia, en una forma sistemática.

b ) Una dispersión de los puntos alrededor de la relación estadı́stica.

Estas caracterı́sticas se expresan en un modelo de regresión como:

a ) Para cada nivel de X hay una distribución de probabilidad de Y .

b ) Las medias de estas distribuciones de probabilidad cambian en


una forma sistemática con X.

9.1.1. Usos del Análisis de Regresión


Descripción

Control

Predicción

9.1.2. Estrategia Tı́pica en un Análisis de Regresión


a ) Dise~
no del Experimento

b ) Análisis Exploratorio o inicial de los datos

c ) Desarrollo de uno o más modelos de regresión tentativos

81
82 CAPÍTULO 9. MODELOS LINEALES

d ) Hay uno o más modelos adecuados en los datos? Sı́.


e ) Identifique el modelo más adecuado
f ) Haga todas las inferencias necesarias basado en el modelo seleccionado
g ) Revise los modelos y/o desarrolle otros diferentes
h ) Presentacion de resultados e interpretación.

9.1.3. Regresión simple


El modelo más sencillo, pero el más útil, es el que se conoce
como modelo de regresión simple. Si tenemos una variable, Y , en cuyo
comportamiento estamos interesados cuando la condicionamos en
ciertos valores de otra variable, X, el modelo de regresión simple
nos dice que la media condicional de Y dado un valor de X = x,
denotada por E [Y |X] = µY |X , es una función lineal de X, o sea,

E [Y |X = x] = µY |X=x = β0 + β1 x

donde β0 y β1 se conocen como los parámetros del modelo. Estos


valores usualmente son desconocidos y el problema es estimarlos
a partir de una muestra de individuos de la población.
Sea (Y1 , X1 ), (Y2 , X2 ), · · · , (Yn , Xn ) una muestra aleatoria extraı́da de
la población de referencia. Observe como cada individuo proporciona
información simultáneamente sobre X y sobre Y . El individuo i-ésimo
puede representarse en términos del modelos ası́:

Yi = β0 + β1 Xi + ei

Supuestos:

a ) ei ∼ N ormal 0, σ 2 , varianza constante (homoscedasticidad)
b ) Cov (ei , ej ) = 0 para todo i 6= j
Notación:

yi = Yi − Ȳ

xi = Xi − X̄

Las minúsculas denotan desviaciones de la media.

9.1.4. Modelo de Regresión Lineal Múltiple

Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ei

donde
9.1. LA REGRESIÓN CLÁSICA 83

Y : Respuesta o variable dependiente

X1 , X2 , · · · , Xk : k variables explicatorias o independientes (no


estocásticas)

β0 , β1 , · · · , βk : k + 1 parámetros (usualmente desconocidos)

e: Error aleatorio

a ) E (e; ) = 0

b ) V ar (e; ) = σe2

c ) Adicionalmente se asume normal

Y ∼ N β0 + β1 X1 + · · · + βk Xk , σ 2

E [Y |X1 , X2 , · · · , Xk ] = β0 +β1 X1 +· · ·+βk Xk Lamuestraaleatoriaconstadenpuntos.Eli−ésimopuntosedeno

(Xi1 , Xi2 , · · · , Xik , Yi ) , para i = 1, 2, · · · , n

Condicion
Cov (Yi , Yj ) = 0 para todo i 6= j
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βk Xik + ei para i = 1, 2, · · · , n
el modelo aplicado al i-ésimo punto
Para las n observaciones tenemos

Y1 = β0 + β1 X11 + β2 X12 + · · · + βk X1k + e1


Y2 = β0 + β1 X21 + β2 X22 + · · · + βk X2k + e2
.. .. ..
. . .
Yn = β0 + β1 Xn1 + β2 Xn2 + · · · + βk Xnk + en

9.1.5. Notación Matricial


La notación matricial simplifica todo el trabajo

Y n×1 = Xn×(k+1) β (k+1)1 + en×1

ˆ −1 T
Si β̂ denota el estimador de β, se puede mostrar que β̂ = X T X X Y.
Este es el estimador de máxima verosimilitud y coincide con el estimador de
mı́nimos cuadrados. Ŷ = X β̂ son los valores de la respuesta predichos por el
modelo estimado. Ŷ es el estimador de E[Y |X] y los residuales están dados por
e = Y − Ŷ . La predicción para una observación X 0 tenemos Ŷ0 = X T0 β̂
84 CAPÍTULO 9. MODELOS LINEALES

9.2. Aproximación Bayesiana


Sea β = (β1 , · · · , βk )′ ∈ Rk , con k ≥ 1 y sea W otro parámetro (positivo).
Supongamos que podemos observar Y1 , · · · , Yn , cada una de las cuales se dis-
tribuye normalmente cuya media es una combinación lineal de las k componentes
de β y cuya precisión es W .
Sea X la matriz de diseño definida ası́:
 
x11 ··· x1k
 x21 ··· x2k 
 
X= .. .. .. 
 . . . 
xn1 ··· xnk

La distribución condicional conjunta de Y = (Y1 , · · · , Yn )′ cuando β = b y


W = w es una normal multivariable con vector de medias Xb y matriz de
precisión wI, donde I es la matriz de identidad de dimensión n × n. Por lo
tanto la función de verosimilitud tendrá la siguiente forma para todo punto
y = (y1 , · · · , yn )T
 w 
L(b, w|y) ∝ wn/2 exp − (y − Xb)′ (y − Xb)
2

El objetivo principal en el análisis de regresión es el de realizar inferencias con-


cernientes a β yW teniendo como base el valor observado Y = y. Un estimador
de mı́nimos cuadrados de β se define como el vector b = b̂ que minimiza la
forma cuadrática (y − Xb)′ (y − Xb) que aparece en el exponente de la función
de verosimilitud. El valor de b̂ que minimiza la forma cuadrática satisface la
ecuación:

X ′ X b̂ = X ′ y

Estas son conocidas como las ecuaciones normales. Si X es una matriz de rango
completo, entonces X ′ X es no singular, y llegamos a la solución bien conocida
b̂ = (X ′ X)−1 X ′ y.

9.3. Distribución Normal-Gamma


Definición 9.1 Distribución Normal-Gamma Suponga que X 1 , · · · , X n es
una muestra aleatoria de una distribución normal multivariable con vector de
medias M desconocida y matriz de precisión de la forma W R, donde R es
una matriz definida positiva conocida y W desconocida. Suponga también que
la distribución apriori conjunta de M y W es como sigue:
9.4. DISTRIBUCIÓN APOSTERIORI 85

La distribución condicional de M cuando W = w es una distribución


normal multivariable con vector de medias µ y matriz de precisión wτ ,
con µ ∈ Rk y τ k×k es una matriz simétrica definida positiva y,

la distribución marginal de W es una gamma con parámetros α > 0 y


β > 0.

Entonces la distribución posterior conjunta de M y W cuando X 1 = x1 , · · · , X n =


xn es como sigue:

La distribución condicional de M cuando W = w es una distribución


normal multivariable con vector de medias µ∗ y matriz de precisión w(τ +
nR), donde
µ∗ = (τ + nR)−1 (τ µ + nRx̄)

la distribución marginal de W es una gamma con parámetros α + (nk/2)


y β ∗ , donde
n
X
β ∗ = β + 1/2 (xi − x̄)′ R(xi − x̄) + 1/2(µ∗ − µ)′ τ (x̄ − µ)
i=1

Supongamos ahora que la distribución apriori conjunta de β y W es una normal-


gamma multivariable como la definida arriba. La distribución conjunta ξ de β
y W es como sigue para β ∈ Rk y W > 0:
 
k/2 W
ξ(β, W ) ∝ W exp − (β − µ) τ (β − µ) W α−1 exp(−βW )

2

9.4. Distribución Aposteriori


La distribución conjunta ξ de β y W es como sigue para β ∈ Rk y W > 0:
 
k/2 W ′ ′

ξ(β, W |y) ∝ W exp − (β − β 1 ) τ + X X (β − β 1 )
2
×W α+(n/2)−1 exp(−β1 W )

donde

−1 
β1 = τ + X ′X τ µ + X ′y
1 ′ ′ 
β1 = β+ (y − Xβ 1 ) y + (µ − β 1 ) τ µ
2

Por lo tanto
86 CAPÍTULO 9. MODELOS LINEALES

la distribución condicional de β dado W = w aposterior es



N β1 , w τ + X ′ X

donde w τ + X ′ X es la precisión.

la distribución marginal de W es una Gamma α + n2 , β1

Teorema 9.1 Bajo las condiciones anteriores la distrbución marginal aposte-


riori de β será una distribución t multivariable1

AQUI EMPIEZAN NOTAS NUEVAS


 
yi | xi ∼ N xi β, σ 2 ó y | X ∼ N Xβ, σ 2 I

 
2
 
2 −n/2 1 ′
L β, σ | y = 2πσ exp − 2 (y − Xβ) (y − Xβ)

 
2
 −n/2 1  ′ 
= 2πσ exp − 2 y − Xβ̂ y − Xβ̂

 
1  ′


× exp − 2 β − β̂ X X β − β̂

−1
donde β̂ = (X′ X) X′ y, el estimador de mı́nimos cuadrados y utilizamos el
hecho que

 ′      
−1
y − Xβ̂ X β − β̂ = y′ I − X (X′ X) X′ X β − β̂
 
= y′ (X − X) β − β̂ = 0.
 ′  
Por lo tanto se concluye que S = y − Xβ̂ y − Xβ̂ , X′ X y β̂ son estadı́sti-
cos suficientes para β y σ 2 .
1 Un vector aleatorio X se dice que tiene una distribución t multivaiable con n grados de

libertad, vector dfe localización µ y matriz de precisión T , si su densidad es


 −(n+k)/2
1
f (x|n, µ, T ) = c 1 + (x − µ)′ T (x − µ)
n
donde
Γ [(n + k)/2] |T |1/2
c= con
Γ(n/2)(nπ)(k/2)
2 α + n grados de libertad, vector de localización β1 y matriz de precisión
2α + n 
τ + X′ X
2β1
9.5. ANÁLISIS CONJUGADO 87

9.5. Análisis Conjugado


La verosimilitud es de la forma normal-gamma

 
 −(n−k−2)/2−1 1  ′ 
L β, σ 2 | y ∝ σ2 exp − 2 y − Xβ̂ y − Xβ̂

  ′  
 −k/2 1
× σ2 exp − 2 β − β̂ X′ X β − β̂

con β | σ 2 normal y la distribución marginal de σ 2 es una Gamma2 invertida,


denotada por IG2 con n − k − 2 grados de libertad. La distribución apriori
conjugada también es de la forma normal-gamma.


β | σ2 ∼ N β0 , σ 2 M−1
0
σ2 ∼ IG2 (S0 , v0 )

tenemos

   
2
 
2 −(n−k−2)/2−1 S 1  ′


ξ β, σ | y ∝ σ exp − 2 exp − 2 β − β̂ X X β − β̂
2σ 2σ
   
2
 −v 0 /2−1 S 0 2
 −k/2 1 ′
× σ exp − 2 σ exp − 2 (β − β0 ) M0 (β − β0 )
2σ 2σ

 −(v +n)/2−1 S 1
= σ2
0
exp − 2

 

2 −k/2 1 ′
× σ exp − 2 (β − β1 ) M1 (β − β1 )

donde

M1 = M0 + X′ X
 
β1 = M−1
1 M 0 β0 + X ′
X β̂
S1 = S0 + S + Sβ
 ′ h i  
−1 −1
Sβ = β0 − β̂ M−1 ′
0 + (X X) β0 − β̂

El resultado sigue completando el cuadrado para β y reuniendo los otros térmi-


nos en Sβ teniendo en cuenta que

h i
−1 −1 −1
(M0 + (X′ X)) = M−1
0 − M−1
0 M−1
0 + (X ′
X) M−1
0
88 CAPÍTULO 9. MODELOS LINEALES

h i
−1 −1 −1 −1 −1
= (X′ X) − (X′ X) M−1
0 + (X ′
X) (X′ X)
 h i
−1 −1 −1
(X′ X) M0 + (X′ X) M0 = M−1 ′ ′
0 (M0 + (X X)) (X X)
h i
−1 −1
= M−1 ′
0 + (X X)

La distribución posterior será entonces


β | y, σ 2 ∼ N β1 , σ 2 M−1
1
σ2 | y ∼ IG2 (S1 , v1 )
donde v1 = v0 + n.
La distribución marginal posterior para β es una t multivariable. Si integramos
para eliminar σ 2 de la distribución conjunta posterior obtenemos el kernel de la
marginal posterior como
 ′ −(v1+k)/2
ξ (β | y) ∝ S1 + (β − β1 ) M1 (β − β1 )
Este es el kernel de la distribución t multidimensional con v1 grados de libertad
y parámetros de escala S1 y M1 , y denotado por

β | y ∼ tk (β1 , S1 , M1 , v1 )

Resultados similares se obtienen


 para subconjuntos de parámetros de la regre-
sión. Sea β ∼ N b, σ 2 M−1 y σ 2 ∼ IG2 (S, v). Asumamos la siguiente partición
conformable

 
βa
β =
βb
 
Maa Mab
M−1 =
Mba Mbb
Ya que β es normal condicionado en σ 2 tenemos


β a | σ2 ∼ N ba , σ 2 Maa
 −1 b   −1 ba 
β a | β b , σ2 ∼ N ba + Mab Mbb β − bb , σ 2 Maa − Mab Mbb M .

Marginalizando con respecto a σ 2 tenemos

 
−1
βa ∼ tka ba , S, (Maa ) , v
  
−1 b  −1 ba −1
βa | βb ∼ tka ba + Mab Mbb β − bb , S, Maa − Mab Mbb M ,v .
9.5. ANÁLISIS CONJUGADO 89

9.5.1. Distribución Predictiva



Recordemos que el modelo de interés es y = Xβ + ǫ, con ǫ ∼ N 0, σ 2 I .Ya que

β | σ 2 ∼ N β0 , σ 2 M−1
0 , entonces Xβ | σ 2 ∼ N(Xβ0 , σ 2 XM−1 ′
0 X ). Se sigue
que

y | σ 2 ∼ N Xβ0 , σ 2 I + XM−1
0 X

ya que ǫ es independiente de β cuando condicionamos en σ 2 . La apriori para σ 2


es IG2 (S0 , v0 ) y marginalizando con respecto a σ 2 produce
  
′ −1
y ∼ tn Xβ0 , S0 , I + XM−10 X , v0

La densidad predictiva para un vector y∗ de m componentes condicionado a un


conjunto de valores para las variables explicatorias X∗ es
  
∗′ −1
y∗ | X∗ ∼ tm X∗ β1 , S1 , I + X∗ M−1 1 X , v 1

9.5.2. Inferencias
Intervalos de Probabilidad

Regiones de alta probabilidad para conjuntos de parámetros se encuentran direc-


tamente de la distribución marginal posterior. Para un solo parámetro tenemos
 −1 
βi | y ∼ t βi1 , S1 , Mii
1 , v 1

donde M1ii es el elemento i, i de M−1


1 . La transformación

βi − βi1
p
M1ii S1 /v1
tiene una distribución t estándar y una región de más alta probabilidad 1 − α
está dada por
 q q 
βi1 − tα/2,v1 M1ii S1 /v1 , βi1 + tα/2,v1 M1ii S1 /v1

Para conjuntos de parámetros notemos que si x ∼ tm (µ, S, M , v) entonces



(x − µ) M (x − µ) /m
∼ F(m,n)
S/v
Una región de más alta probabilidad para β está dada por
 ′ 
(β − β1 ) M1 (β − β1 ) /k
β: ≤ F(1−α,k,v1 )
S1 /v1
90 CAPÍTULO 9. MODELOS LINEALES

9.5.3. Pruebas de Hipótesis

Las pruebas de hipótesis puntuales son fáciles de implementar utilizando la


técnica de la región de más alta probabilidad y verificando que la hipótesis
está contenida en una región apropiada de más alta probabilidad.
Si la hipótesis tiene la forma de q restricciones lineales Bβ = r, tenemos que la
distribución posterior bajo la hipótesis es
 −1 
Rβ ∼ tq Rβ 1 , S1 , RM−1
1 R , v1

y por lo tanto

′ −1
(δ − Rβ 1 + r) RM−1
1 R (δ − Rβ 1 + r) /q
∼ F(q,v1 )
S1 /v1

para δ = Rβ 1 − r. La hipótesis δ = 0 está contenida en la región de más alta


probabilidad si

′ −1
(Rβ 1 − r) RM−1
1 R (Rβ 1 − r) /q
< F(q,v1 )
S1 /v1

Para el cálculo de las pruebas bayesianas y los factores de Bayes supongamos


deseamos probar H1 : Rβ = r y H2 : Rβ 6= r. H1 implica excatamente q
restricciones sobre los paámetros que pueden ser sustituidos en el modelo, lo
cual produce

y ∗ = X∗ β ∗ + ǫ

donde β es un vector con k−q componentes.


 Especificando
 una apriori para β ∗ y
∗ −1
σ 2 bajo H1 , digamos β ∗ | σ 2 ∼ N β0∗ , σ 2 M0 , σ 2 ∼ IG1 (S0 , v0 ) obtenemos
la verosimilitud marginal bajo H1 como
  −1 
∗ −1

m (y | H1 ) = tn X∗ β0∗ , S0 , ∗
I + X M0 X ∗′
, v0

 2
Bajo H2 , especificamos una apriori β | σ 2 ∼ N β0 , σ 2 M−1 0 , σ ∼ IG1 (S0 , v0 )
y el análisis es igual al anterior. El factor de Bayes será entonces
  −1 
∗ −1
tn X∗ β0∗ , S0 , ∗
I + X M0 X , v0 ∗′

B12 =  
−1
tn Xβ0 , S0 , (I + XM0 ; −1X′ ) , v0
9.6. PRECIOS DE OFERTA DE VEHÍCULOS 91

9.6. Precios de Oferta de Vehı́culos


Consideremos los datos referentes a los precios de oferta de carros Chevrolet
Sprint aparecidos en el periódico El Colombiano Abril 14 del 2002 en la sección
de Avisos Clasificados.
Año Precio
(en millones)
87 7.0
88 8.0
92 10.4
94 12.5

Si asumimos que el modelo P recio = β0 + β1 Año nos puede representar de una


manera adecuada la relación entre el Precio de Oferta del vehı́culo y el Año del
mismo. Además asumimos que una observación particular tiene una diferencia
con el modelo teórico que se distribuye normal con media cero y varianza σ 2 .
La pendiente β0 nos indica la diferencia promedio en el precio de dos carros
Sprint de años consecutivos. Podemos entonces utilizar un programa estadı́stico
que ajuste el modelo ( aún hasta calculadoras de bolsillo ajustan este tipo de
modelos). Los resultados son

Precio Estimado = 9,475 + 0,74275Año


Error Estándar 0,17326 0,06055

Desviación Tı́pica del Modelo: 0.3465 con 2 grados de libertad


R-Cuadrado: 0.9869
Obviamente el modelo ajusta bien, pero es claro que tenemos muy pocos datos.
El intervalo de confianza del 95 % para la pendiente es ( 0.4822244, 1.003276),
que es bastante amplio. Un problema con esta aproximación es la interpretación
frecuentista que hay que darle al intervalo y que se basa en el supuesto de la
extracción de infinitas muestras de tamaño 4 de la misma población.
Los precios de oferta del mismo tipo de carro que aparecieron en El Colombiano
en Diciembre 16 del 2001, en el cual aparecieron los siguientes datos

Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8

Si asumimos que β0 se distribuye normalmente con media 10.86 y precisión de


28.08382 y β1 se distribuye normalmente con media 0.6522 y precisión 225.2477.
92 CAPÍTULO 9. MODELOS LINEALES

Para la varianza del modelo asumimos un modelo poco informativo Gamma(0.001,0.001).


Los valores anteriores se construyeron asumiendo inicialmente distribuciones
poco informativas y actualizándolos con la información previa, excepto el de la
varianza, ya que este nos refleja el nivel de credibilidad en las predicciones de
esta actualización, que puede no ser muy alto. Dadas esta nuevas condiciones
para nuestro problema, o sea información previa disponible y cuantificada en
términos de distribuciones, procedemos a mezclarla, utilizando el Teorema de
Bayes, para obtener nuestra distribución actualizada o aposteriori. Esta última
produce los resultados siguientes

Parámetro media sd 2.5 % 97.5 %


β0 10.76 0.1925 10.38 11.14
β1 0.6581 0.06308 0.5339 0.7838
τ 0.5937 0.4655 0.06085 1.825

El intervalo de credibilidad (en la estadı́stica clásica lo llamamos de confianza)


para la pendiente del 95 % de probabilidad es (0.5339 , 0.7838 ), el cual nos dice
que el más probable valor para la diferencia promedio en el precio de oferta de
dos carros Sprint de años consecutivos está entre $534.000.00 y $784.000.00. Este
intervalo es mucho más preciso que el intervalo hallado por el método clásico
que era $482.200.00 y $1.003.000.00.

9.7.
El modelo usual de regresión es

y = Xβ + ǫ, ǫ ∼ N (0, Σ) , β ∈ Rp

Las conjugadas son del tipo β ∼ N (Aθ, C) , donde θ ∈ Rq , con q ≤ p.


En el caso de distribuciones no informativas la apriori de Jeffreys es

−(k+1)/2
ξ (β, Σ) |Σ|

recordando que la verosimilitud puede expresarse como


( " n
#)
−n/2 1 X ′
−1
L (β, Σ|y) ∝ |Σ| exp − traza Σ (yi − xi β) (yi − xi β)
2 i=1

Ejemplo 9.1 Propiedad Raı́z El mercado de propiedad raı́z es uno de los


más importantes y refleja la situción económica de una región. En este caso va-
mos a considerar el mercado de apartamentos usados en el sector de El Poblado.
Seleccionamos este sector básicamente por las siguientes razones:
9.7. 93

a) Es un sector de la ciudad con una gran dinámica en el mercado del usado.

b) A nivel de estratificación socioeconómica es muy homogénea.

c) Los apartamentos son relativamente nuevos, en el sentido que la antigüedad


de la mayorı́a no supera los veinte años.

Uno puede considerar muchos factores que expliquen el precio de oferta de un


apartamento usado, por ejemplo:

Antigüedad del inmueble.

Metros cuadrados construidos.

Calidad de la construcción.

etc.

Nosotros consideramos la información disponible para construir un modelo que


explique el precio de oferta y básicamente se limita a los metros cuadrados
construidos del apartamento.
94 CAPÍTULO 9. MODELOS LINEALES

Apto. No. Metros2 Precio (en millones)


1 113.00 92.00
2 140.00 130.00
3 140.00 125.00
4 110.00 90.00
5 69.00 65.00
6 152.00 130.00
7 105.00 110.00
8 144.00 120.00
9 103.00 89.00
10 107.00 145.00
11 112.00 85.00
12 103.00 89.00
13 120.00 105.00
14 86.00 75.00
15 143.00 112.00
16 115.00 112.00
17 136.50 125.00
18 168.50 145.00
19 217.00 205.00
20 132.80 115.00
21 120.00 105.00
22 108.00 89.00
23 220.00 150.00
24 110.00 89.00
25 228.00 108.00
26 83.00 66.00
27 78.00 64.00
28 150.00 135.00
29 135.00 125.00
30 90.00 65.00
Fuente: El Colombiano, Avisos Clasificados,
Sept. 22 del 2002.

model
{
for( i in 1 : N ) {
Precio[i ] ~ dnorm(mu[i],tau)
mu[i] <- alpha + beta * (metros[i] - mean(metros[]))
}
tau ~ dgamma(0.001,0.001)
sigma <- 1 / sqrt(tau)
alpha ~ dnorm(0.0,1.0E-6)
error~dnorm(0,tau)
beta ~ dnorm(0.0,1.0E-6)
Precio175<-alpha+beta*(175-mean(metros[]))
9.7. 95

Precio175indi<-Precio175+error
for(i in 1:N){
PrecioIndi[i]<-alpha+beta*(metros[i]-mean(metros[]))+error
}
}
list(N=25, Precio=c(92,130,125,90,65, 130,110,120,89,145, 85,89,105,75,112,
112,125, 145,205,115, 105,89,150,89,108, 66,64,135,125,65), metros=c(113,140,140,110,69,
152,105,144,103,107, 112,103,120,86,143, 115,136.5,168.5,217,132.8,
120,108,220,110,228, 83,78,150,135,90))
list(tau=1,beta=0,alpha=0,error=0)

Los resultados del anterior programa se muestran en la siguiente tabla.

Nodo Media sd 2.50 % median 97.5 %


1 alpha 108.70 3.79 101.20 108.70 116.20
2 beta 0.61 0.10 0.41 0.61 0.80
3 Precio175 137.20 5.90 125.40 137.20 148.80
4 Precio175indi 137.20 21.38 94.90 137.20 179.60


Ajustamos en R el modelo P recio = α + β M etros2 − M edia(M etros2 ) por
el método clásico (esto es, no bayesiano) y obtuvimos

Parámetro Estimación error Prueba t Valor-p


1 â 108.66667 3.61327 30.074 < 2e − 16
2 β̂ 0.60893 0.09303 6.546 4,27e − 07
96 CAPÍTULO 9. MODELOS LINEALES

Obs. Media sd EMC 2.50 % Mediana 97.50 %


1 99.45 20.96 0.25 58.01 99.35 141.00
2 115.90 20.96 0.25 74.58 115.80 156.90
3 115.90 20.96 0.25 74.58 115.80 156.90
4 97.63 20.98 0.25 56.52 97.54 139.00
5 72.72 21.64 0.26 30.34 72.53 114.60
6 123.10 21.06 0.26 81.64 123.10 164.70
7 94.59 21.02 0.25 53.26 94.54 136.00
8 118.30 20.99 0.25 76.88 118.20 159.40
9 93.38 21.04 0.25 52.12 93.30 134.70
10 95.81 21.00 0.25 54.43 95.74 137.20
11 98.84 20.97 0.25 57.52 98.76 140.30
12 93.38 21.04 0.25 52.12 93.30 134.70
13 103.70 20.93 0.25 62.52 103.60 144.90
14 83.05 21.28 0.25 41.36 82.92 124.90
15 117.70 20.98 0.25 76.35 117.60 158.70
16 100.70 20.95 0.25 59.33 100.50 142.10
17 113.70 20.94 0.25 72.73 113.60 154.80
18 133.20 21.31 0.26 90.95 133.30 174.80
19 162.60 22.68 0.29 117.50 162.50 208.50
20 111.50 20.93 0.25 70.56 111.30 152.70
21 103.70 20.93 0.25 62.52 103.60 144.90
22 96.41 20.99 0.25 55.03 96.37 137.80
23 164.50 22.79 0.29 119.20 164.40 210.60
24 97.63 20.98 0.25 56.52 97.54 139.00
25 169.30 23.11 0.30 123.40 169.20 216.30
26 81.23 21.33 0.25 39.49 81.10 123.00
27 78.19 21.44 0.25 36.10 78.07 119.70
28 121.90 21.04 0.26 80.46 121.90 163.30
29 112.80 20.94 0.25 71.76 112.70 154.00
30 85.48 21.21 0.25 43.99 85.38 127.10

Call:
lm(formula = Precio ~ Metros)

Residuals:
Min 1Q Median 3Q Max
-61.584 -8.028 -1.644 11.202 49.097

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.74757 12.44011 2.472 0.0198 *
Metros 0.60893 0.09303 6.546 4.27e-07 ***
9.7. 97

Figura 9.1: Metros cuadrados de un apartamento versus el Precio de oferta


(en millones) en el sector de El Poblado. El modelo estimado es P d recio =
30,7475+0,6089M etros2 , el cual indica que el metro cuadrado para los usados en
este sector es aproximadamente de $600.000.00 Fuente: El Colombiano, Avisos
Clasificados, Sept. 22 del 2002.
98 CAPÍTULO 9. MODELOS LINEALES

---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.79 on 28 degrees of freedom


Multiple R-Squared: 0.6048, Adjusted R-squared: 0.5907
F-statistic: 42.85 on 1 and 28 DF, p-value: 4.27e-07

predict.lm(lm(Precio~Metros),data.frame(Metros=175),
interval=’prediction’)
fit lwr upr
[1,] 137.3109 95.13768 179.4841
> predict.lm(lm(Precio~Metros),data.frame(Metros=175),
interval=’confidence’)
fit lwr upr
[1,] 137.3109 125.6862 148.9355

El modelo clásico nos da

Pd
recio = 30,7475 + 0,6089M etros2

 
′ 30,0 3838,8
XX=
3838,8 536471,3

9.8. Estrategias en Modelación


Jefferys y Berger (1992) discuten el principio que es ahora popular entre los
modeladores conocido como la cuchilla de Ockham, y que dice Pluritas non est
ponenda sine necessitate, que traduce “La pluralidad no se debe imponer sin
necesidad”. Aunque el principio es relativamente vago, varias interpretaciones
se le han dado tales como:

“Las entidades no deben ser multiplicadas sin necesidad”

“Es vano hacer con más lo que se puede hacer con menos”

“Una explicación de los hechos no debe ser más complicada de lo


necesario”

“Entre hipótesis que compiten, favorezca la más simple”


9.9. REGRESIÓN INVERSA O CALIBRACIÓN 99

Este ha sido un principio heurı́stico, pero ellos argumentan que puede ser justi-
ficado y aceptado bajo la escuela bayesiana.
Loredo (199*) habla de la Cuchilla de Occam Automtizada
Para probabilidades predictivas se prefieren modelos simples.
El Factor de Occam

Z
P (D|Mi ) = ξ (θi |M ) L(θi ) dθi
 
≈ xi θ̂i |M L(θ̂i ) δθi
δθi
≈ L(θ̂i )
∆θi
≈ Máxima Verosilitud × Factor de Occam

Los modelos con más parámetros usualmente hacen que los datos produzcan un
mejor ajuste. El Factor de Occam penaliza los modelos por el “volumen” del
espacio parametral desperdiciado.
No existen reglas rı́gidas que se deban seguir en el proceso de modelación, más
bien lo que se presenta a continuación nace más bien de la experiencia:

Comenzar con modelos pequeños y simples que han sido utilizados


por otras personas y para los cuales los análisis han sido realizados.

Desarrollar modelos más complejos paso a paso.

Cuando realice simulaciones chequee las respuestas finales comen-


zado desde diferentes puntos iniciales y diferentes semillas para los
generadores de números aleatorios.

9.9. Regresión Inversa o Calibración


Suponga que realizamos un experimento para determinar el porcentaje en in-
sectos que mueren cuando se les aplica una cantidad de droga letal. En el ex-
perimento supogamos que tenemos 5 niveles de droga 0.1 0.2 0.3 0.4 0.5 y a
500 insectos en grupos de a 100 les aplicamos el veneno (100 muertos por cada
dosis)
Y 0.1 0.2 0.3 0.4 0.5
X 22 35 4 6 0
La estimación inversa serı́a : Cuál es la dosis que mata el 50 % de los insectos ?
El problema clásico nos da
Ŷ = β̂0 + β̂1 X
100 CAPÍTULO 9. MODELOS LINEALES

Y0 es el valor dado. El estimador “natural”serı́a

Y0 − β̂0
X̂0 = con β̂1 6= 0
β̂1

Un IC del (1 − α) 100 % para X0 es el conjunto de valores X que satisface la


desigualdad
 2
Y0 − β̂0 − β̂1 X
≤ t2(α/2,n−2)
σ̂e2 A2
donde 2
1 X − X̄
A2 = 1 + + Pn 2
n
i=1 Xi − X̄

El problema de la regresión lineal inversa puede establecerse como: las observa-


ciones toman la forma

y1i = β1 + β2 xi + ǫ1i i = 1, · · · , n
y2j = β1 + β2 x + ǫ2j j = 1, · · · , m

donde los ǫ1i ’s y los ǫ1j ’s están mutua e independientemente distribuidas N 0, σ 2 .
Se asume que x1 , · · · , xn son constantes conocidas, y que β1 , β2 , σ 2 y x son
desconocidas. El problema es realizar inferencias con respecto a x basados en
y11 , · · · , y1n , y21 , · · · , y2m . Sin pérdida de generalidad se asume que las xi ’s son
seleccionadas tal que
X P 2
i xi
xi = 0, =1
i
n

Ejemplo 9.2 Regresión Inversa: Cúantos metros tendrá un aparta-


mento que cuesta $100 millones?

model
{
for( i in 1 : N ) {

Precio[i ] ~ dnorm(mu[i],tau) mu[i] <- alpha + beta * (metros[i]


- mean(metros[]))
}
tau ~ dgamma(0.001,0.001) sigma <- 1 / sqrt(tau) alpha ~ dnorm(0.0,1.0E-6)
beta ~ dnorm(0.5,1.0E-6) Metros100<-(100-alpha)/beta+ mean(metros[])
}
list(N=29, Precio=c(92,130,125,90,65,
130,110,120,89,145,
9.9. REGRESIÓN INVERSA O CALIBRACIÓN 101

85,89,105,75,112,
112,125, 145,205,115,
105,89,150,89,
66,64,135,125,65),
metros=c(113,140,140,110,69,
152,105,144,103,107,
112,103,120,86,143,
115,136.5,168.5,217,132.8,
120,108,220,110,
83,78,150,135,90))
list(tau=1,beta=0.5,alpha=0)

node mean sd MC error 2.5 % median 97.5 % start sample


sigma 15.18 2.16 0.02817 11.59 14.95 20.04 4001 6000
alpha 108.6 2.851 0.02999 103.0 108.6 114.4 4001 6000
beta 0.7906 0.08203 0.00117 0.6274 0.7901 0.9532 4001 6000
Metros100 113.5 3.853 0.04096 105.5 113.6 120.7 4001 6000
102 CAPÍTULO 9. MODELOS LINEALES
Capı́tulo 10
Modelo Lineal Generalizado

El modelo lineal clásico ha sido utilizado extensivamente y con mucho éxito en


múltiples situaciones. En el análisis de regresión estamos interesados en predecir
la media de una variable, llamada la respuesta, basados en un conjunto de
variables, llamadas los predictores. La regresión clásica asume que la respuesta
es continua y distribuı́da normalmente. El modelo lineal clásico cae en una clase
mayor de modelos que se conoce como modelo lineal generalizado, M.L.G., la
cual tiene tres componentes básicas:

a) Un conjunto de variables aleatorias independientes que pertenecen


a la familia exponencial.
b) Una matriz de diseño y un vector de parámetros.
c) Una función link (enlace, conexión) que relaciona las medias del mo-
delo lineal.

Dentro de la clase de modelos lineales generalizados tenemos el modelo lineal


clásico, el modelo loglineal, la regresión Poisson, la regresión logı́stica, etc.
En el modelo lineal generalizado clásico observamos respuestas Yi y covariables
k-dimensionales xi , donde las respuestas condicionales (Yi |θi , φ) se asumen son
variables aleatorias independientes con una densidad que pertenece a la familia
exponencial de un parámetro
 
yi θi − µ (θi )
f (yi |θi , φ) = exp + c (yi , φ) i = 1, · · · , n
a(φ)

El modelo clásico asume que la media E (Yi ) = µ′ (θi ) está relacionada al inter-
cepto β0 y al vector de parámetros de las covariables β a través de una función de
encadenamiento monótona y diferenciable, y el espacio parametral no es vacı́o.

103
104 CAPÍTULO 10. MODELO LINEAL GENERALIZADO

El modelo lineal generalizado aparece imponiendo una apriori jerárquica so-


bre los parámetros (β0 , β). Una selección particularmente conveniente es usar
aprioris normales con aprioris conjugadas para los hiperparámetros (Ishwaran,
1997)

(β0 |b0 , σ0 ) ∼ N (b0 , σ0 )


(β|b, W ) ∼ Nk (b, W )
(bo |B0 ) ∼ N (0, B0 )
(b|B) ∼ N (0, BI)
−1

σ0 |s1 , s2 ∼ gamma (s1 , s2 )
 
W −1 |V , v ∼ W ishart V −1 , v

10.1. Modelo Logı́stico


Supongamos que observamos proporciones como respuesta y1 , · · · , yN de pobla-
ciones binomiales con proporciones π1 , · · · , πN y sus correspondientes tamaños
muestrales n1 , · · · , nN . Asociado con la i-ésima observación hay un vector de
covariables xi y la proporción πi es encadenada a las covariables xi por medio
del modelo logı́stico

 
πi
log = xTi β
1 − πi

La verosimilitud del vector de regresión β está dada por

N
Y ni (1−yi )
L(β) = πini yi (1 − πi )
i=1

donde

exp xTi β
πi = 
1 + exp xTi β

Si ξ(β) es la densidad apriori para β, entonces la densidad posterior para β es


proporcional a

ξ (β|y) ∝ ξ(β)L(β)
10.1. MODELO LOGÍSTICO 105

10.1.1. Selección de la Distribución Apriori


Para este caso es difı́cil asignar una distribución apriori directamente al vector de
parámetros de la regresión β ya que está relacionado de una forma no lineal a las
probabilidades {πi }. Puede ser más fácil especificar indirectamente una apriori
para β haciendo suposiciones sobre el valor promedio del valor de la proporción
E(π) para valores seleccionados de las covariables. Si el rango de la matriz de co-
variables es k, entonces uno considera las proporciones π1 , · · · , πk para k conjun-
tos diferentes de la covariable x. Las medias condicionales apriori (MCA) asume
que π1 , · · · , πk son independientes con πi se distribuye Beta (wi mi , wi (1 − mi )),
donde mi es una adivinaza apriori de πi y wi es la precisión de esta adivinanza.
La distribución sobre π1 , · · · , πk es proporcional a
k
Y wi (1−mi )−1
ξ (π1 , · · · , πk ) ∝ πiwi mi −1 (1 − πi )
i=1

Para el linkeo logı́stico, esta apriori sobre {πi } es equivalente a una apriori sobre
β que es de la misma forma que la verosimilitud con “observaciones apriori”
{(mi , wi , xi )}. Esta es llamada una apriori de datos aumentados (ADA). Es
fácil actualizar la densidad aposteriori de β utilizando esta forma de distribución
apriori. La densidad posterior es proporcional a
N
Y k
Y
ni (1−yi ) wi (1−mi )−1
ξ (β|y) ∝ πini yi (1 − πi ) πiwi mi −1 (1 − πi )
i=1 i=1

En otras palabras, la distribución aposteriori de β es equivalente a la verosimil-


itud de los datos observados {(yi , ni , xi )} aumentados con los “datos apriori”
{(mi , wi , xi )}.

Ejemplo 10.1 Modelo logı́stico cuadrático Dellaportas y Smith (1993)


presentan este ejemplo que considera un modelo logı́stico cudrático. Los datos
hacen referencia a la retinopatı́a, una enfermedad de los ojos, y el tiempo que
un paciente ha tenido diabetes. La siguiente tabla presenta información sobre
pacientes que sufrı́an de este padecimiento en dos muestras (una pasada y otra
actual)

Duración de Retinopatı́a
la Diabetes Datos Previos Datos Actuales
z Si No Si No
0-2 (1) 17 215 46 290
3-5 (4) 26 218 52 211
6-8 (7) 39 137 44 134
9-11 (10) 27 62 54 91
12-14 (13) 35 36 38 53
15-17 (16) 37 16 39 42
18-20 (19) 26 13 23 23
21+ (24) 23 15 52 32
106 CAPÍTULO 10. MODELO LINEAL GENERALIZADO

El modelo considerado fue


 
π1j
log = β1 + β2 zj + β3 zj2 = ηj
π2j

Un análisis que se realizó tomó como información apriori la generada por los
estimadores de máxima verosimilitud de generada por los datos previos
 
−3,17
β o =  +0,33 
−0,007

 
638,0
D o = 10−4  −111,0 24,1 
3,9 −0,9 0,04
y se consideró como la distribución apriori de β la normal trivariable N (β o , D o ).
Por lo tanto con los datos presentes la distribución aposteriori de β será pro-
porcional a
 
X8
1 ′
ξ (β|Datos) ∝ exp − (β o ) D −1 o (β o ) {x1j log (ηj ) − (x1j + x2j ) log (1 + eηj )}
2 j=1

donde x1j y x2j son los números actuales en cada categorı́a de edad con o sin
retinopatı́a. Para obtener la constante de normalización se necesita una inte-
gración numérica tridimensional.
Dellaporta y Smith (1993) comentan que Knuiman y Speed optaron por una
aproximación normal basados en la moda posterior, una solución de


log (β|Datos) = 0
∂β
y una medida de dispersión dada por la matriz
 −1
∂ 2 {log (β|Datos)}
D (β) = −
∂β ∂β ′
evaluada en la moda posterior
 
−2,37
β =  +0,21 
−0,004

 
207,0
D = 10−4  −36,0 8,1 
1,2 −0,3 0,01
10.1. MODELO LOGÍSTICO 107

y Dellaporta y Smith utilzando el muestrador de Gibbs obtuvieron


 
−2,36
β ∗ =  +0,21 
−0,004

 
201,0
D ∗ = 10−4  −35,7 7,9 
1,2 −0,3 0,01

Ejemplo 10.2 Niñas Polacas

{
for( i in 1 : N ) {
r[i] ~ dbin(p[i],n[i])
logit(p[i]) <- alpha.star + beta * (x[i] - mean(x[]))
rhat[i] <- n[i] * p[i]
}
alpha <- alpha.star - beta * mean(x[])
beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)
}

list( x = c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,
14.33,14.58,14.83,15.08,15.33,15.58),
n = c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94),
r = c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92), N =20)

list(alpha.star=0, beta=0)

Procedimiento Clásico en R

>edad<- c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33, 13.58,13.83,14.08,14.33,14.58,

14.83,15.08,15.33,15.58)
108 CAPÍTULO 10. MODELO LINEAL GENERALIZADO

>exitos<-c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92)
>n<-c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94)

>summary(glm(cbind(exitos,n-exitos) edad,family=’binomial’))
Call:

glm(formula = cbind(exitos, n - exitos) edad, family = "binomial")

Deviance Residuals:
Min 1Q Median 3Q Max
-1.2267 -0.8613 -0.3124 0.7507 1.2841

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.46917 0.83475 -24.52 <2e-16 ***
edad 1.57545 0.06379 24.70 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)


Null deviance: 1278.571 on 19 degrees of freedom
Residual deviance: 14.893 on 18 degrees of freedom
AIC: 100.35

Number of Fisher Scoring iterations: 3

10.1.2. Análisis Bayesiano de Residuales de Modelos Logı́sti-


cos
Este sección está basada en Albert y Chib (1994).

10.2. Regresión Poisson


La distribución Poisson juega un papel de fundamental importancia en el trabajo
aplicado para modelar problemas de conteo en muchas áreas. Los problemas
de regresión donde la variable dependiente es un conteo ocurre con bastante
frecuencia. Ejemplos tenemos el número de muertos por una cierta enfermedad
10.2. REGRESIÓN POISSON 109

extraña puede explicarse por un número grande de factores, por ejemplo, clima,
salubridad, educación, etc. El número de defectos que aparece en cierto rollo de
tela depende de la longitud del rollo, época de elaboración. Es común asumir
una respuesta poissoniana, que perteneciendo a la familia exponencial puede
resolverse con la metodologı́a que estamos desarrollando.

Yi ∼ P oisson(λi )
e−λi λyi i
f (yi ; λi ) =
yi !
= exp (yi log λi − λi − log(yi !))
= exp (yi θi − λi − log(yi !))

donde
θi = log(λi )

el cual es el parámetro natural.

E[yi ] = λi
var[yi ] = λi

ya que g(λi ) = θi cuando g es la función logaritmo. El link canónico es el link


log
log(λi ) = xi ′ β

ya que λi = exp(ηi ) se tiene que


∂λi
= exp(ηi ) = λi
∂ηi

las ecuaciones de verosimilitud


n
X (yi − λi ) ∂λi
xij = 0 j = 1, .., p
i=1
var(yi ) ∂ηi

se reduce a
n
X
(yi − λi )xij = 0
i=1

ya que
 2
1
∂λi
wi = = λi
∂ηi
var(yi )
 −1
la matriz de covarianza estimada de β̂ es X ′ Ŵ X c es la matriz
donde W
diagonal con elementos de λ̂ en la diagonal principal.
110 CAPÍTULO 10. MODELO LINEAL GENERALIZADO

Figura 10.1: Se muestra la relación entre el número de hijos de una pareja y


sus años de casados en una muestra de corte transversal. Estos datos presentan
un efecto de cohorte, esto es, hay cambios estructurales en estos modelos no
observables en los datos, y que se pueden detectar solo en datos que se generan
en forma temporal siguiendo cohortes. Estos cambios se originan en cambios de
la composición familiar, en cambios económicos, etc. Se observa como la media
y la dispersión aumentan a medida que aumenta el número de años.
10.2. REGRESIÓN POISSON 111

Ejemplo de una Regresión Poisson

Variable dependiente: Número de hijos en un matrimonio


Independiente: A~
nos de Casados

model
{
for( i in 1 : N ) {
NHIJOS[i] ~ dpois(media[i])
log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))

}
alpha <- alpha.star - beta * mean(TPOCAS[])
beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)
}

list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,
5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,
24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,
2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,
4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,
5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,
46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,
5,36,31,0),
NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,3,1,1,
1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,2,4,9,0,
0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,2,2,0,1,
1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,2,3,2,2,
0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,2,3,1,2,
2,0,4,0,1,2,1,3,2,0))

list(alpha.star=0, beta=0)

node mean sd MC error 2.5% median 97.5% start sample


beta 0.04284 0.003621 7.762E-5 0.03573 0.04286 0.04996 2001 3000
alpha -0.1066 0.1046 0.002465 -0.3118 -0.1043 0.09703 2001 3000

El mismo problema con la aproximación clásica:


112 CAPÍTULO 10. MODELO LINEAL GENERALIZADO

> nrohijos<-c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,
3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,
2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,
3,2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,
2,2,2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,
2,1,2,2,3,1,2,2,0,4,0,1,2,1,3,2,0)
> tpocasados<-c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,5,4,
3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,24,8,
4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,2,25,20,
28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,4,11,4,14,
29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,5,10,24,12,
12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,46,6,8,13,12,
24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,5,36,31,0)

> summary(glm(nrohijos~tpocasados,family=’poisson’))

Call:
glm(formula = nrohijos ~ tpocasados, family = "poisson")

Deviance Residuals:
Min 1Q Median 3Q Max
-2.02693 -0.54123 -0.06717 0.43187 2.09419

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.105135 0.102899 -1.022 0.307
tpocasados 0.042891 0.003568 12.020 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 222.330 on 148 degrees of freedom


Residual deviance: 98.788 on 147 degrees of freedom
AIC: 436.91

Number of Fisher Scoring iterations: 4

Sobredispersión es un fenómeno que ocurre en algunos datos, en especial cuando


provienen de binomiales o Poisson. Si la estimación de una medida de dispersión
después de ajustar el modelo, como lo es la deviance o el chi cuadrado de Pearson
dividido por sus respectivos grados de libertad no está cerca a 1, entonces los
datos pueden ser sobredispersos si este cociente es mayor que 1 o subdispersos
10.2. REGRESIÓN POISSON 113

si es menor que 1.

# Modelo de regresion Poisson para el numero


# de hijos con sobredispersion

model
{
for( i in 1 : N ) {
NHIJOS[i] ~ dpois(media[i])
log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))
+ tau*TPOCAS[i]

alpha <- alpha.star - beta * mean(TPOCAS[])


beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)
gamma ~ dnorm(0.0,1.0E-6)
tau ~ dgamma(0.001, 0.001)
sigma <- 1 / sqrt(tau)
}

list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,
9,5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,
27,24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,
4,2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,
27,4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,
16,4,5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,
16,6,46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,
12,5,36,31,0), NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,
3,2,2,3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,
0,2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,
2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,
2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,
2,3,1,2,2,0,4,0,1,2,1,3,2,0))

list(alpha.star=0, beta=0, gamma = 0, tau = 0.1)

node mean sd MC error 2.5% median 97.5% start sample


beta 0.04282 0.003487 7.991E-5 0.03587 0.04282 0.04955 2001 2000
alpha -0.1081 0.1015 0.002578 -0.3082 -0.1091 0.09012 2001 2000
alpha.star 0.5482 0.06567 0.001591 0.4201 0.5485 0.6774 2001 2000
tau 1.501E-5 1.492E-4 8.288E-6 3.352E-33 6.125E-17 3.031E-5 2001
2000
114 CAPÍTULO 10. MODELO LINEAL GENERALIZADO

10.3. Log-concavidad de la log-verosimilitud


La log-concavidad es una propiedad importante cuando se piensa implementar
procedimientos numéricos de optimización (Dellportas y Smith, 1993).

Definición 10.1 ( Log-Concavidad) Una función positiva f en un conjunto


convexo abierto C en Rn es llamada log-cóncava si

log(f ) es una función de valor real dos veces diferenciable en C, y

si su matriz hessiana es semidefinida negativa, (H ≤ 0), para todo x ∈ C,


donde

∂ 2 log (f (x))
H = (Hij (x)) , Hij (x) =
∂xi ∂xj

Si la hessiana es definida negativa, la función f es llamada estrictamente log-


cóncava.

En el modelo lineal generalizado la log-concavidad se cumple para

Normal: L es estrictamente cóncava solo para la función de linkeo canónica.

Gamma: Log-concavidad estricta para

g(µ) = log(µ)

g(µ) = µγ para −1 ≤ γ < 0

Poisson: Log-concavidad estricta si yi > 0 para g(µ) = µ, y cóncava para


cualquier yi . L es estrictamente cóncavapara

g(µ) = log(µ)

g(µ) = µγ para 0 < γ < 1

Binomial: Los modelos logı́stico, probit y log-complementario tienen log-


concavidad de la función de verosimilitud.
Capı́tulo 11
Estadı́stica Bayesiana Empı́rica

Este capı́tulo está basado en la revisión de Casella (1985). Este método fue prop-
uesto por Robbins en 1955 (Miller, 1989), también conocida como Estadı́stica
Bayesiana Empı́rica Noparamétrica, ya que dejaba inespecificada la distribución
apriori. La estadı́stica Bayesiana Empı́rica Paramétrica es un hı́brido que asume
la existencia de datos previos para estimar los parámetros de f (θ).
Supongamos que tenemos p variables observadas, cada una de ellas de una
población normal

Xi ∼ N µ, σ 2 para i = 1, · · · , p.

El

115
116 CAPÍTULO 11. ESTADÍSTICA BAYESIANA EMPÍRICA
Capı́tulo 12
Análisis Multivariable

12.1. Distribución Normal Multivariable


Supongamos que Y 1 , · · · , Y n es una muestra de una distribución multivariable
p-dimensional, Np (µ, Σ). Una selección corriente para las apriori de µ y Σ es
(Varbanov, 1996):

ξ (µ) ∝ 1
−(p+1)/2
ξ (Σ) ∝ |Σ|
−(p+1)/2
ξ (µ, Σ) = ξ (µ) ξ (Σ) ∝ |Σ|

Definamos
n
1X
Ȳ = Yi
n i=1
n
X  ′
S = Y i − Ȳ Y i − Ȳ
i=1

Entonces la verosimilitud de los datos es:


 
−n/2 1  ′ 
f (Y |µ, Σ) ∝ |Σ| exp − tr Σ−1 S + n Ȳ − µ Σ−1 Ȳ − µ
2

La distribución posterior conjunta de (µ, Σ) es:


  n n
−(n+p+1)/2 1  ′ o
ξ (µ, Σ|Y ) ∝ |Σ| exp − tr Σ−1 S exp − µ − Ȳ Σ−1 µ − Ȳ
2 2

117
118 CAPÍTULO 12. ANÁLISIS MULTIVARIABLE

y de donde se desprende
 
1
µ|Σ, Y ∼ Np Ȳ , Σ
n
Σ|Y ∼ W −1 (S, p, n − p)

donde W −1 (S, p, n − p) es la distribución Wishart invertida.


Capı́tulo 13
Datos Categóricos

13.1. Distribución Multinomial


La distribución multinomial es la base del trabajo con datos categóricos. En el
capı́tulo de distribuciones conjugadas habı́amos visto que la distribución conju-
gada es la Dirichlet.

Intervalos de Sison y Glaz

Sison y Glaz (1995) proponen dos formas de calcular intervalos de confianza


simultáneos para los parámetros multinomiales.
May y Johnson (2000) proporcionan macros en SAS para calcular estos interva-
los. Ellos argumentan que estos intervalos funcionan mejor que los otro métodos
cuando número de categorı́as es grande y el número de observaciones no lo es
tanto y si no existen celdas que polaricen las probabilidades.

Intervalo de Quesenberry y Hurst

Johnson y Kotz (1969) presentan el intervalo propuesto por Quesenberry y Hurst


en 1964. El intervalo para πi está dado por
r  
χ2k−1,1−α + 2ni ± χ2k−1,1−α χ2k−1,1−α + 4 nNi (N − ni )
 
2 N + χ2k−1,1−α

Una mejora se logra si trabaja con 1 − α/k en lugar de 1 − α.

119
120 CAPÍTULO 13. DATOS CATEGÓRICOS

Método basado en el Teorema Central del Lı́mite

Si el tamaño muestral es lo suficientemente grande, podemos aplicar el teorema


central del lı́mite multivariable. Si n = (n1 , n2, · · · , nk )T es un vector aleatorio
k-dimensional
P proveniente de una multinomial M PU LT IN OM IAL(π, N ), donde
N = nj es fijo y π = (π1 , π2 , · · · , πk ), con πj = 1. Entonces

1
π̂ = n
N

Este es el intervalo propuesto en la mayorı́a de textos básicos en estadı́stica


(Canavos, 1988; Wonnacott y Wonnacott, 1979; Roussas, 1973; Walpole, 1992;
Meyer, 1986; Mood et al., 1974)
r r !
i (1−i ) i (1−i )
i − zα/(2k) ,i +zα/(2k)
n n

Se puede considerar la correción por continuidad (Snedecor y Cochran, 1980)


r r !
i (1−i ) 1 i (1−i ) 1
i − zα/(2k) − ,i +zα/(2k) +
n 2n n 2n

Intervalos basados en la Razón de Verosimilitud Relativa

Kalbfleish (1985) presenta la metodologı́a para construir intervalos de verosimi-


litud. Si L(θ) es la función de verosimilitud, se define la función de verosimilitud
relativa como
L(θ)
R(θ) =
L(θ̂)
El conjunto de valores de θ para los cuales R(θ) ≥ p es llamado la intervalo de
100 %p de verosimilitud para θ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %. Lo que se debe hacer entonces es hallar las raı́ces que nos dan
los lı́mites del intervalo. Para el caso del parámetro de la Bernoulli, π, tenemos
que un intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal
que
L(π1 , π2 , · · · , πk )
R(π1 , π2 , · · · , πk ) = ≥ K(k, α)
L(π̂1 , π̂2 , · · · , π̂k )
Esto se resuelve numéricamente.

Método Exacto Basado en la F

Para construir este intervalo con un nivel (1 − α)100 % de confianza para π


debemos determinar los lı́mites inferior, LI y superior, LS , tales que P (Y ≥
13.1. DISTRIBUCIÓN MULTINOMIAL 121

y|π = LI ) = α/2 y P (Y ≤ y|π = LS ) = α/2. Leemis y Trivedi (1996) muestran


dos procedimientos mediante los cuales se calculan LI y LS en términos de la
distribución F . El intervalo “exacto” es:

 −1  −1 !
n−y+1 n−y
1+ , 1+
yF2y,2(n−y+1),1−α/2 (y + 1)F2(y+1),2(n−y),α/2

Bootstrap

El método bootstrap proporciona una manera directa y sencilla para hallar


intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:

a) A partir de la muestra estime los parámetros por máxima verosimil-


itud.

ni
π̂i = i = 1, 2, · · · , k
n

b) Genere M muestras de tamaño n de una distribución multinomi-


al con parámetros π̂1 , π̂2 , · · · , π̂k . Para cada muestra estime los
parámetros π1 , π2 , · · · , πk , digamos que para la muestra j los esti-
madores son π̂1j , π̂2j , · · · , π̂kj

n oM
c) Para cada π̂ij , construya un histograma y calcule los per-
j=1
centiles .025/(k-1) y 0.975/(k-1), denotémoslos por π̂i0,025 y π̂i0,975

La siguiente tabla presenta los datos sobre el tipo de sangre en una muestra de
personas de la región central y oriental de Antioquia
122 CAPÍTULO 13. DATOS CATEGÓRICOS

Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
Intervalos simultáneos: TCL
0.556465534 0.270242626 0.003511297 0.051322879
0.64353447 0.35254218 0.02433680 0.09804421
Intervalos simultáneos: Quesenberry y Hurst
0.53763946 0.25675391 0.00505438 0.04795771
0.65927993 0.37184116 0.03776781 0.11451171
Intervalos simultáneos Bootstrap
0.625 % 0.5509415 0.2746835 0.005063291 0.05094146
99.375 % 0.6414636 0.3518987 0.026582278 0.09842563
Intervalos simultáneos: Sison y Glaz
0.5658 0.2772 0.0000 0.0405
0.6363 0.3477 0.0502 0.1109
Intervalos simultáneos: Sison y Glaz II
0.5646 0.2759 -0.0215 0.0392
0.6354 0.3465 0.0494 0.1101

Para la solución bayesiana asumimos que la apriori es una Dirichlet(α = 1) no


informativa.

list(k=4,NN=790,n=c(474,246,11,59), alfa=c(1,1,1,1))

model
{
p[1:k]~ddirch(alfa[])
n[1:k]~dmulti(p[],NN)

node mean sd MC error 2.5\% median 97.5\% start sample


p[1] 0.5986 0.01734 2.691E-4 0.5633 0.5985 0.6328 1 5000
p[2] 0.3107 0.01641 2.374E-4 0.2786 0.3107 0.344 1 5000
p[3] 0.01512 0.004382 5.822E-5 0.00791 0.01457 0.02489 1 5000
p[4] 0.07555 0.009581 1.596E-4 0.05786 0.07524 0.09493 1 5000

13.1.1. Obtención de la prevalencia verdadera from preva-


lencia aparente
Estamos interesados en obtener la distribución posterior para la prevalencia ver-
dadera dados los resultados de una prueba de diagnóstico (prevalencia aparente)
13.1. DISTRIBUCIÓN MULTINOMIAL 123

y las aprioris para sensitividad y especificidad.


En muchos casos la interpretación de sondeos de una enfermedad es difı́cil debido
a que la mayorı́a de las pruebas de diagnóstico (o tamizado) tienen sensitividad
y especificidad imperfectas. Ası́, hay una distinción entre prevalencia verdadera
(la proporción de una población que está realmente infectada) y la prevalencia
aparente (la proporción de una población que da positivo en una prueba para
una enfermedad. Dadas las estimaciones puntuales para sensitividad (se), es-
pecificidad (sp), y prevalencia aparente (AP), uno puede calcular la prevalencia
verdadera utilizando la siguiente expresión:

(AP + sp − 1)
prevalencia verdadera = .
(se + sp − 1)

La obtención de la estimada de la prevalencia verdadera cuando la sensitividad


y la especificidad son conocidas con incertidumbre es más difı́cil. Dado el re-
sultado de un experimento binomial y dadas las distribuciones apriori para la
sensitividad y la especificidad, el siguiente código puede usarse para obtener es-
timaciones puntuales e intervalos de probabilidad para la prevalencia verdadera.
Considere el siguiente ejemplo, motivados por los datos hipotéticos de un muestreo
para Salmonella enteriditis (SE). Asuma que el interés se centra en estimar la
prevalencia verdadera (pi), el valor predictivo positivo (pvp), y 1-el valor pre-
dictivo negativo (OneMinusPVN).
Asuma que seleccionamos 100 platos de cultivo de materia fecal para detectar.
Asumamos que los n = 100 individuos sometidos a prueba tuvimos y = 0
pruebas positivas. Esto es, la SE no fue cultivada exitosamente de ninguna de
las 100 aves.
El siguiente modelo puede usarse para obtener probabilidades posteriores de
la SE esparcida, dadas las probabilidades apriori para la sensitividad (se), la
especificidad (sp), y la prevalencia (π) de la prueba.
Asumamos que la especificidad es con casi certeza 1.000. Ası́, modelamos sp
usando la siguiente apriori:

sp ∼ beta(9999, 1).

Asumamos que la sensitividad se modela bien con una apriori donde un 90 %


de la probabilidad apriori está en el intervalo (0.30, 0.70), con una moda apriori
(la mejor adivinanza) de 0.50. Tal afirmación sobre probabilidades corresponde
a la siguiente distribución:
se ∼ beta(8, 8).
Asuma que no hay información sobre la prevalencia verdadera (π), ası́ la apriori
para π es uniforme:
π ∼ beta(1, 1)
El siguiente modelo puede usarse para obtener las distribuciones posteriores de
P V P , π, y de 1 − P V N :
124 CAPÍTULO 13. DATOS CATEGÓRICOS

a) MODELO

Model {
for(i in 1:1){
y[i] ~ dbin(ap[i],n[i])
ap[i] <- se*pi+(1-sp)*(1-pi)
}
se ~ dbeta(8, 8)
sp ~ dbeta(9999, 1)
pi ~ dbeta(1, 1)
pvn <- sp*(1-pi)/((1-se)*pi+sp*(1-pi))
pvp <- se*pi/(se*pi+(1-sp)*(1-pi))
OneMinusPVN <- 1-pvn
}

b) DATOS

list(y=c(0),n=c(100))

c) RESULTADOS

node mean sd MC error 2.5\% median 97.5\% start sample


pi 0.02238 0.02437 2.058E-4 5.185E-4 0.01468 0.08842 10000
50001
se 0.4679 0.1249 6.486E-4 0.2308 0.4663 0.7123 10000 50001
sp 0.9999 9.814E-5 8.214E-7 0.9996 0.9999 1.0 10000 50001
pvp 0.9632 0.09053 5.082E-4 0.7125 0.9903 0.9998 10000 50001
OneMinusPVN 0.013 0.01687 1.427E-4 2.418E-4 0.007532 0.05828
10000 50001

13.1.2. La Razón de Odds


Los odds1 de que el evento B ocurra relativo al evento A se define como la razón
de las probabilidades
P [B | A]
P [B c | A]
Los odds de B relativo a Ac son
P [B | Ac ]
P [B c | Ac ]
1 La palabra odds no tiene una única y precisa traducción, algunos la traducen como dis-

paridad y otros como apuestas.


13.1. DISTRIBUCIÓN MULTINOMIAL 125

Cornfield (1951) definió la razón de odds como


P [B|A]
P [B c |A]
ψ= P [B|Ac ]
P [B c |Ac ]

El estimador muestral de ψ, sera


 a 
a+c
a
c
c ad
r= a+c
= b
=
b
b+d d
bc
d
b+d

para lo anterior, se presupone una tabla como la que aparece a continuación


Factor A Ac
B a b
Bc c d

Fisher (1962) la llama Razón del Producto Cruzado. Un problema con este es-
timador es la presencia de ceros en las celdas, ya que puede convertirse en una
forma indeterminada.
Troendle y Frank (2001) presentan una aproximación bayesiana para trabajar
la razón de odds. Asumamos que π1 y π2 son variables aleatorias independientes
condistribuciones apriori uniformes en (0, 1). Consideremos las variables x y y
distribuidas binomialmente con parámetros n1 , π1 , y n2 , π2 , respectivamente.
La distribución de ψ dado el vector de observaciones (x, y) es
RR
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
ξ (θ|x, y) = R 1 RR1
0 0
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
donde
 
w(1 − z)
R= (w, z) ∈ (0, 1)2 : ≤θ
z(1 − w)
Esta región puede representarse como
 
w
R = (w, z) ∈ (0, 1)2 : z ≥
w + θ − θw
Ası́ tenemos
R1R1
0 w wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
w+θ−θw
ξ (θ|x, y) = R1R1
0 0
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw

La distribución posterior de ψ puede ser evaluada numéricamente de la ecuación


anterior.
Otra aproximación puede realizarse sabiendo que el log la razón de odds muestral
se distribuye asintóticamente normal con media log(ψ) y varianza 1/x + 1/(n1 −
x) + 1/y + 1/(n2 − y) podemos entonces utilizar la familia conjugada normal.
126 CAPÍTULO 13. DATOS CATEGÓRICOS

13.1.3. Modelos Loglineales


Al realizar un análisis bayesiano de tablas de contingencia, es necesario especi-
ficar aprioris bien sea en las celdas (en los conteos o en términos de las proba-
bilidades y el total) o, equivalentemente, en los parámetros loglineales (King y
Brooks, 2000).

13.1.4. Tablas con faltantes


Tebaldi y West (1998) utilizan métodos bayesianos para tablas de contingencia
con tablas parcialmente observadas.

13.1.5. Estimación de N (El tamaño de toda una población)


Brooks et al. (199*) presentan el problema de estimar el tamaño de una población
de animales y su supervivencia desde el punta de vista bayesiano. Usualmente
el proceso de estimación del tamaño de una población consiste en un proceso de
mı́nimo dos etapas: una primera de una captura de una muestra, su marcación
y su posterior devolución al medio. Una segunda etapa consiste en otra captura
y el conteo de sujetos marcados en la primera etapa. Con una relación relativa-
mente simple es posible estimar el tamaño de la población, si ciertos supuestos
de aleatoriedad se cumplen.
Supongamos que en el tiempo t1 se cogieron y marcaron n1 animales. Más tarde,
en el tiempo t2 , una segunda muestra de tamaño n2 se coge de la población y
se encuentran m2 marcados. Se asume que la captura de un animal particular
en el tiempo ti es un experimento Bernoulli con probabilidad de éxito πi , la
verosimilitud es el producto de los términos; la primera es la probabilidad de
muestrear n1 sujetos de una población de tamaño N y la segunda es la proba-
bilidad de una muestra de tamaño n2 de los cuales m2 son los marcados, dado
que habı́a n1 sujetos marcados en la población. La verosimilitud será
    
N N −n1 N − n1 n1 N −n2
L (N, π1 , π2 |n, m2 ) = π1n1 (1 − π1 ) π2n2 (1 − π2 )
n1 n2 − m2 m2
N −n N −n
N !π1n1 (1 − π1 ) 1
π2n2 (1 − π2 ) 2

=
(n1 − m2 )! (n2 − m2 )!m2 ! (N − n1 − n2 + m2 )!
Este es conocido como el modelo Lincoln-Peterson (Brroks et al. 199*). El esti-
mador de máxima verosimilitud para el tamaño poblacional es

n1 n2
N̂ =
m2

Si asumimos que ξ (π1 ) es la distribución apriori de π1 , entonces su distribución


condicional será
13.1. DISTRIBUCIÓN MULTINOMIAL 127

N −n1
ξ (π1 |π2 , N, n1 , n2 , m2 ) ∝ ξ (π1 ) π1n1 (1 − π1 )

Si adoptamos una Beta (α, β) como la apriori para π1 , la distribución condicional


será

β−1 N −n1
ξ (π1 |π2 , N, n1 , n2 , m2 ) ∝ π1α−1 (1 − π1 ) π1n1 (1 − π1 )
∝ Beta (α + n1 , β + N − n1 )
128 CAPÍTULO 13. DATOS CATEGÓRICOS
Capı́tulo 14
Métodos Computacionales

Ejemplo 14.1 La necesidad de utilizar métodos numéricos en el análisis bayesianos


queda ilustrado con el siguiente ejemplo (Escobar, 199*). Considere la sigu-
iente tabla que presenta información sobre la sobrevivencia en una semana de
pacientes que sufrieron un ataque al miocardio y que fueron tratados con un
bloqueador beta

Tratamiento
Bloqueador Beta Placebo
Total Muertos Total Muertos
26 3 23 4
47 1 48 6
46 3 35 1
33 1 15 1
35 2 71 4
73 3 187 6
238 29 242 24
698 18

La probabilidad de no sobrevivir una semana se estima como el cociente entre


el número de pacientes que murieron y el número de pacientes que entraron con
infarto de miocardio. Usemos la siguiente notación:

yij = de muertes en el j-ésimo tratamiento en el sitio i


nij = de casos en el j-ésimo tratamiento en el sitio i

Entonces podemos pensar en el siguiente modelo

129
130 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

Yij |nij , πij ∼ Binomial (πij , nij )


πij |αj , βj ∼ Beta (αj , βj )

αj ∼ σGamma (dα )
βj ∼ σGamma (dβ )

Una parametrización alternativa para α y β es

αj
λ1j = (La media)
αj + βj
λ2j = αj + βj (La precisión)

λ1j ∼ Beta (dα , dβ )


λ2j ∼ σGamma (dα + dβ )

Tenemos un modelo, tenemos las distribuciones apriori y para realizar el análisis


bayesiano solo necesitamos hallar la distribución posterior conjunta que se halla
como:

ξ (π, α, β|y, n, dα , dβ , σ) =

15
zZ }| Z{
Q2 QIj
··· j=1 i=1 f (yij |nij , πij , αj , βj ) ξ (π, α, β|dα , dβ , σ) dy
Z Z
Q2 QIj
··· j=1 i=1 f (yij |nij , πij , αj , βj ) ξ (π, α, β|dα , dβ , σ) dy dπ dα dβ
| {z }
34

Obviamente este es un trabajo que no se puede realizar a mano, lo cual obliga


a implementar porcedimientos numéricos para su solución.

Una de las dificultades que surgen en el trabajo bayesiano aparecen cuando


tratamos de manipular la distribución aposteriori que usualmente aparece de la
siguiente forma

ξ (θ|Datos) ∝ L (θ|Datos) ξ (θ)

que no es una densidad de probabilidad en sı́ misma, sino que debe ajustarse
por un factor que se calcula como
131

Z
L (θ|Datos) ξ (θ) dθ
Θ

Solo en problemas muy sencillos es posible evaluar exactamente las expresiones


anteriores, lo cual limitarı́a el uso de los métodos bayesianos sino fuera por
la posibilidad de utilizar métodos computacionales como es el Método Monte
Carlo. Con esta técnica es posible:

generar muestras θ 1 , θ 2 , · · · , θ R , de una distribución de probabilidad


dada, digamos F (θ), y
estimar valores esperados de funciones bajo esta distribución, por
ejemplo, Z
Φ = E [h (θ)] = h (θ) dF (θ)

Denotamos por f (θ) la densidad asociada con la distribución y la llamaremos


densidad objetivo, ella puede ser la distribución aposteriori, que en nuestro caso
es el interés y es una distribución condicionada en los datos. La generación de
muestras es más importante ya que Φ puede ser estimada como

R
1 X
Φ̂ = h (θ r )
R r=1

R
Es claro que i los vectores {θ r }r=1 corresponden a una muestra de F (θ),
h si
entonces E Φ̂ = Φ. También, a medida queR se incrementa la varianza de Φ̂
disminuye ya que es σ 2 /R, donde σ 2 es la varianza de h(θ).
De lo anterior se desprende una propiedad importante del método Monte Carlo:
la exactitud de la estimación Monte Carlo no depende de la dimensionalidad del
espacio muestreado. La varianza de Φ̂ es siempre σ 2 /R. En teorı́a si tenemos una
muestra aún pequeña de observaciones independientes podemos obtener una es-
timación buena de Φ. El problema está en que obtener muestras independientes
de F puede no ser una tarea fácil.
Asumamos que la densidad de la cual deseamos obtener muestras es la cor-
respondiente a la distribución aposteriori de un parámetro de un experimento
exponencial, digamos λ para el cual la única información apriori que disponi-
amos era que λ ∼ U (0, 5). Se obtuvieron cinco muestras con resultados x1 =
1, x2 = 1, x3 = 4, x4 = 2, x5 = 3. Por lo tanto la distrribución posterior será

ξ(λ|Datos) ∝ λ5 e−11λ I(0, 5)

Si la constante de normalización fuera difı́cil de calcular (obviamente en este


problema no lo es!) entonces no serı́a fácil muestrear de ξ. Si el problema fuera
132 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

unidimensional podemos pensar en una discretización y muestrear de esta dis-


tribución discreta como se muestra en la figura 1. Cada punto discretizado en
esta gráfica tiene una altura igual al valor de la densidad en ese punto, o sea
p∗i = λ5i e−11λi . Podemos calcular una constante de normalización Z como
X
Z= p∗i
i

y
p∗
pi =
Z
y nuestreamos de la distribución de probabilidad {pi }. Cuál es el costo de este
procedimiento? Para poder calcular Z se requiere visitar cada punto en la dis-
cretización. En nuestro caso la dimensión del espacio era uno, pero si el espacio
tuviera dimensión 100, el número de puntos a visitar serı́a 50100 . Un número
inmenso de visitas.

14.0.6. Muestreo de Importancia


Este no es un método para generar muestras. Este es un método para calcular
la esperanza de h(θ). Asumamos que nuestra densidad unidimensional objetivo
es p(θ), y de la cual tenemos su kernel, digamos p∗ (θ) tal que

p∗ (θ)
p(θ) =
Z
donde Z es una constante de normalización.
Supongamos que muestrear directamente de p(θ) es muy complicado. Ahora
asumamos quen existe una distribución q(θ) de la cual sabemos es fácil muestrear
y que tiene el mismo soporte que p. La densidad q es llamada la densidad
muestreadora.
En el muestreo de importancia procedemos ası́:

a) Generamos R muestras θ(1) , θ(2) , · · · , θR de q(θ).

b) Calculamos los pesos


p∗ (θ(r) )
wr =
q(θ(r) )

c) Utilizamos los pesos anteriores para ajustar la “importancia” de cada


punto en nuestro estimador ası́:
R
X wr  
(r)
Φ̂ = PR h θ
r=1 j=1
133

Figura 14.1: La gráfica derecha muestra el kernel de la densidad posterior


λ5 e−11λ I(0, 5). Cómo obtener muestras de esta densidad? La gráfica derecha
presenta una discretización del kernel evaluado en 50 puntos equiespaciados en
el intervalo (0, 5). Cómo podemos muestrear de esta distribución?
134 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

14.0.7. Muestreo por Rechazo


Asumamos una densidad unidimensional p(θ) = p∗ (θ)/Z que suponemos tiene
una forma muy complicada para muestrear directamente de ella. Asumamos
además que tenemos una distribución que es más simple y de la cual podemos
muestrear llamada densidad propuesta q(θ) la cual podemos evaluar hasta un
factor multiplicativo Zq . Además supongamos que conocemos una constante c
tal que

cq ∗ (θ) > p∗ (θ), para todo θ

a) Generamos dos números aleatorios:

1) El primero, digamos θ, es generado de la densidad propuesta


q(θ). Evaluamos cq ∗ (θ).

2) Generamos un número distribuido uniformemente en el inter-


valo [0, cq ∗ (θ)], digamos u.

b) Evaluamos p∗ (θ). Si u > p∗ (θ) entonces θ es aceptado. En otro caso


es rechazado.

14.1. MCMC: Monte Carlo por Cadenas de Markov


Cuando las distribuciones aposteriori son de alta dimensión, las soluciones analı́ticas
o las numéricas comúnes no se pueden obtener. Una solución es considerar un
procedimiento Monte Carlo iterativo o Monte Carlo por Cadenas de Markov. Se
simula una cadena de Markov con distribución estacionaria dada por la distribu-
ción aposteriori ξ (θ|Datos).Las caracterı́sticas de ξ son obtenidas encontrando
promedios ergódicos

R
1 X
Φ̂ = h (θ r )
R r=1

Los métodos MCMC son algoritmos iterativos que se utilizan cuando el muestreo
directo de una distribución de interés ξ no es factible.
Una cadena de Markov es generada muestreando
 
θ (t+1) ∼ p θ|θ (t)

Este p es llamado el kernel de transición de la cadena de Markov. Ası́ θ (t+1)


depende solo de θ (t) , y no de θ (0) , θ (1) , · · · , θ (t−1)
14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 135

Existen dos problemas mayores que rodean la implementación e inferencias de


los métodos MCMC. El primero tiene que ver con la convergencia y el segundo
con la dependencia entre las muestras de la distribución posterior.
Las condiciones bajo las cuales una cadena de Markov tiene una única dis-
tribcuión estacionaria son bien conocidas teóricamente:

Tiene que se aperiódica,


irreducible,
y positiva recurrente.

La forma en que construimos nuestras cadenas garantiza la existencia de la dis-


tribución estacionaria. Sin embargo en la práctica esta convergencia puede ser
penosamente lenta y el mayor problema es saber si se ha logrado una conver-
gencia razonable (esto se conoce como un “burn-in”). Por lo tanto las muestras
obtenidas hasta el punto de “burn-in” son descartadas.
Un asunto relacionado con la convergencia es la tasa de mezclado. Informal-
mente, el mezclado es la tasa con la cual la cadena de Markov se mueve a través
del soporte de la distribución estacionaria. Ası́, si una cadena tiene un mezclado
lento, puede quedarse en cierta porción del espacio de estados por un perı́odo
de tiempo muy largo, y a menos que la longitud de la cadena sea ajustada
acordemente, las inferencias serán afectadas sin ninguna duda.
El segundo asunto está relacionado con el hecho que los valores observados,
siendo un camino muestral de una cadena de Markov, no son independientes
entre sı́. Asumiendo que se ha logrado la convergencia, los valores observados
formarán una muestra dependiente de la distribución posterior. Esto puede ser
molesto para uno pero no es necesariamente malo en MCMC. En la mayorı́a de
los problemas, la estimación tı́pica se obtiene por un promedio sobre las mues-
tras. Aunque las muestras no sean independientes, el teorema ergódico asegura
que estos promedios muestrales convergen a las verdaderas esperanzas. Ası́ que
la aproximación corriente al problema de dependencia es ignorarla. Pero si uno,
por alguna razón, necesita una muestra independiente, puede resolver el proble-
ma corriendo varias cadenas de Markov con puntos de comienzo independientes
y utilizar el último punto de cada cadena.

14.1.1. Algoritmo Metropolis-Hastings


El muestreo de importancia y el muestreo de rechazo trabajan bien si la densi-
dad propuesta q(θ) es similar a p(θ). En problemas complejos puede ser difı́cil
crear una única q(θ) que tenga esta propiedad. El algoritmo Metropolis utiliza
una densidad
 propuesta q que depende del estado actual de θ(t) . La densidad
′ (t)
q θ |θ puede ser tan simple como una normal localizada en θ(t) y no es
necesario que se parezca a p(θ).
El algoritmo se resume ası́:
136 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

a) Comience en cualquier lugar, y digamos que estamos en θ (t) = θ.

b) Genere θ ∗ de q (θ ∗ |θ). θ ∗ es llamado un punto candidato y q es


llamada una distribución propuesta.

c) Calcule  
∗ ξ (θ ∗ ) q (θ|θ ∗ )
α (θ, θ ) = mı́n 1,
ξ (θ) q (θ ∗ |θ)

d ) Acepte θ (t+1) = θ ∗ con probabilidad α (θ, θ ∗ ).

e) En otro caso θ (t+1) = θ

Note que la densidad objetivo ξ solo entra en al proceso a través del cociente

ξ (θ )
y por lo tanto no hay necesidad de conocer la constante de normalización
ξ (θ )
para implementar el algoritmo.
Casos especiales:

a) q (θ|θ ∗ ) = q (θ ∗ |θ): Algoritmo Metropolis.

b) q (θ|θ ∗ ) = g (θ ∗ ): Muestreador independiente.


Qk
c) q (θ|θ ∗ ) = i=1 ξ (θi |θ ∗ < i, θ >i ) ⇒ α (θ, θ ∗ ) = 1: Muestreador de
Gibbs.

El Algoritmo Metropolis

Aquı́ la distribución propuesta es simétrica, esto es,

q (θ|θ ∗ ) = q (θ ∗ |θ) ,

como en el caso de una Normal centrada en el punto actual, entonces el factor

q (θ|θ ∗ )
= 1,
q (θ ∗ |θ)

y el algoritmo Metropolis simplemente se limita a comparar el valor de la den-


sidad objetivo en los dos puntos.

Ejemplo 14.2 Modelo de regresión simple Asumamos


2

Yi ∼ N β1 Xi1 + β2 Xi2 , σ

La formulación bayesiana del modelo consiste en



a) La función de verosimilitud f y|β1 , β2 , σ 2
14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 137

b) La distribución apriori ξ β1 , β2 , σ 2

Estamos interesados en estimar las siguientes distribuciones posteriores:

La distribución posterior conjunta


  
ξ β1 , β2 , σ 2 |y ∝ f y|β1 , β2 , σ 2 × ξ β1 , β2 , σ 2

Distribuciones marginales posteriores ξ (β1 |y), ξ (β2 |y) y ξ σ 2 |y

a) El Muestreador de Gibbs: Este muestreador genera muestras iterati-


vamente de cada distribución posterior condicional completa.

Genere β1 de ξ (β1 |β2 , σ, y)

Genere β2 de ξ (β2 |β1 , σ, y)



Genere σ 2 de ξ σ 2 |β1 , β2 , y

b) El Algoritmo Metropolis

Genere un vector de candidatos nuevo β1′ , β2′ , σ 2′ de una distribu-
ción conocida y fácil de usar

q β1 , β2 , σ 2 |β1′ , β2′ , σ 2′

Acepte los valores propuestos con probabilidad


(  )
ξ β1′ , β2′ , σ 2′ |y q β1′ , β2′ , σ 2′ |β1 , β2 , σ 2
α = mı́n 1,
ξ (β1 , β2 , σ 2 |y) q (β1 , β2 , σ 2 |β1′ , β2′ , σ 2′ )

Ejemplo 14.3 Tabla 2 × 2 Suponga tenemos la siguiente tabla 2 × 2

Condición
Cáncer Control Total
Fumador Sı́ 83 72 155
No 3 14 17
Total 86 86 192

que presenta información sobre el fumar y desarrollar cáncer pulmonar (Jack-


man, 2001). La pregunta que se hace un investigador es: Existe una diferencia
significativa entre los hábitos de los grupos (los que desarrollan cáncer y los
que no)? Denotemos por πL y πC las probabilidades poblacionales de desarrol-
lar cáncer pulmonar. Podemos responder a la pregunta mirando la distribución
138 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

posterior de la diferencia πL − πC , pero esta distribución es altamente sesgada.


Una solución es utilizar el logaritmo de la razón de odds
 
πL /(1 − πL )
λ = log
πC /(1 − πC )

λ = 0 cuando ambas proporciones son iguales. Si πL > πC entonces λ > 0.


El logaritmo de la razón de odds tiene una distribución más simétrica, y se
parece a la normal, aún para muestras moderadas. La verosimilitud de los datos
está dada por

83 72 3 14
L (πL , πC ) = πL (1 − πL ) πC (1 − πC ) , 0 < πL , πC < 1

Utilicemos la simulación para recobrar la distribución “exacta” de λ. Supong-


amos que la distribución πL es una Beta(83, 3) y de πC es una Beta(72, 14), in-
dependientes. Ni la suma ni la diferencia de dos Betas tiene una forma estándar,
ni la tiene el logaritmo de los odds de dos Beta. Los pasos a seguir son los sigu-
ientes:
(t)
a) Muestree πL de una Beta(83, 3).
(t)
b) Muestree πC de una Beta(72, 14).

c) Calcule
!
(t) (t)
(t) πL /(1 − πL )
λ = log (t) (t)
πC /(1 − πC )

d ) Con los λ(t) construya un histograma y calcule los estadı́sticos requeridos


de esta distribución.

Problemas con el Muestreador de Gibbs

Determinar el número de iteraciones es un problema difı́cil de re-


solver.

Puede ser extremadamente demandante desde el punto de vista


computacional aún para problemas estadı́sticos a escala pequeña
(Raftery y Lewis, 1991).

Puede ser muy ineficiente cuando la correlación posterior entre los


parámetros es alta.

En modelos jerárquicos tiende a “pegarse”.


14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 139

Recomendaciones

Raftery y Lewis (1991) sugieren que el método funciona bien para


la mayorı́a de los problemas con menos de 5000 iteraciones, aunque
hay importantes excepciones, como se mencionó en la parte anterior.

Una prueba simple de convergencia

Esta parte está basada en Casella y George (1992). Supongamos el caso de una
tabla 2 × 2 bajo un esquema de muestreo multinomial.
X
0 1 Marginal de Y
Y 0 p1 p2 p1 + p2
1 p3 p4 p3 + p4
Marginal de X p1 + p3 p2 + p4 1

O sea, la distribución de probabilidad conjunta de (X, Y ) está dada por


   
fxy (0, 0) fxy (1, 0) p1 p2
=
fxy (0, 1) fxy (1, 1) p3 p4

La distribución condicional de Y |X = x es
 p1 p3 
p1 +p3 p1 +p3
Ay|x = p2 p4
p2 +p4 p2 +p4

y la distribución condicional de X|Y = y es


 p1 p2 
p1 +p2 p1 +p2
Ax|y = p3 p4
p3 +p4 p3 +p4

Las matrices Ay|x y Ax|y pueden pensarse como las matrices de transición de
alcanzar un estado dado otro.
Si solo estamos interesados en generar la distribución marginal de X, entonces
empezando en X0 tenemos que pasar a través de Y1 para llegar a X1 , ya que
el proceso es X0 → Y1 → X1 , y X0 → X1 forma una cadena de Markov con
probabilidad de transición
X
P (X1 = x1 |X0 = x0 ) = P (X1 = x1 |X0 = y) P (Y1 = y|X0 = x0 )
y

La matriz de las probabilidades de transición de la sucesión X, digamos Ax|x ,


está dada por
140 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

Ax|x = Ay|x Ax|y

La distribución de probabilidad de cualquier Xk en la secuencia se halla fácil-


k
mente. La matriz de transición que produce P (Xk = xk |X0 = x0 ) es Ax|x .
Además si
 
f= fk (0) fk (1)

denota la distribución de probabilidad marginal de Xk , entonces para cualquier


k,

k
fk = f0 Ax|x = fk−1 Ax|x

Para cualquier distribución inicial f0 , cuando k → ∞, fk converge a una única


distribución que es un punto estacionario de la ecuación anterior, y satisface

f Ax|x = f

Ası́, si la sucesión de Gibbs converge, entonces f debe ser la distribución marginal


de X.

Ejemplo 14.4 Pruebas de tamizado Supongamos que la Secretarı́a de


Salud quiere determinar la prevalencia de un virus particular en la sangre don-
ada en diferentes partes del departamento. Supongamos además que se aplica
una prueba tipo ELISA (las siglas en inglés de enzime-linked inmunosorbent
assay) para detectar algún tipo particular de virus, por ejemplo el VIH.
Denotemos por D la condición de una unidad particular de sangre y por T el
resultado del test aplicado a esa unidad.

1 si la muestra está infectada
D=
0 en caso contrario


1 si la muestra prueba positivo
T =
0 en caso contrario

Denotemos por

π = P (D = 1) = prevalencia
τ = P (T = 1)

Hay varios conceptos asociados con este tipo de pruebas y son


14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 141

Sensitividad: η = P (T = 1|D = 1)

Especificidad: θ = P (T = 0|D = 0)

Valor Predictivo de una Prueba Positiva: γ = P (D = 1|T = 1)

Valor Predictivo de una Prueba Negativa: δ = P (D = 0|T = 0)

El interés es determinar π. Esto puede hacerse de varias formas pero el propósito


es utilizar el meustreador de Gibbs.
Si conocemos que la distribución conjunta de las variables aleatorias D y T ,
podemos hallar la prevalencia directamente como la marginal

π = P (D = 1) = P (D = 1, T = 1) + P (D = 1, T = 0)

En su lugar nosotros conocemos las dos distribuciones condicionales T |D y D|T ,


no la conjunta. Para nosotros la distribución condicional de T |D es determinada
por η y θ, y la condicional de D|T es determinada por γ y δ.
Aquı́ están los pasos para proceder con el muestreador de Gibbs para hallar la
prevalencia π

Paso 1: Comienze el paso m = 1 con un valor arbitrario de D, digamos


D(1) = 1.

Paso 2a: En el paso m = 2, condicionado en el valor D(1) simule si T (1)


es 1 o 0. Esto es, simule T (1) = 1 con probabilidad η o T (1) = 0 con
probabilidad 1 − η. (Si hubiésemos comenzado con D(1) = 0, entonces
simuları́amos usando 1 − θ o θ.)

Paso 2b: Ahora simulamos el valor de D(2) utilizando γ o δ, como sea


apropiado. Por ejemplo, si obtuvimos T (1) = 1, entonces simuları́amos
D(2) = 1 con probabilidad γ = P (D(2) = 1|T (1) = 1)

Paso 3a: Esta vez, en el paso m = 3, simulamos T (2) usando η o θ.

Paso 3b: Ahora simule D(3) utilizando γ o δ, dependiendo del valor de


T (2).

Este proceso se estabilizará en el lı́mite. Ası́ obtenemos D(1), D(2), D(3), · · · , D(M1 )
como valores iniciales de “quemado” (se descartan), donde M1 es un valor
“grande” para lograr estabilidad, y de ahı́ en adelante obtenemos D(M1 +
1), D(M1 + 2), D(M1 + 3), · · · , D(M2 ) de la distribución estable.
Finalmente, estimamos π como la proporción de pasos para los cuales D(m) = 1.
142 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

Ejemplo 14.5 Distribución ZIP Asumamos que X es una variable aleatoria


discreta con soporte en los enteros nonegativos (una variable de conteo). Un
problema que ocurre con cierta frecuencia en la práctica es que X = 0 se observa
con una frecuencia significativamente mayor (o menor) que la predicha por el
modelo asumido. Entonces la variable aleatoria ajustada Y puede ser descrita
como

P (Y = 0) = ω + (1 − ω)P (X = 0)
P (Y = j) = (1 − ω)P (X = j) , j = 1, 2, 3, · · ·

Cuando 0 < ω < 1 el modelo tiene más ceros. Si ω < 0 el modelo tiene menos
ceros.
Un caso de especial importancia es cuando X ∼ P oisson(λ). La versoimilitud
en este caso es

n
Y
L(ω, λ) = P (Yi = yi )
i=1
Yn n o
I(yi =0) 1−I(yi =0)
= (P (Yi = 0)) (P (Yi = yi ))
i=1
(   )
n
Y  yi −λ 1−I(yi =0)
I(y =0) λ e
ω + (1 − ω)e−λ
i
= (1 − ω)
i=1
yi !

Ası́, si asumimos una distribución apriori no informativa para ω y para λ, ten-


emos

ξ(ω, λ) ∝ L(ω, λ)

Gupta et al. (1996) hacen referencia a los datos analizados por Leroux y Puter-
man en 1992 sobre movimientos fetales. Estos datos se recogieron en un estudio
sobre respiración y movimiento corporal en fetos de ovejas diseñado para ex-
aminar los posibles cambios en el patrón de la actividad fetal durante las dos
terceras partes del perı́odo de gestación. El número de movimientos efectuados
por el feto fue registrado por ultrasonido. Se analizaron los conteos del número
de movimientos en una sucesión particular de 240 intervalos de a 5 segundos.

Número de movimientos 0 1 2 3 4 5 6 7
Número de movimientos 182 41 12 2 2 0 0 1

L<-function(omega,lambda,y){
indicador<-ifelse(y==0,1,0)
14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 143

Figura 14.2: Contorno de la función de verosimilitud de la distribución ZIP para


el problema de los fetos de ovejas.
144 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

prod1<-prod((omega+(1-omega)*exp(-lambda))^indicador)
prod2<-prod(((1-omega)*exp(-lambda))^(1-indicador)
*lambda^(y*(1-indicador)))
productoria<-prod1*prod2
productoria
}

muestreadora<-function(teta.viejo){
omega<-teta.viejo[1]
lambda<-teta.viejo[2]
valor.negativo<-1
while(valor.negativo==1){
nuevo1<-rnorm(1,mean=omega)
if(nuevo1>0 & nuevo1<1) valor.negativo<-0
}
valor.negativo<-1
while(valor.negativo==1){
nuevo2<-rnorm(1,mean=lambda)
if(nuevo2>0 ) valor.negativo<-0
}

teta.nuevo<-c(nuevo1,nuevo2)
teta.nuevo }

qmuestreadora<-function(nuevo,viejo,y){
omega1<-viejo[1]
omega2<-nuevo[1]
lambda2<-nuevo[2]
lambda1<-viejo[2]
resultado<-(dnorm(omega1)*dnorm(lambda1))
/(dnorm(omega2)*dnorm(lambda2))
resultado<-resultado*L(omega2,lambda2,y)
/L(omega1,lambda1,y)
resultado<-min(1,resultado)
resultado
}

DATOS
>y<-c(rep(0,182),rep(1,41),rep(2,12),3,3,4,4,7)

VALOR INICIAL
>viejo<-c(0.05,1)
14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 145

>nuevo<-muestreadora(viejo)
>nuevo
[1] 0.8752859 0.2031465
>qmuestreadora(nuevo,viejo,y)
[1] 1.966996e-16
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 2.728314e-12
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1 ESTE VALOR SE ACEPTA
>nuevo
[1] 0.4595973 0.5060316
>viejo<-nuevo
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 0.03142081
>runif(1)
[1] 0.2793600
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 6.851616e-05
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 3.287750e-64
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1.64309e-14
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 2.542491e-106
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1 ESTE VALOR SE ACEPTA
>nuevo
[1] 0.5490383 0.6058326
>viejo<-nuevo
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1 ESTE VALOR SE ACEPTA
>nuevo
[1] 0.5416923 0.6257388
>viejo<-nuevo
>nuevo<-muestreadora(viejo)
146 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

14.1.2. Muestreador Griddy Gibbs


Cuando es difı́cil muestrear directamente de p(Xi |Xj , j 6= i) Ritter y Tanner
(1991) propusieron una aproximación simple a la FDA inversa basada en la
evaluación de p(Xi |Xj , j 6= i) en una rejilla de puntos. Los pasos son los sigu-
ientes:

a) Evalúe p(Xi |Xj , j 6= i) en Xi = x1 , x2 , · · · , xn para obtener w1 , w2 , · · · , wn .


b) Utilice w1 , w2 , · · · , wn para obtener una aproximación de la FDA
inversa de p(Xi |Xj , j 6= i).
c) Muestree de una U (0, 1) y transforme la observación via la FDA
inversa aproximada.

14.2. Cálculo de Integrales via Simulación


14.2.1. Composición
Supongamos que f (y|x) es una densidad (donde x y y pueden ser vectores).
Nuestro objetivo es obtener una muestra aleatoria y1 , · · · , ym de
Z
J(y) = f (y|x) g(x) dx

El método de composición procede ası́:

a) Saque x ∗∼ g(x)
b) Saque x ∗∼ f (y|x∗ )

Repita los pasos m veces. Los pares (x1 , y1 ), · · · , (xm , ym ) forman una mues-
tra aleatoria de la densidad conjunta h(x, y) = f (y|x) g(x). Las cantidades
y1 , · · · , ym forman una muestra aleatoria de la marginal J(y).

14.3. Métodos Monte Carlo de Cadenas de Markov


(MCMC)
14.3.1. Glosario de Cadenas de Markov
Definición 14.1 (Irrudicibilidad) Una cadena de Markov X1 , X2 , · · · es ir-
reducible si la cadena puede moverse libremente a través del espacio de estados;
esto es, para dos estados cualesquiera x y x′ , existe un n tal que

P (Xn = x′ |X0 = x) > 0.


14.3. MÉTODOS MONTE CARLO DE CADENAS DE MARKOV (MCMC)147

Definición 14.2 (Recurrencia) Una cadena de Markov es recurrente si el


número promedio de visitas a un estado arbitrario es infinito.

Definición 14.3 (Perı́odo) Un estado x tiene perı́odo d si P (Xn+t = x|Xt = x) =


0 si n no es divisible por d, donde d es el mayor entero con esta propiedad.

Definición 14.4 (Aperiodicidad) Si un estado x tiene perı́odo d = 1 se dice


que es aperiódico.

En una cadena irreducible todos los estados tienen el mismo perı́odo. Si ese
perı́odo es d = 1, la cadena de Markov es aperiódica.

Teorema 14.1 (Convergencia a una Distribución Estacionaria) Si una


cadena de Markov con espacio de estados contable X1 , X2 , · · · es positiva, re-
currente y aperiódica con distribución estacionaria π, entonces desde cualquier
estado inicial

Xn → X ∼ π

Definición 14.5 (Ergodicidad) Una cadena de Markov positiva, recurrente


y aperiódica es llamada ergódica.

Teorema 14.2 (Convergencia de Sumas (Teorema Ergódico)) Si una ca-


dena de Markov con espacio de estados contable X1 , X2 , · · · es ergódica con dis-
tribución esatcionaria π, entonces desde cualquier estado inicial

n
1X
h (Xi ) → Eπ [h(X)]
n i=1

14.3.2. Muestreador Gibbs


Para obtener una muestra de la distribución conjunta p(X1 , · · · , Xd ) el Muestreador
Gibbs itera sobre este ciclo:
 
(i+1) (i),···,X (i)
Muestree X1
de p X1 X2 d

 
(i+1) (i+1) (i) (i)
Muestree X2 de p X2 X1 , X3 · · · , Xd

..
.
 
(i+1) (i+1),···,Xd−1
(i+1)

Muestree Xd de p Xd X1
148 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

14.4. Simulación Exacta


Esta sección está basada en Dimakos (2001) Propp y Wilson en 1996 propusieron
un algoritmo de Cadena de Markov llamado Emparejamiento Desde el Pasado
(CFTP, Coupling From The Past)que produce muestras exactas de la distribu-
ción objetivo y determina qué tanto hay dejar correrla.

Definición 14.6 Decimos que dos cadenas están acopladas si ellas utilizan la
misma sucesión de números aleatorios para las transiciones.

14.4.1. El Muestreador Perfecto


14.4. SIMULACIÓN EXACTA 149

Ejemplo 14.6 Caso Trivial: Muestra Aleatoria Normal Asumamos que 


tenemos una muestra Y1 , Y2 , · · · , Yn que proviene de una población N µ, σ 2 .
Las distribuciones apriori de µ y σ se supondrán independientes y dadas por:

µ ∼ N ξ, κ−1
σ −2 ∼ Γ (α, β)

La distribución conjunta aposterior

P !
2

2 −α−n/2−1 β κ(µ − ξ)2 (Yi − µ)
ξ (µ, σ|Y ) ∝ σ exp − 2 − −
σ 2 2σ 2

que no es de forma estándar. Las condionales completas se hallan fácilmente:


 −2 P 
σ Yi + κξ 1
µ|σ, Y ∼ N , −2
σ −2 n + κ σ n+κ
!
n X (Yi − µ)
2
σ −2 |µ, Y ∼ Γ α + , β +
2 2

y podemos implementar el muestreador de Gibbs para sacar alternadamente µ


y σ −2 de estas distribuciones.

Ejemplo 14.7 Experimento Weibull/Gamma Supongamos una muestra


aleatoria, quizá con censura, de una W eibull(ρ, κ):

Y  X 
f (Y |ρ, κ) = κm ρmk Yiκ−1 exp −ρκ Yiκ
U
Q
donde m y U son el número y el producto sobre las observaciones sin censura.
Supongamos distribuciones apriori independientes Gamma para ρ y κ:

ξ(ρ, κ) ∝ ρα−1 e−βρ κγ−1 e−δκ

La distribución posterior es:


" #
Y  X 
ξ(ρ, κ) ∝ κ ρ m mk
Yiκ−1 exp −ρ κ
Yiκ ρα−1 e−βρ κγ−1 e−δκ
U

Las distribuciones condicionales son


150 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

 X 
ξ (ρ|κ) ∝ ρmk exp −ρκ Yiκ ρα−1 e−βρ
Y  X 
ξ (κ|ρ) ∝ κm ρmk Yiκ−1 exp −ρκ Yiκ κγ−1 e−δκ
U

Tiene una forma estándar difı́cil de trabajar con el muestreador de Gibbs, ası́ que
se recurre al Metropolis o Hastings.
Un MCMC fácilmente implementable como:

alterne entre ρ y κ
proponga un nuevo valor de una distribución simétrica alrededor del valor
actual.
rechácelo si está por fuera del rango,
acéptelo con probabilidad mı́n {1, ξ (ρ′ |κ) /ξ (ρ|κ)}

14.5. Algoritmo E − M
Esta es una técnica para obtener los estimadores de máxima verosimilitud, de-
sarrollada originalmente en el contextod edatos faltantes. Defina
  Z  
Q θ(t) , θ = ln (p (θ|Yobs , Yperd )) f Yper |Yobs , θ(t) dYperd

donde

ln (p (θ|Yobs , Yperd )) es la log-verosimilitud o la log-posterior de los


datos completos.

f Yper |Yobs , θ(t) es la densidad predictiva de Yperd , dados los datos
observados y el valor actual de los parámetros.
La integración es sobre el espacio muestral de Yperd .
PASO E: Utilice las estimadas de los parámetros en la presente
iteración para generar las imputaciones, lo que nos permite calcular
la esperanza de la log-verosimilitud de los datos completos.
PASO M : Maximice la función Q con respecto a θ, produciendo una
actualización de los parámetros estimados θ(t+1) , tal que
   
Q θ(t+1) , θ(t) ≥ Q θ(t) , θ(t)
14.5. ALGORITMO E − M 151

14.5.1. Modelo Probit para Datos Binarios


Considere un modelo probit para un resultado binario, yi ∈ {0, 1} para i =
1, · · · , n. Relacionamos el resultado binario a las covariables via la función de
regresión latente
yi∗ = x′i β + ǫi
donde

xi es un vector de k covariables asociadas con el sujeto i.


β es un vector de parámetros a ser estimados.
yi∗ ∈ R es una variable dependiente latente, observada solo en térmi-
nos de su signo, esto es,

0, si yi∗ < 0
yi =
1, si yi∗ ≥ 0

ǫi ∼ N (0, 1), para i = 1, · · · , n

Los y ∗ son tratados como datos perdidos. La estimación se puede realizar me-
diante el algoritmo E − M :

a) PASO E: Utilice la estimación actual de β y otros supuestos del


modelo para imputar cada yi .
b) PASO M : Condicionado en los yi∗ escoja β tal que maximice la log-
verosimilitud para datos completos, actualizando la estimada de β.

La función Q para el modelo probit es


  Z  
(t)
Q β, β = ln (p (β|X, y, y ∗ )) p y ∗ |β (t) , X, y dy ∗
y∗
o el valor esperado de la logverosimilitud de los datos completos, donde la es-
peranza es con respectoa la variable dependiente latente y ∗ , condicional en el
valor actual de β, digamos β (t) , y los datos observados X y y.
La función log-verosimililitud de los datos completos es

n
n 1X ∗ 2
ln (p (β|X, y, y ∗ )) = − ln(2π) − (y − x′i β)
2 2 i=1 i

dado que σ 2 = 1, por supuesto. Sustituyendo esto en Q

  n 1 X h ∗
n i2
(t)
Q β, β = − ln(2π) − E (yi − x′i β) |yi , X, β (t)
2 2 i=1
152 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

n  h i h i2 
n 1X ∗ ′ (t) ∗ ′ (t)
= − ln(2π)− V ar (yi − xi β) |yi , X, β + E (yi − xi β) |yi , X, β
2 2 i=1

1 X h i h  i2
n
n
=− ln(2π) − V ar yi∗ |yi , X, β (t) + E (yi∗ ) |yi , X, β (t) − x′i β
2 2 i=1

 
La estimación actual de β, β (t+1) , se encuentra maximizando Q β, β (t) con
respecto a β. Los términos varianza y la esperanza no involucran a β, y por lo
tanto

1 Xh  ∗  i2
n
β (t+1) = mı́n E yi |yi , X, β (t) − x′i β
β 2 i=1
 
= (X ′ X)−1 X ′ E y ∗ |y, X, β (t)

La estimación actualizada de β se obtiene corriendo regresiones por mı́nimos


cuadrados de los valores imputados y ∗ sobre las covariables X.
La imputación para y ∗ es
  h i
∗(t)
E yi∗ |yi , xi , β (t) = yi = E (x′i β = ǫi ) |yi , xi , β (t) = x′i β + Mi

donde
  
(t) −φi /Φi si yi = 0
Mi = Eβ (t) ǫi |yi , xi , β =
φi /(1 − Φi ) si yi = 1

donde φi = φ(−x′i β (t) ) es la función densidad de probabilidad normal, y Φi =


Φ(−x′i β (t) ) es la función de probabilidad acumulada de la distribución normal
evaluada en −x′i β (t) .

14.6. Diagnósticos de los Muestreadores MCMC


Recordando que estamos trabajando con una cadena markoviana, donde el pun-
to de inicio de la cadena es arbitrario y los valores que toma están correlaciona-
dos, además se desea obtener muestras es de la distribución estacionaria, los
primeros valores generados deben descartarse (burning), denotemos este número
por nB , el cual se toma por muchos como 1000 ó 5000. Existen algunas reglas que
nos permiten establecer el número a quemar pero es un tópico que no tiene una
única solución. Después de descartar los primeros valores nos queda la muestra
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 153

definitiva que la llamamos muestra a monitorear, su tamaño lo denotamos por


nM .
Si queremos que la estimada θ̄ tenga una alta probabilidad, digamos 1−ǫ0,95, de
no estar a más de d = 0,1, por ejemplo, del verdadero valor medio µ = E(θ|y),
o sea

P θ̄ − µ ≤ d = 1 − ǫ

Bajo el supuesto de un AR1 (ρ)


 2
σ 2 (1 + ρ) Φ−1 (1 − ǫ/2)
nM =
d2 (1 − ρ)

donde σ es la desviación estándar de un θt y Φ es la función de distribución


acumulada de una N (0, 1).
Como un ejemplo de lo anterior asumamos que ρ̂ = 0,89, una cadena que no se
mezcla muy bien, σ̂ = 3,3, entonces nM ≈ 79500. Si nB = 5000 debemos generar
entonces aproximadamente 85000 muestras para un solo parámetro. Si se tienen
muchos parámetros a monitorear, como es lo usual en un problema aplicado,
puede realmente ser muy restrictivo a nivel de hardware los requerimientos de
almacenamiento.
Una de las tareas más difı́ciles es establecer cuándo podemos decidir que una
cadena ha llegado a la distribución lı́mite o de equilibrio, esto puede vislumbrarse
a través de pruebas de estacionaridad de los últimos valores generados de la serie,
aunque aún teniendo estacionaridad no hay garantı́a de estar obteniendo valores
de la distribución deseada.
Una faceta indeseable en un muestreo MCMC es de no obtener valores bien
mezclados, lo cual significa que los valores consecutivos están altamente cor-
relacionados, lo cual podrı́a probarse mediante la correlación de primer orden
(correlación serial) de la serie. Una buena cadena tendrı́a un ρ cercano a cero.

14.6.1. Monitoreo y Convergencia de una MCMC


Cuatro Gráficos MCMC

Se recomienda como paso inicial generar cuatro gráficos para cada parámetro
considerado:

a) Un gráfico de los valores de la cadena en forma de serie temporal.


b) Un gráfico de la densidad estimada a partir de estos valores.
c) Un gráfico con las autocorrelaciones.
d ) Un gráfico con las autocorrelaciones parciales.
154 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

Diagnósticos CODA

La librerı́a del R CODA posee varios diagnósticos útiles para analizar los resul-
tados de una cadena, entre ellos:

Autocorrelaciones

Prueba de Geweke. Es una prueba de igualdad de medias uti-


lizando el Z − score. Si |Z − score| > 2 se considera que los niveles
son diferentes.

Prueba de Heidelberger y Welch. Esta prueba usa el estadı́stico


Cramér-von Mises para estacionalidad. Funciona ası́: Si falla la prue-
ba se descarta el 10 % de las observaciones (las primeras), y ası́ hasta
descartar el 50 %.

Prueba de Raftery y Lewis. Este es un diagnóstico de la longitud


de la corrida basada en el criterio de la exactitud de la estimación
del cuantil q. Pretende usar una cadena de Markov piloto (corta). Se
calcula el número de iteraciones requeridas para estimar el cuantil q
dentro de una exactitud de ±r con probabilidad p.

Prueba de Gelman y Rubin. Esta es una prueba en la que dos o


más cadenas paralelas corren con valores iniciales que son sobredis-
persos con respecto a la distribución posterior. La convergencia se
diagnostica cuando las cadenas han “olvidado” sus valores iniciales
y las salidas de todas las cadenas son indistinguibles. La prueba
está basada en una comparación de las varianzas dentro y entre las
cadenas y es similar al análisis de varianza clásico. Hay dos formas de
estimar la varianza de una distribución estacionaria: la media de la
varianza empı́rica dentro de cada cadena, W , y la varianza empı́rica
de todas las cadenas combinadas, que puede expresarse como

σ̂ 2 = (n − 1)B/n + W/n

donde B es la varianza empı́rica entre las cadenas.


Si las cadenas han convergido, entonces ambas estimadas son inses-
gadas. De otra manera el primer método subestima la varianza, ya
que las cadenas individuales no han tenido tiempo de llegar a la dis-
tribución estacionaria y el segundo método sobreestima la varianza,
ya que los valores iniciales fueron seleccionados sobredispersos.
El diagnóstico de convergencia está basado en el supuesto que la dis-
tribución objetivo es normal. Un intervalo bayesiano de credibilidad
puede construirse usando una distribución t con media

µ̂ = Media muestral de todas las cadenas combinadas


14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 155

y varianza

V̂ = σ̂ 2 + B/(mn)

donde m es el número de cadenas, y los grados de libertad son esti-


mado poel método de los momentos


d=2
V ar(V̂ )

El uso de la distribución t tiene en cuenta el hecho que la media y


la varianza de la distribución posterior son estimados.
El diagnóstico de convergencia es
q
R= (d + 3)V̂ /((d + 1)W )

Valores sustancialmente arriba de 1 indican falta de convergencia.

#
# Chained data augmentation - Example from Casella and George
#
nr <- 50
m <- 500
k <- 10
n <- 16
alpha <- 2.0
beta <- 4.0
lambda <- 16.0
maxn <- 24
betabinomial <- function(x,n,alpha,beta)
{
y <- log(choose(n,x))
y <- y + lgamma(alpha + beta) - lgamma(alpha) - lgamma(beta)
y <- y + lgamma(x + alpha) + lgamma(n - x + beta) -
lgamma(alpha + beta + n)
y <- exp(y)
return(y)
}
cat("\n")
cat("Based on ’Explaining the Gibbs sampler’, C. Casella \n")
cat("and E.I. George, Amer. Statist. 46 (3) (1992), 167-174. \n")
h <- rep(0,n+1)
fe <- rep(0,n+1)
for (i in 1:m)
{
156 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

y <- runif(1);
for (j in 1:k)
{
x <- rbinom(1,n,y)
newalpha <- x + alpha
newbeta <- n - x + beta
y <- rbeta(1,newalpha,newbeta)
}
for (t in 0:n)
{
if (t == x)
h[t+1] <- h[t+1] + 1
term <- choose(n,t)*exp(t*log(y)+(n-t)*log(1-y))
fe[t+1] <- fe[t+1] + term
}
}
cat("\n")
cat("Histogram (cf. Fig. 1)) \n")
cat(" t Obs Exp Diff Ratio Comp of X2 \n")
cat("\n")
x2h <- 0
bbe <- rep(0,n+1)
bb <- rep(0,n+1)
for (t in 0:n)
{
bbe[t+1] <- m*betabinomial(t,n,alpha,beta)
bb[t+1] <- round(bbe[t+1])
diff <- h[t+1] - bb[t+1]
ratio <- h[t+1]/bbe[t+1]
compx2 <- (h[t+1]-bbe[t+1])*(h[t+1]-bbe[t+1])/bbe[t+1]
x2h <- x2h + compx2
if (t < 10) cat(" ")
cat(" ",t," ")
if (h[t+1] < 10) cat(" ")
cat(h[t+1]," ")
if (bb[t+1]<10) cat(" ")
cat(bb[t+1]," ")
if (diff >= 0) cat(" ")
if (abs(diff) < 10) cat(" ")
cat(diff," ",ratio," ",compx2,"\n")
}
cat("\n")
cat("Chi-squared equals",x2h,"on",n,"degrees of freedom \n")
cat("\n")
cat("Estimated densities (cf. Fig. 3) \n")
cat("\n")
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 157

cat(" t Obs Exp Diff Ratio Comp of X2 \n")


cat("\n")
x2f <- 0
f <- rep(0,n)
for (t in 1:n)
{
f[t+1] <- round(fe[t+1])
diff <- f[t+1] - bb[t+1]
ratio <- f[t+1]/bbe[t+1]
compx2 <- (f[t+1]-bbe[t+1])*(f[t+1]-bbe[t+1])/bbe[t+1]
x2f <- x2f + compx2
if (t < 10) cat(" ")
cat(" ",t," ")
if (f[t+1] < 10) cat(" ")
cat(f[t+1]," ")
if (bb[t+1]<10) cat(" ")
cat(bb[t+1]," ")
if (diff >= 0) cat(" ")
if (abs(diff) < 10) cat(" ")
cat(diff," ",ratio," ",compx2,"\n")
}
cat("\n")
cat("Chi-squared equals",x2f,"on",n,"degrees of freedom. \n")
hp <- rep(0,(maxn+1))
fep <- rep(0,(maxn+1))
for (i in 1:m)
{
y <- 0.5
nn <- (1-y)*lambda;
for (j in 1:k)
{
x <- rbinom(1,nn,y)
newalpha <- x + alpha
newbeta <- nn - x + beta
y <- rbeta(1,newalpha,newbeta)
nn <- x + rpois(1,(1-y)*lambda)
}
for (t in 0:maxn)
{
if (t == x)
hp[t+1] <- hp[t+1] + 1
if (t <= nn)
{
term <- choose(nn,t)*exp(t*log(y)+
(nn-t)*log(1-y))
fep[t+1] <- fep[t+1] + term
158 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

}
}
}
cat("\n\n")
cat("Histogram (n random) \n")
cat("\n")
cat(" t Obs Histogram \n")
cat("\n")
practmaxn <- 4*n/3
for (t in 0:(practmaxn+1))
{
if (t < 10) cat(" ")
cat(t," ")
if (hp[t+1] < 10) cat(" ")
cat(hp[t+1]," ")
if (hp[t+1] > 0)
for (j in 1:hp[t+1]) cat("*")
cat("\n")
}
cat("\n")
cat("Estimated densities (n random; cf. Fig. 5) \n")
cat("\n")
cat(" t Obs Estimate \n")
cat("\n")
x2f <- 0
fp <- rep(0,practmaxn)
for (t in 1:practmaxn)
{
fp[t+1] <- round(fep[t+1])
if (t < 10) cat(" ")
cat(t)
cat(" ")
if (fp[t+1] < 10) cat(" ")
cat(fp[t+1]," ")
if (fp[t+1] > 0)
for (j in 1:fp[t+1]) cat("*")
cat("\n")
}

#
# Change-point analysis of coal disaster data
#
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 159

x11(record=T)
m <- 2 # Number of replications
t <- 15 # Number of iterations
startyear <- 1851 # First year for which data is available
daytab <- c(0, 31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)
leaptab <- c(0, 31, 29, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)

# Functions day.of.year, month.of.day and this.month adapted from


# B W Kernighan and D M Ritchie, The C Programming Language,
# Englewood Cloffs, NJ: Prentice-Hall 1978, 1988, Section 5.7.

# day.of.year: set day of year from month & day


day.of.year <- function(year,month,day)
{
leap <- year%%4 == 0 && year%%100 != 0 || year%%400 == 0
if (leap)
tab <- leaptab else
tab <- daytab
yearday <- day
for (i in 1:month)
yearday <- yearday + tab[i];
return(yearday)
}

# month.of.day: set month, day from day of year


day.of.month <- function(year,yearday)
{
leap <- year%%4 == 0 && year%%100 != 0 || year%%400 == 0
if (leap)
tab <- leaptab else
tab <- daytab
i <- 1
while (yearday > tab[i])
{
yearday <- yearday - tab[i]
i <- i + 1
}
return(yearday)
}

this.month <- function(year,yearday)


{
leap <- year%%4 == 0 && year%%100 != 0 || year%%400 == 0
if (leap)
tab <- leaptab else
tab <- daytab
160 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

i <- 1
while (yearday > tab[i])
{
yearday <- yearday - tab[i]
i <- i + 1
}
return(i-1)
}

# Data from B P Carlin, A E Gelfand and A F M Smith, Hierachical


# Bayesian Analysis of Changepoint Problems, Appl. Statist. 41 (1992),
# 389-405.
Y <- c(
4,5,4,1,0,4,3,4,0,6,3,3,4,0,2,6,3,3,5,4,5,3,1,4,4,
1,5,5,3,4,2,5,2,2,3,4,2,1,3,2,1,1,1,1,1,3,0,0,1,0,
1,1,0,0,3,1,0,3,2,2,0,1,1,1,0,1,0,1,0,0,0,2,1,0,0,
0,1,1,0,2,2,3,1,1,2,1,1,1,1,2,4,2,0,0,0,1,4,0,0,0,
1,0,0,0,0,0,1,0,0,1,0,0)
n <- length(Y) # Number of years of data available
endyear <- startyear+n-1 # First year for which data is available
a1 <- 0.5
a2 <- 0.5
d1 <- 1
d2 <- 1
plot(startyear:endyear,cumsum(Y))
cat("\n")
pp <- rep(0,n)
L <- rep(0,n)
pp <- rep(0,n)
for (j in 1:m) # Replicate m times
{
k <- 1+floor(n*runif(1)) # Initialize k randomly in [1,n]
b1 <- 1
b2 <- 1 # Initialize b1=b2=1
for (s in 1:t) # Iterate t times
{
# Sample theta | Y,lambda,b1,b2,k
theta <- rgamma(1,a1+cumsum(Y)[k])/(k+(1/b1));
# Sample lambda | Y,theta,b1,b2,k
lambda <- rgamma(1,a2+sum(Y)-cumsum(Y)[k])/(n-k+(1/b2));
# Sample b1 | Y,theta,lambda,b2,k
b1 <- (theta+(1/d1))/rgamma(1,a1);
# Sample b2 | Y,theta,lambda,b1,k
b2 <- (lambda+(1/d2))/rgamma(1,a2);
# Find L(Y;k,theta,lambda) for k = 0 to n-1
for (k in 1:n)
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 161

{
L[k] <- exp((lambda-theta)*k+
(log(theta)-log(lambda))*cumsum(Y)[k])
}
# Find p(k | Y,theta,lambda,b1,b2) and cumulation thereof
p <- L/sum(L)
cumprob <- cumsum(p)
# Pick U at random between 0 and 1
U <- runif(1)
# Sample k | Y,theta,lambda,b1,b2
for (i in 1:n)
if ((cumprob[i] < U)&&(U <= cumprob[i+1])) k <- i
} # End iteration
pp <- pp + p/m
} # End replication
# Find posterior density and mean of k
year <- startyear:endyear
meandate <- sum((year+0.5)*pp)
# Print out results
for (i in 30:50) cat(startyear+i," ",pp[i],"\n")
cat("\n")
for (i in 30:50)
{
cat(startyear+i," ")
for (j in 1:80)
if (100*pp[i] > j) cat("*")
cat("\n")
}
cat("\n")
meanyear <- floor(meandate)
fracyear <- meandate - floor(meandate)
leap <- meanyear%%4 == 0 && meanyear%%100 != 0 || meanyear%%400 == 0
if (leap)
tab <- leaptab else
tab <- daytab
daysinyear <- if (leap) 366 else 365
remnant <- fracyear*(daysinyear)-cumsum(tab)
monthspast <- remnant[remnant>0]
meanmonth <- length(monthspast)
if (meanmonth==1) monthname <- "Jan"
if (meanmonth==2) monthname <- "Feb"
if (meanmonth==3) monthname <- "Mar"
if (meanmonth==4) monthname <- "Apr"
if (meanmonth==5) monthname <- "May"
if (meanmonth==6) monthname <- "Jun"
if (meanmonth==7) monthname <- "Jul"
162 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

if (meanmonth==8) monthname <- "Aug"


if (meanmonth==9) monthname <- "Sep"
if (meanmonth==10) monthname <- "Oct"
if (meanmonth==11) monthname <- "Nov"
if (meanmonth==12) monthname <- "Dec"
floatday <- fracyear*(daysinyear)-cumsum(tab)[meanmonth]
meanday <- floor(floatday)
cat("Mean is",meanday,monthname,meanyear,", i.e. ")
cat(meanyear,"+",fracyear,"\n")
cat("\n")

#
# Hierachical normal model in Chapter 9, Exercise 6
#
niter <- 25
r <- 4
n <- c(4,4,4,4)
dat <- c(
98,97,99,96,
91,90,93,92,
96,95,97,95,
95,96,99,98)
x <- matrix(dat,max(n),r)
cat("\n")
cat("Data quoted in P.M. Lee, Bayesian Statistics: An Introduction \n")
cat("(2nd edn), London: Arnold 1997, Chapter 9, Exercise 6. \n")
cat("\n")
N <- sum(n)
xidot <- rep(0,r)
ssi <- rep(0,r)
for (i in 1:r){
xidot[i] <- sum(x[1:n[i],i])/n[i]
ssi[i] <- (n[i]-1)*var(x[1:n[i],i])
}
xdotdot <- sum(x)/N
ssw <- sum(ssi)
ssb <- (r-1)*var(xidot)
mu <- xdotdot
phi <- ssw/(N-1)
psi <- ssb/(r-1)
muold <- mu
phiold <- phi
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 163

psiold <- psi


for (t in 1:niter){
muold <- mu
phiold <- phi
psiold <- psi
mu <- 0
phi <- 0
psi <- 0
v <- 1/(1/psiold + n/phiold)
theta <- v*(muold/psiold + n*xidot/phiold)
mu <- mean(theta)
for (i in 1:r)
for (j in 1:n[i])
phi <- phi + (v[i]+(x[j,i]-theta[i])^2)/(N+2)
psi <- sum(v + (mu-theta)^2)/r
}
for (i in 1:r)
cat("Theta[",i,"] = ",theta[i],"\n")
cat("\n")
cat("mu = ",mu,"\n")
cat("phi = ",phi,"\n")
cat("psi = ",psi,"\n")
cat("\n")

#
#/* Hierachical normal model at end of Section 9.2
#
niter <- 25
r <- 4
n <- c(4,6,6,8)
dat <- c(62,60,63,59,NA,NA,NA,NA,
63,67,71,64,65,66,NA,NA,
68,66,71,67,68,68,NA,NA,
56,62,60,61,63,64,63,59)
x <- matrix(dat,max(n),r)
cat("\n")
cat("Based on A. Gelman, J.B. Carlin, H.S. Stern and D.B. Rubin \n")
cat("Bayesian Data Analysis, London: Chapman & Hall 1995, Sec. 9.8 \n")
cat("\n")
N <- sum(n)
xidot <- rep(0,r)
ssi <- rep(0,r)
164 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

for (i in 1:r){
xidot[i] <- sum(x[,i],na.rm=TRUE)/n[i]
ssi[i] <- (n[i]-1)*var(x[,i],na.rm=TRUE)
}
xdotdot <- sum(x,na.rm=TRUE)/N
ssw <- sum(ssi)
ssb <- (r-1)*var(xidot)
mu <- xdotdot
phi <- ssw/(N-1)
psi <- ssb/(r-1)
muold <- mu
phiold <- phi
psiold <- psi
for (t in 1:niter){
muold <- mu
phiold <- phi
psiold <- psi
mu <- 0
phi <- 0
psi <- 0
v <- 1/(1/psiold + n/phiold)
theta <- v*(muold/psiold + n*xidot/phiold)
mu <- mean(theta)
for (i in 1:r)
for (j in 1:n[i])
phi <- phi + (v[i]+(x[j,i]-theta[i])^2)/(N+2)
psi <- sum(v + (mu-theta)^2)/r
}
for (i in 1:r)
cat("Theta[",i,"] =",theta[i],"\n")
cat("\n")
cat("mu =",mu,"\n")
cat("phi =",phi,"\n")
cat("psi =",psi,"\n")
cat("\n")

#
# Crude Monte Carlo - Chapter 9, Exercise 1
#
niter <- 10
n <- 10
integral <- rep(0,niter)
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 165

cat(" Values computed: ")


for (i in 1:niter){
integral[i] <- sum(exp(runif(n)))/n
cat(integral[i])
if (i==n)
cat(".")
else
cat(", ")
if (i==n/2)
cat("\n ")
}
cat("\n")
cat(" Mean is",mean(integral),"and standard deviation is",sd(integral),".")
cat("\n")

#
# Semi-conjugate prior with normal likelihood (Section 9.4)
#
iter <- 10 # Number of iterations of the EM algorithm
m <- 500 # Number of replications
t <- 10 # Number of iterations
n <- 100
xbar <- 89
sxx <- 2970
s0 <- 175
nu0 <- 4
n0 <- 1
theta0 <- 85
phi0 <- s0/(n0*(nu0-2))
thetabar <- 0
phibar <- 0
thetass <- 0
phiss <- 0
cat("\n")
cat("Data quoted in P M Lee, ‘Bayesian Statistics: An Introduction’, \n")
cat("Arnold 1989, Section 2.13. Taking n=12, xbar=139, S=13,045 and \n")
cat("prior for theta ~ N(theta0,S0/n0(nu0-2)), that is, N(",
theta0,",",phi0,"),\n")
cat("and for phi independent and such that phi ~ S0 chi_{nu0}^{-2}, \n")
cat("that is, phi/",s0," is a chi-squared variate on",nu0,"d.f. \n")
cat("\n")
cat("Iterations of the EM algorithm give the following values for theta \n")
# # EM algorithm
theta <- theta0; # Initialize
166 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

n1 <- nu0 + n
for (j in 1:iter) # Iterate iter times
{
if (j-1 == 5*floor((j-1)/5)) cat("\n")
s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)
theta1 <- (theta0/phi0+n*xbar/(s1/n1))/(1/phi0+n/(s1/n1))
theta <- theta1
cat(theta," ")
}
cat("\n")
# # Gibbs sampler
phi <- sxx/(n-1) # Initialize
thetafinal <- rep(0,m)
phifinal <- rep(0,m)
for (j in 1:m) # Replicate m times
{
for (s in 1:t) # Iterate t times
{
phi1 <- 1/((1/phi0)+(n/phi))
theta1 <- phi1*((theta0/phi0)+(n*xbar/phi))
# theta | phi ~ N(theta1,phi1
theta <- theta1+sqrt(phi1)*rnorm(1)
# s1=s0+sum(x(i)-theta)^2
s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)
# phi | theta ~ s1*\chi_{\nu1}^{-2}
phi <- s1/rchisq(1,nu0+n)
}
thetafinal[j] <- theta
phifinal[j] <- phi
}
thetabar <- mean(thetafinal)
phibar <- mean(phifinal)
thetavar <- var(thetafinal)
phivar <- var(phifinal)
cat("\n")
cat("The Gibbs sampler gives rise to the following conclusions: \n")
cat("We deduce posterior for theta has mean",thetabar,"and variance",
thetavar,"\n")
cat("and that posterior for phi has mean",phibar,"and variance",phivar,"\n")
cat("\n")

#
# Example of rejection sampling (Section 9.5)
#
n <- 1000
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 167

alpha <- 2
beta <- 4
cc <- exp((alpha-1)*log(alpha-1)+(beta-1)*log(beta-1)-
(alpha+beta-2)*log(alpha+beta-2))
theormean <- alpha/(alpha+beta)
theorvar <- alpha*beta/
((alpha+beta)*(alpha+beta)*(alpha+beta+2))
mean <- 0
ss <- 0
for (i in 1:n)
{
cont <- TRUE
while (cont)
{
y <- runif(1)
u <- runif(1)
if (u <= exp((alpha-1)*log(y)+(beta-1)*log(1-y)))
{
x <- y
mean <- mean + x/n
ss <- ss + x*x
cont <- FALSE
}
}
}
var <- (ss-n*mean*mean)/(n-1)
cat("\n")
cat(" Alpha =",alpha,"Beta =",beta,"; Mean =",mean,"Variance =",var,"\n")
cat(" Theoretical values ",theormean,"and ",theorvar,"\n")
cat(" Ratios ",mean/theormean,"and ",var/theorvar)
cat("\n\n")

1 151 199 246 283 320


2 145 199 249 293 354
3 147 214 263 312 328
4 155 200 237 272 297
5 135 188 230 280 323
6 159 210 252 298 331
7 141 189 231 275 305
8 159 201 248 297 338
9 177 236 285 340 376
10 134 182 220 260 296
11 134 182 220 260 296
168 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

12 143 188 220 273 314


13 154 200 244 289 325
14 171 221 270 326 358
15 163 216 242 281 312
16 160 207 248 288 324
17 142 187 234 280 316
18 156 203 243 283 317
19 157 212 259 307 336
20 152 203 246 286 321
21 154 205 253 298 334
22 139 190 225 267 302
23 146 191 229 272 302
24 157 211 250 285 323
25 132 185 237 286 331
26 160 207 257 303 345
27 169 216 261 295 333
28 157 205 248 289 316
29 137 180 219 258 291
30 153 200 244 286 324

#
# Rat data in Chapter 9, Exercise 11
#
# Remember to load the file wishart.r first
#
p <- P <- 2
m <- 500
k <- 30
ni <- 5
epsilon <- 0.001
x <- c(8, 15, 22, 29, 36)
dat <- read.table("rats.dat")
y <- dat[,2:(ni+1)]
alpha0 <- 0.0
beta0 <- 0.0
a <- aalpha <- abeta <- epsilon # B P Carlin and T A Louis p. 169
b <- balpha <- bbeta <- 1/epsilon # B P Carlin and T A Louis p. 170
sigma2 <- 1.0 # Initially sigma2 is IG(a,b)
sigmaa2 <- 100 # A E Gelfand et al. p. 979 col.1
sigmab2 <- 0.1 # A E Gelfand et al. p. 979 col.1
# Thus R = (100 0 )
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 169

# ( 0 0.1)
#
# Take values for alpha[i] and beta[i] given
# alpha0, beta0, sigmaa2, sigmab2 and sigma2
alphabar <- 0.0
betabar <- 0.0
alpha <- rep(0,k)
beta <- rep(0,k)
for (i in 1:k)
{
vara <- ni/sigma2 + 1/sigmaa2
suma <- sum(y[i,])
meana <- (suma/sigma2 + alpha0/sigmaa2)/vara
# alpha[i] ~ N(meana,vara)
alpha[i] <- meana+sqrt(vara)*rnorm(1)
alphabar <- alpha[i]/k
varb <- var(x)/sigma2 + 1/sigmab2
sumb <- sum((x-mean(x))*unlist(y[i,]))
meanb <- (sumb/sigma2 + 1/sigmab2)/varb
# beta[i] ~ N(meanb,varb)
beta[i] <- meanb+sqrt(varb)*rnorm(1)
betabar <- betabar + beta[i]/k
}
# Initialize var (capital sigma)
v <- matrix(c(sigmaa2,0,0,sigmab2),P,P)
# Take values for alpha0 and beta0 given
# alpha[i], beta[i], sigmaa2, sigmab2 and sigma2
wish(p,k,var)
# alpha0 ~ N(alphabar,sigmaa2/k)
alpha0 <- alphabar+sqrt(sigmaa2/k)*rnorm(1)
# beta0 ~ N(betabar,sigmab2/k)
beta0 <- betabar+sqrt(sigmab2/k)*rnorm(1)
# See last displayed formula on p. 168 of
# B P Carlin and T A Louis
# simplified by taking C^{-1} = 0
#
# Take values for sigmaa2 and sigmab2 given
# alpha[i], beta[i], alpha0, beta0 and sigma2
# sigmaa2 ~ IG(alpha0,beta0)
sigmaa2 <- 1/(beta0*rgamma(1,alpha0))
# sigmab2 ~ IG(alpha)
sigmab2 <- 1/(beta0*rgamma(1,alpha0))
#
# Take value for sigma2 given
# alpha[i], beta[i], alpha0, beta0, sigmaa2 and sigmab2
# sigma2 ~ IG(alpha0,beta0)
170 CAPÍTULO 14. MÉTODOS COMPUTACIONALES

sigma2 <- 1/(beta0*rgamma(1,alpha0))

Ejemplo 14.8 Precio de oferta del Sprint usado


Consideremos los datos referentes a los precios de oferta de carros Chevrolet
Sprint aparecidos en el periódico El Colombiano Abril 14 del 2002.
Año Precio
(en millones)
87 7.0
88 8.0
92 10.4
94 94

list(x = c(87,88,92,94), Y = c(7.0,8.0,10.4,12.5), N = 4)


list(alpha = 0, beta = 0, tau = 1)

Los resultados son:


node mean sd MC error 2.5 % median 97.5 % start sample
alpha 9.472 0.5299 0.008244 8.532 9.474 10.35 2001 2000
beta 0.7396 0.1976 0.003458 0.3973 0.7416 1.076 2001 2000
sigma 0.6849 0.9945 0.04225 0.1831 0.4194 2.657 2001 2000
Si no consideramos la aproximación bayesiana y trabajamos directamente con
el modelo clásico tenemos los siguientes resultados

Call: lm(formula = precio ano)


Residuals: 1 2 3 4 -0.06107 0.19618 -0.37481 0.23969
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)
9.47500 0.17326 54.69 0.000334 *** ano 0.74275 0.06055 12.27 0.006581
** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1
‘ ’ 1
Residual standard error: 0.3465 on 2 degrees of freedom Multiple
R-Squared: 0.9869, Adjusted R-squared: 0.9803 F-statistic: 150.5
on 1 and 2 DF, p-value: 0.006581
>

Si utilizamos información previa sobre el mismo problema, por ejemplo los pre-
cios de oferta del mismo tipo de carro que aparecieron en El Colombiano en
Diciembre 16 del 2002, en el cual aparecieron los siguientes datos
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 171

Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8

list(x = c(95,95,94,95,88,90), Y = c(11.8,12.5,12.0,12.3,7.8,8.8),


N = 6)
list(alpha = 0, beta = 0, tau = 1)

node mean sd MC error 2.5 % median 97.5 % start sample


alpha 10.86 0.1887 0.004687 10.5 10.86 11.24 3001 2000
beta 0.6522 0.06663 0.001457 0.5118 0.6508 0.7817 3001 2000
tau 8.48 5.888 0.193 1.197 7.019 23.54 3001 2000

model for(i in 1:N) Y[i] dnorm(mu[i], tau) mu[i] <- alpha +


beta * (x[i] - mean(x[])) sigma <- 1/sqrt(tau) alpha dnorm(10.86,
28.08382) beta dnorm(0.6522, 225.2477) tau dgamma(1.0E-3, 1.0E-3)

list(x = c(87,88,92,94), Y = c(7.0,8.0,10.4,12.5), N = 4)


list(alpha = 10.86, beta = 0.6522, tau = 8.48)

node mean sd MC error 2.5 % median 97.5 % start sample


alpha 10.76 0.1925 0.003257 10.38 10.75 11.14 3001 4000
beta 0.6581 0.06308 9.926E-4 0.5339 0.6572 0.7838 3001 4000
tau 0.5937 0.4655 0.007512 0.06085 0.4749 1.825 3001 4000
172 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
Capı́tulo 15
Modelos Jerárquicos

Los modelos jerárquicos surgen en muchas situaciones (Draper, 2000; Stangl,


2001)donde los datos son recogidos en forma jerárquica. Por ejemplo, un estudio
de salud puede recoger información de pacientes dentro de diversos hospitales.
Un estudio sobre educación puede generar información recogida entre estudi-
antes de diversas instituciones educativas. Los modelos jerárquicos permiten que
lugares con tamaños muestrales pequeños “presten fortalezas” de otros lugares,
de tal forma que la varianza entre sitios a ser estimada sea pequeña (DuMouchel
y Waternaux, 1995).
La metodologı́a de estos modelos se puede llevar a otras situaciones más tradi-
cionales, donde la modelación puede ser complicada, por ejemplo en el caso de
la regresión, cuando la varianza residual cambia con las variables explicativas,
se puede considerar meter el modelo de variación constante en una familia de
modelos que generen diferentes supuestos acerca de la varianza residual. En este
caso, en lugar de escoger un solo modelo y arriesgarnos a tener una selección
equivocada, podemos trabajar con muchos modelos a la vez, ponderándolos de
acuerdo a la concordancia con los datos.
En el estudio de modelos jerárquicos surgen dos cuestiones técnicas:

los cálculos bayesianos requieren el uso de simulación tales como los


basados en MCMC y

asuntos sobre diagnósticos para el modelo.

Definición 15.1 (Intercambiabilidad) de Finetti (1930, 1964) dice que vari-


ables con la siguiente propiedad son intercambiables Yi , i = 1, · · · , n son inter-
cambiables si las distribuciones de (Y1 , · · · , Yn ) y (Yπ(1) , · · · , Yπ(n) ) son las mis-
mas para todas las permutaciones (π(1), · · · , π(n))

173
174 CAPÍTULO 15. MODELOS JERÁRQUICOS

Intercambiabilidad e IID no son lo mismo: IID implica intercambibilidad, y


variables intecambiables Yi tienen idénticas distribuciones marginales, pero ellas
no son necesariamente independientes.

15.1. Meta-análisis
La idea básica del meta-análisis es combinar información provenientes de difer-
entes estudios pero realizados esencialmente sobre el mismo fenómeno, con el
propósito de tener unas inferencias y predicciones más exactas que las que se
tengan de cualquier estudio individual. Aquı́ tenemos sujetos dentro de estudios
y habrá predictores a la vez de los sujetos y de los estudios.
Stangl (2001) presenta el siguiente caso donde se realizó un análisis de los efectos
de la droga antidepresiva S-adenosylometionina (SAMe). Participaron nueve
lugares en el ensayo. Cada sitio tenı́a caracterı́sticas propias que afectaba los
resultados de los estudios. El resultado de interés era la tasa de éxito observada
con la SAMe. Los datos están presentados en la siguiente tabla:

Sitio si ni si /ni
1 20 20 1.00
2 4 10 0.40
3 11 16 0.69
4 10 19 0.53
5 5 14 0.36
6 36 46 0.78
7 9 10 0.90
8 7 9 0.78
9 4 6 0.67
Total 106 150 0.71

Asumimos que la tabla anterior proviene de un estudio con 150 pacientes y nue-
stro objetivo es estimar la tasa de éxito, digamos π, del tratamiento. Asumamos
que la distribución apriori de π es una Beta (α, β). Los datos son generados de
una distribución binomial con tamaño muestral n y tasa de éxito π.
Una formulación multinivel, o jerárquica o de efectos aleatorios evita el supuesto
de homogenidad modelando un efecto aleatorio, π para el estudio i. Cada πi
se asume sacado de la distribución de los efectos de estudio. Aquı́ se usa la
Beta (α, β) para los efectos de estudio. La respuesta del estudio i es

si ∼ Binomial (ni , πi )

y los efectos individuales son intercambiables. Condicionados en α y β, los πi


son sacados independientemente de una distribución Beta:
15.1. META-ANÁLISIS 175

πi ∼ Beta (α, β)

La función de verosimilitud de los πi ’s es:

I
Y ni −si
πisi (1 − πi )
i=1

En el último nivel de jerarquı́a, una distribución apriori es colocada sobre α y


β. La dejamos sin especificar por el momento, y simplemente la denotamos por

ξ(α, β)

La distribución posterior conjunta de todos los parámetros es:

ξ (π, α, β|s) ∝ f (s|π, α, β) ξ (π|α, β) ξ(α, β)


I
Y YI
ni −si Γ(α + β) α−1 β−1
∝ πisi (1 − πi ) πi (1 − πi ) ξ(α, β)
i=1 i=1
Γ(α)Γ(β)

Dados α y β, cada uno de los πi tiene una distribución beta independiente. Su


densidad conjunta será:

I
Y Γ(α + β + ni ) β+ni −si −1
ξ (π|α, β, s) ∝ πiα+si −1 (1 − πi )
i=1
Γ(α + si )Γ(β + ni − si )

La marginal posterior de (α, β) es

YI
Γ(α + β) Γ(α + si )Γ(β + ni − si )
ξ (α, β|s) ∝ ξ(α, β)
i=1
Γ(α)Γ(β) Γ(α + β + ni )
176 CAPÍTULO 15. MODELOS JERÁRQUICOS
Capı́tulo 16
Datos

16.1. Apellidos
Una muestra tomada al azar de los apellidos de suscriptores telefónicos tomada
del directorio de páginas blancas produjo los siguientes resultados:

acevedo acosta agudelo aguirre alvarez alzate


6 2 7 2 12 8
andrade angel arango arbelaez arboleda arcila
1 3 7 5 2 2
ardila areiza arenas arias aristizabal arredondo
2 3 3 4 4 1
arroyave avendano ayala balbin ballesteros baron
2 1 1 1 1 1
barrera barrientos bedoya bejarano bello beltran
1 1 6 1 1 1
benitez bermudez bernal berrio betancur betancurt
1 1 1 2 12 1
bilbao bohorquez botero bouhot bravo buitrago
1 1 5 1 2 1
buritica bustamante cadavid caicedo cajamarca calad
1 7 2 1 1 1
calle campillo campo canas cano canola
2 1 1 2 6 1
cardenas cardiba cardona carmona carvajal casas
1 1 22 2 3 2
castaneda castano castillo castrillon castro catano
3 8 1 6 6 1
ceballos cespedes chanci chavarria cordoba corrales

177
178 CAPÍTULO 16. DATOS

2 1 1 1 2 1
correa cortes cossio cuartas cuellar cuervo
7 1 1 1 1 3
david delosrios diaz duarte duque durango
1 1 2 1 10 1
ebratt echavarria echeverri echeverry escobar escudero
1 7 2 3 3 1
espinal estrada fernandez florez foronda franco
2 1 5 2 2 3
galeano gallego gamboa garces garcia garro
2 6 1 1 16 1
gaviria gil giraldo gomez gonzalez gragales
5 4 12 28 10 1
granada granados guayiboy guerra guiral gutierrez
1 1 1 1 2 11
guzman henao hernandez herrera hidalgo higuita
2 6 8 2 1 3
hincapie hoyos hurtado idarraga isaza jaramillo
4 2 2 1 2 21
jimenez laiseca legarda leyva llano londono
4 1 1 1 1 8
lopera lopez lora loreto machado macia
2 13 1 1 1 1
maldonado manco manjarres manrique marin marquez
2 3 1 1 4 1
martinez marulanda maya mazo medina mejia
7 1 2 3 5 10
merino mesa misas molina mona moncada
1 8 1 4 1 2
monsalve montes montoya mora morales moreno
3 1 19 1 8 5
mosquera munera muneton munoz murillo naranjo
3 4 1 12 2 3
narino norena obando ocampo ochoa orozco
1 4 1 2 6 5
ortega ortiz osorio osorno ospina pabon
5 9 9 1 6 1
palacio palacios palomino paniagua parra patino
5 3 1 2 3 7
pelaez pena penagos perez piedrahita pineda
3 2 2 11 5 4
pino posada preciado presiga puerta pulgarin
1 7 1 1 1 4
pulido quiceno quijano quintero quiros ramirez
1 1 1 6 1 28
rangel rave rendon rengifo restrepo reyes
2 3 5 1 32 1
ricaurte rico rios rivera rodas rodriguez
1 2 6 6 2 5
rojas roldan roman romero royero rueda
16.2. MORDEDURAS 179

1 2 1 2 1 2
ruge ruiz saenz salazar salgado salinas
1 5 1 6 1 2
sanchez santa santamaria saraza sepulveda serna
21 1 1 1 6 4
sierra sosa soto suarez suaza tabares
2 2 2 5 2 4
tabera taborda tamayo tangarife tapias tejada
1 2 2 1 2 1
tilano tobon tocora toro torres trejos
1 6 1 6 3 1
trujillo uribe urrego usuga valencia vallejo
1 5 2 3 8 1
vanegas vargas vasquez velasquez velez vera
4 3 9 6 14 1
vergara vidales villa villada villegas vitola
1 1 5 1 3 1
yepes zapata zea zuleta zuluaga
1 13 1 2 9

1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 19 21 22 28 32
114 52 23 14 16 17 8 7 4 3 2 4 2 1 1 1 2 1 2 1

Se hallaron 275 apellidos diferentes.

16.2. Mordeduras
El siguiente modelo permite estimar el número de mordeduras promedio para
cada municipio y construir un intervalo de probabilidad para este valor.
Los comandos en W inBU GS serán

model
{
for (i in 1 : N) {
theta[i] ~ dgamma(alpha, beta)
lambda[i] <- theta[i] * Pobtotal[i]
Mordeduras[i] ~ dpois(lambda[i])
}
alpha ~ dexp(1)
beta ~ dgamma(0.1, 1.0)
}

list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,
180 CAPÍTULO 16. DATOS

Municipio Mordeduras Hectáreas Altura Habitantes Temperatura


Medellı́n 53 23 1550 1933177 22
Barbosa 7 63 1300 36307 22
Bello 3 47 1450 316397 22
Caldas 0 222 1750 60170 19
Copacabana 0 4 1425 51760 22
Envigado 9 44 1575 132414 21
Girardota 0 5 1425 33050 22
Itagui 1 0 1550 209030 21
La Estrella 5 5 1775 44464 20
Sabaneta 0 160 1550 32339 20
Cáceres 19 112 100 22854 28
Caucasia 30 0 50 57235 28
El Bagre 15 108 50 48422 28
Nechi 6 0 30 10906 28
Tarazá 9 169 125 25771 28
Zaragoza 12 182 50 26816 28
Caracolı́ 6 4 625 7023 26
Maceo 2 36 950 9036 23
PuertoBerrio 18 48 125 36514 27
Puerto Nare 4 18 125 13388 27
PuertoTriunf 4 104 150 11836 27
Yondó 5 1522 75 11698 28
Amalfi 9 33 1550 20387 22
Anorı́ 6 7 1535 14690 21
Cisneros 5 0 1050 10518 24
Remedios 4 20 700 18825 25
SanRoque 6 31 1475 21313 21
SantoDomingo 0 37 1975 13549 19
Segovia 4 33 650 35006 24
Vegachı́ 10 40 980 15818 23
Yalı́ 5 10 1250 9249 23
Yolombó 7 61 1450 16594 21
Angostura 0 71 1675 15119 21
Belmira 0 28 2550 5650 14
Briceño 0 9 1200 10070 23
Campamento 0 15 1700 11453 20
Carolina 0 43 1800 4635 19
Donmatias 0 41 2200 14250 16
Entrerı́os 0 54 2300 7697 16
GomezPlata 0 80 1800 9975 20
Guadalupe 1 21 1875 6675 20
Ituango 0 22 1550 37118 21
SanAndres 0 15 1475 9887 22
San José 0 0 2550 3558 13
San Pedro 0 20 2475 19346 14
Santa Rosa 1 361 2550 27651 13
Toledo 0 0 1850 9638 19
Valdivia 3 3 1165 12968 21
Yarumal 14 126 2300 36907 14
16.2. MORDEDURAS 181

Municipio Mordeduras Hectáreas Altura Habitantes Temperatura


Abriaquı́ 0 52 1920 3870 18
Anzá 1 49 625 8103 25
Armenia 1 33 1800 7068 19
Buriticá 0 3 1625 8217 21
CañasGordas 0 152 1300 22685 21
Dabeiba 4 754 450 28445 26
Ebéjico 1 135 1150 16061 23
Frontino 4 177 1350 26240 21
Giraldo 1 52 1925 4946 17
Heliconia 1 10 1440 8104 21
Liborina 0 1 700 11071 24
Olaya 0 22 500 2868 26
Peque 0 45 1200 9512 22
Sabanalarga 0 33 850 9006 25
SanJerónimo 0 20 780 11313 25
SantaFé 1 65 550 22626 27
Sopetrán 0 0 750 12969 25
Uramita 0 191 650 9223 25
Abejorral 4 134 2125 79874 17
Alejandrı́a 1 265 2125 26689 17
Argelia 0 98 1650 5715 20
Carmen 0 44 1750 12944 20
Cocorna 0 130 1300 23105 23
Concepción 1 32 1875 6530 19
El Peñol 0 79 2150 40300 17
El Retiro 0 19 2000 17078 18
El Santuario 0 123 2175 15809 16
Granada 0 13 2150 28940 17
Guarne 0 64 2050 18422 18
Guatapé 1 76 2150 31092 17
La Ceja 0 90 1925 7241 19
La Unión 1 38 2200 41166 16
Marinilla 1 12 2500 17657 13
Nariño 0 61 2120 38980 17
Rionegro 1 192 1650 15957 20
San Carlos 9 54 1000 23517 23
SanFrancisco 3 18 1250 9062 23
San Luis 6 128 1050 15896 24
San Rafael 8 33 1000 20434 23
San Vicente 0 18 2150 24492 17
Sonsón 3 1057 2475 45482 13
Amagá 1 75 1400 26111 21
Andes 20 30 1350 41310 22
Angelopolis 1 42 1900 6598 18
Betania 4 19 1550 12113 22
Betulia 1 74 1600 17200 20
Caicedo 0 3 1800 7684 19
Caramanta 1 142 2050 8285 17
CiudadBoliva 15 39 1200 30377 22
Concordia 9 26 2000 24651 19
Fredonia 3 51 1800 24357 20
Hispania 0 167 1000 4776 21
182 CAPÍTULO 16. DATOS

Municipio Mordeduras Hectáreas Altura Habitantes Temperatura


Jardı́n 1 72 1750 16225 19
Jericó 1 11 2000 17733 18
Montebello 1 6 2350 10121 15
Pueblorico 2 57 1800 10668 19
Salgar 1 94 1250 19102 23
Santabarbara 3 4 1800 24626 19
Támesis 3 55 1600 18705 21
Tarso 0 17 1325 7498 22
Titiribı́ 4 11 1550 12039 21
Urrao 2 36 1800 38054 20
Valparaiso 2 46 1375 7744 21
Venecia 0 22 1350 14123 21
Apartadó 92 645 25 86941 28
Arboletes 9 89 4 23836 28
Carepa 10 263 28 32960 28
Chigorodó 23 281 34 46264 28
Murindó 3 257 25 3241 28
Mutatá 14 156 75 13300 28
Necoclı́ 16 249 8 36002 28
SanJuandeU 20 112 2 19984 28
SanPedrodeU 21 211 200 28915 27
Turbo 14 785 2 106305 28
VigiadelFuer 12 1253 18 10150 28
16.2. MORDEDURAS 183

6,2,18,4,4,5,9,6,5,4,6,0,4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,
14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,
1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,
92,9,10,23,3,14,16,20,21,14,12),
Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,
209030,44464,32339,22854,57235,48422,10906,25771,26816,
7023,9036,36514,13388,11836,11698,20387,14690,10518,18825,
21313,13549,35006,15818,9249,16594,15119,5650,10070,11453,
4635,14250,7697,9975,6675,37118,9887,3558,19346,27651,9638,
12968,36907,3870,8103,7068,8217,22685,28445,16061,26240,4946,
8104,11071,2868,9512,9006,11313,22626,12969,9223,79874,26689,
5715,12944,23105,6530,40300,17078,15809,28940,18422,31092,7241,
41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,26111,
41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,
17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,
86941,23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))

list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,6,2,18,4,4,5,9,6,5,4,6,0,
4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,
0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,
9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,92,9,10,23,3,14,16,20,21,14,12),

Altmar=c(1550,1300,1450,1750,1425,1575,1425,1550,1775,1550,100,
50,50,30,125,50,625,950,125,125,150,75,1550,1535,1050,700,1475,
1975,650,980,1250,1450,1675,2550,1200,1700,1800,2200,2300,1800,
1875,1550,1475,2550,2475,2550,1850,1165,2300,1920,625,1800,1625,
1300,450,1150,1350,1925,1440,700,500,1200,850,780,550,750,650,
2125,2125,1650,1750,1300,1875,2150,2000,2175,2150,2050,2150,1925,
2200,2500,2120,1650,1000,1250,1050,1000,2150,2475,1400,1350,1900,
1550,1600,1800,2050,1200,2000,1800,1000,1750,2000,2350,1800,1250,
1800,1600,1325,1550,1800,1375,1350,25,4,28,34,25,75,8,2,200,2,18),

Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,209030,
44464,32339,22854,57235,48422,10906,25771,26816,7023,9036,36514,
13388,11836,11698,20387,14690,10518,18825,21313,13549,35006,15818,
9249,16594,15119,5650,10070,11453,4635,14250,7697,9975,6675,37118,
9887,3558,19346,27651,9638,12968,36907,3870,8103,7068,8217,22685,
28445,16061,26240,4946,8104,11071,2868,9512,9006,11313,22626,12969,
9223,79874,26689,5715,12944,23105,6530,40300,17078,15809,28940,18422,
31092,7241,41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,
26111,41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,
17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,86941,
23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))
184 CAPÍTULO 16. DATOS

Nodo Media sd Error MC 2.5 % Mediana 97.5 %


Medellı́n lambda1 53.17 7.25 0.12 39.98 52.86 68.15
Barbosa lambda2 7.11 2.68 0.03 2.84 6.79 13.16
Bello lambda3 3.11 1.74 0.02 0.71 2.78 7.33
Caldas lambda4 0.11 0.35 0.01 0.00 0.00 1.15
Copacabana lambda5 0.11 0.33 0.01 0.00 0.00 1.04
Envigado lambda6 9.14 3.08 0.04 4.11 8.80 16.23
Girardota lambda7 0.10 0.30 0.00 0.00 0.00 1.02
Itaguı́ lambda8 1.13 1.08 0.02 0.04 0.81 4.00
La Estrella lambda9 5.09 2.30 0.03 1.70 4.74 10.58
Sabaneta lambda10 0.11 0.33 0.01 0.00 0.00 1.07
Cáceres lambda11 19.19 4.37 0.07 11.84 18.85 28.94
Caucasia lambda12 30.14 5.42 0.07 20.16 29.87 41.34
El Bagre lambda13 15.04 3.82 0.05 8.62 14.75 23.31
Nechı́ lambda14 6.07 2.43 0.04 2.31 5.77 11.81
Tarazá lambda15 9.11 2.99 0.04 4.24 8.77 15.90
Zaragoza lambda16 12.09 3.49 0.05 6.28 11.78 19.73
Caracolı́ lambda17 6.13 2.46 0.04 2.36 5.79 11.78
Maceo lambda18 2.12 1.46 0.02 0.27 1.80 5.75
PuertoBerrio lambda19 18.17 4.26 0.06 10.94 17.87 27.45
PuertoNare lambda20 4.13 2.03 0.03 1.21 3.81 9.08
PuertoTriunf lambda21 4.10 2.01 0.03 1.09 3.77 8.86
Yondó lambda22 5.13 2.26 0.03 1.70 4.82 10.44
Amalfi lambda23 9.16 3.03 0.04 4.24 8.83 16.01
Anorı́ lambda24 6.12 2.46 0.03 2.32 5.84 11.80
Cisneros lambda25 5.10 2.22 0.03 1.76 4.78 10.32
Remedios lambda26 4.12 2.05 0.03 1.11 3.78 9.01
SanRoque lambda27 6.09 2.49 0.03 2.16 5.79 11.95
SantoDomingo lambda28 0.12 0.37 0.00 0.00 0.00 1.15
Segovia lambda29 4.12 2.01 0.03 1.15 3.79 8.70
Vegachı́ lambda30 10.06 3.18 0.04 4.76 9.71 17.13
Yalı́ lambda31 5.15 2.29 0.03 1.68 4.78 10.46
Yolombo lambda32 7.12 2.67 0.04 2.93 6.76 13.36
Angostura lambda33 0.11 0.33 0.00 0.00 0.00 0.98
Belmira lambda34 0.11 0.34 0.00 0.00 0.00 1.02
Briceño lambda35 0.11 0.35 0.00 0.00 0.00 1.01
Campamento lambda36 0.11 0.33 0.01 0.00 0.00 0.98
Carolina lambda37 0.11 0.33 0.01 0.00 0.00 1.01
Don Matias lambda38 0.11 0.36 0.00 0.00 0.00 1.02
Entrerı́os lambda39 0.11 0.32 0.00 0.00 0.00 1.02
GomezPlata lambda40 0.10 0.33 0.00 0.00 0.00 0.95
Guadalupe lambda41 1.09 1.01 0.01 0.04 0.81 3.69
Ituango lambda42 0.11 0.34 0.00 0.00 0.00 1.02
San Andrés lambda43 0.12 0.35 0.00 0.00 0.00 1.16
San José lambda44 0.10 0.30 0.00 0.00 0.00 0.94
San Pedro lambda45 0.10 0.31 0.00 0.00 0.00 1.01
Santa Rosa lambda46 1.12 1.06 0.01 0.04 0.80 3.98
16.2. MORDEDURAS 185

Nodo Media sd Error MC 2.5 % Mediana 97.5 %


Toledo lambda47 0.11 0.35 0.01 0.00 0.00 1.12
Valdivia lambda48 3.08 1.75 0.02 0.68 2.73 7.36
Yarumal lambda49 13.99 3.75 0.05 7.81 13.60 22.37
Abriaquı́ lambda50 0.10 0.31 0.00 0.00 0.00 0.95
Anzá lambda51 1.10 1.06 0.02 0.03 0.80 3.80
Armenia lambda52 1.11 1.07 0.02 0.04 0.81 4.04
Buriticá lambda53 0.11 0.33 0.01 0.00 0.00 1.03
CañasGordas lambda54 0.10 0.32 0.00 0.00 0.00 1.02
Dabeiba lambda55 4.10 2.00 0.03 1.17 3.76 8.77
Ebéjico lambda56 1.10 1.06 0.01 0.03 0.77 3.93
Frontino lambda57 4.15 2.05 0.03 1.16 3.80 9.13
Giraldo lambda58 1.06 1.03 0.01 0.04 0.77 3.83
Heliconia lambda59 1.09 1.05 0.02 0.03 0.78 3.90
Liborina lambda60 0.11 0.37 0.01 0.00 0.00 1.11
Olaya lambda61 0.11 0.32 0.00 0.00 0.00 1.02
Peque lambda62 0.10 0.31 0.00 0.00 0.00 0.95
Sabanalarga lambda63 0.11 0.31 0.00 0.00 0.00 1.04
SanJerónimo lambda64 0.11 0.33 0.00 0.00 0.00 1.06
SantaFé lambda65 1.10 1.05 0.01 0.04 0.80 3.98
Sopetrán lambda66 0.11 0.35 0.01 0.00 0.00 1.07
Uramita lambda67 0.11 0.32 0.00 0.00 0.00 1.08
Abejorral lambda68 4.11 2.02 0.03 1.14 3.76 8.88
Alejandrı́a lambda69 1.13 1.09 0.02 0.04 0.82 4.10
Argelia lambda70 0.11 0.33 0.00 0.00 0.00 1.04
Carmen lambda71 0.10 0.31 0.01 0.00 0.00 1.01
Cocorná lambda72 0.11 0.34 0.00 0.00 0.00 1.08
Concepción lambda73 1.09 1.05 0.01 0.04 0.76 3.91
El Peñol lambda74 0.11 0.33 0.00 0.00 0.00 1.05
El Retiro lambda75 0.11 0.32 0.00 0.00 0.00 1.03
El Santuario lambda76 0.10 0.33 0.00 0.00 0.00 1.01
Granada lambda77 0.10 0.30 0.00 0.00 0.00 0.97
Guarne lambda78 0.11 0.34 0.01 0.00 0.00 1.14
Guatapé lambda79 1.10 1.04 0.01 0.04 0.80 3.81
La Ceja lambda80 0.10 0.33 0.01 0.00 0.00 1.02
La Unión lambda81 1.10 1.05 0.02 0.04 0.77 3.88
Marinilla lambda82 1.10 1.02 0.01 0.04 0.80 3.74
Nariño lambda83 0.11 0.32 0.00 0.00 0.00 0.96
Rionegro lambda84 1.11 1.07 0.01 0.04 0.79 4.00
San Carlos lambda85 9.13 3.01 0.04 4.20 8.81 15.79
SanFrancisco lambda86 3.10 1.77 0.02 0.65 2.76 7.44
San Luis lambda87 6.09 2.44 0.03 2.23 5.78 11.65
San Rafael lambda88 8.13 2.79 0.04 3.53 7.82 14.29
San Vicente lambda89 0.10 0.30 0.00 0.00 0.00 0.96
Sonsón lambda90 3.14 1.75 0.03 0.69 2.81 7.42
186 CAPÍTULO 16. DATOS

Nodo Media sd Error MC 2.5 % Mediana 97.5 %


Amagá lambda91 1.11 1.05 0.01 0.04 0.81 3.95
Andes lambda92 20.10 4.50 0.06 12.26 19.73 29.91
Angelopolis lambda93 1.11 1.07 0.02 0.04 0.79 3.94
Betania lambda94 4.06 2.02 0.03 1.15 3.73 8.97
Betulia lambda95 1.12 1.08 0.02 0.04 0.79 4.02
Caicedo lambda96 0.11 0.33 0.00 0.00 0.00 1.08
Caramanta lambda97 1.10 1.02 0.01 0.04 0.79 3.81
CiudadBoliva lambda98 14.97 3.86 0.05 8.41 14.56 23.72
Concordia lambda99 9.08 3.02 0.04 4.15 8.71 15.90
Fredonia lambda100 3.15 1.80 0.02 0.70 2.83 7.59
Hispania lambda101 0.10 0.31 0.00 0.00 0.00 1.04
Jardı́n lambda102 1.11 1.05 0.02 0.04 0.80 3.90
Jericó lambda103 1.11 1.08 0.02 0.03 0.79 3.98
Montebello lambda104 1.11 1.05 0.01 0.04 0.80 3.91
Pueblorico lambda105 2.13 1.47 0.02 0.28 1.79 5.90
Salgar lambda106 1.12 1.06 0.01 0.04 0.80 3.98
Santabárbara lambda107 3.10 1.77 0.02 0.65 2.78 7.51
Támesis lambda108 3.09 1.75 0.02 0.67 2.76 7.37
Tarso lambda109 0.11 0.32 0.00 0.00 0.00 1.05
Titiribı́ lambda110 4.09 2.01 0.03 1.18 3.80 8.81
Urrao lambda111 2.12 1.47 0.02 0.28 1.80 5.89
Valparaiso lambda112 2.11 1.46 0.02 0.29 1.77 5.84
Venecia lambda113 0.10 0.31 0.00 0.00 0.00 0.99
Apartadó lambda114 92.02 9.54 0.14 74.17 91.59 112.00
Arboletes lambda115 9.13 3.02 0.04 4.20 8.80 15.87
Carepa lambda116 10.19 3.16 0.04 5.02 9.83 17.34
Chigorodó lambda117 23.11 4.82 0.07 14.81 22.72 33.81
Murindó lambda118 3.14 1.77 0.03 0.66 2.81 7.44
Mutatá lambda119 14.15 3.87 0.05 7.66 13.77 22.50
Necoclı́ lambda120 16.06 4.11 0.05 9.08 15.78 25.07
SanJuandeU lambda121 20.05 4.50 0.07 12.32 19.71 29.88
SanPedrodeU lambda122 21.17 4.58 0.07 13.15 20.82 31.20
Turbo lambda123 14.04 3.77 0.05 7.66 13.70 22.36
VigiadelFuer lambda124 12.16 3.48 0.04 6.25 11.88 19.79
16.2. MORDEDURAS 187

model
{
for (i in 1 : N) {
theta[i] ~ dgamma(alpha, beta)
lambda[i] <- theta[i] * Pobtotal[i]*(Altmar[i]/100)
Mordeduras[i] ~ dpois(lambda[i])
teta[i]<-theta[i]*100000
}
alpha ~ dexp(1)
beta ~ dgamma(0.1, 1.0)

node mean sd MC error 2.5% median 97.5% start sample


lambda[1] 53.03 7.241 0.09261 39.91 52.69 68.13 1 5000
lambda[2] 7.052 2.665 0.04464 2.849 6.716 13.28 1 5000
lambda[3] 3.094 1.777 0.02617 0.6535 2.741 7.383 1 5000
lambda[4] 0.07402 0.2759 0.004382 9.608E-24 6.094E-5 0.8044 1
5000
lambda[5] 0.08192 0.3079 0.0043 3.432E-21 7.282E-5 0.8738 1 5000
lambda[6] 9.107 2.994 0.04055 4.152 8.762 15.9 1 5000
lambda[7] 0.08353 0.2893 0.003992 1.857E-22 7.136E-5 0.8809 1
5000
lambda[8] 1.069 1.05 0.01658 0.02902 0.7583 3.936 1 5000
lambda[9] 5.074 2.234 0.0295 1.661 4.764 10.18 1 5000
lambda[10] 0.06699 0.2495 0.003299 1.771E-21 6.889E-5 0.7058 1
5000
lambda[11] 19.12 4.435 0.05866 11.25 18.83 28.52 1 5000
lambda[12] 30.19 5.598 0.08223 20.3 29.8 42.2 1 5000
lambda[13] 15.03 3.833 0.04774 8.426 14.77 23.49 1 5000
lambda[14] 6.075 2.495 0.0309 2.28 5.666 11.86 1 5000
lambda[15] 9.032 2.939 0.04386 4.197 8.692 15.64 1 5000
lambda[16] 12.09 3.512 0.05112 6.324 11.71 19.95 1 5000
lambda[17] 6.047 2.42 0.03264 2.271 5.705 11.71 1 5000
lambda[18] 2.068 1.454 0.018 0.2716 1.731 5.608 1 5000
lambda[19] 18.12 4.269 0.0568 10.69 17.73 27.32 1 5000
lambda[20] 4.093 2.045 0.03054 1.162 3.746 9.056 1 5000
lambda[21] 4.079 2.011 0.02591 1.137 3.762 8.733 1 5000
lambda[22] 5.097 2.304 0.03559 1.705 4.72 10.52 1 5000
lambda[23] 9.071 3.02 0.03732 4.103 8.78 15.88 1 5000
lambda[24] 6.08 2.435 0.04095 2.333 5.757 11.72 1 5000
lambda[25] 5.077 2.284 0.0332 1.642 4.773 10.38 1 5000
lambda[26] 4.077 2.017 0.02748 1.1 3.745 8.931 1 5000
188 CAPÍTULO 16. DATOS

lambda[27] 6.116 2.443 0.03142 2.336 5.791 11.73 1 5000


lambda[28] 0.0789 0.2883 0.004118 7.216E-22 8.602E-5 0.7831 1
5000
lambda[29] 4.117 2.041 0.02373 1.154 3.756 8.95 1 5000
lambda[30] 10.02 3.121 0.04378 4.844 9.675 16.96 1 5000
lambda[31] 5.145 2.321 0.03423 1.616 4.807 10.31 1 5000
lambda[32] 7.107 2.724 0.04073 2.818 6.753 13.34 1 5000
lambda[33] 0.07554 0.2875 0.004205 8.838E-22 6.443E-5 0.754 1
5000
lambda[34] 0.0789 0.2817 0.003871 8.547E-23 4.837E-5 0.8684 1
5000
lambda[35] 0.07877 0.2864 0.004999 2.178E-22 8.402E-5 0.8483 1
5000
lambda[36] 0.0758 0.2822 0.00392 1.811E-21 7.411E-5 0.7938 1 5000
lambda[37] 0.08195 0.2958 0.003544 7.509E-23 5.694E-5 0.8381 1
5000
lambda[38] 0.0784 0.2692 0.003774 5.428E-22 5.641E-5 0.874 1 5000
lambda[39] 0.08153 0.2897 0.004601 1.758E-22 7.56E-5 0.856 1 5000
lambda[40] 0.07734 0.2704 0.003584 7.124E-22 7.285E-5 0.8078 1
5000
lambda[41] 1.085 1.057 0.01576 0.03266 0.7706 3.914 1 5000
lambda[42] 0.07694 0.2726 0.003719 1.257E-22 5.391E-5 0.8538 1
5000
lambda[43] 0.07124 0.2622 0.003987 1.399E-21 6.008E-5 0.768 1
5000
lambda[44] 0.0782 0.2748 0.003923 2.125E-22 6.923E-5 0.8279 1
5000
lambda[45] 0.08277 0.3061 0.003693 2.017E-22 7.229E-5 0.8465 1
5000
lambda[46] 1.083 1.059 0.01376 0.03416 0.7698 3.913 1 5000
lambda[47] 0.08648 0.3097 0.004438 1.709E-21 9.223E-5 0.9128 1
5000
lambda[48] 3.058 1.759 0.02469 0.612 2.735 7.415 1 5000
lambda[49] 14.01 3.737 0.05099 7.678 13.63 22.24 1 5000
lambda[50] 0.08037 0.2856 0.004087 4.47E-22 7.323E-5 0.8229 1
5000
lambda[51] 1.095 1.029 0.0151 0.03307 0.7896 3.815 1 5000
lambda[52] 1.079 1.039 0.01499 0.03386 0.769 3.926 1 5000
lambda[53] 0.0762 0.2742 0.003709 4.095E-23 8.479E-5 0.8269 1
5000
lambda[54] 0.07597 0.2809 0.00423 3.3E-22 5.897E-5 0.799 1 5000
lambda[55] 4.129 2.077 0.0295 1.074 3.787 9.077 1 5000
lambda[56] 1.093 1.087 0.01427 0.03438 0.7534 4.058 1 5000
lambda[57] 4.114 1.987 0.02958 1.135 3.818 9.022 1 5000
lambda[58] 1.079 1.021 0.01519 0.03359 0.7803 3.775 1 5000
lambda[59] 1.064 1.018 0.01496 0.03462 0.758 3.899 1 5000
16.2. MORDEDURAS 189

lambda[60] 0.08235 0.3011 0.003619 3.601E-23 6.842E-5 0.8848 1


5000
lambda[61] 0.0775 0.2853 0.004069 1.487E-21 7.352E-5 0.7855 1
5000
lambda[62] 0.08216 0.2873 0.003806 5.827E-22 6.571E-5 0.9228 1
5000
lambda[63] 0.08205 0.2959 0.004378 4.16E-23 8.182E-5 0.8801 1
5000
lambda[64] 0.07201 0.2526 0.003375 1.901E-22 4.899E-5 0.7652 1
5000
lambda[65] 1.105 1.051 0.01229 0.03788 0.8012 3.822 1 5000
lambda[66] 0.07128 0.2464 0.003885 3.167E-21 7.952E-5 0.7239 1
5000
lambda[67] 0.0768 0.2689 0.003468 4.271E-22 6.449E-5 0.8381 1
5000
lambda[68] 4.085 2.028 0.03023 1.076 3.718 9.03 1 5000
lambda[69] 1.113 1.055 0.01753 0.0358 0.7935 3.947 1 5000
lambda[70] 0.0768 0.2712 0.004029 1.164E-22 7.004E-5 0.8518 1
5000
lambda[71] 0.07867 0.2861 0.003637 1.911E-22 6.057E-5 0.8364 1
5000
lambda[72] 0.07617 0.2941 0.004111 1.302E-23 6.724E-5 0.818 1
5000
lambda[73] 1.079 1.034 0.01453 0.03872 0.7678 3.835 1 5000
lambda[74] 0.07988 0.2934 0.004182 2.523E-22 6.411E-5 0.7765 1
5000
lambda[75] 0.07835 0.272 0.004159 1.38E-21 5.284E-5 0.8198 1 5000
lambda[76] 0.08152 0.2935 0.004115 7.421E-22 7.738E-5 0.8421 1
5000
lambda[77] 0.0806 0.2857 0.003497 1.009E-21 6.956E-5 0.895 1 5000
lambda[78] 0.07667 0.2949 0.004757 5.751E-22 7.048E-5 0.7752 1
5000
lambda[79] 1.08 1.016 0.0147 0.03593 0.7874 3.828 1 5000
lambda[80] 0.07716 0.2821 0.004974 2.373E-22 4.993E-5 0.8431 1
5000
lambda[81] 1.082 1.041 0.01501 0.03768 0.7619 3.866 1 5000
lambda[82] 1.068 1.025 0.01446 0.0322 0.7748 3.812 1 5000
lambda[83] 0.07511 0.2648 0.003769 5.871E-22 7.259E-5 0.7795 1
5000
lambda[84] 1.089 1.045 0.01522 0.03101 0.771 3.867 1 5000
lambda[85] 9.044 3.032 0.04301 4.149 8.708 15.72 1 5000
lambda[86] 3.049 1.721 0.0224 0.5996 2.763 7.175 1 5000
lambda[87] 6.098 2.486 0.03787 2.229 5.762 11.94 1 5000
lambda[88] 8.075 2.84 0.03865 3.608 7.744 14.52 1 5000
lambda[89] 0.08425 0.2936 0.00355 4.506E-22 7.203E-5 0.9182 1
5000
190 CAPÍTULO 16. DATOS

lambda[90] 3.06 1.73 0.02409 0.6606 2.75 7.187 1 5000


lambda[91] 1.053 1.012 0.01277 0.03698 0.7564 3.758 1 5000
lambda[92] 20.2 4.405 0.06343 12.64 19.9 29.65 1 5000
lambda[93] 1.077 1.067 0.01605 0.03322 0.7641 4.054 1 5000
lambda[94] 4.089 2.067 0.02901 1.143 3.755 9.122 1 5000
lambda[95] 1.065 1.047 0.0138 0.03252 0.759 3.794 1 5000
lambda[96] 0.07711 0.2641 0.004211 2.438E-22 7.472E-5 0.8265 1
5000
lambda[97] 1.048 0.9955 0.01642 0.03126 0.764 3.665 1 5000
lambda[98] 15.15 3.897 0.04886 8.598 14.83 23.71 1 5000
lambda[99] 9.091 3.035 0.03871 4.173 8.744 15.92 1 5000
lambda[100] 3.104 1.747 0.02434 0.674 2.766 7.297 1 5000
lambda[101] 0.07939 0.2735 0.003878 3.799E-22 6.593E-5 0.8455
1 5000
lambda[102] 1.082 1.042 0.01299 0.03363 0.7693 3.912 1 5000
lambda[103] 1.08 1.061 0.01311 0.03771 0.7678 3.807 1 5000
lambda[104] 1.081 1.033 0.01733 0.03428 0.7604 3.915 1 5000
lambda[105] 2.075 1.433 0.01971 0.2586 1.76 5.689 1 5000
lambda[106] 1.061 1.031 0.01384 0.03161 0.7486 3.79 1 5000
lambda[107] 3.081 1.748 0.02439 0.6572 2.761 7.348 1 5000
lambda[108] 3.076 1.729 0.02423 0.6516 2.773 7.313 1 5000
lambda[109] 0.08055 0.2973 0.004679 5.583E-21 5.813E-5 0.8773
1 5000
lambda[110] 4.094 2.042 0.02423 1.113 3.76 8.983 1 5000
lambda[111] 2.078 1.44 0.01807 0.2793 1.756 5.752 1 5000
lambda[112] 2.08 1.458 0.02329 0.2699 1.732 5.815 1 5000
lambda[113] 0.07155 0.2618 0.003964 8.995E-22 6.65E-5 0.7333 1
5000
lambda[114] 92.05 9.575 0.1342 74.13 91.85 111.5 1 5000
lambda[115] 9.089 3.056 0.04152 4.127 8.739 16.05 1 5000
lambda[116] 10.05 3.166 0.04356 4.968 9.713 17.17 1 5000
lambda[117] 23.06 4.823 0.07329 14.8 22.64 33.43 1 5000
lambda[118] 3.013 1.739 0.02421 0.6613 2.714 7.306 1 5000
lambda[119] 14.12 3.772 0.0579 7.755 13.78 22.47 1 5000
lambda[120] 15.99 4.049 0.05373 9.127 15.61 25.05 1 5000
lambda[121] 19.71 4.414 0.05738 12.01 19.46 29.11 1 5000
lambda[122] 21.11 4.552 0.07237 13.1 20.77 30.94 1 5000
lambda[123] 14.06 3.827 0.05345 7.607 13.76 22.55 1 5000
lambda[124] 12.08 3.453 0.05161 6.169 11.81 19.82 1 5000
Capı́tulo 17
Probabilidad Subjetiva:
Fundamentos

17.1. Verosimilitud Relativa


Consideremos un espacio muestral S asociado con con un σ-campo1 de eventos
A, y suponga que deseamos asignar una probabilidad a cada evento en A. Un
concepto fundamental es un evento es al menos tan posible de ocurrir como otro
evento.

Definición 17.1 Cuando dos eventos A y B son comparados podemos decir:

Que A sea más posible de ocurrir que B, denotado por A ≻ B.


Que A sea igualmente posible de ocurrir que B, denotado por A ∼ B.
Que A sea menos posible de ocurrir que B, denotado por A ≺ B.

Que A sea a lo más tan posible de ocurrir como B, denotado por A ∼ B.

Que A sea a lo menos tan posible de ocurrir como B, denotado por A ∼ B.

Ya que la probabilidad de un evento es una medida numérica de la verosimilitud


de que un evento ocurra, cualquier distribución de probabilidad P que se asigne
a los eventos en el σ-campo de eventos A debe tener la propiedad siguiente:

P (A) ≤ P (B) si y solo si A ∼ B. Una distribución P que tiene esta propiedad

se dice que concuerda con la relación ∼.
1 Un σ-campo, o σ-álgebra, es una clase no vacı́a de subconjuntos de S que es cerrada bajo

la formación de uniones contables y el complemento y además contiene el ∅

191
192 CAPÍTULO 17. PROBABILIDAD SUBJETIVA: FUNDAMENTOS

Supuesto 1 Para dos eventos cualesquiera A y B, exactamente una de las


siguientes relaciones debe cumplirse:

A ≻ B,
A ≺ B, ó
A ∼ B.
T
Supuesto 2 Si A1 , A2 , B1 y B2 son cuatro eventos tales que A1 A2 =
T ≺ S ≺ S
B1 B2 = ∅ y Ai ∼ Bi para i = 1, 2, entonces
S A1S A2 ∼ B1 B2 . Si en
adición, A1 ≻ B1 ó A2 ≻ B2 , entonces A1 A2 ≺ B1 B2 .
T T
Resultado 1 Suponga que A, B y D son eventos tales que A D=B D = ∅.
≺ S ≺ S
Entonces A ∼ B si y solo si A D ∼ B D.


Prueba: Suponga que A ∼ B. Entonces el resultado sigue del supuesto 2.
Contrariamente,
S S suponga que A ≻ B. Entonces, de nuevo por el supuesto 2,
A D ≺ B D.

≺ ≺
Teorema 17.1 Si A, B y D son eventos tales que A ∼ B y B ∼ D, entonces

A∼D
S S
Prueba: Es fácil ver que A B D se puede expresar como
 \ \ [ \ \ [ \ \ [ \ \ 
A B D A BC DC AC B DC AC BC D
S T T S T T S T T 
A B DC A BC D AC B D

Ya que A ∼ B, sigue del Resultado 1 que
 \ \ [ \ \ ≺ \ \ [ \ \ 
A BC DC A BC D ∼ AC B DC AC B D


Similarmente, ya que B ∼ D, sigue del Resultado 1 que
 \ \ [ \ \   \ \ [ \ \ 

A B DC AC B DC ∼ A B C D AC BC D .

Ya que los lados izquierdos de las dos últimas expresiones son disjuntas y los
lados derechos también son disjuntos, se sigue del supuesto 2 que
 \ \ [ \ \ [ \ \ [ \ \ 

A BC DC A BC D A B DC AC B DC ∼
 \ \ [ \ \ [ \ \ [ \ \ 
AC B DC AC B D A BC D AC BC D
17.2. EL EXPERIMENTO AUXILIAR 193

T T S C T C T 
Si el evento común A B C D A B D es eliminado de ambos
lados de esta relación, se sigue del resultado 1 que
 \ \ [ \ \   \ \ [ \ \ 

A BC DC A B DC ∼ AC B D AC BC D


De donde A ∼ D.

Del teorema anterior y del supuesto 1 vemos que la relación ∼ produce una
ordenación completa de los eventos en A.

Teorema 17.2 Si A1 , · · · , An son n eventos disjuntos y B1 , · · · , Bn también son


≺ Sn ≺
Sneventos disjuntos tales que Ai ∼ Bi , para i = 1, · · · , n, entonces Si=1
n
n
Ai ∼
Sni=1 Bi . Si en adición Ai ≺ Bi , para algún i = 1, · · · , n, entonces i=1 Ai ≺
i=1 Bi .

≺ ≻
Teorema 17.3 Para cualquier par de eventos A y B, A ∼ B si y solo si AC ∼
BC
≺ ≺
Supuesto 3 Si A es cualquier evento, entonces ∅ ∼ A. Además, ∅ ∼ S.

Teorema 17.4 Si A y B son eventos tales que A ⊂ B, entonces A ∼ B. En
≺ ≺
particular, si A es un evento cualquiera, entonces ∅ ∼ A ∼ S.

Supuesto 4 Si A1 ⊃ A2 ⊃ · · · es una sucesión decreciente de eventos y B es


≻ T∞ ≻
algún evento fijo tal que Ai ∼ B para i = 1, 2, · · ·, entonces i=1 Ai ∼ B

Teorema 17.5 Si A1 ⊂ A2 ⊂ · · · es una sucesión creciente de eventos y B es


≺ S∞ ≺
algún evento fijo tal que Ai ∼ B para i = 1, 2, · · ·, entonces i=1 Ai ∼ B

Teorema 17.6 Si A1 , A2 , · · · es una sucesión de eventos infinita y B1 , B2 , · · ·



es otra sucesión de eventos infinita tal que Ai ∼ B para i = 1, 2, · · ·, entonces
S∞ ≺ S∞
S∞i=1 Ai ∼ S i=1 Bi . Si en adición, Ai ≺ B para algún i = 1, 2, · · ·, entonces

i=1 Ai ≺ i=1 Bi .

17.2. El Experimento Auxiliar


Asumimos que existe una clase B de eventos que tienen las siguientes dos
propiedades:
a) Cada evento en la clase B tiene una probabilidad conocida, y
b) para cualquier número p (0 ≤ p ≤ 1), existe un evento B ∈ B cuya
probabilidad es p.
Si es estadı́stico está interesado en asignar una probabilidad a un evento A en
el cual está interesado, simplemente busca un evento B ∈ B tal que A ∼ B y le
asigna a A la misma probabilidad que a B.
194 CAPÍTULO 17. PROBABILIDAD SUBJETIVA: FUNDAMENTOS
Capı́tulo 18
Referencias

Albert, J. (1997) MATLAB as an Enviroment for Bayesian Compu-


tation. Dept. of Math. and Statistics. Bowling Green State Univer-
sity

Albert, J. y Chib, S, (1994) Bayesian Residual Analysis for Binary


Response Regression Models. Dept. of Math. and Statistics. Bowling
Green State University

Berger, J. O. (1999) Bayesian Analysis: A Look at Today and Thoughts


of Tomorrow. Technical Report, Duke University.

Berger, J. O., Liseo, B. y Wolpert, R. L. (1998) Integrated Likelihood


Methods for Eliminating Nuisance Parameters. Purdue Univ. Dept.
of Statistics Technical Report No. 96-7C Revised 1998.

Bracken, J. (1966) Percentage Points of the Beta Distribution for the


Use in Bayesian Analysis of Bernoulli Processes. Technometrics, Vol.
8, No. 4, pp. 687-694

Brooks, S. P., Catchpole, E. A. y Morgan, B. J. T. (199*) Bayesian


Animal Survival Estimation. School of Mathematics, University of
Bristol.

Casella, G. (1985) An Introduction to Empirical Bayes Data Anal-


ysis. The American Statistician, Vol. 39, No. 2, pp. 83-87

Casella, G. y George, E. I. (1992) Explaining the Gibbs Sampler.


The American Statistician, Vol. 46, No.3, pp. 167-174

Casella, G., Lavine, M. y Robert, C. P. (2001) Explaining the Perfect


Sampler. The American Statistician, Vol. 55, No.4, pp. 299-305

195
196 CAPÍTULO 18. REFERENCIAS

D’Agostini, G. (2000) Role and Meaning of Subjective Probabili-


ty: Some Comments on Common Misconceptions. XX International
Workshop on Bayesian Inference and Maximum Entropy Methods
in Science and Engineering, Gif sur Yvette, Francia.

Dawid, A. P. (2004) Probability, Causality and the Empirical World:


A Bayes-de Finetti-Popper-Borel Sythesis. Statistical Science, Vol.
19, No. 1, pp. 44-57

DeGroot, M. H. (1970) Optimal Statistical Decisions. McGraw Hill,


In.: New York

De Santis, F. y Spezzaferri, F. (1999) Methods for Default and robust


Bayesian Model Comparison: the Fractional Bayes Factor Approach.
International Statistical Review, Vol. 67, No. 3, pp. 267-286

Dellaportas, P. y Smith, A. F. M. (1993) Bayesian Inference for Gen-


eralized Linear and Proportional Hazards Models via Gibbs Sam-
pling. Applied Statistics, Vol. 42, No. 3, pp. 443-459

Dimakos, X. K. (2001) A Guide to Exact Simulation. International


Statistical Review, Vol. 69, No. 1, pp. 27-48

Draper, D. (2000) Bayesian Hierarchical Modeling. Tutorial 1: ISBA


2000, Crete.

DuMouchel, W. y Waternaux, C. (1995) Hierarchical Bayesian Lin-


ear Models Assessing the Effect of Extreme Cold Weather on Schizophrenic
Births. Bayesian Biostatistics (D. Berry y D. Stangl, Eds.) Marcel
Dekker: New York

Elfessi, A. y Reineke, D. M. (2001) A Bayesian Look at Classical


Estimation: The Exponential Distribution. Journal of Statistics Ed-
ucation, Vol. 9, No. 1

Green, P. (1998) Tutorial Lectures on Markov Chain Monte Carlo.


WRASS Tutorial and Workshop, Warwick.

Greenland, S. (2001) Putting Background Information About Rela-


tive Risks into Conjugate Prior Distributions. Biometrics, Vol. 57,
No. 3, pp. 663-670

Gupta, P. L., Gupta, R. C. y Tripathi, R. C. (1996) Analysis of Zero-


Adjusted Count Data. Computational Statistics & Data Analysis,
Vol. 23, pp. 207-218

Gustafson, P. y Walker, L. J. (200*) An Estension of the Dirichlet


Prior for the Analysis of Longitudinal Multinomial Data. Technical
Report, Dept. of Statistics, University of British Columbia
197

Harrel Jr., F. E. (1998) An Introduction to Bayesian Methods with


Clinical Applications. Dept. of Health Evaluation Sciences. School
of Medicine, University of Virginia, Charlottesville.

Harrel Jr., F. E. (2000) Practical Bayesian Data Analysis from a


Former Frequentist. Henry Stewart Conference Studies

Hoadley, B. (1970) A Bayesian Look at Inverse Linear Regression.


Journal of the American Statistical Association, Vol. 65, No. 329,
pp. 356-369

Horowitz, I. 81968) Introducción al Análisis Cuantitativo de los Ne-


gocios. Ediciones del Castillo: Madrid

Ishwaran, H. (1997) Applications of Hybrid Monte Carlo to Bayesian


Generalized Linear Models: Quasicomplete Separation and Neural
Networks. Dept. of Biostatistics and Epidemiology, The Cleveland
Clinic Foundation

Jackman, S. (199*) Bayesian Modelin in the Social Sciences: an In-


troduction to Markov-Chain Monte Carlo. Technical Report, Dept.
of Political Science, Stanford University.

Jaynes, E. T. (1996) Probability Theory: The Logic of Science. Edi-


ción fragmentaria.

Jefferys, W. H. y Berger, J. O. (1992) Ockham’s Razor and Bayesian


Analysis. American Scientist, Vol. 80, pp. 64-72

Joseph, L., du Berger, R. y Bélisle, P. (1999) Bayesian and Mixed


Bayesian/Likelihood Criteria for Sample Size Determination. Tech.
Report, Dept. of Epidemiology and Biostatistics, McGill University

Kass, R. E. y Wasserman, L. (1994) Formal Rules for Selecting Pri-


or Distributions: A Review and Annotated Bibliography. Reporte
Técnico. Carnegie Mellon University.

King, R. y Brooks, S. P. (2000) Prior Induction in Log-Linear Mod-


els for General Contingency Table Analysis. Statistical Laborato-
ry,CMS, University of Cambridge.

Koop, G. (1999) Review of: Bayesian Analysis, Computation and


Communication Software. Techinical Report, Dept. of Economics,
University of Edinburgh.

Loredo, T. (199*) Bayesian Inference: A Practical Primer.Dept. of


Astronomy,Cornell University

Martz, H. F. y Waller, R. A. (1982) Bayesian Reliability Analysis.


Wiley: New York
198 CAPÍTULO 18. REFERENCIAS

Miller, R. B. (1980) Bayesian Analysis of the Two-Parameter Gam-


ma Distribution. Technometrics, Vol. 22, No. 1, pp. 65-69

Miller, R. W. (1989) Parametric Empirical Bayes Tolerance Inter-


vals. Technometrics, Vol. 31, No. 4, pp. 449-459

Oakley, J. y O’Hagan, A. (2002) Uncertainty in Prior Elicitations.


Department of Probability and Statistics, University of Sheffield.

Raftery, A. E. (1994) Bayesian Model Selection in Social Research


(with Discussion by Andrew Gelman & Donald B. Rubin, and Robert
M. Hauser, and a Rejoinder). Technical Report, Dept. of Sociology,
Universityof Washington

Raftery, A. E. y Lewis, S. (1991) How Many Iterations in the Gibbs


Sampler? Technical Report, Dept. of Statistics, University of Wash-
ington

Raiffa, H. (1970). Decision Analysis: Introductory Lectures on Choice


Under Uncertainty. Addison-Wesley: Reading, Masschusetts

Ramoni, M. y Sebastiani, P. (1998) Bayesian Methods for Intelligent


Data Analysis. KMi Technical Report KMi-TR-67

Ritter, C. y Tanner, M. (1991) The Griddy Gibbs Sampler. Reporte


Técnico No. 878, Departament of Statistics, University of Wisconsin

Rossman, A. J., Short, T. H. y Parks, M. T. (1998) Bayes Esti-


mators for Continuous Uniform Distribution. Journal of Statistics
Education, Vol. 6, No. 3

Sahu, S. K. (2000) Bayesian Statistics. Lecture Notes, Faculty of


Mathematical Studies, University of Southhampton.

Smith, R. (1997) Predictive Inference, Rare Events and Hierarchical


Models. Technical Report, Dept. of. Statistics, University of North
Carolina, Chapel Hill

Smith, R. L. (1998) Bayesian and Frequentist Approaches to Para-


metric Predictive Inference. Bayesian Statistics, Vol. 6

Stangl, D. K. (2001) A Primer On Hierarchical Models. Stats, 32


Fall, pp. 3-9

Tebaldi, C. y West, M. (1998) Reconstruction of Contingency Tables


With Missing Data. ISDS, Duke University

Troendle, J. F. y Frank, J. (2001) Unbiased Confidence Intervals for


the Odds Ratio of Two Independent Binomial Samples with Appli-
cation to Case-Control Data. Biometrics, Vol. 57, No. 2, pp. 484-489
199

Varbanov, A. (1996) Bayesian Approach to Outlier Detection in Mul-


tivariate Normal Samples and Linear Models. Technical Report No.
614, School of Statistics, University of Minnesota
Winkler, R. L. (1967a) The Assessment of Prior Distributions in
Bayesian Analysis. Journal of the American Statistical Association,
Vol. 62, No. 319, pp. 776-800
Winkler, R. L. (1967b) The Quantification of Judgement: Some
Methodological Suggestions. Journal of the American Statistical As-
sociation, Vol. 62, No. 320, pp. 1105-1120
Yang, R. y Berger, J. O. (1998) A Catalog of Noninformative Priors.
Technical Report, Duke University.
Bromaghin, J.F. (1993) Sample Size Determination for Interval Es-
timation of Multinomial Probabilities. The American Statistician,
Vol. 47, No. 3, pp. 203-206
Johnson, N.L. y Kotz, S. (1969) Discrete Distributions. John Wiley
& Sons: New York
Jovanovic, B.D. y Levy, P.S. (1997) A Look at the Rule of Three.
The American Statistician. Vol. 51, No. 2, pp. 137-139
May, W.L. y Johnson, W.D. (2000) Constructing Two-Sided Simul-
taneous Confidence Intervals for Multinomial Proportions for Small
Counts in a Large Number of Cells. Journal of Statistical Software,
Vol. 5
Sison, C.P. y Glaz, J. (1995) Simultaneous Confidence Intervals and
sample Size Determination for Multinomial Proportions. Journal of
the American Statistical Association, Vol. 90, No. 429, pp. 366-369
Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol. 2.
Segunda edición. Springer-Verlag: New York
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approximate
Interval Estimators for the Binomial Parameter. The American Statis-
tician. Vol. 50, No. 1, pp. 63-68
Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the Ap-
proximation of the Binomial Distribution by the Normal Distribu-
tion. The American Statistician. Vol. 43, No. 1, pp. 23-24
Wardell, D.G. (1997) Small-Sample Interval Estimation of Bernoulli
and Poisson Parameters. The American Statistician. Vol. 51, No. 4,
pp. 321-325
Canavos, G. (1988).Probabilidad y Estadı́stica: Aplicaciones y Méto-
dos. McGraw Hill: Madrid
200 CAPÍTULO 18. REFERENCIAS

Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical Statis-


tics. Cuarta Edición. Collier MacMillan International:New York

Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol. 2.


Segunda edición. Springer-Verlag: New York

Larson, H.J. (1983). Introducción a la Teorı́a de Probabilidades e


Inferencia Estadı́stica. Editorial Limusa: México
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approximate
Interval Estimators for the Binomial Parameter. The American Statis-
tician. Vol. 50, No. 1, pp. 63-68

Meyer, P.L. (1986). Probabilidad y aplicaciones estadı́sticas. Segunda


Edición. Addison Wesley Iberoamericana: México.

Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to the


Theory of Statistics. Third Edition. McGraw-Hill Kogasakua, Ltd:
Tokyo.

Roussas, G.G. (1973). A First Course in Mathematical Statistics.


Addison-Wesley Publishing Company: Reading, Massachusetts

Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the Ap-


proximation of the Binomial Distribution by the Normal Distribu-
tion. The American Statistician. Vol. 43, No. 1, pp. 23-24

Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods. Sépti-


ma Edición. The Iowa State University Press:Ames

Walpole, R.E. y Myers, R.H. (1992). Probabilidad y Estadı́stica.


Cuarta Edición. MaGraw Hill: México

Wardell, D.G. (1997) Small-Sample Interval Estimation of Bernoulli


and Poisson Parameters. The American Statistician. Vol. 51, No. 4,
pp. 321-325

Wonnacott, T.H. y Wonnacott, R.J. (1979). Fundamentos de Es-


tadı́stica para Administración y Economı́a. Editorial Limusa: México