Está en la página 1de 114

Universidad Nacional de Rosario

Facultad de Ciencias Económicas y Estadística

Escuela de Estadística

Licenciatura en Estadística

Tesina

“Introducción a la
Inferencia Bayesiana”

Alumno: Diego Marfetán Molina

Directora: Mgs. Leticia Hachuel

Diciembre 2013
Indice

1. Introducción 111

2. Conceptos básicos de la Inferencia Bayesiana 114

2.1 Probabilidades a priori 116

2.1.1 Priors no informativas 117

2.1.2 Evaluar el peso de la prior 119

2.1.3 Priors impropias 110

2.1.4 Conjugación 110

2.2 Inferencia Bayesiana 113

2.2.1 Intervalos de confianza 114

2.2.2 El criterio de información Deviance 115

2.2.3 El Factor de Bayes 117

2.3 Métodos MCMC 121

2.3.1 Simulando la distribución a posteriori 121

2.3.2 El método de Monte Carlo 122

2.3.3 Cadenas de Markov 124

2.3.4 El muestreador de Metropolis-Hastings 126

2.3.5 El muestreador de Gibbs 130

2.4 Diagnósticos de convergencia de cadenas 131

2.4.1 Múltiples cadenas 132

2.4.2 Test de autocorrelación 133

2.4.3 Diagnóstico de Geweke 134

2.4.4 Diagnóstico BGR 135

2.4.5 Método de Raftery & Lewis 136

II
2.5 Ejemplo: simulación de una cadena de Markov 137

3. Paradigma Bayesiano Vs Paradigma Frecuentista 145

3.1 Principio de Verosimilitud 148

4. Aplicación 153

4.1 Descripción del conjunto de datos 154

4.2 Software 156

4.3 Modelo de Odds Proporcionales 159

4.2.1 Enfoque frecuentista 160

4.2.2 Enfoque bayesiano 162

4.2.3 Diagnósticos de convergencia 164

4.3 Modelos alternativos 171

4.3.1 Comparación de los modelos a través del DIC 174

4.4 Interpretación del modelo de Odds Proporcionales 175

4.4.1 Razones de odds 177

4.4.2 Comparación de hipótesis mediante el 179


5.4.2 Factor de Bayes

5. Consideraciones finales 181

6. Bibliografía 184

7. Anexo 188

7.1 Modelos Lineales Generalizados para respuestas 188


8.1 multicategóricas

7.1.1 Modelo de Regresión Logística Nominal 189

7.1.2 Modelo Logit Acumulativo 190

7.1.3 Modelo de Odds Proporcionales 191

III
7.1.4 Modelo de Categorías Adyacentes 192

7.2 Ajuste del Modelo de Odds Proporcionales 195

7.2.1 Funciones de densidad a posteriori 196

7.2.2 Evolución de las medias e IC del 95% 199

7.2.3 Función de autocorrelación 101

7.2.4 Diagnóstico BGR 104

7.3 Ajuste del Modelo Logit Acumulativo 107

7.4 Ajuste del Modelo de Categorías Adyacentes 108

7.5 Código de R para la cadena del Ejemplo 2.5 109

IV
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

1. Introducción

“An essay towards solving a problem in the doctrine of chances”


es el título del artículo original escrito por Thomas Bayes que, con el
paso de los años y luego de múltiples análisis e interpretaciones
(Stigler, 1982; Dale, 1999) desencadenaría en el nacimiento y
desarrollo de uno de los dos métodos de inferencia estadística más
importantes: el bayesiano. La obra fue publicada de manera póstuma
en 1763, luego de que el filósofo y amigo personal de Bayes, Richard
Price, la rescatara de entre sus papeles y enviara a la Royal Society
de Londres. Previamente a la entrega del tratado, Price agregó un
anexo e incluyó una introducción de su autoría, descartando la
redactada por el propio Bayes. Concretamente, el ensayo teoriza
acerca de cómo hallar la probabilidad de que una cierta proporción se
encuentre en un determinado intervalo, dado que se conoce el
número de sucesos y fracasos de un evento. En otras palabras, lo que
Bayes pretendía conocer era P (c < π < d / X) , siendo X el número de

éxitos obtenidos tras n repeticiones y π la probabilidad de éxito en


cada repetición. En su intento por resolver este problema, Bayes
siguió un razonamiento basado en analogías geométricas, tratando a
las probabilidades como áreas; si bien nunca llegó a enunciar
concretamente el teorema que lleva su nombre, sí puede decirse que
presentó un caso particular del mismo ligado a la distribución
binomial.
En 1774 el matemático francés Pierre-Simon Laplace publica en
su trabajo “Mémoire sur la probabilité des causes par les
événements” un principio que se aproxima a lo que hoy en día se
conoce como Regla o Teorema de Bayes. Aparentemente, Laplace
desconocía en ese momento la existencia del ensayo aparecido una
década antes y obtuvo sus resultados de forma independiente

1
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

(Stigler, 1986). Recurriendo a una notación actual, el principio


elaborado por Laplace afirma lo siguiente:
Supongamos que un evento B puede ocurrir como efecto de una
de m causas (A 1 , A 2 , K , A j , K , A m ) mutuamente excluyentes y

exhaustivas. Se considera que P (A j ) y P (B / A j ) , definidas

respectivamente como la probabilidad de que actúe cada una de las


causas y la probabilidad de que ocurra el suceso B por efecto de ellas,
son conocidas para j = 1, 2, K , m . Si se realiza un experimento y

ocurre B, la probabilidad de que éste haya sido causado por Aj viene


dada por:

P (A j ) ⋅ P (B / A j )
P (A j / B) = m
.
∑ P (A ) ⋅ P (B / A )
j =1
j j

En el postulado original, Laplace consideró implícitamente


probabilidades a priori idénticas para las m causas:
P (A 1 ) = P (A 2 ) = K = P (A m ) , con lo cual éstas se cancelan al realizar la

división.
La popularidad de las ideas derivadas de los trabajos de Bayes
y Laplace, agrupadas bajo el nombre de “Probabilidad Inversa”, tuvo
con el transcurrir de los años sus altos y bajos. En las décadas de
1920 y 1930 la aparición de autores como Ronald Fisher, Jerzy
Neyman, Egon Pearson y Abraham Wald revolucionaron la forma de
pensar y aplicar la estadística, inclinando la balanza a favor de las
escuelas frecuentista y fisheriana. Fue a partir de 1950 cuando, con
el renacimiento del bayesianismo (Fienberg, 2006), comenzaron a
utilizarse los adjetivos “clásico” y “bayesiano” para diferenciar ambos
paradigmas. La metodología frecuentista derivada de los trabajos de
Neyman y Pearson, aparecida un siglo después del surgimiento de la
Probabilidad Inversa, recibió paradójicamente el mote de clásica.

2
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

El objetivo principal de este trabajo consiste en presentar los


fundamentos básicos de la teoría bayesiana y aplicarlos a un conjunto
de datos, como así también en la resolución de diferentes ejemplos,
marcando sus ventajas y desventajas con respecto al paradigma de
inferencia clásico.
Como objetivo secundario se propone incentivar el interés en la
aplicación del método bayesiano entre la comunidad estadística local,
ya que al ser un tema escasamente desarrollado en los programas de
estudio universitarios de la región, son pocos los profesionales
estadísticos que adhieren a esta escuela.

La presente tesina se encuentra organizada de la siguiente


manera: en la Sección 2 se introducen los aspectos generales
relativos a las técnicas bayesianas de inferencia, haciendo especial
hincapié en los diferentes tipos de distribuciones a priori que pueden
ser utilizadas. Además, se presentan los métodos de estimación de
Monte Carlo vía Cadenas de Markov (MCMC), imprescindibles para la
aplicación del enfoque bayesiano en problemas complejos, junto con
diversas pruebas orientadas a chequear la convergencia de los
procesos estocásticos.
En las secciones 3 y 4 se comparan los paradigmas bayesiano y
clásico, resaltando las diferencias existentes entre ambos y evaluando
su rendimiento en el análisis de un conjunto de datos. También se
habla brevemente sobre el software libre disponible, hoy en día, para
implementar algoritmos de muestreo basados en técnicas MCMC y
que se encuentran orientados a la estimación de modelos bayesianos.
Por último, en la Sección 5 se presentan las consideraciones
finales que surgen de esta tesina.

3
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2. Conceptos básicos de la Inferencia Bayesiana

Si en lugar de causas y efectos se incorporan al Teorema de


Bayes parámetros y datos, se obtiene la siguiente expresión, base de
la inferencia bayesiana moderna:

P (y / θ) ⋅ P (θ)
P (θ / y) = ,
P (y)

siendo:

• θ: vector de parámetros (θ1 , θ2 , K , θm ) que puede incluir efectos

fijos o aleatorios, hiperparámetros, datos no observados y cualquier


otro valor desconocido.

• y: vector que contiene los datos observados, con función de


probabilidad P (y) , llamada también verosimilitud marginal.

• P (θ / y) : probabilidad a posteriori (posterior) de θ. Es el objeto de

mayor interés dentro del análisis bayesiano, ya que simboliza la


actualización del conocimiento sobre los parámetros luego de
examinar los datos.

• P (y / θ) : verosimilitud definida como la probabilidad condicional

de los datos dado el valor de los parámetros. De acuerdo al Principio


de Verosimilitud, se asume que contiene toda la información que es
posible extraer de la muestra.

• P (θ) : probabilidad a priori de los parámetros, conocida también

como prior. Cuantifica la información que se posee acerca de los


mismos en el momento previo a la recolección de datos.

4
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Al espacio paramétrico que contiene todos los posibles valores


del vector θ se lo llama Θ. Aplicando resultados básicos de Teoría de
Probabilidades, el denominador P (y) , denominado usualmente

“constante de normalización”, puede expresarse de la siguiente


manera:

 ∑ P (y / θ) ⋅ P (θ) si Θ es discreto
 Θ

P (y) = 

 ∫Θ P (y / θ) ⋅ P (θ) dθ si Θ es continuo

En el contexto de los análisis bayesianos, para realizar


inferencias simples generalmente basta con conocer el valor de la
relación P (θ / y) ∝ P (y / θ) ⋅ P (θ) , donde el signo ∝ significa

proporcional, aunque existen aplicaciones para las cuales es


necesario calcular explícitamente el valor de la constante de
normalización. Esta tarea puede ser dificultosa cuando los espacios
paramétricos son multidimensionales y las verosimilitudes poseen
expresiones complejas, aún para las computadoras actuales.

En resumen, el enfoque bayesiano trata al parámetro como una


variable aleatoria que tiene una distribución de probabilidad, basando
las inferencias en la distribución a posteriori del parámetro. Para
obtenerla, se debe elegir en primer lugar lo que se denomina
“probabilidad a priori”, concepto que se presenta a continuación.

5
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2.1 Probabilidades a priori

Una de las características más salientes del método Bayesiano


consiste en incorporar al análisis estadístico información extra,
obtenida por fuera del proceso de recolección de datos, que intenta
reflejar el estado actual de conocimiento acerca del tema en estudio.
Estas fuentes de información alternativa se traducen en distribuciones
de probabilidad a priori (priors) de los parámetros de interés que, una
vez combinadas con los datos de la muestra observada, definen
ciertas distribuciones de probabilidad a posteriori (posteriors). De
este modo, los parámetros ven caracterizado su comportamiento
probabilístico a través de una función de densidad de probabilidad,
construida como una amalgama entre los conocimientos previos y
nuevos.
El empleo de probabilidades a priori es aún hoy objeto de
debate dentro de la comunidad estadística, siendo su aparente
arbitrariedad la crítica esgrimida usualmente por aquellos que se
encuentran en la vereda opuesta a la filosofía de Bayes. Los
estadísticos bayesianos, en defensa de su escuela, argumentan que la
elección de una verosimilitud particular como modelo generador del
conjunto de datos (proceso presente en ambos paradigmas) es tan
arbitraria como la adopción de un modelo probabilístico a priori para
los parámetros.
Según la cantidad de información que introduzcan en el modelo,
las priors se clasifican en dos grandes grupos: informativas y no
informativas. Estas últimas no pretenden incorporar al estudio ningún
tipo de creencia previa. Se utilizan generalmente cuando la inferencia
bayesiana es elegida por sobre la clásica únicamente debido a su
poder de interpretación, o bien cuando los conocimientos actuales
relativos a la temática del modelo no se encuentran fuertemente
arraigados. En la literatura bayesiana se las conoce como priors
objetivas, chatas, vagas o difusas.

6
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Por otro lado, las priors informativas, también llamadas


subjetivas, están basadas en opiniones de expertos o resultados de
análisis anteriores. Es en estos casos cuando se objeta la ideología
bayesiana, ya que no se permite hablar libremente al conjunto de
datos. Cualquier inferencia se verá afectada, para bien o mal, por las
probabilidades a priori elegidas. Por lo general, las distribuciones a
priori informativas presentan una variabilidad mucho menor que las
no informativas. En este contexto es común emplear densidades a
priori truncadas a partir de cierto valor. Esto se debe a que, de
acuerdo al tipo de modelo ajustado o a la información previa que se
disponga, es posible conocer a grandes rasgos el comportamiento de
los parámetros de interés, restringiendo su campo de variación a
algún subconjunto Θ* ⊂ Θ .

2.1.1 Priors no informativas


Cuando los conocimientos a priori son escasos, es común
utilizar priors estándar que suministran poca o nula información
acerca del estudio en curso. Distribuciones de esta naturaleza no
favorecen, en principio, ningún valor del parámetro θ por sobre otros
(Berger, 1985).
El concepto de distribución a priori no informativa es, en el
sentido literal de la palabra, totalmente imposible. Cualquier densidad
que se utilice como prior suministrará, en mayor o menor medida,
algún tipo de información sobre los parámetros. La cualidad de ser
“informativa” o no, depende, en realidad, del grado de influencia que
ejerza p (θ) a la hora de definir las probabilidades a posteriori.

Un grupo de priors débiles y objetivas, con mínima influencia


sobre la distribución a posteriori, son las planteadas por Jeffreys
(1961). Se basan en la Información de Fisher y para el caso de θ
univariado resultan:

7
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 ∂ 2 log p (y / θ) 
p (θ) ∝ I (θ) = − Eθ  .
 ∂ θ2 

Cuando el vector θ es multidimensional este método introduce


dependencia entre los parámetros y el mismo Jeffreys desaconseja su
utilización. Una de las principales ventajas de esta familia de priors es
que son invariantes frente a reparametrizaciones. La propiedad de
invariancia implica que si a priori no sabemos nada acerca de un
parámetro θ, tampoco tendremos información acerca de una función
arbitraria del mismo.
Numerosas distribuciones que a primera vista parecen no
informativas violan esta importante propiedad (Syversveen, 1998).
Por ejemplo, la clásica prior uniforme en el intervalo (0,1) para una
proporción θ, representada por p (θ) = 1 ∀ θ , no corresponde a una

 θ 
prior uniforme para la función logit f (θ) = log   = ψ. La
1 − θ 
distribución a priori “implícita” para esta transformación,
∂ −1 eψ
g (ψ) = f (ψ) = , favorece ciertos valores de Ψ por sobre
∂ψ (1 + eψ )2

otros. En consecuencia, la distribución a posteriori de θ responderá a


la información brindada por la muestra, pero la distribución a
posteriori de ψ estará disimuladamente afectada por el tipo de prior
que se ha incorporado (Jordan, 2010).
Lo mismo ocurre con f (θ) = θ2 : si θ fuese la proporción de

veces en la que se obtiene cara al lanzar una moneda, emplear una


distribución a priori uniforme en (0,1) implica que no sabemos nada
acerca de la probabilidad de observar cara en el primer lanzamiento.
Sin embargo, aplicando un simple cambio de variables se concluye
que f (θ) = θ2 , la probabilidad de observar dos caras consecutivas, se

1 
distribuye según una Beta  , 1 ; esta densidad es claramente
2 

8
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

informativa (Lunn et al., 2012). En consecuencia, utilizar priors no


invariantes al realizar inferencias sobre funciones de parámetros
implica, en algunas ocasiones, incorporar información falsa al modelo.
Si bien el uso de priors uniformes se remonta a los trabajos de Bayes
y Laplace, el hecho de no ser invariantes ha despertado severas
críticas hacia su implementación.

2.1.2 Evaluar el peso de la prior


El proceso de obtención de una distribución a posteriori
consiste, técnicamente, en actualizar conocimientos previos mediante
la incorporación de la información ofrecida por los datos; el papel que
éstos jueguen en la actualización dependerá de su peso relativo con
respecto a la distribución a priori. Si contamos con un conjunto de
datos extenso y priors no informativas, los primeros serán más
influyentes a la hora de obtener probabilidades a posteriori, y la
importancia de las creencias previas será mínima. Si en cambio
combinamos datos de una pequeña muestra con priors fuertes,
obtenidas, por ejemplo, a partir de varios meta-análisis previos, estas
últimas predominarán en el cálculo de la distribución a posteriori
(Congdon, 2006).
Una manera simple, aunque poco rigurosa, de determinar la
influencia de las priors es comparar los estimadores máximo-
verosímiles (MV) con las medias a posteriori obtenidas tras considerar
priors débiles (Yang & Berger, 1997). Si éstas son verdaderamente
no informativas, es de esperar que ambos análisis arrojen resultados
similares (Zhu & Lu, 2004), ya que el método de máxima
verosimilitud no incorpora ningún tipo de opinión a priori.
Algunos autores (Dobson & Barnett, 2008; Lunn et al., 2012)
aconsejan publicar las conclusiones a las que se arribaría tras asumir
un variado rango de priors, en lugar de informar los resultados
obtenidos a partir de una única distribución a priori. Por ejemplo, en
estudios clínicos donde se evalúa un nuevo tratamiento, pueden

9
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

considerarse tres variantes: priors neutrales, optimistas o escépticas


acerca de la efectividad del tratamiento.

2.1.3 Priors impropias


Una distribución a priori p (θ) se llama impropia si verifica:

∫ p (θ) dθ = + ∞ ,
Θ

siendo Θ el espacio paramétrico. Es habitual que las distribuciones a


priori no informativas resulten impropias, ya que frecuentemente son
sólo funciones positivas incorporadas al Teorema de Bayes para
obtener resultados lo más objetivos posible (Irony & Singpurwalla,
1997). Una desventaja de considerar este tipo de priors es que
pueden conducir a distribuciones a posteriori P (θ / y) también

impropias, es decir, no integrables a uno. En situaciones como esta


ningún tipo de inferencia será válida, ya que la distribución a
posteriori, al violar la condición de cierre, no define estrictamente una
función de densidad.

2.1.4 Conjugación
Una distribución a priori se llama conjugada cuando, combinada
con cierta función de verosimilitud, otorga una distribución a
posteriori perteneciente a la misma familia que aquella utilizada a
priori. Esta característica resulta extremadamente útil en la práctica,
ya que realizar inferencias a partir de distribuciones a posteriori con
forma conocida simplifica en gran medida los cálculos e
interpretaciones a realizar. Además, es un excelente ejemplo de la
filosofía subyacente en el Teorema de Bayes: la distribución a
posteriori difiere de aquella a priori únicamente en el valor de los
parámetros, gracias a que éstos han sido actualizados utilizando los
datos observados. Esto permite apreciar fácilmente cómo influyen la

10
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

información a priori y la muestra en la concepción de la distribución a


posteriori.
De acuerdo a los valores que tomen sus parámetros, una
distribución a priori conjugada puede ser informativa o no. A
continuación se presenta un ejemplo de inferencia a partir de una
distribución a posteriori conjugada.

 Conjugación Gamma – Poisson


Supongamos que se propone un modelo Poisson(λ) para el
conjunto de datos Y = (y1 , y 2 , K , y n ) , resultando la verosimilitud:

∑ yj n

e− λ ⋅ λ
n yj
e − nλ ⋅ λj=1 ∑ yj
P (Y / λ) = ∏ = n
∝ e − nλ ⋅ λ j =1 .
y j!
j =1
∏y !
j =1
j

Además, se asume para λ una distribución a priori Gamma, con


parámetros de forma r y escala inversa µ:

1
P (λ) = µr ⋅ ⋅ λr − 1 ⋅ e − µλ ∝ λr − 1 ⋅ e − µλ .
Γ(r)

Bajo estas condiciones la distribución a posteriori resulta:

P (λ / Y) ∝ P (Y / λ) ⋅ P (λ) ∝
n n

∑ y j r −1 −µλ r −1 + ∑ y j
∝ e − nλ ⋅λj =1
⋅λ ⋅e =e − λ (µ + n)
⋅ λ j =1 .

La forma de esta densidad corresponde a una Gamma con


 n 
parámetros actualizados r +
 ∑y j , µ + n  . En consecuencia, las
 j =1 
distribuciones a priori y posteriori pertenecen a la misma familia, y se
dice que una densidad Gamma es conjugada con una verosimilitud
Poisson.

11
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Como estimación bayesiana del parámetro de interés λ es


posible considerar la esperanza a posteriori de la distribución Gamma
con parámetro de escala inversa. Recordando que la esperanza de
una variable aleatoria con distribución Gamma es la razón entre sus
parámetros de forma y escala inversa, se tiene:

n
r+ ∑y
j =1
j
r
λ̂ Bayes = E (λ / Y) = =κ⋅ + (1 − κ) ⋅ y , (2.1)
µ+n µ

µ
con κ = . Teniendo en cuenta que el estimador máximo-
µ+n
n

∑y
j =1
j

verosímil para el parámetro de un modelo Poisson es λ̂ MV = = y,


n
queda de manifiesto que E (λ / Y) , la esperanza a posteriori de λ, es

una combinación entre la esperanza a priori y la estimación MV (Hoff,


2009). Variando los valores de los parámetros de forma y escala es
posible apreciar el volumen de información introducido por la
distribución a priori elegida. Evidentemente, esta influencia se
achicará a medida que el tamaño muestral crezca, ya que de la
expresión de κ es posible concluir que lím κ = 0 , lo que implica
n→∞

lím λ̂ Bayes = y = λ̂ MV .
n→∞

Si no existe un acuerdo generalizado con respecto a los valores


que deben tomar los parámetros (µ,r) de la densidad Gamma, es
posible asignarles sus propias distribuciones a priori p (µ) ∧ p (r) . Estas

nuevas priors, llamadas “hiperpriors” o priors jerárquicas, posibilitan


que la distribución a priori original no sea tan específica, permitiendo
que sus propios parámetros tengan un campo de variación.

12
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2.2 Inferencia Bayesiana

La idea básica detrás de la inferencia bayesiana consiste en


renovar las creencias probabilísticas que se poseen en el momento
previo a la obtención de la muestra. Para llevar a cabo esta
actualización se combinan los conocimientos a priori con los datos
observados a lo largo del proceso de recolección, definiendo así
ciertas distribuciones a posteriori de los parámetros. Es en base a
estas distribuciones que se realizan inferencias cimentadas en la
filosofía bayesiana, las cuales no se verán afectadas por el tamaño de
la muestra. En efecto, el enfoque de Bayes no distingue entre
muestras grandes y chicas, como sí lo hace el frecuentista, ya que la
construcción de la densidad a posteriori no depende de ningún
supuesto de carácter asintótico acerca de la distribución de los datos
observados.
Una vez obtenida la distribución a posteriori, el método
bayesiano habilita un abanico de inferencias mucho más amplio en
comparación con el frecuentista. Para caracterizar a los parámetros
de interés o funciones arbitrarias de los mismos, es posible calcular
en base a sus distribuciones a posteriori diferentes estimadores de
localización (media, mediana, modo) y dispersión (desvío, cuantiles).
También son comunes los intervalos de confianza de la forma
P (θ ∈ C / y) para cualquier conjunto C, conocidos como Intervalos de

Credibilidad.
Los tradicionales valores P frecuentistas para un test de
hipótesis estadístico encuentran su análogo bayesiano en las
probabilidades bajo la densidad a posteriori. Por ejemplo, una
hipótesis nula del tipo H0 ) θ ≤ θ* puede examinarse calculando

simplemente la probabilidad a la izquierda de θ* determinada en la


distribución a posteriori.

13
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

En las siguientes secciones se enumeran algunos de los


métodos de inferencia bayesiana más populares, las cuales serán
luego utilizadas en el ejemplo de aplicación de la Sección 4.

2.2.1 Intervalos de confianza


La interpretación del concepto de intervalo de confianza (IC) es
radicalmente distinta según el paradigma estadístico que se adopte.
En la teoría frecuentista el objetivo principal es construir intervalos
con buena probabilidad de cobertura, suponiendo que existiesen
infinitos conjuntos de datos con la misma estructura que el
observado. Es por esto que los IC frecuentistas se analizan de
acuerdo al porcentaje de ocasiones en las cuales se espera que
cubran el verdadero valor del parámetro. Una interpretación más
natural, ligada a la probabilidad real de que un intervalo dado
contenga el parámetro en estudio, puede dilucidarse aplicando
métodos bayesianos.
Un intervalo de confianza bayesiano del (1 − α)% para un

parámetro θ se define como un conjunto C ⊂ Θ tal que:

P (C / y) = ∫ P (θ / y) dθ = 1 − α .
C

En consecuencia, una vez encontrado un conjunto C que


verifique la definición, se puede decir que P (θ ∈ C / y) = 1 − α . Si bien

en la práctica lo más común es reportar intervalos basados en los


cuantiles a posteriori qα ∧ q1 − α , técnicamente existen infinitos
2 2

conjuntos C que cumplen con las propiedades necesarias para ser un


intervalo bayesiano del (1 − α)% . Es por este motivo que de todos los

posibles IC, se utilizan aquellos con mayor probabilidad a posteriori


(Highest Posterior Density, HPD). Estos intervalos son los de menor
amplitud posible y verifican que todo punto en su interior posee una

14
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

densidad a posteriori mayor que la de cualquier otro punto que se


encuentre por fuera del intervalo.
En ocasiones las regiones HPD pueden estar conformadas por
varios intervalos disjuntos entre sí. Esto ocurre generalmente cuando
la densidad a posteriori es multimodal, o bien cuando los datos se
comportan de manera muy diferente a la sugerida por la información
a priori.

2.2.2 El criterio de información Deviance


El Criterio de Información Deviance (DIC) es un criterio de
comparación informal aplicable a modelos bayesianos propuesto por
Spiegelhalter et al. (2002). El DIC otorga una pauta que permite
elegir, entre varios modelos propuestos, aquel que brinde el mejor
ajuste y sea a su vez lo más parsimonioso posible. Para ello considera
tanto la bondad del ajuste, cuantificada por medio de la Deviance,
como la complejidad del modelo, estimada a través del número
efectivo de parámetros. Mientras menor sea el valor del DIC, mejor
será el modelo ajustado, tanto en el sentido de explicar
convenientemente los datos observados, como de minimizar la
incertidumbre acerca de un conjunto de datos generados de la misma
manera y con la misma estructura que los actuales. Para un vector de
parámetros θ y un conjunto de datos y se define:

DIC = D (θ) + 2 ⋅ pD , (2.2)

donde D (θ) = −2 ⋅ log L (y / θ) es la Deviance evaluada en θ , el vector

de medias a posteriori de los parámetros, aunque también es válido


utilizar las medianas a posteriori en lugar de las medias. El valor pD
corresponde al número efectivo de parámetros y puede interpretarse
como la cantidad de información necesaria para describir los datos.
Se lo estima de la siguiente manera:

15
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

p D = D (θ) − D (θ) , (2.3)

siendo D (θ) el promedio de las Deviance valorizadas en cada una de

las muestras que conforman la Cadena de Markov. A este promedio


se lo llama Posterior Mean Deviance y puede ser usado como una
medida de adecuación del ajuste. El valor de pD no será
necesariamente un número entero y bajo ciertas condiciones puede
llegar a ser negativo, tornando imposible su interpretación lógica
como medida de complejidad. Esto último ocurre generalmente
cuando los datos contradicen en gran medida a las priors y el ajuste
del modelo es malo, o bien cuando la media a posteriori de los
parámetros no es un buen estimador debido a la presencia de
marcadas asimetrías o multimodalidad en la distribución a posteriori.
Reemplazando (2.3) en (2.2) obtenemos una forma alternativa,
comúnmente utilizada, de expresar el criterio de información:

DIC = D (θ) + p D .

El DIC permite comparar modelos no anidados y que consideren


diversas priors y verosimilitudes, resultando útil para evaluar el
efecto de diferentes variables explicativas, funciones de enlace o
estructuras de covariancia. Cuando se ajustan modelos jerárquicos
complejos, en los cuales se encuentran presentes efectos aleatorios y
no está claramente definido el número real de parámetros, DIC posee
la ventaja de no requerir especificar esta cantidad ya que la estima
usando el pD. En la práctica, reglas informales para efectuar
comparaciones sugieren que si la diferencia entre el DIC de dos
modelos es menor a 3 ó 5 unidades ambos pueden ser considerados
igualmente buenos. En escenarios donde la información a priori es
débil, DIC será aproximadamente equivalente a otros criterios de
comparación de modelos, como el de Akaike.

16
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

A diferencia de la Posterior Mean Deviance, pD no es invariante


frente a reparametrizaciones, situación que ha provocado la aparición
de diversas alternativas. Una de las más populares es la propuesta
por Gelman et al. (2004), donde se utiliza un estimador invariante y
Var (D)
más robusto, definido como p V = siendo Var (D) la variancia a
2
posteriori de la Deviance. Al estar sujeto a errores de muestreo
introducidos por los métodos MCMC, el valor estimado del número
efectivo de parámetros, y por lo tanto el DIC mismo, pueden variar
ligeramente entre simulaciones diferentes. Estos problemas y otros
más importantes, como los que surgen a la hora de comparar
modelos enfocados en diferentes niveles de jerarquía (en el sentido
de incluir, o no, a los hiperparámetros para definir la verosimilitud),
han contribuido a la formación de una mirada crítica acerca de la
conveniencia y utilidad del Criterio de Información Deviance. Estas
desventajas son tratadas con mayor profundidad en las discusiones
de los artículos de Spiegelhalter et al. (2002) y Celeux et al. (2006).

2.2.3 El Factor de Bayes


Bajo el paradigma bayesiano, la elección entre dos hipótesis de
trabajo exige que se especifiquen probabilidades a priori respecto de
su posible ocurrencia, tal como sucede en el proceso de estimación
de parámetros. Estas probabilidades se actualizan luego de observar
los datos, aplicando convenientemente el Teorema de Bayes,
permitiendo calcular razones de probabilidades (odds) a posteriori
para comparar la evidencia a favor o en contra de cada una de las
hipótesis.
Supongamos que deseamos comparar dos hipótesis acerca de
un parámetro continuo θ ∈ Θ : H0 ) θ ∈ I0 vs H1 ) θ ∈ I1 , donde I0 e I1

son dos intervalos tales que I0 ∪ I1 = Θ . Luego de observar un

17
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

conjunto de datos y, el odds a posteriori para estas hipótesis se


calcula empleando la Regla de Bayes:

P (y / H j ) ⋅ P (H j )
P (H j / y) = para j = 0, 1 ⇒
P (y / H0 ) ⋅ P (H0 ) + P (y / H1 ) ⋅ P (H1 )

P (H0 / y) P (y / H0 ) P (H0 )
= ⋅ , siendo:
P (H1 / y) P (y / H1 ) P (H1 )

P (H0 / y)
• el odds a posteriori,
P (H1 / y)


P (y / H0 )
=
∫ P (y / θ , H ) ⋅ P (θ
0 0 0 / H0 ) dθ0
el Factor de Bayes, donde
P (y / H1 ) ∫ P (y / θ , H ) ⋅ P (θ
1 1 1 / H1 ) dθ1

θj es el parámetro propuesto por la hipótesis Hj, y

P (H0 )
• el odds a priori.
P (H1 )

Despejando en la ecuación anterior se puede apreciar que el


Factor de Bayes, comúnmente llamado B01 cuando la hipótesis
alternativa se encuentra en el denominador, es la razón entre los
odds a posteriori y a priori de H0):

P (H0 / y)
P (y / H0 ) P (H1 / y)
B 01 = = .
P (y / H1 ) P (H0 )
P (H1 )

Si ambas hipótesis son en principio igualmente probables, es

decir P (H0 ) = P (H1 ) = 1 , el Factor de Bayes puede interpretarse


2
directamente como el odds a posteriori de la hipótesis nula.
En general, puede decirse que esta herramienta cuantifica la
evidencia (suministrada tanto por los datos como por los

18
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

conocimientos a priori) en favor de una cierta hipótesis o modelo


estadístico. Para realizar comparaciones, Jeffreys (1961) propuso la
siguiente escala de valores:

Tabla 2.1 – Interpretación del Factor de Bayes según Jeffreys (1961)


Valor de B01 Evidencia a favor de H0
Menor a 1 Negativa (Evidencia a favor de H1)
Entre 1 y 3 Muy débil, apenas vale la pena mencionarla
Entre 3 y 10 Sustancial
Entre 10 y 30 Fuerte
Entre 30 y 100 Muy fuerte
Mayor a 100 Decisiva

También puede resultar útil considerar al Factor de Bayes en


términos de 2 ⋅ log e B10 , ya que bajo esa transformación su escala

coincidirá con la de las estadísticas Deviance y Razón de Verosimilitud


(Congdon, 2006).
La comparación de dos hipótesis realizada a través del Factor
de Bayes puede generalizarse para el caso de K modelos
(M0 , M1 , K , MK − 1 ) , los cuales pueden estar anidados o no, cada uno de

los cuales representa una cierta hipótesis (Kass & Raftery, 1995).
Tomando a M0 como el modelo de referencia contra el que se llevarán
a cabo las comparaciones, la probabilidad a posteriori del modelo Mk
viene dada por:

P (Mk )
Bk 0 ⋅
P (M0 )
P (Mk / y) = ,
K P (M j )
∑B
j=0
j0 ⋅
P (M0 )

donde cada Bj0 es el Factor de Bayes resultante de la comparación


P (M j )
entre el j-ésimo modelo y el de referencia ( B 00 = 1) . La razón
P (M0 )

representa el odds a priori del modelo (j) sobre M0.

19
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Los Factores de Bayes son preferibles cuando el conjunto de


modelos de interés puede especificarse totalmente de antemano,
siendo posible considerarlos como una alternativa al uso del Criterio
de Información Deviance (Spiegelhalter et al., 2002).
Entre las desventajas de considerar los Factores de Bayes al
comprobar hipótesis, se encuentran las dificultades que supone su
cálculo (incluso a través de métodos computacionales desarrollados
para aproximar integrales) y su sensibilidad a la elección de las
priors, ya que el efecto de éstas sobre los resultados a posteriori no
disminuye a medida que aumenta el tamaño de muestra (Kass &
Raftery, 1995).

20
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2.3 Métodos MCMC

El objetivo principal de un análisis bayesiano consiste en


obtener la distribución a posteriori de los parámetros de interés,
proceso que generalmente requiere el cálculo de integrales
complejas. Anteriormente, la imposibilidad de manejar integrales
multidimensionales limitaba la aplicación de métodos bayesianos a
problemas simples. Los recientes avances alcanzados en términos de
potencia computacional, sumado a la publicación de influyentes
artículos sobre algoritmos de muestreo (Gelfand & Smith, 1990) han
fomentado el empleo del análisis bayesiano. Hoy en día la antigua
tendencia se está revirtiendo, siendo los modelos más complejos
aquellos que se abordan desde una perspectiva bayesiana (Ntzoufras,
2009; Robert & Casella, 2011).
Un método numérico que permite calcular integrales complejas,
como las que frecuentemente afloran en el contexto de la inferencia
bayesiana, es el llamado “Monte Carlo vía Cadenas de Markov”
(MCMC por sus siglas en inglés), el cual combina la integración por
Monte Carlo con el muestreo basado en Cadenas de Markov.

2.3.1 Simulando la distribución a posteriori


El principal método de simulación empleado para aproximar
distribuciones a posteriori bayesianas es el de Monte Carlo vía
Cadenas de Markov. Entre todos los algoritmos de tipo MCMC, los
más destacables son el Muestreador de Metropolis-Hastings y un caso
particular del mismo, conocido como Muestreador de Gibbs.
Utilizando estas técnicas es posible generar un proceso estocástico tal
que su distribución estacionaria se aproxime a la distribución a
P (y / θ) ⋅ P (θ)
posteriori teórica P (θ / y) = , cuya forma explícita
∫Θ
P (y / θ) ⋅ P (θ) dθ

será generalmente desconocida y difícil de estimar. Si los métodos


MCMC son aplicados correctamente, es de esperar que la distribución

21
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

muestral de los valores simulados se asemeje a la distribución a


posteriori de interés.
El tramo inicial de la cadena de Markov se descarta a la hora de
realizar inferencias, ya que las observaciones incluidas en esta etapa
se encuentran generalmente alejadas de las regiones con mayor
probabilidad a posteriori y pueden conducir a conclusiones falsas. A
este período se lo conoce como fase de calentamiento o burn-in. Su
extensión depende, entre otras cosas, de los valores elegidos para
iniciar la cadena y de la parametrización del modelo propuesto.
Lamentablemente no existe ningún método certero, más allá de la
aproximación sugerida por el diagnóstico de Raftery & Lewis (Sección
2.4.5), que indique por cuánto tiempo se debe correr una cadena de
Markov hasta que cada iteración del proceso alcance la distribución
estacionaria, quedando a criterio del estadístico la elección del
número de pasos a descartar. Un método informal comúnmente
utilizado para determinar el burn-in consiste en analizar visualmente
el gráfico de los valores muestreados θ( j) a lo largo de las N
iteraciones, para j = 1, 2,..., N .

2.3.2 El método de Monte Carlo


Las técnicas de Monte Carlo emplean números aleatorios para
aproximar integrales complejas, generalmente multidimensionales.
Supongamos que se desea estimar el siguiente valor:

∫ g (x) dx = Ω .
0

Se define una variable aleatoria Y con distribución uniforme en


el intervalo (0,1): Y ~ U (0,1) → f (y) = 1 ∀ 0 < y < 1 . Obsérvese que:

1 1
E [g (y)] = ∫ g (y) ⋅ f (y) dy = ∫ g (y) dy = Ω .
0 0

22
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Por lo tanto, si se cuenta con una muestra de N variables


aleatorias e independientes (y1 , y 2 , K , y N ) distribuidas según una

Uniforme(0,1), la Ley de los Grandes Números asegura que:

∑ g (y )
j =1
j

lím → E [g (y)] = Ω .
N→ ∞ N

En consecuencia, para estimar la integral Ω basta con generar


una gran cantidad de números aleatorios de una distribución
Uniforme, aplicarles la función g y luego promediar los resultados
obtenidos (Ross, 1999). Realizando un simple cambio de variable es
posible generalizar el método de Monte Carlo a integrales con campos
de variación diferentes a (0,1).
Comúnmente la integral que se desea evaluar no posee una
estructura simple, sino que es múltiple:

Ω= ∫∫ K ∫ g (x 1 , x 2 , K , x n ) dx 1 dx 2 K dx n .

En estos casos deben simularse varios vectores n-


dimensionales de variables aleatorias U (0, 1) . Siguiendo un

razonamiento análogo al realizado en el caso univariado, para N → ∞


una buena aproximación de Ω vendrá dada por:

∑ g (y
j =1
j
1 , y 2j , K , y nj )
Ω̂ = .
N

Cuando los valores (y1j , y 2j , K , y nj ) empleados en la construcción

de Ω̂ fueron generados por un proceso de Markov, el método de


estimación es conocido en forma conjunta como Monte Carlo vía
Cadenas de Markov. En la inferencia bayesiana, estas aproximaciones
serán aceptables siempre que la cadena posea como distribución

23
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

estacionaria a la función a posteriori P (θ / y) definida por el modelo.

El hecho de que las variables generadas por una cadena de Markov


sean estadísticamente dependientes no afecta la credibilidad de las
estimaciones.

2.3.3 Cadenas de Markov


Una cadena de Markov es un proceso estocástico {θ0 , θ1 , θ2 , K}

cuyo estado futuro depende únicamente de su estado actual, siendo


independiente del pasado. Esta propiedad se formaliza a través de la
siguiente expresión:

P (θ(t ) = j / θ(t − 1) , θ(t − 2) , K , θ(0) ) = P (θ(t ) = j / θ(t − 1) ) ∀ t ≥ 1.

Si la familia de variables aleatorias {θ t : t ∈ T} se encuentra

indexada en el conjunto T = {0, 1, 2, K} , tal como ocurre en el marco

de la estadística bayesiana, se dice que el proceso es de tiempo


discreto.
Las cadenas de Markov juegan un rol fundamental a la hora de
obtener estimaciones, dado que suministran un método para la
extracción de muestras de funciones de densidad, cualquiera sea su
complejidad. Si la cadena converge correctamente, a partir de las
muestras obtenidas es posible construir una imagen de la distribución
a posteriori correspondiente a cada parámetro de interés.
Para estudiar la convergencia de un proceso de Markov es
necesario definir en primer lugar sus probabilidades de transición
pij = P (θ(t + 1) = j / θ(t ) = i) , las cuales no dependen del valor de t

cuando se trabaja con cadenas homogéneas. La distribución de las


variables aleatorias {θ t : t ∈ T} convergerá a una cierta distribución

estacionaria si se satisfacen las siguientes tres condiciones (Grimmett


& Stirzaker, 2001):

24
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

• La cadena deberá ser irreducible; esto implica que para todo par
de valores (i,j) deberá existir un número t≥0 tal que
pij (t) = P (θ(n + t ) = j / θ(n) = i) > 0 . Esta propiedad asegura que la cadena

es capaz de visitar cualquier punto del espacio de muestreo, ya que


posee una probabilidad no nula de tomar el valor j habiendo partido
de i, y viceversa.

• Además de ser irreducible, la cadena deberá ser aperiódica. Se


dice que una cadena irreducible es aperiódica cuando el máximo
común divisor del conjunto de valores t para los cuales es posible
retornar al punto de partida resulta igual a la unidad, es decir,
cuando MCD {t / pii (t) > 0} = 1 . Las cadenas que no son aperiódicas

oscilan regular y estacionalmente entre un conjunto de valores.

• Por último, la cadena debe ser recurrente positiva. Esto implica


que si en un momento dado se alcanzó el valor j, corriendo la cadena
el tiempo extra que sea necesario queda asegurado un eventual
retorno hacia j. Matemáticamente, P (θ(t ) = j / θ(0) = j) = 1 para algún

t ≥ 1 . Definiendo δjj como el tiempo correspondiente al primer


retorno hacia el estado j: δ jj = mín {t /(θ(t ) = j | θ(0) = j)} , esta

propiedad equivale a asegurar que E (δ jj ) < ∞ para todo j.

Cuando se utilizan técnicas MCMC, la clave consiste en asegurar


que la distribución estacionaria a la cual converge el proceso, es
efectivamente la distribución a posteriori de interés. Se llama
distribución estacionaria de la cadena a un cierto vector
V = (v1 , v 2 , K , v j , K) si para cada v j ∈ V se verifica:

vj = ∑v
i
i ⋅ pij (t) ∀ t ≥ 0,

25
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

siendo además ∑v
j
j = 1 . Para cualquier cadena que cumpla con las

tres condiciones presentadas anteriormente, queda asegurada la


existencia y unicidad de la distribución estacionaria V. En estos casos
el proceso se olvidará gradualmente de su estado inicial y convergerá
hacia una única distribución. Una vez que se obtenga una muestra de
la distribución estacionaria, es posible asegurar que todas las
variables θt simuladas de allí en más serán a su vez muestras de V.
Dos importantes consecuencias que surgen son:

• lím pij (t) = v j ∀ (i, j) ;


t→∞

∑ f (θ
t =1
(t )
)
• lím = E V [f (θ)] .
N→ ∞ N

El primer punto asevera que corriendo la cadena por un tiempo


suficientemente largo, la probabilidad de visitar cualquier valor j ∈ J

coincidirá con la densidad de probabilidad asociada al intervalo J


definida por la distribución estacionaria. Además, la esperanza bajo V
de cualquier función de θ puede aproximarse satisfactoriamente a
través del llamado “promedio ergódico”.
Los algoritmos presentados a continuación, como el de
Metropolis o cualquiera de sus derivados, ayudan a construir una
cadena de Markov con distribución estacionaria igual a la distribución
a posteriori P (θ / y) de interés.

2.3.4 El muestreador de Metropolis-Hastings


El primer algoritmo de tipo MCMC fue propuesto por Metropolis
et al. durante 1953, en el marco de un estudio sobre sistemas
moleculares. En aquel momento los investigadores corrieron entre 48
y 64 iteraciones para diferentes escenarios, habiendo descartado

26
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

previamente los primeros 16 pasos, correspondientes al período de


burn-in. Llevada a cabo en la computadora MANIAC I (ubicada en el
Laboratorio de Los Alamos, Estados Unidos), esta pequeña simulación
requirió un tiempo de procesamiento cercano a las cinco horas. El
algoritmo original fue luego generalizado por Hastings (1970), dando
lugar al llamado Muestreador de Metropolis-Hastings (MH).
En el j-ésimo paso de la cadena, el esquema de actualización
implementado por el algoritmo de MH consiste en proponer un nuevo
valor θ* a través de cierta función Q (θ* / θ( j) ) denominada “densidad

propuesta”. El nuevo estado de la cadena θ( j + 1) será igual a θ*


siempre y cuando este valor supere el criterio de aprobación; caso
contrario θ( j + 1) = θ( j) y una nueva propuesta debe generarse para que
el proceso continúe su camino.
El criterio para admitir o rechazar un valor propuesto se basa
en una probabilidad de aceptación, definida como:

 P (θ* / y) Q (θ( j) / θ* ) 
ς = mín 1, ( j)
⋅ * ( j) 
.
 P (θ / y) Q (θ / θ ) 

Eligiendo u aleatoriamente de una distribución Uniforme(0,1) la


regla para seleccionar el próximo estado de la cadena es:

( j + 1)
θ* si u < ς
θ =  ( j)
θ en otro caso

Si Q es simétrica se tiene que Q (θ( j) / θ* ) = Q (θ* / θ( j) ) y la

 P (θ* / y) 
probabilidad de aceptación se convierte en ς = mín 1, ( j)  . De
 P (θ / y) 
esto se deduce que cualquier propuesta es aceptada si
P (θ* / y) > P (θ( j) / y) , ya que en este caso ς = 1 y en consecuencia:

P (θ( j + 1) = θ* ) = P (u < ς) = P (u < 1) = 1 .

27
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Intuitivamente, esto implica que cualquier punto θ* se agrega a


la cadena si es más probable de ser observado que su antecesor. Por
otro lado, si se verifica P (θ* / y) < P (θ( j) / y) se tiene que 0 < ς < 1 ,

resultando:

P (θ( j + 1) = θ* ) = P (u < ς) = ς .

En este caso la inclusión o no de θ* queda en manos del azar,


P (θ* / y)
con probabilidad de aceptación igual a ς = . Debido a que el
P (θ( j) / y)

rechazo depende de valores aleatorios a través de u, es posible


obtener dos cadenas diferentes a partir de una misma propuesta.
El algoritmo original de Metropolis abordaba únicamente las
situaciones en que Q era simétrica; el aporte de Hastings consistió en
generalizar la técnica para que sea posible definir una propuesta de
cualquier tipo. Hoy en día se seleccionan generalmente distribuciones
normales o uniformes centradas en θ( j) , el valor actual de la cadena.
Si bien la única restricción sobre Q consiste en que el proceso
resultante debe converger hacia la distribución estacionaria de
interés, el sentido común indica que debe elegirse de manera tal que
sea relativamente fácil generar muestras a partir de su densidad. Si
de acuerdo a las características del algoritmo utilizado existe un
porcentaje de aceptación recomendado, la distribución de Q puede
ajustarse durante el período de burn-in para alcanzar la proporción
deseada.
Las probabilidades de transición definidas por un algoritmo de
tipo MH pueden calcularse, al menos teóricamente, utilizando
integrales simples. Dado que la cadena se encuentra en el estado
θ( j) , la probabilidad de moverse hacia algún punto θ( j + 1) perteneciente
a cierto conjunto T es:

p (θ( j) , T) = p (θ( j + 1) ∈ T / θ( j) ) =

28
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 
= ∫T ς ⋅ Q (θ ( j + 1)
/ θ ( j)
) dθ ( j + 1)
+ I (θ ( j)
∈ T ) ⋅  1 − ∫ ς ⋅ Q (θ ( j + 1)
/ θ ( j)
) d θ ( j + 1)
.
 
 T 

Como se ve, la probabilidad de pasar de un estado θ( j) a otro


θ( j + 1) ∈ T equivale a la integral en T del producto entre:

• La probabilidad de proponer el punto θ( j + 1) a través de Q,


Q (θ( j + 1) / θ( j) ) , y

 P (θ( j + 1) / y) Q (θ( j) / θ( j + 1) ) 
• La probabilidad ς = mín 1, ( j)
⋅ ( j + 1) ( j) 
de aceptar
 P (θ / y ) Q (θ / θ ) 
ese valor propuesto.

Cuando también el punto de partida θ( j) ∈ T , debe considerarse


además la posibilidad de rechazar el valor propuesto, ya que en este
caso θ( j + 1) = θ( j) se encuentra asimismo dentro de T. Esta probabilidad
de rechazo se incluye en el segundo sumando, condicionada a la
pertenencia de θ( j) al conjunto T. En este contexto, la función
indicadora I toma el valor 1 cuando θ( j) ∈ T y vale 0 en otro caso.
Analizando detenidamente las probabilidades de transición
p (θ( j) , T ) se observa que las distribuciones a posteriori P (θ / y)

 P (θ( j + 1) / y) Q (θ( j) / θ( j + 1) ) 
influyen únicamente sobre ς = mín 1, ⋅  . Al
 P (θ( j) / y) Q (θ( j + 1) / θ( j) ) 

efectuar la primer división se obtiene:

P (y / θ( j + 1) ) ⋅ P (θ( j + 1) )
P (θ( j + 1) / y) P (y) P (y / θ( j + 1) ) ⋅ P (θ( j + 1) )
= = .
P (θ( j) / y) P (y / θ( j) ) ⋅ P (θ( j) ) P (y / θ( j) ) ⋅ P (θ( j) )
P (y)

En consecuencia, no es necesario conocer el valor de la


constante de normalización P (y) , ya que ésta se cancela al figurar

29
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

como denominador de ambas expresiones. Este resultado demuestra


que el algoritmo de Metropolis-Hastings es capaz de construir un
proceso de Markov con distribución estacionaria igual a la función a
posteriori de interés, aún cuando su expresión exacta sea
desconocida.

2.3.5 El muestreador de Gibbs


Este algoritmo, popularizado por Geman & Geman (1984) es un
caso especial del muestreador de Metropolis-Hastings, consistente en
dividir el vector de parámetros en k componentes: Θ = (θ1 , θ2 , K , θk ) .

Los diferentes bloques se actualizan uno por vez, bajo el siguiente


esquema de muestreo:

θ1( j) ~ Q (θ1 / θ(2j − 1) , θ(3j − 1) , K , θ(kj − 1) )


 ( j)
θ2 ~ Q (θ2 / θ1( j) , θ(3j − 1) , K , θ(kj − 1) )
M

 ( j)
θi ~ Q (θi / θ1( j) , θ(2j) , K , θ(i −j)1 , θ(i +j 1− 1) , θ(i +j −21) , K , θ(kj − 1) )
M

θ(kj) ~ Q (θk / θ1( j) , θ(2j) , K , θ(kj−) 1 )

Como se observa, la densidad Q propuesta por el muestreador


de Gibbs es la distribución condicional de θi (i = 1, 2, K , k) dado el

valor de todos las variables restantes. Considerando esta forma de


definir Q, puede demostrarse que la probabilidad de aceptación ς
resulta siempre igual a la unidad. En este resultado radica una de las
principales diferencias entre el algoritmo de MH y el de Gibbs:
mientras que el primero puede permanecer (o no) en la misma
posición, el segundo toma invariablemente un nuevo paso en cada
iteración.

30
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2.4 Diagnósticos de convergencia de cadenas

Una de las etapas más importantes del análisis bayesiano


consiste en evaluar la convergencia de las diversas cadenas de
Markov iniciadas. Si los procesos estocásticos no han alcanzado su
distribución estacionaria, el conjunto de muestras obtenidas no
conformará una buena aproximación a la distribución a posteriori de
interés, tornando inválida cualquier tipo de conclusión obtenida a
partir de ella. Dos de las soluciones más comunes aplicadas para
solucionar este tipo de inconvenientes consisten en reparametrizar el
modelo ajustado y centrar las covariables incluidas en el mismo
(Spiegelhalter et al., 2007).
Detectar problemas de convergencia a simple vista no es
siempre una tarea fácil. Debido a esto, en la literatura bayesiana
pueden encontrarse numerosas técnicas que ayudan a diagnosticar el
estado final de una cadena. Cada uno de estos métodos está
diseñado para analizar aspectos específicos de un proceso de Markov,
con lo cual no existe un único diagnóstico que abarque o detecte
todos los problemas posibles.
Hoff (2009) asegura que una cadena de Markov iniciada en una
región del espacio paramétrico con probabilidad elevada no
presentará, en general, problemas relacionados con la convergencia.
Si bien la convergencia de un proceso estocástico de este tipo no
puede asegurarse por completo, sí es posible afirmar con mayor
seguridad cuándo una cadena no alcanzó la distribución estacionaria.
A continuación se presentan los métodos utilizados con mayor
frecuencia a la hora de chequear la convergencia de un proceso de
Markov, entre los cuales se encuentran algunos diagnósticos simples,
basados en la observación de gráficos, y otros más formales que
involucran la realización de tests de hipótesis.

31
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2.4.1 Múltiples cadenas


Uno de los métodos más extendidos para chequear la
convergencia consiste en simular varias cadenas de Markov
independientes, asignando a cada una de ellas valores iniciales muy
diferentes entre sí (Gilks et al., 1996). Si todas son convergentes, es
de esperar que al graficarlas sobre el mismo eje las cadenas se
superpongan, siendo imposible distinguir un proceso de otro una vez
superado el período de burn-in. En estos casos es posible unir todas
las muestras en una sola cadena de gran longitud, reduciendo el error
de Monte Carlo y mejorando la calidad de las estimaciones.
Iniciar más de una cadena resulta ventajoso, además, para
chequear si existen áreas de la distribución a posteriori que no han
sido exploradas (Brooks, 1998). En efecto, es posible obtener
cadenas en apariencia convergentes que han muestreado únicamente
una pequeña porción de la densidad de interés. Corriendo múltiples
procesos es probable detectar este tipo de problemas, que se dan
generalmente cuando el camino hacia la distribución estacionaria
(mixing) es lento. Analizando una única cadena es imposible, en
general, advertir fallas de esta naturaleza en la convergencia.
Dos desventajas de la estrategia basada en múltiples cadenas
son el aumento del tiempo requerido para completar las simulaciones
y la dificultad para encontrar valores iniciales suficientemente
dispersos cuando el espacio paramétrico o el modelo ajustado son
complejos.
Existen técnicas más formales, que no se basan solamente en
la inspección visual, orientadas a analizar la convergencia de más de
una cadena de Markov. Estos procedimientos se tratan con mayor
detalle en la Sección 2.4.4, dedicada al diagnóstico de Brooks,
Gelman y Rubin (Gelman & Rubin, 1992; Brooks & Gelman, 1998).

32
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2.4.2 Test de autocorrelación


Dada una cadena (θ(1) , θ(2) , K , θ(n) ) obtenida mediante un

proceso de Markov, la función de autocorrelación muestral para el k-


ésimo rezago se define como:

n−k
1
⋅ ∑ (θ( j) − θ) ⋅ (θ( j + k ) − θ)
n − k j =1
ρ̂k = .
1 n
⋅ ∑ (θ − θ)
( j) 2

n j =1

El valor ρ̂k puede interpretarse como una estimación de la

correlación entre elementos separados por k iteraciones.


La presencia de correlaciones altas entre los valores de una
cadena es uno de los inconvenientes más comunes que pueden
presentarse en el marco de la estimación bayesiana. Cuando un
cierto parámetro θ permanece atascado en la misma región de la
densidad durante un largo número de iteraciones, la autocorrelación
de las muestras obtenidas se eleva, haciendo más ineficiente a la
cadena y retrasando la convergencia (Best et al., 1996).
Debido a que toda cadena de Markov genera observaciones
correlacionadas entre sí, en la práctica suele aceptarse que los
valores muestreados posean un cierto nivel de autocorrelación,
siempre que este sea menor en valor absoluto a 0,5. Sin embargo,
cuando ρ̂k resulta muy elevado para algún rezago k, es

recomendable reparametrizar el modelo o aplicar un proceso de poda


(thinning). Esta técnica consiste en guardar únicamente los valores
muestreados cada j iteraciones, descartando los restantes. Por
ejemplo, si la longitud total de la cadena es igual a 100 y se aplica
una poda de intervalo j = 5 , únicamente serán tenidas en cuenta

para realizar inferencias las muestras θ(1) , θ(6) , θ(11) , K , θ(96) . De esta

manera la autocorrelación entre los θ seleccionados se reducirá


considerablemente.

33
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

El número de muestras desperdiciadas crece a medida que el


valor de j se incrementa. Esto se traduce en una pérdida de eficiencia
para la cadena, que deberá ser corrida por mayor tiempo para
alcanzar la longitud especificada originalmente. En el ejemplo anterior
las 100 iteraciones iniciales se vieron reducidas a 20 luego de aplicar
el proceso de poda.
Cuando se utiliza el algoritmo de Metropolis-Hastings para
generar el proceso estocástico, una solución alternativa a la poda
consiste en modificar la distribución propuesta Q, eligiendo su
variancia de manera tal que se reduzca la correlación entre valores
vecinos.

2.4.3 Diagnóstico de Geweke


Este método, propuesto por Geweke (1992) tiene como objetivo
determinar la convergencia de la media de los parámetros
monitoreados a lo largo de un proceso de Markov. El test se aplica
dividiendo a la cadena en tres partes: la primera está constituida,
generalmente, por el 10% inicial de las muestras; la segunda
corresponde al tramo medio, que se descarta al momento de llevar a
cabo el test, y la tercera se forma con el 50% final de los valores
muestreados. Con los promedios obtenidos a partir del primer y
último tramo se construye la siguiente estadística:

θI − θIII
Z= ,
Vâr (θI − θIII )

siendo θ un parámetro de interés. La estimación de la variancia es


asintótica y se realiza a través de métodos de densidad espectral,
comunes en el análisis de series de tiempo. Si el proceso ha
convergido es de esperar que θI y θIII sean similares, ya que ambos

habrán sido estimados a partir de muestras de la misma distribución.

34
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

En estos casos, para una cadena suficientemente extensa, puede


suponerse que la distribución muestral de Z corresponde a una
Normal estándar. Trabajando con un nivel de significación de 5%, la
hipótesis nula de convergencia se rechaza si Z > 1,96 .

En la práctica es común variar el porcentaje de valores incluido


en cada intervalo, como así también la iteración a partir de la cual se
considera que empieza la cadena (es decir, el burn-in).

2.4.4 Diagnóstico BGR


El diagnóstico de Brooks, Gelman & Rubin (BGR) data de 1998,
cuando Brooks & Gelman corrigieron y generalizaron el método
publicado originalmente por Gelman & Rubin en 1992.
La estadística de BGR se calcula utilizando información
proveniente de M procesos de Markov, iniciados en puntos de la
distribución a posteriori muy distantes entre sí. Uniendo las muestras
de las M cadenas simuladas, se estima la amplitud del intervalo de
confianza empírico del 80% correspondiente a un parámetro de
interés θ. A este valor se lo denomina B y representa la variabilidad
entre cadenas. El mismo procedimiento se repite de forma individual
en cada uno de los M procesos, obteniéndose así M amplitudes
diferentes. Luego estas amplitudes se promedian para obtener W,
que simboliza la variabilidad intra cadenas. En cada uno de los
cálculos a realizar se considera que la primer mitad de las iteraciones
corresponden al período de burn-in.
En base a las aproximaciones de las variaciones intra y entre
B
cadena se construye la estadística R = , que puede interpretarse
W
como una estimación de la reducción que sufriría la variancia a
posteriori de θ si el largo de la cadena fuese infinito.
Cuando R se encuentra cercano a la unidad, es posible concluir
que la totalidad de las cadenas simuladas se aproximan

35
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

satisfactoriamente a la distribución a posteriori de interés. En cambio,


si R es mucho mayor que 1, la precisión de las estimaciones podría
mejorarse aumentando el número de iteraciones, aunque esta
situación es también un indicio de lentitud en lograr la convergencia.

2.4.5 Método de Raftery & Lewis


Una de las escasas técnicas concebidas para evaluar la longitud
adecuada de una cadena de Markov es la desarrollada por Raftery &
Lewis (1992). Suponiendo que existe interés en estimar el cuantil de
orden q correspondiente a la distribución de un parámetro θ, este
método proporciona la extensión mínima que debe poseer la cadena,
como así también el largo recomendado del burn-in, para que la
estimación del cuantil sea tan precisa como se desee. El método
permite, además, definir la probabilidad de alcanzar el nivel de
precisión especificado; mientras mayor sea este nivel y más cercana
a la unidad se encuentre la probabilidad de conseguirlo, mayor será el
número de iteraciones requerido.
Otra información de utilidad que brinda el diagnóstico de
Raftery & Lewis está relacionada con la autocorrelación presente
entre las muestras que conforman la cadena. En base al número
mínimo de iteraciones que se necesitarían si las muestras fuesen
independientes, se calcula el Factor de Dependencia, que mide el
porcentaje de simulaciones extra que se llevan a cabo debido a la
correlación. Valores muy elevados del Factor de Dependencia se
traducen generalmente en una mala convergencia, siendo necesario
reparametrizar el modelo ajustado.
El método de Raftery & Lewis puede aplicarse de forma
individual a todos los parámetros monitoreados a lo largo del proceso
de Markov. Si bien no proporciona una estimación del número de
iteraciones necesarias para alcanzar la distribución estacionaria,
brinda el mínimo requerido para obtener estimaciones con una
determinada precisión.

36
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

2.5 Ejemplo: simulación de una cadena de Markov

El objetivo principal de este apartado es exhibir la influencia


que ejerce la distribución propuesta Q sobre el comportamiento de
una cadena de Markov, poniendo especial atención en la proporción
de valores aceptados obtenida al considerar diversos escenarios. Para
ello se construye un ejemplo simple, donde el vector de parámetros
desconocidos es univariado y su distribución a posteriori se conoce de
antemano.
En primer lugar se simularon 50 observaciones yi
independientes e idénticamente distribuidas según una Normal con
media θ = 3 y variancia σ 2Y = 1 . A partir de la información brindada

por este conjunto de datos artificial, el interés se centra en estimar


mediante técnicas bayesianas el valor de la media poblacional θ.
Se impone una distribución a priori no informativa para el
parámetro de interés: θ ~ N (µθ = 0, σ 2θ = 100) . Esto permite que los

datos simulados posean mayor peso a la hora de construir la


distribución a posteriori. Debido a que la función de verosimilitud y la
prior se distribuyen normalmente, la propiedad de conjugación nos
permite asegurar que la densidad a posteriori también será Normal.
1
σ 2θ
Definiendo ω C = como la razón entre la precisión a priori
1 2 + n 2
σ θ σ Y

y la precisión total, puede demostrarse (Congdon, 2006) que la


esperanza a posteriori de θ resulta un promedio entre la media
muestral observada y la esperanza a priori del parámetro bajo
estudio, ponderado de acuerdo a sus precisiones:

E (θ / Y) = ω C ⋅ µθ + (1 − ω C ) ⋅ y . (2.4)

Puede apreciarse que la construcción de la esperanza a


posteriori en la fórmula (2.4) sigue un razonamiento similar a la

37
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

presentada en la expresión (2.1), aunque con ponderaciones


diferentes. Reemplazando los valores por aquellos utilizados en el
ejemplo se obtiene:

1
100 0,01
ωC = = ≅ 0,0002 ⇒
1 + 50 50,01
100 1

E (θ / Y) = ω C ⋅ 0 + (1 − ω C ) ⋅ y ≅ 0,9998 ⋅ y

En conclusión, el estimador bayesiano de la media poblacional


resulta aproximadamente igual a 0,9998 ⋅ y = 0,9998 ⋅ 2,65 ≅ 2,649 . Si

bien el estimador usual es en estos casos θ̂ = y , la distribución a

priori considerada achica mínimamente la media muestral debido a


que se encuentra centrada en cero. Analizando detenidamente a ωC,
puede apreciarse que la influencia de la prior elegida será cada vez
menor a medida que el tamaño de muestra y/o la variabilidad a priori
se eleven.
Se utiliza el algoritmo de Metropolis-Hastings para generar un
proceso de Markov que permita obtener muestras de la distribución a
posteriori de θ. Se consideran 496 distribuciones de propuesta Q
diferentes, obtenidas al aumentar progresivamente sus desvíos en
incrementos de 0,01 (partiendo de 0,05 y finalizando en 5). Cada una
de las distribuciones Q posee una densidad Normal y se encuentra
centrada en el valor de θ obtenido en el paso inmediatamente
anterior de la cadena. En todos los casos se fijó el valor inicial en 0,
corriéndose un total de 1.100 iteraciones, de las cuales las primeras
100 corresponden al período de burn-in. Esas observaciones no se
tuvieron en cuenta al momento de analizar gráficamente los
resultados y calcular estadísticas resumen.
A continuación se presentan los resultados obtenidos para tres
distribuciones de propuesta seleccionadas entre los 496 casos
considerados.

38
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 Caso 1: Propuesta con desvío igual a 0,05

Figura 1.A) Cadena de Markov

Figura 1.B) Función de Autocorrelación

39
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 Caso 2: Propuesta con desvío igual a 0,3

Figura 2.A) Cadena de Markov

Figura 2.B) Función de Autocorrelación

40
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 Caso 3: Propuesta con desvío igual a 1,8

Figura 3.A) Cadena de Markov

Figura 3.B) Función de Autocorrelación

41
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

En la Figura 1.A se observa que el proceso, si bien posee un


elevado porcentaje de aceptación de propuestas, se mueve constante
pero lentamente a través de la densidad de θ. Una clara muestra de
esta situación, conocida en inglés como slow mixing, es el hecho de
que la cadena, luego de 100 iteraciones, aún no se encuentra
suficientemente alejada del valor inicial 0. Distribuciones de
propuesta Q con mínima variabilidad requieren, generalmente, de un
mayor número de iteraciones para recorrer la distribución a posteriori
en su totalidad. Además, al recorrer un espacio restringido de
valores, los elementos de la cadena estarán altamente
correlacionados (Figura 1.B).
Por otro lado, la Figura 3.A revela que una distribución de
propuesta Q más dispersa implica un mayor número de rechazos. Es
posible observar que θ permanece en el mismo lugar durante una
extensa cantidad de iteraciones consecutivas. Un proceso de Markov
con estas características no otorgará una muestra confiable de la
distribución a posteriori. Al igual que en el Caso 1, los valores
muestreados poseen una elevada autocorrelación (Figura 3.B).
La distribución empleada en el Caso 2 es la que mejor se
comporta. El proceso resultante (Figura 2.A) no se mueve dando
pasos cortos como en el Caso 1, ni se estanca durante largos
períodos en un mismo valor como en el Caso 3. La distribución a
posteriori es la que se asemeja en mayor medida a la teórica y
cuenta además con la menor correlación de entre las tres (Figura
2.B), lo que la convierte en la cadena más eficiente.

En el Gráfico 2.1 se presentan histogramas suavizados para el


conjunto de datos muestreado en cada uno de los tres procesos
analizados. Es posible apreciar que las propuestas concentran la
mayor parte de la densidad en las cercanías del valor estimado
2,649. La curva sombreada de color rojo, asociada a la propuesta con

42
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

menor desvío, presenta una cola izquierda de valores que deja en


evidencia los inconvenientes propios del mixing lento.

Gráfico 2.1 - Histogramas suavizados de las muestras obtenidas

En el Gráfico 2.2, construido a partir de la infomación brindada


por los 496 procesos simulados, puede apreciarse cómo la proporción
de valores aceptados decae a medida que la variabilidad de la
distribución propuesta Q se incrementa. Analizando el Gráfico 2.3, es
posible observar que las propuestas con variancias más extremas se
traducen en procesos de Markov que arrojan estimaciones algo más
alejadas de la media a posteriori teórica, representada por la línea
horizontal.

43
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Gráfico 2.2 - Porcentaje de aceptación para las 496 propuestas

Gráfico 2.3 - Medias estimadas para las 496 propuestas

44
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

3. Paradigma Bayesiano Vs Paradigma Frecuentista

Presentados los principales conceptos e instrumentos de la


inferencia bayesiana, cabe preguntarse acerca de las mayores
diferencias entre este método y los considerados tradicionales.
En el paradigma frecuentista, también llamado clásico, resulta
esencial el concepto de repetir un gran número de veces el proceso
aleatorio que genera los datos observados. Dos herramientas
estadísticas ampliamente utilizadas, como los intervalos de confianza
y la probabilidad asociada a una estadística, pueden definirse bajo
este enfoque de la siguiente manera:

• La probabilidad p asociada a una estadística definida para llevar a


cabo un test de hipótesis es la probabilidad de observar datos que
proporcionen un valor de la estadística igual o más extremo que el
obtenido, si el proceso aleatorio responsable de generar los datos se
repitiese bajo las mismas condiciones, dado que la hipótesis nula es
correcta.

• Un intervalo de confianza del (1 − α)% es un intervalo que

contiene el verdadero valor del parámetro en el (1 − α)% de las

ocasiones, suponiendo que pudieran extraerse diversas muestras y


para cada una se calculase un IC. Dado que el parámetro es fijo, una
vez construido el intervalo la probabilidad de que éste cubra el valor
real se reduce a dos posibilidades: 1 (efectivamente lo cubre) ó 0 (no
lo cubre).

Bajo el paradigma bayesiano, en cambio, los datos son fijos y


no pueden replicarse. Los parámetros pasan a ser variables aleatorias
y en consecuencia las interpretaciones resultan más intuitivas:

45
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

• p es la probabilidad estimada de que una hipótesis sea cierta,


dados los datos observados.

• Un intervalo de confianza del (1 − α)% es un intervalo que

contiene el verdadero valor del parámetro con una probabilidad igual


a (1 − α) .

Como se ve, dos conceptos tan comunes dentro de la


estadística poseen, según cada escuela, definiciones profundamente
diferentes. En consecuencia, las conclusiones a las que se puede
arribar siguiendo una técnica u otra son disímiles:

• Frecuentismo: si se replica millones de veces el procedimiento


aplicado, la frecuencia de cobertura será tal que el verdadero valor
del parámetro se encontrará dentro del intervalo estimado el
(1 − α)% de las veces.

• Bayesianismo: dado el conjunto de datos observado, el verdadero


valor del parámetro de interés posee una probabilidad igual a (1 − α)

de encontrarse dentro del intervalo construido.

A continuación se presenta otro concepto de uso frecuente


dentro de la estadística, el de “precisión”, comparando la relación que
posee con ambas escuelas.

• Precisión: dado un cierto conjunto de datos y un mismo modelo


asumido, es común que los errores estándares bayesianos resulten
menores que los obtenidos bajo el paradigma frecuentista. Esto se
debe a que, mediante las probabilidades a priori, el Teorema de
Bayes incorpora al análisis un mayor volumen de información en
comparación a los métodos clásicos, reduciendo así la incertidumbre

46
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

acerca de los parámetros. Por ende los estimadores bayesianos son,


generalmente, más precisos que los frecuentistas.

A pesar de las marcadas diferencias entre ambas teorías,


existen autores conciliadores (Little, 2006; Verde, 2010) que
proponen amalgamar los dos paradigmas para aprovechar lo mejor
de cada uno. Little argumenta que a la hora de formular y evaluar un
modelo el método frecuentista es preferible al bayesiano; lo contrario
ocurre cuando se desean realizar inferencias bajo un modelo
asumido. Por lo tanto, lo más natural es desarrollar y chequear el
modelo desde una mirada frecuentista y luego utilizar herramientas
bayesianas para efectuar inferencias.

47
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

3.1 Principio de Verosimilitud

El principio de verosimilitud establece que, cuando se desean


realizar inferencias acerca de un parámetro θ luego de haber
observado una variable z, toda la información relevante brindada por
la muestra se encuentra contenida en la función de verosimilitud de
z. Como corolario, si dos verosimilitudes expresadas en función de θ
son proporcionales entre sí, la información que brindan es
exactamente la misma y por ello deben conducir a conclusiones
equivalentes.
En el siguiente ejemplo, basado en un artículo publicado
originalmente en 1976 por Lindley & Phillips, se demuestra cómo los
métodos frecuentistas, a diferencia de los bayesianos, pueden
conducir a resultados que violan el principio de verosimilitud.

Supongamos un experimento en el cual se arroja una moneda


al aire repetidas veces, registrándose la cantidad de caras y cruces
obtenidas. Se definen:

• Y: variable aleatoria que representa el número de caras obtenido.

• p: parámetro que representa la probabilidad real de que la


moneda caiga con la cara hacia arriba.

El interés se centra en comprobar si la verdadera proporción de


caras es igual a ½ o es, en realidad, mayor que este valor. Por tal
motivo se plantean las hipótesis:

H0 ) p = 1 / 2 Vs H1 ) p > 1 / 2

Tras 12 tiradas se obtuvieron 9 caras (C) y 3 cruces (X). Si bien


esta información parece suficiente para proceder a realizar un test de
hipótesis, se desconoce la regla utilizada para tomar la decisión de

48
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

finalizar el experimento. Esta situación obliga a considerar dos


posibles escenarios:

Caso I) El número n=12 de tiradas fue fijado de antemano. Por lo


tanto, la variable Y sigue una distribución Binomial (12,p) y la función
n 12 
de verosimilitud resulta L 1 (p) =   ⋅ p y ⋅ (1 − p)n − y =   ⋅ p 9 ⋅ (1 − p)3 .
y 9

Caso II) Antes de comenzar el experimento se decidió detenerlo


luego de haber observado r=3 cruces. En este caso Y se distribuye
según una Binomial Negativa con parámetros (3,p). La verosimilitud
 y + r − 1 y 11 
es ahora L 2 (p) =   ⋅ p ⋅ (1 − p)r =   ⋅ p 9 ⋅ (1 − p)3 .
 y  9

Se observa que L 1 (p) ∝ L 2 (p) ∝ p 9 ⋅ (1 − p)3 . En consecuencia,

siguiendo el principio de verosimilitud, las inferencias basadas tanto


en L1 como en L2 deben conducir a idénticos resultados. Sin embargo,
a pesar de ser proporcionales, ocurre justamente lo contrario:

Caso I) Se pone a prueba la hipótesis nula H0 ) p = 1 / 2 desde una

perspectiva frecuentista. Su valor p asociado resulta:

y 12 − y
 1 12
12   1   1 
P Y ≥ 9 /p =  =
 2
∑   ⋅   ⋅   ≅ 0,073 .
y =9  y  2 2

La probabilidad de observar lo observado o algo aún más


extremo, suponiendo que la moneda no está sesgada, es cercana a
0,073. Utilizando un nivel de significación del 5%, podemos concluir
que no existen evidencias suficientes para rechazar la hipótesis nula.
En otras palabras, la moneda no está sesgada.

Caso II) Se calcula nuevamente el valor p asociado, utilizando esta


vez el enfoque que considera la distribución Binomial Negativa:

49
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

y 3
 1 ∞
 y + 2  1   1 
P Y ≥ 9 /p =  =
 2
∑   ⋅   ⋅   ≅ 0,0327 .
y =9  y  2 2

En este caso la probabilidad asociada es menor a 0,05 y por lo


tanto se rechaza la hipótesis nula, concluyendo que al lanzar la
moneda es más probable obtener cara que cruz.

Esta especie de paradoja se produce cuando se consideran


diferentes reglas de detención para el experimento en curso. Según
se considere una u otra opción, el espacio muestral de diferentes
valores que pudieron haberse observado (concepto fundamental para
la definición del valor p frecuentista) se modifica sustancialmente. Los
conjuntos de posibles eventos más extremos están conformados,
para cada caso, de la siguiente manera:

Caso I) {9C y 3X; 10C y 2X; 11C y 1X; 12C y 0X}

Caso II) {9C y 3X; 10C y 3X; 11C y 3X; 12C y 3X; etc.}

Bajo el paradigma bayesiano esta información, como así


también el motivo por el cual se dio por finalizado el experimento,
resultan irrelevantes. La solución bayesiana estándar al presente
problema consiste en combinar una distribución a priori Beta(a,b) con
los datos observados, resultando la distribución a posteriori del
a+9
parámetro p una Beta (a + 9, b + 3) con E (p) = . La
(a + 9) + (b + 3)
probabilidad de que la proporción de interés p sea mayor a ½ puede
calcularse directamente como el área bajo la curva de la densidad
Beta a la derecha de 0,5.
El ejemplo presentado demuestra que el ensayo de hipótesis
frecuentista basa sus conclusiones no sólo en la función de
verosimilitud, sino también en información que no se encuentra
contenida en ella (en este caso el criterio para finalizar el

50
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

experimento) incumpliendo así los preceptos del principio de


verosimilitud. Cabe destacar que la introducción de probabilidades a
priori ajenas al proceso de recolección de datos no constituye una
violación del principio, ya que éste hace referencia únicamente a
información surgida del experimento en sí.
En la Tabla 3.1 se presentan los resultados obtenidos tras
aplicar el Teorema de Bayes en la resolución del ejemplo anterior,
considerando tres escenarios diferentes. Las distribuciones a
posteriori resultantes pueden observarse en los Gráficos 3.1 a 3.3.

Tabla 3.1 – Resultados para tres Probabilidades a Priori diferentes


Distr. a E(p) a Distr. a E(p) a Prob.
Priori de p Priori Posteriori Posteriori Asociada(1)
Beta(1,9) 0,1 Beta(10,12) 0,4545 0,3318
Beta(1,1) 0,5 Beta(10,4) 0,7143 0,9539
Beta(9,1) 0,9 Beta(18,4) 0,8182 0,9993
(1)
La probabilidad asociada se calcula como P(H1) = P(p>0,5)

 Densidades a Posteriori

Gráfico 3.1 - Beta(10,12)

51
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Gráfico 3.2 - Beta(10,4)

Gráfico 3.3 - Beta(18,4)

52
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

4. Aplicación

En la presente sección se analiza un conjunto de datos


conformado por 874 resultados de partidos de fútbol, disputados por
el Club Atlético Newell’s Old Boys de Rosario, acontecidos entre
agosto de 1990 y junio de 2013. El objetivo principal del estudio
consiste en predecir el resultado final del encuentro, utilizando para
ello ciertas variables explicativas que, se supone, influyen sobre el
marcador.
Para llevar a cabo el análisis se emplearon las técnicas de
inferencia bayesiana descritas en las secciones anteriores. El modelo
postulado también fue ajustado a través de métodos frecuentistas,
permitiendo así comparar tanto el desempeño como las
interpretaciones propias de cada paradigma. Además, se hace
especial hincapié en el chequeo de las condiciones de convergencia
para las cadenas de Markov simuladas.

53
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

4.1 Descripción del conjunto de datos

La Asociación del Fútbol Argentino (AFA) es la entidad


encargada de organizar las competiciones de fútbol profesional más
importantes a nivel nacional, controlando tanto el Campeonato de
Primera División como las diferentes ligas de ascenso.
Desde sus inicios en 1931 el torneo de Primera División ha
mutado en numerosas ocasiones la forma de disputa y el número de
equipos participantes. La última gran modificación reglamentaria se
produjo a mediados de 1990, cuando pasaron a disputarse dos
torneos por año, denominados Apertura y Clausura (actualmente
Inicial y Final). La temporada comienza en agosto de cada año, con la
disputa del Torneo Inicial, donde se enfrentan 20 equipos entre sí a
una rueda. Este campeonato consta de 19 fechas y finaliza
generalmente en diciembre. Por su parte, el Torneo Final transcurre
entre febrero y junio del año siguiente. Posee el mismo formato de
disputa que el Torneo Inicial, invirtiéndose las localías de cada
equipo. De esta manera, cada conjunto disputa en un año calendario
38 partidos: 19 en el primer semestre, correspondientes al Torneo
Final de la temporada iniciada el año anterior, y los restantes 19 en el
segundo semestre, correspondientes al Torneo Inicial de la nueva
temporada.
Desde la Temporada 1990/1991 hasta la 2012/2013, última
para la cual se registraron datos, se llevan disputados 46 torneos
cortos. Por ende, aquellos equipos que se mantuvieron en Primera
División de manera ininterrumpida durante ese lapso de tiempo
participaron de un total de 46 ⋅ 19 = 874 encuentros. El conjunto de
datos utilizado en la presente tesina corresponde, entonces, a los 874
partidos disputados por Newell’s Old Boys en torneos cortos.
La variable respuesta considerada fue el resultado final del
encuentro, clasificada en tres valores: victoria, empate o derrota.
Como variables explicativas se incluyeron la condición de localía de

54
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Newell’s (binaria, toma los valores local o visitante) y el resultado


parcial del encuentro a los 30 minutos de juego, clasificada como
victoria parcial, empate parcial o derrota parcial.
El objetivo del estudio consta en predecir de la forma más fiel
posible la probabilidad de que un encuentro termine en victoria,
empate o derrota de Newell’s, teniendo en cuenta el marcador parcial
del partido a los 30 minutos de juego y considerando, además, el
hecho de haber jugado como local o visitante.
El conjunto de datos observado se presenta en la Tabla 4.1:

Tabla 4.1 – Partidos de NOB entre 19/08/1990 y 23/06/2013


Resultado Resultado Final del encuentro
Condición Totales
Parcial 30’ Victoria Empate Derrota
Victoria 87 15 6 108
Local Empate 98 110 64 272
Derrota 7 21 29 57
Victoria 41 18 10 69
Visitante Empate 57 104 94 255
Derrota 8 27 78 113
Totales: 298 295 281 874

Para cumplir con los objetivos se plantea el ajuste de modelos


que consideren al resultado final como variable respuesta y a la
condición y resultado parcial como explicativas, sin obviar el carácter
ordinal de la variable respuesta.

55
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

4.2 Software

Los resultados incluidos en la presente tesina se obtuvieron


utilizando diferentes paquetes de software estadístico. El
procedimiento logistic perteneciente al software SAS/STAT® Versión
9.2 fue empleado con el objetivo de obtener resultados máximo-
verosímiles que sirvieran como referencia. Algunos de los modelos
analizados en esta etapa fueron ajustados a través del package VGAM
(Yee, 2010) en la versión 2.15.2 de R1, ya que no resulta posible
estimarlos a través del procedimiento logistic de SAS. Para el ajuste
de los modelos bayesianos mediante simulación MCMC se utilizó la
versión 1.4.3 de WinBUGS2; estos resultados pueden replicarse
ejecutando las mismas sentencias en la versión 3.2.1 de OpenBUGS.
Para analizar algunas de las salidas producidas por WinBUGS fue
necesario recurrir al package coda, implementado bajo la versión
2.15.2 de R. Además, los gráficos incluidos fueron creados utilizando
el package ggplot2 (Wickham, 2009) de R.

La popularidad de la inferencia bayesiana, acrecentada durante


los últimos veinte años, se debe en gran parte al desarrollo de
programas y algoritmos computacionales capaces de lidiar con los
problemas de estimación que conllevan estos métodos. En este
contexto, la aparición del software gratuito WinBUGS constituyó un
paso fundamental hacia la masificación de las aplicaciones basadas
en el Teorema de Bayes.
WinBUGS utiliza técnicas del tipo Monte Carlo vía Cadenas de
Markov para simular muestras de una determinada función de
densidad a posteriori, lo que le permite ajustar un gran número de

1
R Core Team (2012). R: A language and environment for statistical computing.
R Foundation for Statistical Computing, Vienna, Austria.
ISBN 3-900051-07-0, URL http://www.R-project.org/.
2
Lunn, D.J., Thomas, A., Best, N., y Spiegelhalter, D. (2000)
WinBUGS -- a Bayesian modelling framework: concepts, structure, and extensibility
Statistics and Computing, 10: 325-337.

56
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

modelos estadísticos. Su nombre proviene del inglés “Bayesian


inference Using Gibbs Sampling” ya que para generar las cadenas
implementa generalmente el muestreador de Gibbs, un caso
particular del algoritmo de Metropolis-Hastings. La última versión
estable (1.4.3) fue lanzada en agosto de 2007 y puede descargarse
desde la página web http://www.mrc-bsu.cam.ac.uk/bugs/. A partir
de ese momento la actualización del software fue discontinuada,
enfocándose todos los esfuerzos en el desarrollo de una versión en
código abierto del programa, llamada OpenBUGS, que también puede
descargarse en forma gratuita.
De acuerdo a Lunn et al. (2009) la facilidad para estimar el
criterio DIC y la flexibilidad a la hora de ajustar cualquier tipo de
modelo son algunas de las principales razones del éxito obtenido por
el programa. Sin embargo, esta flexibilidad ha sido también la causa
de numerosas aplicaciones incorrectas de la estadística bayesiana.
Por ejemplo, el software otorga resultados concretos, sin ningún tipo
de advertencia, aún cuando el modelo ajustado no sea identificable,
la cadena de valores simulados no haya alcanzado la convergencia o
la distribución a posteriori de los parámetros resulte impropia.
Además, en Lunn et al. (2009) los propios autores admiten que los
mensajes de error generados por WinBUGS son en ocasiones
indescifrables y no guardan relación alguna con el error verdadero,
tornando difícil la resolución de los mismos incluso para los
desarrolladores del software.

Entre las ventajas del programa se encuentra la posibilidad de


definir el modelo en su totalidad sin necesidad de escribir las líneas
de código correspondientes. Esto puede llevarse a cabo utilizando el
editor gráfico Doodle, incluido en WinBUGS, que permite especificar
el DAG (Directed Acyclic Graph, también conocido como directed
graphical model) asociado a cada modelo.

57
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Otro punto a favor de este software es su capacidad de


interactuar con el popular paquete estadístico R, a través de
numerosas librerías desarrolladas específicamente para analizar y
editar archivos de salida provenientes de WinBUGS u OpenBUGS. Las
más populares son coda (Plummer et al., 2006), R2WinBUGS (Sturtz
et al., 2005) y BRugs (Thomas et al., 2006).

58
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

4.3 Modelo de Odds Proporcionales

Teniendo en cuenta que la respuesta Y puede considerarse


como una variable multicategórica ordinal, se postula en primer
instancia un modelo de Odds Proporcionales que incorpore “Resultado
Parcial” y “Condición” como variables explicativas. El modelo
propuesto para j=1,2 es:

 P (Y ≤ j) 
Logit P (Y ≤ j) = log   = β 0 j + β1 ⋅ cond + β 2 ⋅ vic + β 3 ⋅ emp
 P (Y > j) 

Este modelo describe la probabilidad asociada a que Y caiga


dentro de una categoría menor o igual a la j-ésima, asumiendo que el
efecto de las covariables es el mismo en cada ecuación.
Se crean dos variables indicativas, llamadas vic y emp, para
incorporar la variable “Resultado Parcial” al modelo, siendo “Derrota”
la categoría de referencia. De la misma manera, la variable cond
toma el valor 0 si Newell’s actuó como visitante y el valor 1 si lo hizo
como local:

Resultado Parcial vic emp Condición cond


Victoria 1 0 Visitante 0
Empate 0 1 Local 1
Derrota 0 0

De acuerdo a los valores que toma la variable Y = Resultado


Final, se definen:

π 1 = P (Y = 1) = Probabilidad de que el resultado final sea Victoria;

π 2 = P (Y = 2) = Probabilidad de que el resultado final sea Empate;

π 3 = P (Y = 3) = Probabilidad de que el resultado final sea Derrota.

Las ecuaciones logit planteadas pueden interpretarse de la


siguiente manera:

59
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 π1   P (Ganar) 
• Si j=1: Logit P (Y ≤ 1) = log   = log   ;
 π2 + π3   P (No Ganar) 

 π + π2   P (No Perder) 
• Si j=2: Logit P (Y ≤ 2) = log  1  = log   .
 π3   P (Perder) 

4.2.1 Enfoque frecuentista


Inicialmente se ajusta el modelo mediante el procedimiento
logistic de SAS, el cual aplica el método de máxima verosimilitud a
través de un algoritmo de mínimos cuadrados iterativamente
reponderados, denominado Scoring de Fisher. Se obtuvieron los
siguientes resultados:

Tabla 4.2 – Estimaciones MV para el Modelo de Odds Proporcionales


Error ChiSq de
Parámetro GL Estimador Pr > ChiSq
Estándar Wald
Intercept 1 1 -2,5411 0,1864 185,9 <0,0001
Intercept 2 1 -0,8042 0,1658 23,5 <0,0001
cond 1 0,7287 0,1340 29,6 <0,0001
vic 1 3,0439 0,2397 161,2 <0,0001
emp 1 1,2834 0,1804 50,6 <0,0001

Los parámetros asociados a las variables explicativas


“Condición” y “Resultado Parcial” son significativos a un nivel del 5%.
Por otro lado, el test que evalúa el supuesto de Odds Proporcionales
arroja una probabilidad asociada cercana a 0,44. Por lo tanto, resulta
válido considerar que el efecto de las covariables es el mismo en
ambas ecuaciones logit. Sus estimaciones resultaron:

• η̂1 = Logit P (Y ≤ 1) = −2,54 + 0,73 ⋅ cond + 3,04 ⋅ vic + 1,28 ⋅ emp

• η̂2 = Logit P (Y ≤ 2) = −0,80 + 0,73 ⋅ cond + 3,04 ⋅ vic + 1,28 ⋅ emp

60
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

A partir de η̂1 y η̂2 es posible estimar (π 1 , π 2 , π 3 ) , es decir las

probabilidades de ganar, empatar o perder, para cada uno de los seis


ˆ1, π
perfiles de respuesta. Multiplicando a (π ˆ2, π
ˆ 3 ) por el total de

observaciones registradas en cada perfil se obtienen las frecuencias


ajustadas por el modelo, las cuales pueden utilizarse para evaluar la
calidad del ajuste.
En la Tabla 4.3 se presentan las estimaciones que surgen del
modelo de Odds Proporcionales. Como puede apreciarse, el ajuste es
altamente satisfactorio. La diferencia entre datos observados y
estimados es menor a 5 partidos para todas las celdas, y en el caso
particular del perfil “Visitante-Derrota Parcial” la coincidencia es total.

Tabla 4.3 – Frecuencias ajustadas por el Modelo de Odds Proporcionales


Resultado Resultado Final del encuentro
Condición
Parcial 30’ Victoria Empate Derrota
Victoria 84 (87) 19 (15) 5 (6)
Local Empate 101 (98) 109 (110) 63 (64)
Derrota 8 (7) 19 (21) 30 (29)
Victoria 43 (41) 19 (18) 7 (10)
Visitante Empate 56 (57) 101 (104) 97 (94)
Derrota 8 (8) 27 (27) 78 (78)
Nota: entre paréntesis figuran las frecuencias observadas.

La bondad del ajuste del modelo puede evaluarse formalmente


mediante tests de hipótesis aplicados a las estadísticas de Pearson y
Deviance. Para j = 1, 3 ∧ i = 1, 6 se define nij como la frecuencia

observada en la categoría de respuesta j-ésima del perfil de


covariables i-ésimo. A su vez, las frecuencias ajustadas por el modelo
dentro del perfil i-ésimo vienen dadas por µ̂ij = ni . ⋅ π
ˆ j / i para j = 1, 3 . A

partir de estos valores es posible calcular las dos medidas de bondad


de ajuste:

6 3 (nij − µ̂ij )2
• Chi-Cuadrado de Pearson: X =2
∑∑
i =1 j =1 µ̂ij
;

61
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

6 3  nij 
• Deviance: G2 = 2 ⋅ ∑ ∑ nij ⋅ ln   .
 µ̂ 
i =1 j =1  ij 

En ambos casos la hipótesis nula H0) plantea que el modelo


provee un ajuste apropiado, mientras que la alternativa, equivalente
al modelo saturado, indica lo contrario. Bajo H0) las estadísticas X2 y
G2 siguen una distribución χ N2 − P , siendo N el número total de logits

modelados y P la cantidad de parámetros estimados por el modelo.


En este ejemplo, N = I ⋅ (J − 1) = 6 ⋅ 2 = 12 y P = 5 , lo que equivale a 7

grados de libertad.
Analizando la Tabla 4.4 se observa que las probabilidades
asociadas a las estadísticas son en ambos casos mayores a 0,8. Este
resultado lleva a no rechazar la hipótesis nula, concluyendo que el
ajuste del modelo puede considerarse aceptable.

Tabla 4.4 – Bondad de Ajuste del Modelo de Odds Prop. Frecuentista


Estadística Valor GL Pr. Asociada
Pearson 3,640 7 0,820
Deviance 3,482 7 0,837

4.2.2 Enfoque bayesiano


El modelo de Odds Proporcionales propuesto en la sección
anterior se ajustó nuevamente, esta vez desde un enfoque
bayesiano, a través del software WinBUGS.
A la hora de elegir distribuciones a priori no informativas, un
razonamiento simplista conduce a la implementación de
distribuciones constantes en el espacio multidimensional de los
parámetros. Sin embargo, los efectos estimados por un modelo de
este tipo pueden tomar cualquier valor del conjunto de números
reales, y al combinar la información muestral con distribuciones a
priori uniformes es posible obtener distribuciones a posteriori
impropias, no integrables a uno. En estos casos Agresti (2010)

62
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

recomienda utilizar distribuciones a priori difusas y a la vez propias,


proponiendo una densidad Normal con un desvío estándar de gran
magnitud. En consecuencia, los cinco parámetros presentes en el
modelo recibieron una distribución a priori Normal con media µ = 0 y

variancia σ 2 = 1000 . Esto equivale a suponer un desconocimiento


previo total acerca de la dirección y la fuerza de los efectos, siendo
de esperar que las distribuciones a posteriori se encuentren
dominadas por los datos.
Para obtener muestras de la distribuciones a posteriori de los
parámetros se iniciaron dos cadenas de Markov independientes. En
una de ellas se tomaron como valores iniciales las estimaciones MV
brindadas por el procedimiento logistic de SAS (Cadena 1), mientras
que en la restante el proceso fue iniciado en un vector de ceros
(Cadena 2). La decisión de simular dos cadenas diferentes se debe a
que el chequeo de la convergencia de las mismas, presentando en la
Sección 4.2.3, resulta más fácil cuando se cuenta con más de un
proceso de Markov para analizar.
En total fueron corridas 100.000 iteraciones de ambas cadenas,
de las cuales las primeras 1.000 fueron descartadas por corresponder
al período de calentamiento (burn-in). Debido a la autocorrelación
observada inicialmente (Sección 7.2.3 Anexo) se aplicó una poda de
intervalo 5, reduciendo cada cadena a 19.800 observaciones por
parámetro. Tras unir ambos procesos el número total de muestras
para cada parámetro se elevó a 39.600, obteniéndose los siguientes
resultados:

Tabla 4.5 – Estimaciones Bayesianas para el Modelo de Odds Prop.


Parámetro Media Desvío Cuantil 2,5% Cuantil 97,5%
β01: Int 1 -2,5484 0,1821 -2,914 -2,197
β02: Int 2 -0,8054 0,1621 -1,130 -0,494
β1: cond 0,7296 0,1337 0,469 0,992
β2: vic 3,0576 0,2392 2,595 3,532
β3: emp 1,2873 0,1765 0,943 1,638

63
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Las estimaciones son muy similares a las obtenidas


anteriormente con el enfoque frecuentista, registrándose diferencias
recién a partir del segundo y tercer decimal. Estas discrepancias son
mínimas en términos prácticos, manteniéndose inalterables las
frecuencias ajustadas por el modelo (Tabla 4.3). Además, si se
comparan los desvíos de los estimadores máximo-verosímiles (Tabla
4.2) con aquellos alcanzados mediante el paradigma bayesiano (Tabla
4.5), se observa que estos últimos son levemente menores, en todos
los casos, que los obtenidos tras el ajuste frecuentista. Las
probabiliades ajustadas por el modelo bayesiano se presentan en la
Tabla 4.6.

Tabla 4.6 – Prob. ajustadas por el Modelo de Odds Prop. Bayesiano


Resultado Resultado Final del encuentro
Condición
Parcial 30’ Victoria Empate Derrota
Victoria 0,77 (0,81) 0,18 (0,14) 0,05 (0,05)
Local Empate 0,37 (0,36) 0,40 (0,40) 0,23 (0,24)
Derrota 0,14 (0,12) 0,34 (0,37) 0,52 (0,51)
Victoria 0,62 (0,59) 0,28 (0,26) 0,10 (0,15)
Visitante Empate 0,22 (0,22) 0,40 (0,41) 0,38 (0,37)
Derrota 0,07 (0,07) 0,24 (0,24) 0,69 (0,69)
Nota: entre paréntesis figuran las probabilidades observadas.

4.2.3 Diagnósticos de convergencia


Antes de interpretar los resultados obtenidos tras el ajuste
bayesiano, es necesario chequear que los procesos estocásticos
iniciados hayan alcanzado la convergencia. Para ello se aplican las
técnicas descritas en la Sección 2.4 sobre las 100.000 iteraciones de
cada cadena. Los valores iniciales seleccionados para cada una se
presentan en la Tabla 4.7.
Como puede apreciarse en los gráficos 4.1 a 4.5, luego de
pocas iteraciones ambas cadenas se superponen, siendo imposible
distinguir una de otra. En todos los casos la Cadena 2 se aleja
rápidamente de las cercanías del cero, acercándose a las zonas de la
distribución a posteriori con mayor probabilidad.

64
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Estos son indicios favorables para el supuesto de convergencia,


ya que no parecen existir áreas de la distribución a posteriori que no
hayan sido visitadas por los procesos. Además, el aspecto de los
gráficos indica que el porcentaje de valores aceptados en cada caso
es razonable.

Tabla 4.7 – Valores iniciales para las cadenas de Markov


Parámetro Cadena 1 Cadena 2
β01: Int 1 -2,54 0
β02: Int 2 -0,8 0
β1: cond 0,73 0
β2: vic 3,04 0
β3: emp 1,28 0

 Cadenas de Markov para el modelo de Odds Proporcionales

65
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Como puede apreciarse en los gráficos de la Función de


Autocorrelación (FAC) incluidos en la sección 7.2.3 del Anexo, ambas
cadenas sufren de altos niveles de correlación entre las muestras de
cada parámetro. Para mitigar este problema se aplicó una poda de
intervalo 5. Los resultados fueron satisfactorios, en especial para los

66
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

parámetros asociados a los efectos “Condición: Local” y “Resultado


Parcial: Victoria”. Por el contrario, en los demás casos se observan,
aún luego de la poda, rezagos con correlaciones mayores a 0,5.
Sin embargo, en este ejemplo la presencia de autocorrelación
no parece ser un inconveniente importante, ya que el tamaño de
muestra efectivo (ESS) que se obtiene al unir las cadenas es
suficientemente elevado. El ESS puede interpretarse como el número
de muestras independientes que se necesitan para alcanzar la misma
precisión que la obtenida a través de las muestras MCMC (Hoff,
2009). En la Tabla 4.8 se presentan los tamaños de muestra efectivos
para los cinco parámetros del modelo, calculados utilizando el
package coda de R.

Tabla 4.8 – Tamaño de muestra efectivo aproximado


Parámetro Cadena 1 Cadena 2 ESS Total
β01: Int 1 1.524 1.431 2.955
β02: Int 2 1.589 1.610 3.199
β1: cond 5.546 5.823 11.369
β2: vic 2.678 2.510 5.188
β3: emp 1.683 1.772 3.455

En consecuencia, la precisión obtenida en la estimación de β1 es


igual a la que se hubiese alcanzado a través de 11.369 muestras
independientes de β1.
Para analizar de manera formal la convergencia de los procesos
se llevó a cabo el test propuesto por Geweke. Los segmentos
analizados corresponden al 10% inicial y al 50% final de cada
cadena. Se grafican los scores Z calculados para diversas longitudes
del período de burn-in, junto con la banda del 95% de confianza para
una distribución Normal estándar (Gráficos 4.6 y 4.7).

67
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 Test de Geweke para diferentes burns-ins

Gráfico 4.6 - Cadena 1

Gráfico 4.7 - Cadena 2

68
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

En general, para todos los parámetros del modelo y la


Deviance, se verifica Z < 1,96 y por lo tanto el diagnóstico de

Geweke no brinda evidencias en contra del supuesto de convergencia.


Esto implica que las medias de los segmentos iniciales y finales no
son significativamente diferentes, siendo razonable suponer que los
valores muestreados tanto al principio como al final del proceso
pertenecen a la misma distribución.

Otro test útil para diagnosticar el estado de convergencia de


más de un proceso estocástico es el de Brooks, Gelman & Rubin
(BGR). Este método compara las variabilidades entre (B) e intra (W)
B
cadenas a través de la estadística R = . Cuando R se acerca a la
W
unidad, puede concluirse que los procesos analizados son
convergentes. En la sección 7.2.4 del Anexo se encuentran graficados
los valores de R, B y W para diferentes intervalos de la cadena, cada
uno con un período de calentamiento (burn-in) correspondiente a la
primer mitad de las observaciones incluidas.
Puede apreciarse que en todos los casos la estadística R se
aproxima a 1, siendo posible afirmar que las cadenas han alcanzado
la convergencia y no es necesario aumentar el número de iteraciones
para mejorar la calidad de las estimaciones.

Por último, se llevó a cabo el diagnóstico propuesto por Raftery


& Lewis para evaluar la longitud adecuada de los procesos de Markov
simulados. Las Tablas 4.9 y 4.10 indican el número de iteraciones
necesarias, junto con el burn-in, para estimar la mediana de la
distribución de cada parámetro, con una precisión de ± 0,05 y una

probabilidad de cobertura igual a 0,95. Se incluye también el Factor


de Dependencia, que mide el porcentaje de simulaciones extra
llevadas a cabo debido a la correlación.

69
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Tabla 4.9 – Diagnóstico de Raftery & Lewis para la Cadena 1


Parámetro Burn-in Total Iter. Factor Dep.
β01: Int 1 133 16.074 41,8 %
β02: Int 2 154 17.952 46,6 %
β1: cond 32 4.084 10,6 %
β2: vic 84 12.075 31,4 %
β3: emp 108 14.130 36,7 %

Tabla 4.10 – Diagnóstico de Raftery & Lewis para la Cadena 2


Parámetro Burn-in Total Iter. Factor Dep.
β01: Int 1 132 17.666 45,9 %
β02: Int 2 144 18.264 47,4 %
β1: cond 44 6.116 15,9 %
β2: vic 92 12.742 33,1 %
β3: emp 144 17.088 44,4 %

Luego de descartar las primeras 1.000 muestras y aplicar una


poda de intervalo 5, las cadenas se vieron reducidas a 19.800
observaciones cada una. Afortunadamente, el método de Raftery &
Lewis indica que la cantidad de muestras necesarias para obtener
estimaciones con la precisión fijada es, como mínimo, cercano a
18.000 en cada proceso. En base a estos resultados, es posible
concluir que la longitud de las cadenas de Markov iniciadas resulta
suficiente a los efectos de estimar la mediana de los parámetros del
modelo con una precisión adecuada.
Como era de esperarse, los mayores valores del Factor de
Dependencia se observan en aquellos parámetros que presentaron
originalmente una autocorrelación elevada. Por ejemplo, el tamaño
muestral requerido para estimar la mediana de β02 en la segunda
cadena es 47,4% mayor a aquel que se hubiese necesitado en caso
de no existir correlación entre las muestras.

En base a lo expuesto a lo largo de esta sección, se concluye


que las muestras obtenidas se aproximan satisfactoriamente a las
distribuciones a posteriori de los parámetros, resultando aptas para
ser utilizadas como base de diversas inferencias.

70
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

4.3 Modelos alternativos

Si bien el modelo de Odds Proporcionales postulado inicialmente


otorga un ajuste altamente satisfactorio, se estudiaron otros modelos
para respuestas multicategóricas con el objetivo de comparar los
resultados obtenidos y evaluar algunos de los supuestos realizados.
Una versión más general del modelo de Odds Proporcionales
viene dada por el modelo Logit Acumulativo con coeficientes
diferentes. En este caso el efecto de las variables explicativas varía
entre ecuación y ecuación, elevándose así el número de parámetros a
estimar. Concretamente, el modelo planteado para j = 1, 2 resulta:

 P (Y ≤ j) 
Logit P (Y ≤ j) = log   = β 0 j + β1 j ⋅ cond + β 2 j ⋅ vic + β 3 j ⋅ emp
 P (Y > j) 

Las ecuaciones logit se interpretan de manera equivalente al


caso de Odds Proporcionales:

 π1   P (Ganar) 
• Si j=1 : Logit P (Y ≤ 1) = log   = log   ;
 π2 + π3   P (No Ganar) 

 π + π2   P (No Perder) 
• Si j=2 : Logit P (Y ≤ 2) = log  1  = log   .
 π3   P (Perder) 

El nuevo ajuste se realizó a través de WinBUGS, asignando a


todos los parámetros distribuciones a priori no informativas normales
con media µ=0 y variancia σ 2 = 1000 . Los valores iniciales

utilizados en una de las cadenas de Markov corresponden a las


estimaciones MV obtenidas tras ajustar el modelo mediante el
package VGAM de R. La restante cadena fue iniciada en un vector de
ceros para comprobar la convergencia de los procesos.
Tras descartar las primeras 1.000 muestras y aplicar una poda
de intervalo 5 se obtuvieron los resultados presentados en la Tabla

71
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

4.11. Allí puede apreciarse que tanto la dirección como la magnitud


de los efectos asociados a las covariables es similar en ambas
ecuaciones logit, lo que respalda el supuesto de Odds Proporcionales.
Las frecuencias ajustadas por el modelo se exponen en la Tabla 4.12.

Tabla 4.11 – Estimaciones Bayesianas para el Modelo Logit Acumulativo


Parámetro Media Desvío Cuantil 2,5% Cuantil 97,5%
β01: Int 1 -2,7022 0,2806 -3,276 -2,180
β02: Int 2 -0,7904 0,1717 -1,131 -0,458
β11: cond 1 0,7554 0,1615 0,437 1,075
β12: cond 2 0,7227 0,1600 0,407 1,033
β21: vic 1 3,2347 0,3199 2,633 3,878
β22: vic 2 2,7659 0,3119 2,174 3,395
β31: emp 1 1,4041 0,2871 0,867 1,992
β32: emp 2 1,2955 0,1882 0,925 1,661

Tabla 4.12 – Frecuencias ajustadas por el Modelo Logit Acumulativo


Resultado Resultado Final del encuentro
Condición
Parcial 30’ Victoria Empate Derrota
Victoria 85 (87) 16 (15) 7 (6)
Local Empate 100 (98) 110 (110) 62 (64)
Derrota 8 (7) 20 (21) 29 (29)
Victoria 43 (41) 17 (18) 9 (10)
Visitante Empate 55 (57) 104 (104) 96 (94)
Derrota 7 (8) 28 (27) 78 (78)
Nota: entre paréntesis figuran las frecuencias observadas.

El ajuste, si bien es bueno, no presenta una mejora sustancial


con respecto al obtenido a partir del modelo de Odds Proporcionales.
En consecuencia, este último modelo resulta preferible, ya que es
más parsimonioso que el Logit Acumulativo.

Finalmente, se ajustó un modelo de Categorías Adyacentes con


los mismo efectos en ambas ecuaciones. Para j = 1, 2 se tiene:

 P (Y = j) 
log   = β 0 j + β1 ⋅ cond + β 2 ⋅ vic + β 3 ⋅ emp
 P (Y = j + 1) 

72
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Las dos ecuaciones así definidas modelan las siguientes


probabilidades, las cuales difieren en cuanto a su interpretación con
respecto a las ajustadas anteriormente:

π   P (Ganar) 
• Si j=1 : log  1  = log   ;
 π2   P (Empatar) 

π   P (Empatar) 
• Si j=2 : log  2  = log   .
 π3   P (Perder) 

Al igual que antes, se establecieron distribuciones a priori


normales con media µ = 0 y variancia σ 2 = 1000 para los cinco

parámetros. Se simularon dos cadenas en WinBUGS, una iniciada en


un vector de ceros y la restante en las estimaciones MV de los
parámetros otorgadas por el package VGAM de R. Se dispuso que las
1.000 primeras muestras de ambos procesos sean descartadas, por
pertenecer al período de calentamiento, y luego se aplicó una poda
de intervalo 5, obteniéndose las estimaciones que figuran en la Tabla
4.13. Las frecuencias ajustadas por el modelo de Categorías
Adyacentes se presentan en la Tabla 4.14.

Tabla 4.13 – Estimaciones Bayesianas para el Modelo de Categ. Adyacentes


Parámetro Media Desvío Cuantil 2,5% Cuantil 97,5%
β01: Int 1 -1,4664 0,1704 -1,808 -1,144
β02: Int 2 -0,9589 0,1337 -1,224 -0,701
β1: cond 0,5169 0,0967 0,329 0,707
β2: vic 2,1831 0,1874 1,824 2,561
β3: emp 0,9361 0,1358 0,675 1,208

Tabla 4.14 – Frecuencias ajustadas por el Modelo de Categ. Adyacentes


Resultado Resultado Final del encuentro
Condición
Parcial 30’ Victoria Empate Derrota
Victoria 80 (87) 24 (15) 4 (6)
Local Empate 103 (98) 105 (110) 64 (64)
Derrota 8 (7) 19 (21) 30 (29)
Victoria 42 (41) 21 (18) 6 (10)
Visitante Empate 58 (57) 97 (104) 100 (94)
Derrota 7 (8) 29 (27) 77 (78)
Nota: entre paréntesis figuran las frecuencias observadas.

73
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

A primera vista, resulta evidente que el ajuste proporcionado


por el modelo de Odds Proporcionales es superior al conseguido
mediante el de Categorías Adyacentes. Si bien poseen diferentes
estructuras, ambos modelos pueden compararse con respecto al valor
del Criterio de Información Deviance, presentado a continuación.

4.3.1 Comparación de los modelos a través del DIC


El Criterio de Información Deviance (DIC) es una medida de
comparación ampliamente utilizada en el contexto de análisis
bayesianos. En la Tabla 4.15 se presentan los valores observados del
DIC para cada uno de los tres modelos ajustados mediante métodos
bayesianos.

Tabla 4.15 – Criterio de Información Deviance para los tres modelos


Modelo PMD1 Deviance pD DIC
Odds Prop. 64,44 59,51 4,93 69,37
Logit Acum. 65,16 57,19 7,97 73,13
Cat. Ady. 70,20 65,23 4,97 75,17
1
PMD se refiere a Posterior Mean Deviance (ver Sección 2.2.2).

Los modelos de Odds Proporcionales y Logit Acumulativo


suministran un ajuste similar, siendo este último levemente superior
de acuerdo al valor de la estadística Deviance. Sin embargo, el DIC
penaliza al modelo Logit Acumulativo debido a la elevada cantidad de
parámetros incluidos, seleccionando como modelo más conveniente al
de Odds Proporcionales. Por su parte, el modelo de Categorías
Adyacentes presenta el DIC más elevado, resultando así el menos
recomendable.
Teniendo en cuenta los valores observados del Criterio de
Información Deviance, se concluye que el modelo más adecuado a la
hora de describir la probabilidad de ganar, empatar o perder un
cotejo disputado por Newell’s es el de Odds Proporcionales.

74
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

4.4 Interpretación del modelo de Odds Proporcionales

Una ventaja de aplicar el paradigma bayesiano es la posibilidad


de interpretar de manera más intuitiva los resultados obtenidos. Por
ejemplo, analizando la Tabla 4.16 se concluye que la probabilidad de
que el valor del parámetro β1 se encuentre dentro del intervalo
(0,469;0,992) es igual a 0,95. Esta interpretación es posible gracias a
la forma en que se construyen los intervalos de confianza cuando se
utilizan técnicas bayesianas. En la inferencia frecuentista, por el
contrario, la conclusión se encuentra ligada al porcentaje de
ocasiones en las cuales un intervalo construido de esa manera
cubriría el verdadero valor de β1, considerando que pudieran
extraerse un gran número de muestras y para cada una de ellas se
ajustara un modelo de Odds Proporcionales.
Los límites inferiores de los intervalos bayesianos asociados a
los parámetros (β1 , β 2 , β 3 ) son mayores a cero. Este hecho nos da una

pauta para concluir que el efecto de las covariables incorporadas al


modelo es positivo.

Tabla 4.16 – Intervalos de Confianza del 95%


IC Bayesiano IC Frecuentista
Parámetro
LI LS LI LS
β01: Int 1 -2,914 -2,197 -2,906 -2,176
β02: Int 2 -1,13 -0,494 -1,129 -0,479
β1: cond 0,469 0,992 0,466 0,991
β2: vic 2,595 3,532 2,574 3,514
β3: emp 0,943 1,638 0,930 1,637

En la Tabla 4.17 se comparan los resultados del ajuste


frecuentista con aquellos obtenidos al considerar distribuciones a
priori con diferentes niveles de precisión. La estimación que figura en
la última columna corresponde a una aproximación de la media a
posteriori, obtenida como un promedio ponderado entre la estimación
MV y la media a priori:

75
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

E (β / y) ≅ ω A ⋅ β̂ MV + (1 − ω A ) ⋅ E (β) , (4.1)

Var (β)
con ω A = , siendo E (β) y Var (β) la esperanza y
Var (β) + Vâr (β̂MV )

variancia a priori, respectivamente, del parámetro β. La fórmula (4.1)


coincide con la (2.4), aplicada para calcular la esperanza a posteriori
en el contexto de una conjugación Normal-Normal. Agresti (2010) la
utiliza para estimar E (β / y) sin la necesidad de simular procesos de

Markov.

Tabla 4.17 – Resultados a posteriori para diferentes escenarios


Distribución Estim.
Parámetro Media Desvío
a priori Ponderada
Normal (0,1000) 0,7296 0,1337 0,7287
β1: cond Normal (0,1) 0,7003 0,1307 0,7158
Estimación MV 0,7287 0,1340 -
Normal (0,1000) 3,0576 0,2392 3,0437
β2: vic Normal (0,1) 2,7959 0,2268 2,8785
Estimación MV 3,0439 0,2397 -
Normal (0,1000) 1,2873 0,1765 1,2834
β3: emp Normal (0,1) 1,1092 0,1682 1,2429
Estimación MV 1,2834 0,1804 -

La distribución a priori difusa Normal (0,1000) incluida en la


comparación conduce a resultados muy similares a aquellos
otorgados por el método de estimación de Máxima Verosimilitud. Sin
embargo, las estimaciones obtenidas a partir de la distribución a
priori Normal estándar se alejan levemente de las restantes,
disminuyendo sus valores. Este resultado puede explicarse
considerando que el tamaño muestral no es lo suficientemente
grande como para dominar la estimación de los parámetros, pero es
imposible reducir totalmente la influencia de la información a priori
provista inicialmente.
Se observa además que las estimaciones ponderadas, si bien no
hacen uso de la información provista por las cadenas de Markov,

76
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

constituyen una aceptable aproximación de la media a posteriori de


los parámetros.

4.4.1 Razones de odds


Interpretar el modelo a través de razones de odds resulta útil,
ya que permite apreciar la influencia que ejercen las variables
explicativas sobre las frecuencias observadas en cada categoría de
respuesta:


• RO cond = exp (β̂1 ) = exp (0,7296) = 2,07 ⇒ La chance de obtener un

resultado mejor es 2,07 veces mayor cuando Newell’s juega como


local, manteniendo constante el resultado parcial a los 30 minutos.
Esto ocurre tanto cuando se compara la probabilidad de ganar vs no
ganar, como cuando se compara la probabilidad de no perder vs
perder.


• RO vic = exp (β̂ 2 ) = exp (3,0576) = 21,28 ⇒ La chance de obtener un

resultado mejor es 21 veces mayor cuando el equipo finaliza la


primer media hora al frente del marcador, manteniendo constante la
condición de localía. Esto ocurre tanto cuando se compara la
probabilidad de ganar vs no ganar, como cuando se compara la
probabilidad de no perder vs perder.


• RO emp = exp (β̂ 3 ) = exp (1,2873) = 3,62 ⇒ La chance de obtener un

resultado mejor es 3,62 veces mayor cuando el equipo se encuentra


empatando al término de los primeros 30 minutos, manteniendo
constante la condición de localía. Esto ocurre tanto cuando se
compara la probabilidad de ganar vs no ganar, como cuando se
compara la probabilidad de no perder vs perder.

77
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

En la Tabla 4.18 se presentan los intervalos de credibilidad del


95% para las tres razones de odds:

Tabla 4.18 – RO Estimadas por el Modelo de Odds Prop. Bayesiano


Efecto RO Estimada Cuantil 2,5% Cuantil 97,5%
Condición 2,0743 1,5989 2,6969
Victoria 21,2764 13,3966 34,1923
Empate 3,6230 2,5672 5,1449

Los intervalos construidos con el método HPD poseen una


amplitud menor que los incluidos en la Tabla 4.18. Sin embargo, a
pesar de ser más precisos, resultan inapropiados cuando se analizan
funciones no lineales de los parámetros estimados. Este es el caso de
las razones de odds, para las cuales se recomienda utilizar los
intervalos usuales de colas iguales. El inconveniente de los intervalos
HPD se manifiesta cuando se modifica la categoría de referencia
asociada a una variable explicativa. Por ejemplo, de acuerdo a las

variables indicativas definidas, β̂1 corresponde a la estimación del

efecto de jugar en condición de local. Al ajustar nuevamente el


modelo tras cambiar la categoría de referencia, se observa que el

efecto de jugar como visitante resulta igual a (−β̂1 ) . Si en el primer

caso el intervalo de tipo HPD consiste en los valores incluidos en el


conjunto (θ a ; θb ) , cuando se invierte la categoría modelada el

intervalo HPD estará constituido por los valores del conjunto


(−θb ; − θ a ) . Esta reciprocidad no se verifica al comparar los intervalos

HPD para funciones no lineales de β̂1 , como exp (β̂1 ) = RO cond ,

tornando inaceptable su utilización.

También resulta de interés calcular la probabilidad asociada a


observar razones de odds mayores a ek, lo que equivale a obtener
parámetros mayores a cierto valor k. En términos bayesianos, esto
puede llevarse a cabo investigando las densidades a posteriori de

78
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

cada parámetro (Sección 7.2.1 Anexo). Por ejemplo, para la variable


“Condición” se tiene:

P (RO cond > 2) = P [exp (β1 ) > exp(0,693)] = P (β1 > 0,693) ≅ 0,605 .

De esta manera es posible afirmar, con una certeza cercana al


60%, que cuando Newell’s juega como local la chance de obtener un
resultado mejor es, como mínimo, el doble de esa chance como
visitante. Esta interpretación es válida si se mantiene constante el
resultado parcial a los 30 minutos.

4.4.2 Comparación de hipótesis mediante el Factor de Bayes


En la Sección 2.2.3 se presentó el Factor de Bayes, medida
ampliamente utilizada en los análisis bayesianos para cuantificar la
evidencia a favor de ciertas hipótesis. En el contexto del presente
ejemplo, esta herramienta resulta útil para poner a prueba la fuerza
de los efectos estimados.
Se desea comprobar si el parámetro β1, asociado al efecto de
jugar en condición de local, es mayor a 0,5. Para ello se plantean dos
hipótesis igualmente probables a priori:

 H0 ) β1 ≥ 0,5
 con P (H0 ) = P (H1 ) = 1
H ) β < 0,5 2
 1 1

En este caso, el Factor de Bayes (B01) resulta igual al odds a


posteriori de la hipótesis nula:

P (H0 / y)
P (y / H0 ) P (H1 / y) P (H0 / y) P (β1 ≥ 0,5 / y)
B 01 = = = = .
P (y / H1 ) P (H0 ) P (H1 / y) P (β1 < 0,5 / y)
P (H1 )

79
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Tanto P (β1 ≥ 0,5 / y) como P (β1 < 0,5 / y) pueden calcularse

analizando las cadenas de Markov simuladas al ajustar el modelo de


Odds Proporcionales, observando la proporción de muestras de β1
que caen por encima y debajo de 0,5. Tras definir un burn-in de
1.000 iteraciones y aplicar una poda de intervalo 5, la información
combinada de las Cadenas 1 y 2 otorga los siguientes resultados:

 37.925
 P (β1 ≥ 0,5 / y) = 39.600 ≅ 0,9577


 1.675
 P (β1 < 0,5 / y) = ≅ 0,0423
 39.600

En consecuencia, el Factor de Bayes resulta:

P (β1 ≥ 0,5 / y) 0,9577


B 01 = = ≅ 22,64 .
P (β1 < 0,5 / y) 0,0423

Siguiendo la escala de valores presentada en la Tabla 2.1,


puede concluirse que la evidencia muestral a favor de la hipótesis
nula H0 ) β1 ≥ 0,5 es fuerte. En términos del problema, esto implica

que los datos avalan fuertemente la posibilidad que


exp (β1 ) ≥ exp (0,5) ⇒ RO cond ≥ 1,6487 , permitiendo concluir con

firmeza que cuando Newell’s actúa en condición de local,


manteniendo constante el resultado parcial, la chance de obtener un
resultado mejor es al menos 65% mayor que esa misma chance en
condición de visitante.

80
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

5. Consideraciones finales

La intención de este trabajo fue presentar los principales


conceptos que componen el cuerpo de la inferencia bayesiana de una
manera simple, incorporando ejemplos comparativos respecto a la
teoría clásica para facilitar su comprensión.
Los fundamentos de la teoría bayesiana fueron concebidos
mucho antes que se desarrollara la teoría clásica, pero su aplicación
en la práctica es reciente debido a la necesidad de contar con grandes
recursos computacionales. Para llevar a cabo un análisis bayesiano,
deben simularse muestras provenientes de una cierta función de
densidad multivariada, generalmente con expresión desconocida,
llamada distribución a posteriori. Esta distribución constituye la base
de la inferencia bayesiana, y se obtiene al combinar la función de
verosimilitud de los datos con la distribución a priori definida para los
parámetros, la cual refleja la incertidumbre acerca de los mismos en
el momento previo a la recolección de los datos.
El grado de influencia de las probabilidades a priori dependerá
del volumen de información previa disponible. Cuando las
distribuciones a priori son chatas o poco informativas, las
estimaciones puntuales bayesianas resultan, por lo general, iguales
en términos prácticos que las estimaciones obtenidas a través de
métodos clásicos. No obstante, en algunos casos es posible definir
probabilidades a priori subjetivas, construidas en base al
conocimiento de expertos en el tema o a resultados de estudios
similares. Cuando se combina este tipo de distribuciones a priori con
muestras pequeñas, los resultados se verán fuertemente afectados
por el tipo de información extra introducida.
Una de las principales diferencias entre ambas escuelas consiste
en el tratamiento otorgado a datos y parámetros. Como consecuencia

81
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

de esto, en el enfoque clásico se concluye acerca de posibles valores


del conjunto de datos (considerados aleatorios), dado un valor fijo de
los parámetros. El método bayesiano, por el contrario, basa sus
interpretaciones en posibles valores de los parámetros, que ahora son
aleatorios, dado un conjunto de datos fijo.
En la presente tesina se ilustraron las semejanzas y diferencias
en la aplicación de ambos paradigmas en un problema relacionado al
deporte. Aquí quedó demostrado que el enfoque clásico cuenta con la
ventaja de la simplicidad, ya que con sólo imponer una distribución a
los datos y definir el modelo pueden obtenerse resultados de forma
casi inmediata. Algunas complicaciones adicionales surgen cuando se
adopta una perspectiva bayesiana: definir probabilidades a priori
adecuadas y en base a ellas simular cadenas de Markov convergentes
no siempre es una tarea fácil. Sin embargo, éstos y otros obstáculos
a sortear se ven justificados cuando se analizan las virtudes del
método bayesiano. Las inferencias son válidas para cualquier tamaño
muestral y no dependen de supuestos distribucionales asintóticos,
mientras que las conclusiones acerca de los parámetros de interés
resultan mucho más intuitivas al basarse únicamente en
probabilidades y no en conjuntos de datos no observados. Además,
los estimadores bayesianos resultan generalmente más precisos que
los frecuentistas.
Cabe destacar que no se tuvieron en cuenta distribuciones a
priori subjetivas, ya que se consideró que el conjunto de datos
analizado no ameritaba la inclusión de información proveniente de
fuentes externas. Por otro lado, en modelos de Odds Proporcionales
la especificación de priors informativas orientadas hacia los
parámetros no es trivial, ya que éstos se relacionan con las
probabilidades acumuladas a través de funciones no lineales. Como
resulta poco intuitivo analizar de antemano los valores que pueden
llegar a tomar los efectos, es común imponer distribuciones a priori
directamente sobre las probabilidades de cada categoría de

82
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

respuesta, para cada uno de los perfiles definidos por las variables
explicativas.
La elección entre un paradigma u otro dependerá generalmente
de las características particulares del problema a resolver, siendo
inapropiado utilizar invariablemente un único enfoque. Por ejemplo, si
se cuenta con cierto grado de información a priori, resultará mucho
más natural emplear técnicas bayesianas. Caso contrario, deberá
evaluarse cuál es el enfoque más adecuado para dar respuesta a las
preguntas planteadas y, además, si se cuenta con los recursos
computacionales necesarios para aplicar el método bayesiano.
Este trabajo constituye un primer acercamiento a una teoría de
inferencia estadística de escasa difusión en el área, sentando las
bases para lograr un mayor desarrollo de la temática a futuro.

83
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

6. Bibliografía

Agresti A. (2010). Analysis of Ordinal Categorical Data - Second


Edition. John Wiley & Sons.

Bayes T. & Price R. (1763). An essay towards solving a problem in


the doctrine of chances. Philosophical Transactions of the Royal
Society of London, Vol. 53.

Berger J.O. (1985). Statistical Decision Theory and Bayesian Analysis


- Second Edition. Springer.

Best N.G. & Cowles M.K. & Vines S.K. (1996). CODA: Convergence
Diagnosis and Output Analysis Software for Gibbs sampling output -
Version 0.30. MRC Biostatistics Unit.

Brooks S.P. (1998). Markov Chain Monte Carlo method and its
application. Journal of the Royal Statistical Society: Series D, Vol. 47
- Nº 1.

Brooks S.P. & Gelman A. (1998). General methods for monitoring


convergence of iterative simulations. Journal of Computational and
Graphical Statistics, Vol. 7 - Nº 4.

Celeux G. & Forbes F. & Robert C.P. & Titterington D.M. (2006).
Deviance Information Criterion for missing data models. Bayesian
Analysis, Vol. 1 - Nº 4.

Congdon P. (2006). Bayesian Statistical Modelling - Second Edition.


John Wiley & Sons.

Dale A.I. (1999). A history of inverse probability: from Thomas Bayes


to Karl Pearson - Second Edition. Springer.

Dobson A.J. (2002). An Introduction to Generalized Linear Models -


Second Edition. Chapman & Hall/CRC.

Dobson A.J. & Barnett A.G. (2008). An Introduction to Generalized


Linear Models - Third Edition. Chapman & Hall/CRC.

Fienberg S.E. (2006). When did Bayesian inference become


"Bayesian"?. Bayesian Analysis, Vol. 1 - Nº 1.

84
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Gelfand A.E. & Smith A.F.M. (1990). Sampling-based approaches to


calculating marginal densities. Journal of the American Statistical
Association, Vol. 85 - Nº 410.

Gelman A. & Carlin J.B. & Stern H.S. & Rubin D.B. (2004). Bayesian
Data Analysis - Second Edition. Chapman & Hall/CRC.

Gelman A. & Rubin D.B. (1992). Inference from iterative simulation


using multiple sequences. Statistical Science, Vol. 7 - Nº 4.

Geman S. & Geman D. (1984). Stochastic relaxation, Gibbs


distributions, and the Bayesian restoration of images. IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol. 6 - Nº
6.

Geweke J. (1992). Evaluating the accuracy of sampling-based


approaches to the calculation of posterior moments. Bayesian
Statistics 4 - Oxford University Press.

Gilks W.R. & Richardson S. & Spiegelhalter D.J. (1996). Markov Chain
Monte Carlo in Practice. Chapman & Hall/CRC.

Grimmett G.R. & Stirzaker D.R. (2001). Probability and random


processes - Third Edition. Oxford University Press.

Hastings W.K. (1970). Monte Carlo sampling methods using Markov


Chains and their applications. Biometrika, Vol. 57 - Nº 1.

Hoff P.D. (2009). A First Course in Bayesian Statistical Methods.


Springer.

Irony T.Z. & Singpurwalla N.D. (1997). Noninformative priors do not


exist: a discussion with José M. Bernardo. Journal of Statistical
Planning and Inference, Vol. 65.

Jeffreys H. (1961). Theory of Probability - Third Edition. Oxford


University Press.

Jordan M.I. (2010). Jeffreys priors. Stat 260: Bayesian modeling and
inference, Lecture 6.

Kass R.E. & Raftery A.E. (1995). Bayes Factors and model
uncertainty. Journal of the American Statistical Association, Vol. 90 -
Nº 430.

Laplace P.S. (1774). Mémoire sur la probabilité des causes par les
événements. Mémoires de mathématique et de physique, présentés à

85
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

l'Académie Royale des Sciences par divers sçavans, et lus dans ses
assemblées, Vol. 6.

Lindley D.V. & Phillips L.D. (1976). Inference for a Bernoulli Process
(a Bayesian view). The American Statistician, Vol. 30 - Nº 3.

Little R.J.A. (2006). Calibrated Bayes: a Bayes/Frequentist roadmap.


The American Statistician, Vol. 60 - Nº 3.

Lunn D.J. & Jackson C.H. & Best N.G. & Thomas A. & Spiegelhalter
D.J. (2012). The BUGS Book: A Practical Introduction to Bayesian
Analysis. Chapman & Hall/CRC.

Lunn D.J. & Spiegelhalter D.J. & Thomas A. & Best N.G. (2009). The
BUGS project: evolution, critique and future directions. Statistics in
Medicine, Vol. 28 - Nº 25.

Metropolis N.C. & Rosenbluth A.W. & Rosenbluth M.N. & Teller A.H. &
Teller E. (1953). Equation of state calculations by fast computing
machines. Journal of Chemical Physics, Vol. 21 - Nº 6.

Ntzoufras I. (2009). Bayesian Modeling using WinBUGS. John Wiley &


Sons.

Plummer M. & Best N.G. & Cowles M.K. & Vines S.K. (2006). CODA:
Convergence Diagnosis and Output Analysis for MCMC. R News, Vol.
6.

Raftery A.E. & Lewis S.M. (1992). How many iterations in the Gibbs
sampler?. Bayesian Statistics 4 - Oxford University Press.

Robert C.P. & Casella G. (2011). A short history of Markov Chain


Monte Carlo: subjective recollections from incomplete data. Statistical
Science, Vol. 26 - Nº 1.

Ross S.M. (1999). Simulation - Second Edition. Prentice Hall.

Spiegelhalter D.J. & Best N.G. & Carlin B.P. & Van Der Linde A.
(2002). Bayesian measures of model complexity and fit. Journal of
the Royal Statistical Society: Series B, Vol. 64 - Nº 4.

Spiegelhalter D.J. & Thomas A. & Best N.G. & Lunn D.J. (2007).
WinBUGS User Manual - Version 1.4.3. MRC Biostatistics Unit.

Stigler S.M. (1982). Thomas Bayes's Bayesian Inference. Journal of


the Royal Statistical Society: Series A, Vol. 145 - Nº 2.

86
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Stigler S.M. (1986). The History of Statistics: the measurement of


uncertainty before 1900. Harvard University Press.

Sturtz S. & Ligges U. & Gelman A. (2005). R2WinBUGS: a package


for running WinBUGS from R. Journal of Statistical Software, Vol. 12 -
Nº 3.

Syversveen A.R. (1998). Noninformative Bayesian priors.


Interpretation and problems with construction and applications.
Norges teknisk-naturvitenskapelige universitet Preprint Statistics, Vol.
3/1998.

Thomas A. & O'Hara B. & Ligges U. & Sturtz S. (2006). Making BUGS
Open. R News, Vol. 6.

Verde P.E. (2010). An introduction of Bayesian data analysis with R


and BUGS: a simple worked example. Estadística IASI, Vol. 62 - Nº
179.

Wickham H. (2009). ggplot2: Elegant Graphics for Data Analysis.


Springer.

Yang R. & Berger J.O. (1997). A catalog of noninformative priors.


ISDS Discussion Paper 1997-42, Duke University.

Yee T.W. (2010). The VGAM Package for Categorical Data Analysis.
Journal of Statistical Software, Vol. 32 - Nº 10.

Zhu M. & Lu A.Y. (2004). The counter-intuitive non-informative prior


for the Bernoulli Family. Journal of Statistics Education, Vol. 12 - Nº
2.

87
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7. Anexo

7.1 Modelos Lineales Generalizados para respuestas


7.1 multicategóricas

Los Modelos Lineales Generalizados (MLG) ofrecen una amplia


variedad de posibilidades a la hora de modelar variables
multicategóricas, ya sean éstas nominales u ordinales. Tomando
como punto de partida las ideas presentes en el modelo de Regresión
Logística, comúnmente utilizado para analizar respuestas
dicotómicas, es posible generalizar el método, haciendo viable su
aplicación para los casos en que la variable de interés puede tomar
uno de J > 2 valores posibles.
En todos los modelos presentados a continuación, se considera
que la variable respuesta Y sigue una distribución Multinomial con
parámetros (n, π 1 , π 2 , K , π J ) . Si se cuenta con n observaciones

independientes de Y que resultan en yj respuestas para la j-ésima


categoría ( j = 1, 2, K , J ), su distribución puede expresarse como:

J
n!
⋅ ∏ πj j .
y
f (y 1 , y 2 , K , y J / n, π 1 , π 2 , K , π J ) = J

∏y !
j =1
j
j =1

J
En este contexto, n = ∑y
j =1
j es el número total de pruebas

realizadas. A su vez, cada π j = P (Y = y j ) representa la probabilidad

de que, en un determinado ensayo, la variable Y caiga dentro de la j-


ésima categoría. Las probabilidades deben verificar la condición
J

∑π
j =1
j = 1.

88
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Si bien en este caso la distribución de la variable respuesta no


pertenece a la familia exponencial, requisito básico de los MLG, puede
demostrarse que la distribución conjunta de J variables Poisson,
condicionadas al valor de su suma, es Multinomial. Esta relación entre
las distribuciones Multinomial y Poisson, que sí se encuentra dentro
de la familia exponencial, hace válida la aplicación de los MLG para
modelar una variable respuesta con las características mencionadas
(Dobson, 2002).
Estimar de forma precisa las πj y deducir la manera en la cual
influye sobre ellas un conjunto de variables independientes es el
objetivo principal de los modelos considerados en este capítulo.

7.1.1 Modelo de Regresión Logística Nominal


En este tipo de modelos se considera que las J categorías de
respuesta no poseen ningún orden natural. Para poder especificar las
ecuaciones logísticas es necesario seleccionar a una de ellas como
categoría de referencia. Si, por ejemplo, se elige a la primera ( j = 1)

luego es posible definir (J − 1) predictores lineales de la forma:

 πj 
log   = x' ⋅ β j = ηj
 para j = 2, 3, L , J .
π
 1

siendo x un vector de variables explicativas y βj el vector de


parámetros asociado al j-ésimo predictor lineal ηj. Es de esperar que
el efecto de las covariables varíe de acuerdo a la categoría de
respuesta que se compara con la de referencia; debido a esto los
parámetros β se modifican de ecuación a ecuación.
La estimación de las probabilidades asociadas a cada categoría,
fijado el valor de las covariables presentes en el modelo, viene dada
por:

89
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 1
 J
para j = 1
1 + ∑ exp (η̂ j )
 j=2

π̂ j = 
 exp (η̂ j )
 para j = 2, 3, L , J
 J

1 + ∑ exp (η̂ j )
 j=2

7.1.2 Modelo Logit Acumulativo


A diferencia del anterior, este modelo toma en cuenta la
ordinalidad de las categorías a la hora de definir las ecuaciones
logísticas. Se modelan (J − 1) relaciones, basadas en el logit de la

probabilidad que la variable Y caiga dentro de una categoría menor o


igual a la j-ésima:

P (Y ≤ j) π1 + π 2 + K + π j
log it P (Y ≤ j) = log = log = x' ⋅ β j = ηj
P (Y > j) π j +1 + π j + 2 + K + π J

para j = 1, 2, L , J − 1 .

El modelo Logit Acumulativo se caracteriza por incorporar las J


categorías en cada una de sus ecuaciones, en contraste a lo que
ocurre en el modelo de Regresión Logística Nominal, donde solo
entran en juego 2 categorías a la vez.
Tomando η0 = −∞ y η J = +∞ es posible obtener una expresión

para las probabilidades estimadas por el modelo:

exp (η̂ j ) exp (η̂ j − 1 )


ˆj =
π − para j = 1, 2, K , J .
1 + exp (η̂ j ) 1 + exp (η̂ j − 1 )

Existen ocasiones en las cuales este modelo arroja resultados


que contradicen las leyes básicas de probabilidad. Concretamente, es

posible obtener estimaciones de la forma P̂ (Y ≤ j) > P̂ (Y ≤ j + k) para

90
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

k > 0, en presencia de covariables continuas. Debido a este


inconveniente, muchas veces es preferible considerar otros modelos a
la hora de analizar variables multicategóricas ordinales.

7.1.3 Modelo de Odds Proporcionales


Este es un caso especial, más parsimonioso, del Modelo Logit
Acumulativo. Asume que el efecto de las covariables es el mismo
para cada logit, variando únicamente el intercepto entre las
ecuaciones. Posee la ventaja de respetar el orden de las categorías,
ya que a través de sus probabilidades estimadas queda asegurada la

condición P̂ (Y ≤ 1) ≤ P̂ (Y ≤ 2) ≤ K ≤ P̂ (Y ≤ J) , cualquiera sea el valor

de las covariables incluidas.


El modelo de Odds Proporcionales se expresa:

P (Y ≤ j) π1 + π 2 + K + π j
log it P (Y ≤ j) = log = log = β0j + x ' ⋅ β = ηj
P (Y > j) π j+1 + π j+ 2 + K + π J

para j = 1, 2, L , J − 1 . (I)

Las probabilidades pueden estimarse de forma idéntica a como


se obtienen para el modelo Logit Acumulativo:

exp (η̂ j ) exp (η̂ j − 1 )


ˆj =
π − para j = 1, 2, K , J .
1 + exp (η̂ j ) 1 + exp (η̂ j − 1 )

La ecuación (I) plantea implícitamente un supuesto de


proporcionalidad que no siempre se verifica. Por ello, es necesario
confirmar el cumplimiento del supuesto antes de interpretar los
resultados. Autores como Agresti (2010) advierten que los tests
empleados regularmente para chequear esta suposición no son
confiables, argumentando que la decisión entre aplicar este modelo o

91
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

el Logit Acumulativo debe basarse en términos de bondad de ajuste y


practicidad.
La propiedad de Odds Proporcionales surge a partir del
siguiente razonamiento: supongamos que se desea comparar la
chance de observar una respuesta en las categorías (1,2,…,j) dado
que una variable explicativa X toma el valor x1, contra la chance de
obtener una respuesta en esas mismas categorías, siendo que X toma
el valor x2. Siguiendo el modelo planteado en (I) estas cantidades
pueden expresarse como:

 P (Y ≤ j / X = x1 ) P (Y ≤ j / X = x1 )
1 − P (Y ≤ j / X = x ) = P (Y > j / X = x1 )
= exp (β 0 j + β1 ⋅ x1 )
 1


 P (Y ≤ j / X = x ) P (Y ≤ j / X = x2 )
 2
= = exp (β 0 j + β1 ⋅ x 2 )
1 − P (Y ≤ j / X = x 2 ) P (Y > j / X = x2 )

La razón de odds (RO) asociada resulta:

exp (β 0 j + β1 ⋅ x1 )
RO j (x1 vs x 2 ) = = exp [β1 ⋅ (x 1 − x 2 )] .
exp (β 0 j + β1 ⋅ x 2 )

En consecuencia, cuando X = x1 la chance de observar una

respuesta en una categoría menor o igual a j es exp [β1 ⋅ (x1 − x 2 )]

veces la chance para el caso X = x 2 . El logaritmo natural de la razón

de odds, igual a β1 ⋅ (x1 − x 2 ) , es proporcional a la distancia existente

entre x1 y x2; de ahí el supuesto de proporcionalidad que da nombre


al modelo.

7.1.4 Modelo de Categorías Adyacentes


En lugar de considerar probabilidades acumuladas, este modelo
ofrece la alternativa de modelar razones entre categorías sucesivas:

92
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

 πj 
log   = x ' ⋅ β j = η j con j = 1, 2, L , J − 1 .
π 
 j +1 

Los parámetros βj pueden variar entre ecuaciones si se supone


que el efecto de las variables explicativas no es el mismo para todos
los pares de categorías adyacentes. A su vez, si se sostiene el
supuesto de Odds Proporcionales, es probable que un modelo de este
tipo con βj idénticos provea un buen ajuste. A diferencia de lo que
ocurre cuando se consideran logits acumulados, ambas versiones del
modelo de Categorías Adyacentes otorgan estimaciones de
probabilidades acumuladas que respetan la ordinalidad de la variable

respuesta, verificando P̂ (Y ≤ 1) ≤ P̂ (Y ≤ 2) ≤ K ≤ P̂ (Y ≤ J) .

Las probabilidades estimadas por el modelo se obtienen


mediante las siguientes fórmulas:

  J −1 
 exp  ∑ η̂k 
 
 k = j  para j = 1, 2, L , J − 1
 J −1
 J −1 
1 + ∑ exp  ∑ η̂k 
 t =1 k =t 

ˆj = 
π
 1
 para j = J
 J −1
 J −1 
1 + ∑
t =1
exp  ∑ η̂k 
k =t 


Existe una estrecha relación entre este modelo y el de


Regresión Logística Nominal, ya que conociendo el valor de los
predictores lineales para uno de los dos, es posible calcular los
correspondientes al restante. Partiendo del Nominal, con J como clase
de referencia, las ecuaciones de categorías adyacentes resultan:

 πj  π  π 
log   = log  j  − log  j + 1  .
π   π 
π 
 j +1   J  J 

93
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Análogamente, para obtener los logit del modelo de Regresión


Logística Nominal a partir de los adyacentes, la fórmula a aplicar es:

 πj  J −1
 πk 
log 
π
=
 ∑ log  π  .
 J  k=j  k +1 

94
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7.2 Ajuste del Modelo de Odds Proporcionales

Si se ajusta un modelo desde el modo script, el software


WinBUGS 1.4.3 establece por defecto un burn-in de 1.999
iteraciones. Debido a esto, el tamaño de muestra a posteriori
empleado para calcular las estadísticas descriptivas se ve reducido:
en lugar de emplear las 200.000 iteraciones disponibles,
correspondientes a las dos cadenas de 100.000 pasos iniciadas, se
utilizan 2 ⋅ (100.000 − 1.999) = 196.002 valores.

Código WinBUGS para el ajuste del Modelo de Odds Proporcionales

model {

for (i in 1:6) {

y[i,1:3] ~ dmulti(p[i,1:3],n[i]); # Respuesta Multinomial

# Probabilidades
p[i,1] <- max(0.00001,exp(eta[i,1])/(1+exp(eta[i,1])));
p[i,2] <- max(0.00001,(exp(eta[i,2])/(1+exp(eta[i,2]))) - p[i,1]);
p[i,3] <- max(0.00001,1 - p[i,1] - p[i,2]);

# Predictores Lineales
eta[i,1] <- int1 + cond*local[i] + vic*pg[i] + emp*pe[i];
eta[i,2] <- int2 + cond*local[i] + vic*pg[i] + emp*pe[i];

# Frecuencias Estimadas
victorias[i,1] <- n[i]*p[i,1];
empates[i,1] <- n[i]*p[i,2];
derrotas[i,1] <- n[i]*p[i,3];

# Priors
int1~dnorm(0,0.001);
int2~dnorm(0,0.001);
cond~dnorm(0,0.001);
vic~dnorm(0,0.001);
emp~dnorm(0,0.001);

95
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Tabla 7.1 – Salida WinBUGS para el Modelo de Odds Proporcionales


node mean sd MC error 2.5% median 97.5% start sample
cond 0.7301 0.1334 0.001243 0.47 0.7297 0.9916 2000 196002
derrotas[1,1] 5.304 1.018 0.006511 3.544 5.223 7.529 2000 196002
derrotas[2,1] 62.58 5.565 0.03962 52.06 62.45 73.85 2000 196002
derrotas[3,1] 29.57 2.482 0.03421 24.74 29.56 34.43 2000 196002
derrotas[4,1] 6.664 1.189 0.007154 4.585 6.569 9.242 2000 196002
derrotas[5,1] 97.47 6.687 0.04642 84.51 97.4 110.8 2000 196002
derrotas[6,1] 77.98 3.898 0.06676 70.16 78.05 85.42 2000 196002
deviance 64.42 3.141 0.0245 60.3 63.77 72.23 2000 196002
emp 1.287 0.1763 0.002902 0.9444 1.285 1.637 2000 196002
empates[1,1] 19.13 2.534 0.01203 14.38 19.06 24.34 2000 196002
empates[2,1] 108.6 5.171 0.02646 98.6 108.6 118.8 2000 196002
empates[3,1] 19.39 1.5 0.01603 16.38 19.41 22.26 2000 196002
empates[4,1] 19.32 1.994 0.01212 15.4 19.31 23.22 2000 196002
empates[5,1] 101.1 4.872 0.02761 91.6 101.0 110.7 2000 196002
empates[6,1] 26.72 2.776 0.0429 21.38 26.69 32.2 2000 196002
int1 -2.548 0.1823 0.003171 -2.914 -2.546 -2.197 2000 196002
int2 -0.8055 0.1623 0.002787 -1.13 -0.8034 -0.4933 2000 196002
vic 3.057 0.2383 0.003199 2.595 3.054 3.529 2000 196002
victorias[1,1] 83.57 3.398 0.01781 76.54 83.69 89.88 2000 196002
victorias[2,1] 100.8 6.914 0.03567 87.49 100.7 114.5 2000 196002
victorias[3,1] 8.044 1.282 0.01883 5.749 7.969 10.76 2000 196002
victorias[4,1] 43.02 2.97 0.01804 37.07 43.07 48.71 2000 196002
victorias[5,1] 56.46 5.211 0.04015 46.69 56.34 67.06 2000 196002
victorias[6,1] 8.304 1.401 0.02423 5.813 8.215 11.3 2000 196002

7.2.1 Funciones de densidad a posteriori

96
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

97
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

98
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7.2.2 Evolución de las medias e IC del 95%


La línea roja corresponde a la cadena iniciada en un vector de
ceros, mientras que la azul corresponde a la cadena iniciada en las
estimaciones obtenidas mediante SAS.

Intercepto Logit 1
-2.0

-2.5

-3.0

2000 25000 50000 75000 100000


Iteración

Intercepto Logit 2
-0.4

-0.6

-0.8

-1.0

-1.2

2000 25000 50000 75000 100000


Iteración

99
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Empate
2.0

1.5

1.0

0.5

2000 25000 50000 75000 100000


Iteración

Victoria
4.0

3.5

3.0

2.5

2000 25000 50000 75000 100000


Iteración

Local

1.0

0.8

0.6

0.4

2000 25000 50000 75000 100000


Iteración

100
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7.2.3 Función de autocorrelación


Int 1 Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5

Cadena 1

Cadena 2

Int 2 Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5

Cadena 1

Cadena 2

101
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Condición Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5

Cadena 1

Cadena 2

Victoria Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5

Cadena 1

Cadena 2

102
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

Empate Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5

Cadena 1

Cadena 2

103
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7.2.4 Diagnóstico BGR


La línea roja representa el valor de R, la azul corresponde a la
variabilidad intra cadenas (W) y la verde a la variabilidad entre
cadenas (B).
El primer intervalo considerado incluye desde la observación
2.490 hasta la 2.979 inclusive; el segundo comienza en la
observación 2.980 y finaliza en la 3.959, y así sucesivamente. En
total, se calcularon los valores de R, W y B para 100 intervalos
diferentes, cada uno de los cuales incorpora 500 muestras más que el
anterior. El último de ellos es el más amplio y está conformado por
las muestras correspondientes a las iteraciones del intervalo (51.000
– 99.999).

104
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

105
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

106
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7.3 Ajuste del Modelo Logit Acumulativo

Código WinBUGS para el ajuste del Modelo Logit Acumulativo

model {

for (i in 1:6) {

y[i,1:3] ~ dmulti(p[i,1:3],n[i]); # Respuesta Multinomial

# Probabilidades
p[i,1] <- max(0.00001,exp(eta[i,1])/(1+exp(eta[i,1])));
p[i,2] <- max(0.00001,(exp(eta[i,2])/(1+exp(eta[i,2]))) - p[i,1]);
p[i,3] <- max(0.00001,1 - p[i,1] - p[i,2]);

# Predictores Lineales
eta[i,1] <- int1 + cond1*local[i] + vic1*pg[i] + emp1*pe[i];
eta[i,2] <- int2 + cond2*local[i] + vic2*pg[i] + emp2*pe[i];

# Priors
int1~dnorm(0,0.001);
int2~dnorm(0,0.001);
cond1~dnorm(0,0.001);
vic1~dnorm(0,0.001);
emp1~dnorm(0,0.001);
cond2~dnorm(0,0.001);
vic2~dnorm(0,0.001);
emp2~dnorm(0,0.001);

Tabla 7.2 – Salida WinBUGS para el Modelo Logit Acumulativo


node mean sd MC error 2.5% median 97.5% start sample
cond1 0.7556 0.1613 0.001738 0.4385 0.7568 1.075 2000 196002
cond2 0.7225 0.1601 0.00149 0.4084 0.7225 1.033 2000 196002
deviance 65.16 3.998 0.0354 59.32 64.5 74.7 2000 196002
emp1 1.405 0.2867 0.006335 0.8684 1.398 1.99 2000 196002
emp2 1.295 0.188 0.002904 0.9269 1.295 1.662 2000 196002
int1 -2.703 0.2805 0.006312 -3.277 -2.696 -2.179 2000 196002
int2 -0.7905 0.1719 0.002762 -1.132 -0.7885 -0.458 2000 196002
vic1 3.235 0.3203 0.006499 2.631 3.228 3.883 2000 196002
vic2 2.766 0.3126 0.003463 2.174 2.758 3.399 2000 196002

107
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7.4 Ajuste del Modelo de Categorías Adyacentes

Código WinBUGS para el ajuste del Modelo de Categorías Adyacentes Prop.

model {

for (i in 1:6) {

y[i,1:3] ~ dmulti(p[i,1:3],n[i]); # Respuesta Multinomial

# Probabilidades
p[i,1] <- max(0.00001,exp(eta[i,1]+eta[i,2])/(1+exp(eta[i,1]+eta[i,2])+exp(eta[i,2])));
p[i,2] <- max(0.00001,exp(eta[i,2])/(1+exp(eta[i,1]+eta[i,2])+exp(eta[i,2])));
p[i,3] <- max(0.00001,1/(1+exp(eta[i,1]+eta[i,2])+exp(eta[i,2])));

# Predictores Lineales
eta[i,1] <- int1 + cond*local[i] + vic*pg[i] + emp*pe[i];
eta[i,2] <- int2 + cond*local[i] + vic*pg[i] + emp*pe[i];

# Priors
int1~dnorm(0,0.001);
int2~dnorm(0,0.001);
cond~dnorm(0,0.001);
vic~dnorm(0,0.001);
emp~dnorm(0,0.001);

Tabla 7.3 – Salida WinBUGS para el Modelo de Categorías Adyacentes


node mean sd MC error 2.5% median 97.5% start sample
cond 0.5174 0.09651 8.235E-4 0.3303 0.5175 0.707 2000 196002
deviance 70.2 3.166 0.02532 66.03 69.54 78.04 2000 196002
emp 0.9358 0.1359 0.002128 0.6734 0.9333 1.208 2000 196002
int1 -1.466 0.1703 0.002539 -1.808 -1.464 -1.142 2000 196002
int2 -0.9585 0.1336 0.001797 -1.223 -0.9569 -0.7009 2000 196002
vic 2.182 0.1874 0.002424 1.823 2.18 2.56 2000 196002

108
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

7.5 Código de R para la cadena del Ejemplo 2.5

# MUESTRA SIMULADA
n <- 50
mu <- 3
sigma <- 1
y <- rnorm(n,mean=mu,sd=sigma)

# CADENA
burnin <- 100
inicio <- burnin+1
iter <- 1000
N <- burnin + iter

# PRIOR
mup <- 0
sigmap <- 10

# POSTERIOR
rho <- (1/sigmap^2)/((1/sigmap^2)+(n/sigma^2))
media <- (1-rho)*mean(y)
desvio <- sqrt(1/((1/sigmap^2)+(n/sigma^2)))

sdprop <- seq(0.05,5,by=0.01) #DIFERENTES DESVIOS PARA LA PROPUESTA


largo <- length(sdprop)
medias <- matrix(0,largo,1)
accrate <- matrix(0,largo,1)
sd1 <- matrix(0,iter,1)
sd2 <- matrix(0,iter,1)
sd3 <- matrix(0,iter,1)

#### LOOP ####

for (j in 1:largo) {
tita <- matrix(0,N+1,1)
titae <- matrix(0,N+1,1)
ptita <- matrix(0,N+1,1)
ptitae <- matrix(0,N+1,1)
alfa <- matrix(0,N+1,1)
rech <- 0

#PROPOSAL
titae[1] <- qnorm(runif(1),mean=tita[1],sd=sdprop[j])

#POSTERIOR = VEROSIMILITUD * PRIOR


ptita[1] <- prod(dnorm(y,mean=tita[1],sd=sigma))*dnorm(tita[1],mean=mup,sd=sigmap)

#POSTERIOR DEL VALOR PROPUESTO = VEROSIMILITUD * PRIOR


ptitae[1] <- prod(dnorm(y,mean=titae[1],sd=sigma))*dnorm(titae[1],mean=mup,sd=sigmap)

#PROBABILIDAD DE ACEPTACION
alfa[1] <- min(1,ptitae[1]/ptita[1])

for (i in 2:N+1) {
if (runif(1)<alfa[i-1]) {
tita[i]=titae[i-1]
} else {
tita[i]=tita[i-1]
rech <- rech+1
}
titae[i] <- qnorm(runif(1),mean=tita[i-1],sd=sdprop[j])
ptita[i] <- prod(dnorm(y,mean=tita[i],sd=sigma))*dnorm(tita[i],mean=mup,sd=sigmap)
ptitae[i] <- prod(dnorm(y,mean=titae[i],sd=sigma))*dnorm(titae[i],mean=mup,sd=sigmap)
alfa[i] <- min(1,ptitae[i]/ptita[i])
}

acep <- 100*(1-rech/N)


medias[j,1]=mean(tita[inicio:N])
accrate[j,1]=acep

109
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013

# 1,26,176 SON LOS DESVIOS DE LA PROPUESTA GRAFICADOS


if (j==1) {
for (k in 1:1000) {
sd1[k]=tita[k+100]
}
}

if (j==26) {
for (k in 1:1000) {
sd2[k]=tita[k+100]
}
}

if (j==176) {
for (k in 1:1000) {
sd3[k]=tita[k+100]
}
}
}

110

También podría gustarte