2013 Marfetán Diego

Universidad Nacional de Rosario
Facultad de Ciencias Económicas y Estadística
Escuela de Estadística
Licenciatura en Estadística
Tesina
“Introducción a la
Inferencia Bayesiana”
Alumno: Diego Marfetán Molina
Directora: Mgs. Leticia Hachuel
Diciembre 2013
Indice
1. Introducción 111
2. Conceptos básicos de la Inferencia Bayesiana 114
2.1 Probabilidades a priori 116
2.1.1 Priors no informativas 117
2.1.2 Evaluar el peso de la prior 119
2.1.3 Priors impropias 110
2.1.4 Conjugación 110
2.2 Inferencia Bayesiana 113
2.2.1 Intervalos de confianza 114
2.2.2 El criterio de información Deviance 115
2.2.3 El Factor de Bayes 117
2.3 Métodos MCMC 121
2.3.1 Simulando la distribución a posteriori 121
2.3.2 El método de Monte Carlo 122
2.3.3 Cadenas de Markov 124
2.3.4 El muestreador de Metropolis-Hastings 126
2.3.5 El muestreador de Gibbs 130
2.4 Diagnósticos de convergencia de cadenas 131
2.4.1 Múltiples cadenas 132
2.4.2 Test de autocorrelación 133
2.4.3 Diagnóstico de Geweke 134
2.4.4 Diagnóstico BGR 135
2.4.5 Método de Raftery & Lewis 136
II
2.5 Ejemplo: simulación de una cadena de Markov 137
3. Paradigma Bayesiano Vs Paradigma Frecuentista 145
3.1 Principio de Verosimilitud 148
4. Aplicación 153
4.1 Descripción del conjunto de datos 154
4.2 Software 156
4.3 Modelo de Odds Proporcionales 159
4.2.1 Enfoque frecuentista 160
4.2.2 Enfoque bayesiano 162
4.2.3 Diagnósticos de convergencia 164
4.3 Modelos alternativos 171
4.3.1 Comparación de los modelos a través del DIC 174
4.4 Interpretación del modelo de Odds Proporcionales 175
4.4.1 Razones de odds 177
4.4.2 Comparación de hipótesis mediante el 179

5.4.2 Factor de Bayes
5. Consideraciones finales 181
6. Bibliografía 184
7. Anexo 188
7.1 Modelos Lineales Generalizados para respuestas 188

8.1 multicategóricas
7.1.1 Modelo de Regresión Logística Nominal 189
7.1.2 Modelo Logit Acumulativo 190
7.1.3 Modelo de Odds Proporcionales 191
III
7.1.4 Modelo de Categorías Adyacentes 192
7.2 Ajuste del Modelo de Odds Proporcionales 195
7.2.1 Funciones de densidad a posteriori 196
7.2.2 Evolución de las medias e IC del 95% 199
7.2.3 Función de autocorrelación 101
7.2.4 Diagnóstico BGR 104
7.3 Ajuste del Modelo Logit Acumulativo 107
7.4 Ajuste del Modelo de Categorías Adyacentes 108
7.5 Código de R para la cadena del Ejemplo 2.5 109
IV
Diego Marfetán Molina - Introducción a la Inferencia Bayesiana 2013
1. Introducción
“An essay towards solving a problem in the doctrine of chances”

es el título del artículo original escrito por Thomas Bayes que, con el
paso de los años y luego de múltiples análisis e interpretaciones
(Stigler, 1982; Dale, 1999) desencadenaría en el nacimiento y
desarrollo de uno de los dos métodos de inferencia estadística más
importantes: el bayesiano. La obra fue publicada de manera póstuma
en 1763, luego de que el filósofo y amigo personal de Bayes, Richard
Price, la rescatara de entre sus papeles y enviara a la Royal Society
de Londres. Previamente a la entrega del tratado, Price agregó un
anexo e incluyó una introducción de su autoría, descartando la
redactada por el propio Bayes. Concretamente, el ensayo teoriza
acerca de cómo hallar la probabilidad de que una cierta proporción se
encuentre en un determinado intervalo, dado que se conoce el
número de sucesos y fracasos de un evento. En otras palabras, lo que
Bayes pretendía conocer era P (c < π < d / X) , siendo X el número de
éxitos obtenidos tras n repeticiones y π la probabilidad de éxito en

cada repetición. En su intento por resolver este problema, Bayes
siguió un razonamiento basado en analogías geométricas, tratando a
las probabilidades como áreas; si bien nunca llegó a enunciar
concretamente el teorema que lleva su nombre, sí puede decirse que
presentó un caso particular del mismo ligado a la distribución
binomial.
En 1774 el matemático francés Pierre-Simon Laplace publica en
su trabajo “Mémoire sur la probabilité des causes par les
événements” un principio que se aproxima a lo que hoy en día se
conoce como Regla o Teorema de Bayes. Aparentemente, Laplace
desconocía en ese momento la existencia del ensayo aparecido una
década antes y obtuvo sus resultados de forma independiente
1
(Stigler, 1986). Recurriendo a una notación actual, el principio

elaborado por Laplace afirma lo siguiente:
Supongamos que un evento B puede ocurrir como efecto de una
de m causas (A 1 , A 2 , K , A j , K , A m ) mutuamente excluyentes y
exhaustivas. Se considera que P (A j ) y P (B / A j ) , definidas
respectivamente como la probabilidad de que actúe cada una de las

causas y la probabilidad de que ocurra el suceso B por efecto de ellas,
son conocidas para j = 1, 2, K , m . Si se realiza un experimento y
ocurre B, la probabilidad de que éste haya sido causado por Aj viene

dada por:
P (A j ) ⋅ P (B / A j )
P (A j / B) = m
.
∑ P (A ) ⋅ P (B / A )
j =1
j j
En el postulado original, Laplace consideró implícitamente

probabilidades a priori idénticas para las m causas:
P (A 1 ) = P (A 2 ) = K = P (A m ) , con lo cual éstas se cancelan al realizar la
división.
La popularidad de las ideas derivadas de los trabajos de Bayes
y Laplace, agrupadas bajo el nombre de “Probabilidad Inversa”, tuvo
con el transcurrir de los años sus altos y bajos. En las décadas de
1920 y 1930 la aparición de autores como Ronald Fisher, Jerzy
Neyman, Egon Pearson y Abraham Wald revolucionaron la forma de
pensar y aplicar la estadística, inclinando la balanza a favor de las
escuelas frecuentista y fisheriana. Fue a partir de 1950 cuando, con
el renacimiento del bayesianismo (Fienberg, 2006), comenzaron a
utilizarse los adjetivos “clásico” y “bayesiano” para diferenciar ambos
paradigmas. La metodología frecuentista derivada de los trabajos de
Neyman y Pearson, aparecida un siglo después del surgimiento de la
Probabilidad Inversa, recibió paradójicamente el mote de clásica.
2
El objetivo principal de este trabajo consiste en presentar los

fundamentos básicos de la teoría bayesiana y aplicarlos a un conjunto
de datos, como así también en la resolución de diferentes ejemplos,
marcando sus ventajas y desventajas con respecto al paradigma de
inferencia clásico.
Como objetivo secundario se propone incentivar el interés en la
aplicación del método bayesiano entre la comunidad estadística local,
ya que al ser un tema escasamente desarrollado en los programas de
estudio universitarios de la región, son pocos los profesionales
estadísticos que adhieren a esta escuela.
La presente tesina se encuentra organizada de la siguiente

manera: en la Sección 2 se introducen los aspectos generales
relativos a las técnicas bayesianas de inferencia, haciendo especial
hincapié en los diferentes tipos de distribuciones a priori que pueden
ser utilizadas. Además, se presentan los métodos de estimación de
Monte Carlo vía Cadenas de Markov (MCMC), imprescindibles para la
aplicación del enfoque bayesiano en problemas complejos, junto con
diversas pruebas orientadas a chequear la convergencia de los
procesos estocásticos.
En las secciones 3 y 4 se comparan los paradigmas bayesiano y
clásico, resaltando las diferencias existentes entre ambos y evaluando
su rendimiento en el análisis de un conjunto de datos. También se
habla brevemente sobre el software libre disponible, hoy en día, para
implementar algoritmos de muestreo basados en técnicas MCMC y
que se encuentran orientados a la estimación de modelos bayesianos.
Por último, en la Sección 5 se presentan las consideraciones
finales que surgen de esta tesina.
3
2. Conceptos básicos de la Inferencia Bayesiana
Si en lugar de causas y efectos se incorporan al Teorema de

Bayes parámetros y datos, se obtiene la siguiente expresión, base de
la inferencia bayesiana moderna:
P (y / θ) ⋅ P (θ)
P (θ / y) = ,
P (y)
siendo:
• θ: vector de parámetros (θ1 , θ2 , K , θm ) que puede incluir efectos
fijos o aleatorios, hiperparámetros, datos no observados y cualquier

otro valor desconocido.
• y: vector que contiene los datos observados, con función de

probabilidad P (y) , llamada también verosimilitud marginal.
• P (θ / y) : probabilidad a posteriori (posterior) de θ. Es el objeto de
mayor interés dentro del análisis bayesiano, ya que simboliza la

actualización del conocimiento sobre los parámetros luego de
examinar los datos.
• P (y / θ) : verosimilitud definida como la probabilidad condicional
de los datos dado el valor de los parámetros. De acuerdo al Principio

de Verosimilitud, se asume que contiene toda la información que es
posible extraer de la muestra.
• P (θ) : probabilidad a priori de los parámetros, conocida también
como prior. Cuantifica la información que se posee acerca de los

mismos en el momento previo a la recolección de datos.
4
Al espacio paramétrico que contiene todos los posibles valores

del vector θ se lo llama Θ. Aplicando resultados básicos de Teoría de
Probabilidades, el denominador P (y) , denominado usualmente
“constante de normalización”, puede expresarse de la siguiente

manera:
 ∑ P (y / θ) ⋅ P (θ) si Θ es discreto
 Θ

P (y) = 

 ∫Θ P (y / θ) ⋅ P (θ) dθ si Θ es continuo

En el contexto de los análisis bayesianos, para realizar

inferencias simples generalmente basta con conocer el valor de la
relación P (θ / y) ∝ P (y / θ) ⋅ P (θ) , donde el signo ∝ significa
proporcional, aunque existen aplicaciones para las cuales es

necesario calcular explícitamente el valor de la constante de
normalización. Esta tarea puede ser dificultosa cuando los espacios
paramétricos son multidimensionales y las verosimilitudes poseen
expresiones complejas, aún para las computadoras actuales.
En resumen, el enfoque bayesiano trata al parámetro como una

variable aleatoria que tiene una distribución de probabilidad, basando
las inferencias en la distribución a posteriori del parámetro. Para
obtenerla, se debe elegir en primer lugar lo que se denomina
“probabilidad a priori”, concepto que se presenta a continuación.
5
2.1 Probabilidades a priori
Una de las características más salientes del método Bayesiano

consiste en incorporar al análisis estadístico información extra,
obtenida por fuera del proceso de recolección de datos, que intenta
reflejar el estado actual de conocimiento acerca del tema en estudio.
Estas fuentes de información alternativa se traducen en distribuciones
de probabilidad a priori (priors) de los parámetros de interés que, una
vez combinadas con los datos de la muestra observada, definen
ciertas distribuciones de probabilidad a posteriori (posteriors). De
este modo, los parámetros ven caracterizado su comportamiento
probabilístico a través de una función de densidad de probabilidad,
construida como una amalgama entre los conocimientos previos y
nuevos.
El empleo de probabilidades a priori es aún hoy objeto de
debate dentro de la comunidad estadística, siendo su aparente
arbitrariedad la crítica esgrimida usualmente por aquellos que se
encuentran en la vereda opuesta a la filosofía de Bayes. Los
estadísticos bayesianos, en defensa de su escuela, argumentan que la
elección de una verosimilitud particular como modelo generador del
conjunto de datos (proceso presente en ambos paradigmas) es tan
arbitraria como la adopción de un modelo probabilístico a priori para
los parámetros.
Según la cantidad de información que introduzcan en el modelo,
las priors se clasifican en dos grandes grupos: informativas y no
informativas. Estas últimas no pretenden incorporar al estudio ningún
tipo de creencia previa. Se utilizan generalmente cuando la inferencia
bayesiana es elegida por sobre la clásica únicamente debido a su
poder de interpretación, o bien cuando los conocimientos actuales
relativos a la temática del modelo no se encuentran fuertemente
arraigados. En la literatura bayesiana se las conoce como priors
objetivas, chatas, vagas o difusas.
6
Por otro lado, las priors informativas, también llamadas

subjetivas, están basadas en opiniones de expertos o resultados de
análisis anteriores. Es en estos casos cuando se objeta la ideología
bayesiana, ya que no se permite hablar libremente al conjunto de
datos. Cualquier inferencia se verá afectada, para bien o mal, por las
probabilidades a priori elegidas. Por lo general, las distribuciones a
priori informativas presentan una variabilidad mucho menor que las
no informativas. En este contexto es común emplear densidades a
priori truncadas a partir de cierto valor. Esto se debe a que, de
acuerdo al tipo de modelo ajustado o a la información previa que se
disponga, es posible conocer a grandes rasgos el comportamiento de
los parámetros de interés, restringiendo su campo de variación a
algún subconjunto Θ* ⊂ Θ .
2.1.1 Priors no informativas

Cuando los conocimientos a priori son escasos, es común
utilizar priors estándar que suministran poca o nula información
acerca del estudio en curso. Distribuciones de esta naturaleza no
favorecen, en principio, ningún valor del parámetro θ por sobre otros
(Berger, 1985).
El concepto de distribución a priori no informativa es, en el
sentido literal de la palabra, totalmente imposible. Cualquier densidad
que se utilice como prior suministrará, en mayor o menor medida,
algún tipo de información sobre los parámetros. La cualidad de ser
“informativa” o no, depende, en realidad, del grado de influencia que
ejerza p (θ) a la hora de definir las probabilidades a posteriori.
Un grupo de priors débiles y objetivas, con mínima influencia

sobre la distribución a posteriori, son las planteadas por Jeffreys
(1961). Se basan en la Información de Fisher y para el caso de θ
univariado resultan:
7
 ∂ 2 log p (y / θ) 
p (θ) ∝ I (θ) = − Eθ  .
 ∂ θ2 
Cuando el vector θ es multidimensional este método introduce

dependencia entre los parámetros y el mismo Jeffreys desaconseja su
utilización. Una de las principales ventajas de esta familia de priors es
que son invariantes frente a reparametrizaciones. La propiedad de
invariancia implica que si a priori no sabemos nada acerca de un
parámetro θ, tampoco tendremos información acerca de una función
arbitraria del mismo.
Numerosas distribuciones que a primera vista parecen no
informativas violan esta importante propiedad (Syversveen, 1998).
Por ejemplo, la clásica prior uniforme en el intervalo (0,1) para una
proporción θ, representada por p (θ) = 1 ∀ θ , no corresponde a una
 θ 
prior uniforme para la función logit f (θ) = log   = ψ. La
1 − θ 
distribución a priori “implícita” para esta transformación,
∂ −1 eψ
g (ψ) = f (ψ) = , favorece ciertos valores de Ψ por sobre
∂ψ (1 + eψ )2
otros. En consecuencia, la distribución a posteriori de θ responderá a

la información brindada por la muestra, pero la distribución a
posteriori de ψ estará disimuladamente afectada por el tipo de prior
que se ha incorporado (Jordan, 2010).
Lo mismo ocurre con f (θ) = θ2 : si θ fuese la proporción de
veces en la que se obtiene cara al lanzar una moneda, emplear una

distribución a priori uniforme en (0,1) implica que no sabemos nada
acerca de la probabilidad de observar cara en el primer lanzamiento.
Sin embargo, aplicando un simple cambio de variables se concluye
que f (θ) = θ2 , la probabilidad de observar dos caras consecutivas, se
1 
distribuye según una Beta  , 1 ; esta densidad es claramente
2 
8
informativa (Lunn et al., 2012). En consecuencia, utilizar priors no

invariantes al realizar inferencias sobre funciones de parámetros
implica, en algunas ocasiones, incorporar información falsa al modelo.
Si bien el uso de priors uniformes se remonta a los trabajos de Bayes
y Laplace, el hecho de no ser invariantes ha despertado severas
críticas hacia su implementación.
2.1.2 Evaluar el peso de la prior

El proceso de obtención de una distribución a posteriori
consiste, técnicamente, en actualizar conocimientos previos mediante
la incorporación de la información ofrecida por los datos; el papel que
éstos jueguen en la actualización dependerá de su peso relativo con
respecto a la distribución a priori. Si contamos con un conjunto de
datos extenso y priors no informativas, los primeros serán más
influyentes a la hora de obtener probabilidades a posteriori, y la
importancia de las creencias previas será mínima. Si en cambio
combinamos datos de una pequeña muestra con priors fuertes,
obtenidas, por ejemplo, a partir de varios meta-análisis previos, estas
últimas predominarán en el cálculo de la distribución a posteriori
(Congdon, 2006).
Una manera simple, aunque poco rigurosa, de determinar la
influencia de las priors es comparar los estimadores máximo-
verosímiles (MV) con las medias a posteriori obtenidas tras considerar
priors débiles (Yang & Berger, 1997). Si éstas son verdaderamente
no informativas, es de esperar que ambos análisis arrojen resultados
similares (Zhu & Lu, 2004), ya que el método de máxima
verosimilitud no incorpora ningún tipo de opinión a priori.
Algunos autores (Dobson & Barnett, 2008; Lunn et al., 2012)
aconsejan publicar las conclusiones a las que se arribaría tras asumir
un variado rango de priors, en lugar de informar los resultados
obtenidos a partir de una única distribución a priori. Por ejemplo, en
estudios clínicos donde se evalúa un nuevo tratamiento, pueden
9
considerarse tres variantes: priors neutrales, optimistas o escépticas

acerca de la efectividad del tratamiento.
2.1.3 Priors impropias

Una distribución a priori p (θ) se llama impropia si verifica:
∫ p (θ) dθ = + ∞ ,
Θ
siendo Θ el espacio paramétrico. Es habitual que las distribuciones a

priori no informativas resulten impropias, ya que frecuentemente son
sólo funciones positivas incorporadas al Teorema de Bayes para
obtener resultados lo más objetivos posible (Irony & Singpurwalla,
1997). Una desventaja de considerar este tipo de priors es que
pueden conducir a distribuciones a posteriori P (θ / y) también
impropias, es decir, no integrables a uno. En situaciones como esta

ningún tipo de inferencia será válida, ya que la distribución a
posteriori, al violar la condición de cierre, no define estrictamente una
función de densidad.
2.1.4 Conjugación
Una distribución a priori se llama conjugada cuando, combinada
con cierta función de verosimilitud, otorga una distribución a
posteriori perteneciente a la misma familia que aquella utilizada a
priori. Esta característica resulta extremadamente útil en la práctica,
ya que realizar inferencias a partir de distribuciones a posteriori con
forma conocida simplifica en gran medida los cálculos e
interpretaciones a realizar. Además, es un excelente ejemplo de la
filosofía subyacente en el Teorema de Bayes: la distribución a
posteriori difiere de aquella a priori únicamente en el valor de los
parámetros, gracias a que éstos han sido actualizados utilizando los
datos observados. Esto permite apreciar fácilmente cómo influyen la
10
información a priori y la muestra en la concepción de la distribución a

posteriori.
De acuerdo a los valores que tomen sus parámetros, una
distribución a priori conjugada puede ser informativa o no. A
continuación se presenta un ejemplo de inferencia a partir de una
distribución a posteriori conjugada.
Conjugación Gamma – Poisson

Supongamos que se propone un modelo Poisson(λ) para el
conjunto de datos Y = (y1 , y 2 , K , y n ) , resultando la verosimilitud:
∑ yj n
e− λ ⋅ λ
n yj
e − nλ ⋅ λj=1 ∑ yj
P (Y / λ) = ∏ = n
∝ e − nλ ⋅ λ j =1 .
y j!
j =1
∏y !
j =1
j
Además, se asume para λ una distribución a priori Gamma, con

parámetros de forma r y escala inversa µ:
1
P (λ) = µr ⋅ ⋅ λr − 1 ⋅ e − µλ ∝ λr − 1 ⋅ e − µλ .
Γ(r)
Bajo estas condiciones la distribución a posteriori resulta:
P (λ / Y) ∝ P (Y / λ) ⋅ P (λ) ∝
n n
∑ y j r −1 −µλ r −1 + ∑ y j
∝ e − nλ ⋅λj =1
⋅λ ⋅e =e − λ (µ + n)
⋅ λ j =1 .
La forma de esta densidad corresponde a una Gamma con

 n 
parámetros actualizados r +
 ∑y j , µ + n  . En consecuencia, las
 j =1 
distribuciones a priori y posteriori pertenecen a la misma familia, y se
dice que una densidad Gamma es conjugada con una verosimilitud
Poisson.
11
Como estimación bayesiana del parámetro de interés λ es

posible considerar la esperanza a posteriori de la distribución Gamma
con parámetro de escala inversa. Recordando que la esperanza de
una variable aleatoria con distribución Gamma es la razón entre sus
parámetros de forma y escala inversa, se tiene:
n
r+ ∑y
j =1
j
r
λ̂ Bayes = E (λ / Y) = =κ⋅ + (1 − κ) ⋅ y , (2.1)
µ+n µ
µ
con κ = . Teniendo en cuenta que el estimador máximo-
µ+n
n
∑y
j =1
j
verosímil para el parámetro de un modelo Poisson es λ̂ MV = = y,

n
queda de manifiesto que E (λ / Y) , la esperanza a posteriori de λ, es
una combinación entre la esperanza a priori y la estimación MV (Hoff,

2009). Variando los valores de los parámetros de forma y escala es
posible apreciar el volumen de información introducido por la
distribución a priori elegida. Evidentemente, esta influencia se
achicará a medida que el tamaño muestral crezca, ya que de la
expresión de κ es posible concluir que lím κ = 0 , lo que implica
n→∞
lím λ̂ Bayes = y = λ̂ MV .
n→∞
Si no existe un acuerdo generalizado con respecto a los valores

que deben tomar los parámetros (µ,r) de la densidad Gamma, es
posible asignarles sus propias distribuciones a priori p (µ) ∧ p (r) . Estas
nuevas priors, llamadas “hiperpriors” o priors jerárquicas, posibilitan

que la distribución a priori original no sea tan específica, permitiendo
que sus propios parámetros tengan un campo de variación.
12
2.2 Inferencia Bayesiana
La idea básica detrás de la inferencia bayesiana consiste en

renovar las creencias probabilísticas que se poseen en el momento
previo a la obtención de la muestra. Para llevar a cabo esta
actualización se combinan los conocimientos a priori con los datos
observados a lo largo del proceso de recolección, definiendo así
ciertas distribuciones a posteriori de los parámetros. Es en base a
estas distribuciones que se realizan inferencias cimentadas en la
filosofía bayesiana, las cuales no se verán afectadas por el tamaño de
la muestra. En efecto, el enfoque de Bayes no distingue entre
muestras grandes y chicas, como sí lo hace el frecuentista, ya que la
construcción de la densidad a posteriori no depende de ningún
supuesto de carácter asintótico acerca de la distribución de los datos
observados.
Una vez obtenida la distribución a posteriori, el método
bayesiano habilita un abanico de inferencias mucho más amplio en
comparación con el frecuentista. Para caracterizar a los parámetros
de interés o funciones arbitrarias de los mismos, es posible calcular
en base a sus distribuciones a posteriori diferentes estimadores de
localización (media, mediana, modo) y dispersión (desvío, cuantiles).
También son comunes los intervalos de confianza de la forma
P (θ ∈ C / y) para cualquier conjunto C, conocidos como Intervalos de
Credibilidad.
Los tradicionales valores P frecuentistas para un test de
hipótesis estadístico encuentran su análogo bayesiano en las
probabilidades bajo la densidad a posteriori. Por ejemplo, una
hipótesis nula del tipo H0 ) θ ≤ θ* puede examinarse calculando
simplemente la probabilidad a la izquierda de θ* determinada en la

distribución a posteriori.
13
En las siguientes secciones se enumeran algunos de los

métodos de inferencia bayesiana más populares, las cuales serán
luego utilizadas en el ejemplo de aplicación de la Sección 4.
2.2.1 Intervalos de confianza

La interpretación del concepto de intervalo de confianza (IC) es
radicalmente distinta según el paradigma estadístico que se adopte.
En la teoría frecuentista el objetivo principal es construir intervalos
con buena probabilidad de cobertura, suponiendo que existiesen
infinitos conjuntos de datos con la misma estructura que el
observado. Es por esto que los IC frecuentistas se analizan de
acuerdo al porcentaje de ocasiones en las cuales se espera que
cubran el verdadero valor del parámetro. Una interpretación más
natural, ligada a la probabilidad real de que un intervalo dado
contenga el parámetro en estudio, puede dilucidarse aplicando
métodos bayesianos.
Un intervalo de confianza bayesiano del (1 − α)% para un
parámetro θ se define como un conjunto C ⊂ Θ tal que:
P (C / y) = ∫ P (θ / y) dθ = 1 − α .
C
En consecuencia, una vez encontrado un conjunto C que

verifique la definición, se puede decir que P (θ ∈ C / y) = 1 − α . Si bien
en la práctica lo más común es reportar intervalos basados en los

cuantiles a posteriori qα ∧ q1 − α , técnicamente existen infinitos
2 2
conjuntos C que cumplen con las propiedades necesarias para ser un

intervalo bayesiano del (1 − α)% . Es por este motivo que de todos los
posibles IC, se utilizan aquellos con mayor probabilidad a posteriori

(Highest Posterior Density, HPD). Estos intervalos son los de menor
amplitud posible y verifican que todo punto en su interior posee una
14
densidad a posteriori mayor que la de cualquier otro punto que se

encuentre por fuera del intervalo.
En ocasiones las regiones HPD pueden estar conformadas por
varios intervalos disjuntos entre sí. Esto ocurre generalmente cuando
la densidad a posteriori es multimodal, o bien cuando los datos se
comportan de manera muy diferente a la sugerida por la información
a priori.
2.2.2 El criterio de información Deviance

El Criterio de Información Deviance (DIC) es un criterio de
comparación informal aplicable a modelos bayesianos propuesto por
Spiegelhalter et al. (2002). El DIC otorga una pauta que permite
elegir, entre varios modelos propuestos, aquel que brinde el mejor
ajuste y sea a su vez lo más parsimonioso posible. Para ello considera
tanto la bondad del ajuste, cuantificada por medio de la Deviance,
como la complejidad del modelo, estimada a través del número
efectivo de parámetros. Mientras menor sea el valor del DIC, mejor
será el modelo ajustado, tanto en el sentido de explicar
convenientemente los datos observados, como de minimizar la
incertidumbre acerca de un conjunto de datos generados de la misma
manera y con la misma estructura que los actuales. Para un vector de
parámetros θ y un conjunto de datos y se define:
DIC = D (θ) + 2 ⋅ pD , (2.2)
donde D (θ) = −2 ⋅ log L (y / θ) es la Deviance evaluada en θ , el vector
de medias a posteriori de los parámetros, aunque también es válido

utilizar las medianas a posteriori en lugar de las medias. El valor pD
corresponde al número efectivo de parámetros y puede interpretarse
como la cantidad de información necesaria para describir los datos.
Se lo estima de la siguiente manera:
15
p D = D (θ) − D (θ) , (2.3)
siendo D (θ) el promedio de las Deviance valorizadas en cada una de
las muestras que conforman la Cadena de Markov. A este promedio

se lo llama Posterior Mean Deviance y puede ser usado como una
medida de adecuación del ajuste. El valor de pD no será
necesariamente un número entero y bajo ciertas condiciones puede
llegar a ser negativo, tornando imposible su interpretación lógica
como medida de complejidad. Esto último ocurre generalmente
cuando los datos contradicen en gran medida a las priors y el ajuste
del modelo es malo, o bien cuando la media a posteriori de los
parámetros no es un buen estimador debido a la presencia de
marcadas asimetrías o multimodalidad en la distribución a posteriori.
Reemplazando (2.3) en (2.2) obtenemos una forma alternativa,
comúnmente utilizada, de expresar el criterio de información:
DIC = D (θ) + p D .
El DIC permite comparar modelos no anidados y que consideren

diversas priors y verosimilitudes, resultando útil para evaluar el
efecto de diferentes variables explicativas, funciones de enlace o
estructuras de covariancia. Cuando se ajustan modelos jerárquicos
complejos, en los cuales se encuentran presentes efectos aleatorios y
no está claramente definido el número real de parámetros, DIC posee
la ventaja de no requerir especificar esta cantidad ya que la estima
usando el pD. En la práctica, reglas informales para efectuar
comparaciones sugieren que si la diferencia entre el DIC de dos
modelos es menor a 3 ó 5 unidades ambos pueden ser considerados
igualmente buenos. En escenarios donde la información a priori es
débil, DIC será aproximadamente equivalente a otros criterios de
comparación de modelos, como el de Akaike.
16
A diferencia de la Posterior Mean Deviance, pD no es invariante

frente a reparametrizaciones, situación que ha provocado la aparición
de diversas alternativas. Una de las más populares es la propuesta
por Gelman et al. (2004), donde se utiliza un estimador invariante y
Var (D)
más robusto, definido como p V = siendo Var (D) la variancia a
2
posteriori de la Deviance. Al estar sujeto a errores de muestreo
introducidos por los métodos MCMC, el valor estimado del número
efectivo de parámetros, y por lo tanto el DIC mismo, pueden variar
ligeramente entre simulaciones diferentes. Estos problemas y otros
más importantes, como los que surgen a la hora de comparar
modelos enfocados en diferentes niveles de jerarquía (en el sentido
de incluir, o no, a los hiperparámetros para definir la verosimilitud),
han contribuido a la formación de una mirada crítica acerca de la
conveniencia y utilidad del Criterio de Información Deviance. Estas
desventajas son tratadas con mayor profundidad en las discusiones
de los artículos de Spiegelhalter et al. (2002) y Celeux et al. (2006).
2.2.3 El Factor de Bayes

Bajo el paradigma bayesiano, la elección entre dos hipótesis de
trabajo exige que se especifiquen probabilidades a priori respecto de
su posible ocurrencia, tal como sucede en el proceso de estimación
de parámetros. Estas probabilidades se actualizan luego de observar
los datos, aplicando convenientemente el Teorema de Bayes,
permitiendo calcular razones de probabilidades (odds) a posteriori
para comparar la evidencia a favor o en contra de cada una de las
hipótesis.
Supongamos que deseamos comparar dos hipótesis acerca de
un parámetro continuo θ ∈ Θ : H0 ) θ ∈ I0 vs H1 ) θ ∈ I1 , donde I0 e I1
son dos intervalos tales que I0 ∪ I1 = Θ . Luego de observar un
17
conjunto de datos y, el odds a posteriori para estas hipótesis se

calcula empleando la Regla de Bayes:
P (y / H j ) ⋅ P (H j )
P (H j / y) = para j = 0, 1 ⇒
P (y / H0 ) ⋅ P (H0 ) + P (y / H1 ) ⋅ P (H1 )
P (H0 / y) P (y / H0 ) P (H0 )
= ⋅ , siendo:
P (H1 / y) P (y / H1 ) P (H1 )
P (H0 / y)
• el odds a posteriori,
P (H1 / y)
•
P (y / H0 )
=
∫ P (y / θ , H ) ⋅ P (θ
0 0 0 / H0 ) dθ0
el Factor de Bayes, donde
P (y / H1 ) ∫ P (y / θ , H ) ⋅ P (θ
1 1 1 / H1 ) dθ1
θj es el parámetro propuesto por la hipótesis Hj, y
P (H0 )
• el odds a priori.
P (H1 )
Despejando en la ecuación anterior se puede apreciar que el

Factor de Bayes, comúnmente llamado B01 cuando la hipótesis
alternativa se encuentra en el denominador, es la razón entre los
odds a posteriori y a priori de H0):
P (H0 / y)
P (y / H0 ) P (H1 / y)
B 01 = = .
P (y / H1 ) P (H0 )
P (H1 )
Si ambas hipótesis son en principio igualmente probables, es
decir P (H0 ) = P (H1 ) = 1 , el Factor de Bayes puede interpretarse

2
directamente como el odds a posteriori de la hipótesis nula.
En general, puede decirse que esta herramienta cuantifica la
evidencia (suministrada tanto por los datos como por los
18
conocimientos a priori) en favor de una cierta hipótesis o modelo

estadístico. Para realizar comparaciones, Jeffreys (1961) propuso la
siguiente escala de valores:
Tabla 2.1 – Interpretación del Factor de Bayes según Jeffreys (1961)

Valor de B01 Evidencia a favor de H0
Menor a 1 Negativa (Evidencia a favor de H1)
Entre 1 y 3 Muy débil, apenas vale la pena mencionarla
Entre 3 y 10 Sustancial
Entre 10 y 30 Fuerte
Entre 30 y 100 Muy fuerte
Mayor a 100 Decisiva
También puede resultar útil considerar al Factor de Bayes en

términos de 2 ⋅ log e B10 , ya que bajo esa transformación su escala
coincidirá con la de las estadísticas Deviance y Razón de Verosimilitud

(Congdon, 2006).
La comparación de dos hipótesis realizada a través del Factor
de Bayes puede generalizarse para el caso de K modelos
(M0 , M1 , K , MK − 1 ) , los cuales pueden estar anidados o no, cada uno de
los cuales representa una cierta hipótesis (Kass & Raftery, 1995).
Tomando a M0 como el modelo de referencia contra el que se llevarán
a cabo las comparaciones, la probabilidad a posteriori del modelo Mk
viene dada por:
P (Mk )
Bk 0 ⋅
P (M0 )
P (Mk / y) = ,
K P (M j )
∑B
j=0
j0 ⋅
P (M0 )
donde cada Bj0 es el Factor de Bayes resultante de la comparación

P (M j )
entre el j-ésimo modelo y el de referencia ( B 00 = 1) . La razón
P (M0 )
representa el odds a priori del modelo (j) sobre M0.
19
Los Factores de Bayes son preferibles cuando el conjunto de

modelos de interés puede especificarse totalmente de antemano,
siendo posible considerarlos como una alternativa al uso del Criterio
de Información Deviance (Spiegelhalter et al., 2002).
Entre las desventajas de considerar los Factores de Bayes al
comprobar hipótesis, se encuentran las dificultades que supone su
cálculo (incluso a través de métodos computacionales desarrollados
para aproximar integrales) y su sensibilidad a la elección de las
priors, ya que el efecto de éstas sobre los resultados a posteriori no
disminuye a medida que aumenta el tamaño de muestra (Kass &
Raftery, 1995).
20
2.3 Métodos MCMC
El objetivo principal de un análisis bayesiano consiste en

obtener la distribución a posteriori de los parámetros de interés,
proceso que generalmente requiere el cálculo de integrales
complejas. Anteriormente, la imposibilidad de manejar integrales
multidimensionales limitaba la aplicación de métodos bayesianos a
problemas simples. Los recientes avances alcanzados en términos de
potencia computacional, sumado a la publicación de influyentes
artículos sobre algoritmos de muestreo (Gelfand & Smith, 1990) han
fomentado el empleo del análisis bayesiano. Hoy en día la antigua
tendencia se está revirtiendo, siendo los modelos más complejos
aquellos que se abordan desde una perspectiva bayesiana (Ntzoufras,
2009; Robert & Casella, 2011).
Un método numérico que permite calcular integrales complejas,
como las que frecuentemente afloran en el contexto de la inferencia
bayesiana, es el llamado “Monte Carlo vía Cadenas de Markov”
(MCMC por sus siglas en inglés), el cual combina la integración por
Monte Carlo con el muestreo basado en Cadenas de Markov.
2.3.1 Simulando la distribución a posteriori

El principal método de simulación empleado para aproximar
distribuciones a posteriori bayesianas es el de Monte Carlo vía
Cadenas de Markov. Entre todos los algoritmos de tipo MCMC, los
más destacables son el Muestreador de Metropolis-Hastings y un caso
particular del mismo, conocido como Muestreador de Gibbs.
Utilizando estas técnicas es posible generar un proceso estocástico tal
que su distribución estacionaria se aproxime a la distribución a
P (y / θ) ⋅ P (θ)
posteriori teórica P (θ / y) = , cuya forma explícita
∫Θ
P (y / θ) ⋅ P (θ) dθ
será generalmente desconocida y difícil de estimar. Si los métodos

MCMC son aplicados correctamente, es de esperar que la distribución
21
muestral de los valores simulados se asemeje a la distribución a

posteriori de interés.
El tramo inicial de la cadena de Markov se descarta a la hora de
realizar inferencias, ya que las observaciones incluidas en esta etapa
se encuentran generalmente alejadas de las regiones con mayor
probabilidad a posteriori y pueden conducir a conclusiones falsas. A
este período se lo conoce como fase de calentamiento o burn-in. Su
extensión depende, entre otras cosas, de los valores elegidos para
iniciar la cadena y de la parametrización del modelo propuesto.
Lamentablemente no existe ningún método certero, más allá de la
aproximación sugerida por el diagnóstico de Raftery & Lewis (Sección
2.4.5), que indique por cuánto tiempo se debe correr una cadena de
Markov hasta que cada iteración del proceso alcance la distribución
estacionaria, quedando a criterio del estadístico la elección del
número de pasos a descartar. Un método informal comúnmente
utilizado para determinar el burn-in consiste en analizar visualmente
el gráfico de los valores muestreados θ( j) a lo largo de las N
iteraciones, para j = 1, 2,..., N .
2.3.2 El método de Monte Carlo

Las técnicas de Monte Carlo emplean números aleatorios para
aproximar integrales complejas, generalmente multidimensionales.
Supongamos que se desea estimar el siguiente valor:
∫ g (x) dx = Ω .
0
Se define una variable aleatoria Y con distribución uniforme en

el intervalo (0,1): Y ~ U (0,1) → f (y) = 1 ∀ 0 < y < 1 . Obsérvese que:
1 1
E [g (y)] = ∫ g (y) ⋅ f (y) dy = ∫ g (y) dy = Ω .
0 0
22
Por lo tanto, si se cuenta con una muestra de N variables

aleatorias e independientes (y1 , y 2 , K , y N ) distribuidas según una
Uniforme(0,1), la Ley de los Grandes Números asegura que:
∑ g (y )
j =1
j
lím → E [g (y)] = Ω .
N→ ∞ N
En consecuencia, para estimar la integral Ω basta con generar

una gran cantidad de números aleatorios de una distribución
Uniforme, aplicarles la función g y luego promediar los resultados
obtenidos (Ross, 1999). Realizando un simple cambio de variable es
posible generalizar el método de Monte Carlo a integrales con campos
de variación diferentes a (0,1).
Comúnmente la integral que se desea evaluar no posee una
estructura simple, sino que es múltiple:
Ω= ∫∫ K ∫ g (x 1 , x 2 , K , x n ) dx 1 dx 2 K dx n .
En estos casos deben simularse varios vectores n-

dimensionales de variables aleatorias U (0, 1) . Siguiendo un
razonamiento análogo al realizado en el caso univariado, para N → ∞

una buena aproximación de Ω vendrá dada por:
∑ g (y
j =1
j
1 , y 2j , K , y nj )
Ω̂ = .
N
Cuando los valores (y1j , y 2j , K , y nj ) empleados en la construcción
de Ω̂ fueron generados por un proceso de Markov, el método de

estimación es conocido en forma conjunta como Monte Carlo vía
Cadenas de Markov. En la inferencia bayesiana, estas aproximaciones
serán aceptables siempre que la cadena posea como distribución
23
estacionaria a la función a posteriori P (θ / y) definida por el modelo.
El hecho de que las variables generadas por una cadena de Markov

sean estadísticamente dependientes no afecta la credibilidad de las
estimaciones.
2.3.3 Cadenas de Markov

Una cadena de Markov es un proceso estocástico {θ0 , θ1 , θ2 , K}
cuyo estado futuro depende únicamente de su estado actual, siendo

independiente del pasado. Esta propiedad se formaliza a través de la
siguiente expresión:
P (θ(t ) = j / θ(t − 1) , θ(t − 2) , K , θ(0) ) = P (θ(t ) = j / θ(t − 1) ) ∀ t ≥ 1.
Si la familia de variables aleatorias {θ t : t ∈ T} se encuentra
indexada en el conjunto T = {0, 1, 2, K} , tal como ocurre en el marco
de la estadística bayesiana, se dice que el proceso es de tiempo

discreto.
Las cadenas de Markov juegan un rol fundamental a la hora de
obtener estimaciones, dado que suministran un método para la
extracción de muestras de funciones de densidad, cualquiera sea su
complejidad. Si la cadena converge correctamente, a partir de las
muestras obtenidas es posible construir una imagen de la distribución
a posteriori correspondiente a cada parámetro de interés.
Para estudiar la convergencia de un proceso de Markov es
necesario definir en primer lugar sus probabilidades de transición
pij = P (θ(t + 1) = j / θ(t ) = i) , las cuales no dependen del valor de t
cuando se trabaja con cadenas homogéneas. La distribución de las

variables aleatorias {θ t : t ∈ T} convergerá a una cierta distribución
estacionaria si se satisfacen las siguientes tres condiciones (Grimmett

& Stirzaker, 2001):
24
• La cadena deberá ser irreducible; esto implica que para todo par
de valores (i,j) deberá existir un número t≥0 tal que
pij (t) = P (θ(n + t ) = j / θ(n) = i) > 0 . Esta propiedad asegura que la cadena
es capaz de visitar cualquier punto del espacio de muestreo, ya que

posee una probabilidad no nula de tomar el valor j habiendo partido
de i, y viceversa.
• Además de ser irreducible, la cadena deberá ser aperiódica. Se

dice que una cadena irreducible es aperiódica cuando el máximo
común divisor del conjunto de valores t para los cuales es posible
retornar al punto de partida resulta igual a la unidad, es decir,
cuando MCD {t / pii (t) > 0} = 1 . Las cadenas que no son aperiódicas
oscilan regular y estacionalmente entre un conjunto de valores.
• Por último, la cadena debe ser recurrente positiva. Esto implica

que si en un momento dado se alcanzó el valor j, corriendo la cadena
el tiempo extra que sea necesario queda asegurado un eventual
retorno hacia j. Matemáticamente, P (θ(t ) = j / θ(0) = j) = 1 para algún
t ≥ 1 . Definiendo δjj como el tiempo correspondiente al primer

retorno hacia el estado j: δ jj = mín {t /(θ(t ) = j | θ(0) = j)} , esta
propiedad equivale a asegurar que E (δ jj ) < ∞ para todo j.
Cuando se utilizan técnicas MCMC, la clave consiste en asegurar

que la distribución estacionaria a la cual converge el proceso, es
efectivamente la distribución a posteriori de interés. Se llama
distribución estacionaria de la cadena a un cierto vector
V = (v1 , v 2 , K , v j , K) si para cada v j ∈ V se verifica:
vj = ∑v
i
i ⋅ pij (t) ∀ t ≥ 0,
25
siendo además ∑v
j
j = 1 . Para cualquier cadena que cumpla con las
tres condiciones presentadas anteriormente, queda asegurada la

existencia y unicidad de la distribución estacionaria V. En estos casos
el proceso se olvidará gradualmente de su estado inicial y convergerá
hacia una única distribución. Una vez que se obtenga una muestra de
la distribución estacionaria, es posible asegurar que todas las
variables θt simuladas de allí en más serán a su vez muestras de V.
Dos importantes consecuencias que surgen son:
• lím pij (t) = v j ∀ (i, j) ;

t→∞
∑ f (θ
t =1
(t )
)
• lím = E V [f (θ)] .
N→ ∞ N
El primer punto asevera que corriendo la cadena por un tiempo

suficientemente largo, la probabilidad de visitar cualquier valor j ∈ J
coincidirá con la densidad de probabilidad asociada al intervalo J

definida por la distribución estacionaria. Además, la esperanza bajo V
de cualquier función de θ puede aproximarse satisfactoriamente a
través del llamado “promedio ergódico”.
Los algoritmos presentados a continuación, como el de
Metropolis o cualquiera de sus derivados, ayudan a construir una
cadena de Markov con distribución estacionaria igual a la distribución
a posteriori P (θ / y) de interés.
2.3.4 El muestreador de Metropolis-Hastings

El primer algoritmo de tipo MCMC fue propuesto por Metropolis
et al. durante 1953, en el marco de un estudio sobre sistemas
moleculares. En aquel momento los investigadores corrieron entre 48
y 64 iteraciones para diferentes escenarios, habiendo descartado
26
previamente los primeros 16 pasos, correspondientes al período de

burn-in. Llevada a cabo en la computadora MANIAC I (ubicada en el
Laboratorio de Los Alamos, Estados Unidos), esta pequeña simulación
requirió un tiempo de procesamiento cercano a las cinco horas. El
algoritmo original fue luego generalizado por Hastings (1970), dando
lugar al llamado Muestreador de Metropolis-Hastings (MH).
En el j-ésimo paso de la cadena, el esquema de actualización
implementado por el algoritmo de MH consiste en proponer un nuevo
valor θ* a través de cierta función Q (θ* / θ( j) ) denominada “densidad
propuesta”. El nuevo estado de la cadena θ( j + 1) será igual a θ*

siempre y cuando este valor supere el criterio de aprobación; caso
contrario θ( j + 1) = θ( j) y una nueva propuesta debe generarse para que
el proceso continúe su camino.
El criterio para admitir o rechazar un valor propuesto se basa
en una probabilidad de aceptación, definida como:
 P (θ* / y) Q (θ( j) / θ* ) 
ς = mín 1, ( j)
⋅ * ( j) 
.
 P (θ / y) Q (θ / θ ) 
Eligiendo u aleatoriamente de una distribución Uniforme(0,1) la

regla para seleccionar el próximo estado de la cadena es:
( j + 1)
θ* si u < ς
θ =  ( j)
θ en otro caso
Si Q es simétrica se tiene que Q (θ( j) / θ* ) = Q (θ* / θ( j) ) y la
 P (θ* / y) 
probabilidad de aceptación se convierte en ς = mín 1, ( j)  . De
 P (θ / y) 
esto se deduce que cualquier propuesta es aceptada si
P (θ* / y) > P (θ( j) / y) , ya que en este caso ς = 1 y en consecuencia:
P (θ( j + 1) = θ* ) = P (u < ς) = P (u < 1) = 1 .
27
Intuitivamente, esto implica que cualquier punto θ* se agrega a

la cadena si es más probable de ser observado que su antecesor. Por
otro lado, si se verifica P (θ* / y) < P (θ( j) / y) se tiene que 0 < ς < 1 ,
resultando:
P (θ( j + 1) = θ* ) = P (u < ς) = ς .
En este caso la inclusión o no de θ* queda en manos del azar,

P (θ* / y)
con probabilidad de aceptación igual a ς = . Debido a que el
P (θ( j) / y)
rechazo depende de valores aleatorios a través de u, es posible

obtener dos cadenas diferentes a partir de una misma propuesta.
El algoritmo original de Metropolis abordaba únicamente las
situaciones en que Q era simétrica; el aporte de Hastings consistió en
generalizar la técnica para que sea posible definir una propuesta de
cualquier tipo. Hoy en día se seleccionan generalmente distribuciones
normales o uniformes centradas en θ( j) , el valor actual de la cadena.
Si bien la única restricción sobre Q consiste en que el proceso
resultante debe converger hacia la distribución estacionaria de
interés, el sentido común indica que debe elegirse de manera tal que
sea relativamente fácil generar muestras a partir de su densidad. Si
de acuerdo a las características del algoritmo utilizado existe un
porcentaje de aceptación recomendado, la distribución de Q puede
ajustarse durante el período de burn-in para alcanzar la proporción
deseada.
Las probabilidades de transición definidas por un algoritmo de
tipo MH pueden calcularse, al menos teóricamente, utilizando
integrales simples. Dado que la cadena se encuentra en el estado
θ( j) , la probabilidad de moverse hacia algún punto θ( j + 1) perteneciente
a cierto conjunto T es:
p (θ( j) , T) = p (θ( j + 1) ∈ T / θ( j) ) =
28
 
= ∫T ς ⋅ Q (θ ( j + 1)
/ θ ( j)
) dθ ( j + 1)
+ I (θ ( j)
∈ T ) ⋅  1 − ∫ ς ⋅ Q (θ ( j + 1)
/ θ ( j)
) d θ ( j + 1)
.
 
 T 
Como se ve, la probabilidad de pasar de un estado θ( j) a otro

θ( j + 1) ∈ T equivale a la integral en T del producto entre:
• La probabilidad de proponer el punto θ( j + 1) a través de Q,

Q (θ( j + 1) / θ( j) ) , y
 P (θ( j + 1) / y) Q (θ( j) / θ( j + 1) ) 
• La probabilidad ς = mín 1, ( j)
⋅ ( j + 1) ( j) 
de aceptar
 P (θ / y ) Q (θ / θ ) 
ese valor propuesto.
Cuando también el punto de partida θ( j) ∈ T , debe considerarse

además la posibilidad de rechazar el valor propuesto, ya que en este
caso θ( j + 1) = θ( j) se encuentra asimismo dentro de T. Esta probabilidad
de rechazo se incluye en el segundo sumando, condicionada a la
pertenencia de θ( j) al conjunto T. En este contexto, la función
indicadora I toma el valor 1 cuando θ( j) ∈ T y vale 0 en otro caso.
Analizando detenidamente las probabilidades de transición
p (θ( j) , T ) se observa que las distribuciones a posteriori P (θ / y)
 P (θ( j + 1) / y) Q (θ( j) / θ( j + 1) ) 
influyen únicamente sobre ς = mín 1, ⋅  . Al
 P (θ( j) / y) Q (θ( j + 1) / θ( j) ) 
efectuar la primer división se obtiene:
P (y / θ( j + 1) ) ⋅ P (θ( j + 1) )
P (θ( j + 1) / y) P (y) P (y / θ( j + 1) ) ⋅ P (θ( j + 1) )
= = .
P (θ( j) / y) P (y / θ( j) ) ⋅ P (θ( j) ) P (y / θ( j) ) ⋅ P (θ( j) )
P (y)
En consecuencia, no es necesario conocer el valor de la

constante de normalización P (y) , ya que ésta se cancela al figurar
29
como denominador de ambas expresiones. Este resultado demuestra

que el algoritmo de Metropolis-Hastings es capaz de construir un
proceso de Markov con distribución estacionaria igual a la función a
posteriori de interés, aún cuando su expresión exacta sea
desconocida.
2.3.5 El muestreador de Gibbs

Este algoritmo, popularizado por Geman & Geman (1984) es un
caso especial del muestreador de Metropolis-Hastings, consistente en
dividir el vector de parámetros en k componentes: Θ = (θ1 , θ2 , K , θk ) .
Los diferentes bloques se actualizan uno por vez, bajo el siguiente

esquema de muestreo:
θ1( j) ~ Q (θ1 / θ(2j − 1) , θ(3j − 1) , K , θ(kj − 1) )

 ( j)
θ2 ~ Q (θ2 / θ1( j) , θ(3j − 1) , K , θ(kj − 1) )
M

 ( j)
θi ~ Q (θi / θ1( j) , θ(2j) , K , θ(i −j)1 , θ(i +j 1− 1) , θ(i +j −21) , K , θ(kj − 1) )
M

θ(kj) ~ Q (θk / θ1( j) , θ(2j) , K , θ(kj−) 1 )
Como se observa, la densidad Q propuesta por el muestreador

de Gibbs es la distribución condicional de θi (i = 1, 2, K , k) dado el
valor de todos las variables restantes. Considerando esta forma de

definir Q, puede demostrarse que la probabilidad de aceptación ς
resulta siempre igual a la unidad. En este resultado radica una de las
principales diferencias entre el algoritmo de MH y el de Gibbs:
mientras que el primero puede permanecer (o no) en la misma
posición, el segundo toma invariablemente un nuevo paso en cada
iteración.
30
2.4 Diagnósticos de convergencia de cadenas
Una de las etapas más importantes del análisis bayesiano

consiste en evaluar la convergencia de las diversas cadenas de
Markov iniciadas. Si los procesos estocásticos no han alcanzado su
distribución estacionaria, el conjunto de muestras obtenidas no
conformará una buena aproximación a la distribución a posteriori de
interés, tornando inválida cualquier tipo de conclusión obtenida a
partir de ella. Dos de las soluciones más comunes aplicadas para
solucionar este tipo de inconvenientes consisten en reparametrizar el
modelo ajustado y centrar las covariables incluidas en el mismo
(Spiegelhalter et al., 2007).
Detectar problemas de convergencia a simple vista no es
siempre una tarea fácil. Debido a esto, en la literatura bayesiana
pueden encontrarse numerosas técnicas que ayudan a diagnosticar el
estado final de una cadena. Cada uno de estos métodos está
diseñado para analizar aspectos específicos de un proceso de Markov,
con lo cual no existe un único diagnóstico que abarque o detecte
todos los problemas posibles.
Hoff (2009) asegura que una cadena de Markov iniciada en una
región del espacio paramétrico con probabilidad elevada no
presentará, en general, problemas relacionados con la convergencia.
Si bien la convergencia de un proceso estocástico de este tipo no
puede asegurarse por completo, sí es posible afirmar con mayor
seguridad cuándo una cadena no alcanzó la distribución estacionaria.
A continuación se presentan los métodos utilizados con mayor
frecuencia a la hora de chequear la convergencia de un proceso de
Markov, entre los cuales se encuentran algunos diagnósticos simples,
basados en la observación de gráficos, y otros más formales que
involucran la realización de tests de hipótesis.
31
2.4.1 Múltiples cadenas

Uno de los métodos más extendidos para chequear la
convergencia consiste en simular varias cadenas de Markov
independientes, asignando a cada una de ellas valores iniciales muy
diferentes entre sí (Gilks et al., 1996). Si todas son convergentes, es
de esperar que al graficarlas sobre el mismo eje las cadenas se
superpongan, siendo imposible distinguir un proceso de otro una vez
superado el período de burn-in. En estos casos es posible unir todas
las muestras en una sola cadena de gran longitud, reduciendo el error
de Monte Carlo y mejorando la calidad de las estimaciones.
Iniciar más de una cadena resulta ventajoso, además, para
chequear si existen áreas de la distribución a posteriori que no han
sido exploradas (Brooks, 1998). En efecto, es posible obtener
cadenas en apariencia convergentes que han muestreado únicamente
una pequeña porción de la densidad de interés. Corriendo múltiples
procesos es probable detectar este tipo de problemas, que se dan
generalmente cuando el camino hacia la distribución estacionaria
(mixing) es lento. Analizando una única cadena es imposible, en
general, advertir fallas de esta naturaleza en la convergencia.
Dos desventajas de la estrategia basada en múltiples cadenas
son el aumento del tiempo requerido para completar las simulaciones
y la dificultad para encontrar valores iniciales suficientemente
dispersos cuando el espacio paramétrico o el modelo ajustado son
complejos.
Existen técnicas más formales, que no se basan solamente en
la inspección visual, orientadas a analizar la convergencia de más de
una cadena de Markov. Estos procedimientos se tratan con mayor
detalle en la Sección 2.4.4, dedicada al diagnóstico de Brooks,
Gelman y Rubin (Gelman & Rubin, 1992; Brooks & Gelman, 1998).
32
2.4.2 Test de autocorrelación

Dada una cadena (θ(1) , θ(2) , K , θ(n) ) obtenida mediante un
proceso de Markov, la función de autocorrelación muestral para el k-

ésimo rezago se define como:
n−k
1
⋅ ∑ (θ( j) − θ) ⋅ (θ( j + k ) − θ)
n − k j =1
ρ̂k = .
1 n
⋅ ∑ (θ − θ)
( j) 2
n j =1
El valor ρ̂k puede interpretarse como una estimación de la
correlación entre elementos separados por k iteraciones.

La presencia de correlaciones altas entre los valores de una
cadena es uno de los inconvenientes más comunes que pueden
presentarse en el marco de la estimación bayesiana. Cuando un
cierto parámetro θ permanece atascado en la misma región de la
densidad durante un largo número de iteraciones, la autocorrelación
de las muestras obtenidas se eleva, haciendo más ineficiente a la
cadena y retrasando la convergencia (Best et al., 1996).
Debido a que toda cadena de Markov genera observaciones
correlacionadas entre sí, en la práctica suele aceptarse que los
valores muestreados posean un cierto nivel de autocorrelación,
siempre que este sea menor en valor absoluto a 0,5. Sin embargo,
cuando ρ̂k resulta muy elevado para algún rezago k, es
recomendable reparametrizar el modelo o aplicar un proceso de poda

(thinning). Esta técnica consiste en guardar únicamente los valores
muestreados cada j iteraciones, descartando los restantes. Por
ejemplo, si la longitud total de la cadena es igual a 100 y se aplica
una poda de intervalo j = 5 , únicamente serán tenidas en cuenta
para realizar inferencias las muestras θ(1) , θ(6) , θ(11) , K , θ(96) . De esta
manera la autocorrelación entre los θ seleccionados se reducirá

considerablemente.
33
El número de muestras desperdiciadas crece a medida que el

valor de j se incrementa. Esto se traduce en una pérdida de eficiencia
para la cadena, que deberá ser corrida por mayor tiempo para
alcanzar la longitud especificada originalmente. En el ejemplo anterior
las 100 iteraciones iniciales se vieron reducidas a 20 luego de aplicar
el proceso de poda.
Cuando se utiliza el algoritmo de Metropolis-Hastings para
generar el proceso estocástico, una solución alternativa a la poda
consiste en modificar la distribución propuesta Q, eligiendo su
variancia de manera tal que se reduzca la correlación entre valores
vecinos.
2.4.3 Diagnóstico de Geweke

Este método, propuesto por Geweke (1992) tiene como objetivo
determinar la convergencia de la media de los parámetros
monitoreados a lo largo de un proceso de Markov. El test se aplica
dividiendo a la cadena en tres partes: la primera está constituida,
generalmente, por el 10% inicial de las muestras; la segunda
corresponde al tramo medio, que se descarta al momento de llevar a
cabo el test, y la tercera se forma con el 50% final de los valores
muestreados. Con los promedios obtenidos a partir del primer y
último tramo se construye la siguiente estadística:
θI − θIII
Z= ,
Vâr (θI − θIII )
siendo θ un parámetro de interés. La estimación de la variancia es

asintótica y se realiza a través de métodos de densidad espectral,
comunes en el análisis de series de tiempo. Si el proceso ha
convergido es de esperar que θI y θIII sean similares, ya que ambos
habrán sido estimados a partir de muestras de la misma distribución.
34
En estos casos, para una cadena suficientemente extensa, puede

suponerse que la distribución muestral de Z corresponde a una
Normal estándar. Trabajando con un nivel de significación de 5%, la
hipótesis nula de convergencia se rechaza si Z > 1,96 .
En la práctica es común variar el porcentaje de valores incluido

en cada intervalo, como así también la iteración a partir de la cual se
considera que empieza la cadena (es decir, el burn-in).
2.4.4 Diagnóstico BGR

El diagnóstico de Brooks, Gelman & Rubin (BGR) data de 1998,
cuando Brooks & Gelman corrigieron y generalizaron el método
publicado originalmente por Gelman & Rubin en 1992.
La estadística de BGR se calcula utilizando información
proveniente de M procesos de Markov, iniciados en puntos de la
distribución a posteriori muy distantes entre sí. Uniendo las muestras
de las M cadenas simuladas, se estima la amplitud del intervalo de
confianza empírico del 80% correspondiente a un parámetro de
interés θ. A este valor se lo denomina B y representa la variabilidad
entre cadenas. El mismo procedimiento se repite de forma individual
en cada uno de los M procesos, obteniéndose así M amplitudes
diferentes. Luego estas amplitudes se promedian para obtener W,
que simboliza la variabilidad intra cadenas. En cada uno de los
cálculos a realizar se considera que la primer mitad de las iteraciones
corresponden al período de burn-in.
En base a las aproximaciones de las variaciones intra y entre
B
cadena se construye la estadística R = , que puede interpretarse
W
como una estimación de la reducción que sufriría la variancia a
posteriori de θ si el largo de la cadena fuese infinito.
Cuando R se encuentra cercano a la unidad, es posible concluir
que la totalidad de las cadenas simuladas se aproximan
35
satisfactoriamente a la distribución a posteriori de interés. En cambio,

si R es mucho mayor que 1, la precisión de las estimaciones podría
mejorarse aumentando el número de iteraciones, aunque esta
situación es también un indicio de lentitud en lograr la convergencia.
2.4.5 Método de Raftery & Lewis

Una de las escasas técnicas concebidas para evaluar la longitud
adecuada de una cadena de Markov es la desarrollada por Raftery &
Lewis (1992). Suponiendo que existe interés en estimar el cuantil de
orden q correspondiente a la distribución de un parámetro θ, este
método proporciona la extensión mínima que debe poseer la cadena,
como así también el largo recomendado del burn-in, para que la
estimación del cuantil sea tan precisa como se desee. El método
permite, además, definir la probabilidad de alcanzar el nivel de
precisión especificado; mientras mayor sea este nivel y más cercana
a la unidad se encuentre la probabilidad de conseguirlo, mayor será el
número de iteraciones requerido.
Otra información de utilidad que brinda el diagnóstico de
Raftery & Lewis está relacionada con la autocorrelación presente
entre las muestras que conforman la cadena. En base al número
mínimo de iteraciones que se necesitarían si las muestras fuesen
independientes, se calcula el Factor de Dependencia, que mide el
porcentaje de simulaciones extra que se llevan a cabo debido a la
correlación. Valores muy elevados del Factor de Dependencia se
traducen generalmente en una mala convergencia, siendo necesario
reparametrizar el modelo ajustado.
El método de Raftery & Lewis puede aplicarse de forma
individual a todos los parámetros monitoreados a lo largo del proceso
de Markov. Si bien no proporciona una estimación del número de
iteraciones necesarias para alcanzar la distribución estacionaria,
brinda el mínimo requerido para obtener estimaciones con una
determinada precisión.
36
2.5 Ejemplo: simulación de una cadena de Markov
El objetivo principal de este apartado es exhibir la influencia

que ejerce la distribución propuesta Q sobre el comportamiento de
una cadena de Markov, poniendo especial atención en la proporción
de valores aceptados obtenida al considerar diversos escenarios. Para
ello se construye un ejemplo simple, donde el vector de parámetros
desconocidos es univariado y su distribución a posteriori se conoce de
antemano.
En primer lugar se simularon 50 observaciones yi
independientes e idénticamente distribuidas según una Normal con
media θ = 3 y variancia σ 2Y = 1 . A partir de la información brindada
por este conjunto de datos artificial, el interés se centra en estimar

mediante técnicas bayesianas el valor de la media poblacional θ.
Se impone una distribución a priori no informativa para el
parámetro de interés: θ ~ N (µθ = 0, σ 2θ = 100) . Esto permite que los
datos simulados posean mayor peso a la hora de construir la

distribución a posteriori. Debido a que la función de verosimilitud y la
prior se distribuyen normalmente, la propiedad de conjugación nos
permite asegurar que la densidad a posteriori también será Normal.
1
σ 2θ
Definiendo ω C = como la razón entre la precisión a priori
1 2 + n 2
σ θ σ Y
y la precisión total, puede demostrarse (Congdon, 2006) que la

esperanza a posteriori de θ resulta un promedio entre la media
muestral observada y la esperanza a priori del parámetro bajo
estudio, ponderado de acuerdo a sus precisiones:
E (θ / Y) = ω C ⋅ µθ + (1 − ω C ) ⋅ y . (2.4)
Puede apreciarse que la construcción de la esperanza a

posteriori en la fórmula (2.4) sigue un razonamiento similar a la
37
presentada en la expresión (2.1), aunque con ponderaciones

diferentes. Reemplazando los valores por aquellos utilizados en el
ejemplo se obtiene:
1
100 0,01
ωC = = ≅ 0,0002 ⇒
1 + 50 50,01
100 1
E (θ / Y) = ω C ⋅ 0 + (1 − ω C ) ⋅ y ≅ 0,9998 ⋅ y
En conclusión, el estimador bayesiano de la media poblacional

resulta aproximadamente igual a 0,9998 ⋅ y = 0,9998 ⋅ 2,65 ≅ 2,649 . Si
bien el estimador usual es en estos casos θ̂ = y , la distribución a
priori considerada achica mínimamente la media muestral debido a

que se encuentra centrada en cero. Analizando detenidamente a ωC,
puede apreciarse que la influencia de la prior elegida será cada vez
menor a medida que el tamaño de muestra y/o la variabilidad a priori
se eleven.
Se utiliza el algoritmo de Metropolis-Hastings para generar un
proceso de Markov que permita obtener muestras de la distribución a
posteriori de θ. Se consideran 496 distribuciones de propuesta Q
diferentes, obtenidas al aumentar progresivamente sus desvíos en
incrementos de 0,01 (partiendo de 0,05 y finalizando en 5). Cada una
de las distribuciones Q posee una densidad Normal y se encuentra
centrada en el valor de θ obtenido en el paso inmediatamente
anterior de la cadena. En todos los casos se fijó el valor inicial en 0,
corriéndose un total de 1.100 iteraciones, de las cuales las primeras
100 corresponden al período de burn-in. Esas observaciones no se
tuvieron en cuenta al momento de analizar gráficamente los
resultados y calcular estadísticas resumen.
A continuación se presentan los resultados obtenidos para tres
distribuciones de propuesta seleccionadas entre los 496 casos
considerados.
38
Caso 1: Propuesta con desvío igual a 0,05
Figura 1.A) Cadena de Markov
Figura 1.B) Función de Autocorrelación
39
40
41
En la Figura 1.A se observa que el proceso, si bien posee un

elevado porcentaje de aceptación de propuestas, se mueve constante
pero lentamente a través de la densidad de θ. Una clara muestra de
esta situación, conocida en inglés como slow mixing, es el hecho de
que la cadena, luego de 100 iteraciones, aún no se encuentra
suficientemente alejada del valor inicial 0. Distribuciones de
propuesta Q con mínima variabilidad requieren, generalmente, de un
mayor número de iteraciones para recorrer la distribución a posteriori
en su totalidad. Además, al recorrer un espacio restringido de
valores, los elementos de la cadena estarán altamente
correlacionados (Figura 1.B).
Por otro lado, la Figura 3.A revela que una distribución de
propuesta Q más dispersa implica un mayor número de rechazos. Es
posible observar que θ permanece en el mismo lugar durante una
extensa cantidad de iteraciones consecutivas. Un proceso de Markov
con estas características no otorgará una muestra confiable de la
distribución a posteriori. Al igual que en el Caso 1, los valores
muestreados poseen una elevada autocorrelación (Figura 3.B).
La distribución empleada en el Caso 2 es la que mejor se
comporta. El proceso resultante (Figura 2.A) no se mueve dando
pasos cortos como en el Caso 1, ni se estanca durante largos
períodos en un mismo valor como en el Caso 3. La distribución a
posteriori es la que se asemeja en mayor medida a la teórica y
cuenta además con la menor correlación de entre las tres (Figura
2.B), lo que la convierte en la cadena más eficiente.
En el Gráfico 2.1 se presentan histogramas suavizados para el

conjunto de datos muestreado en cada uno de los tres procesos
analizados. Es posible apreciar que las propuestas concentran la
mayor parte de la densidad en las cercanías del valor estimado
2,649. La curva sombreada de color rojo, asociada a la propuesta con
42
menor desvío, presenta una cola izquierda de valores que deja en

evidencia los inconvenientes propios del mixing lento.
Gráfico 2.1 - Histogramas suavizados de las muestras obtenidas
En el Gráfico 2.2, construido a partir de la infomación brindada

por los 496 procesos simulados, puede apreciarse cómo la proporción
de valores aceptados decae a medida que la variabilidad de la
distribución propuesta Q se incrementa. Analizando el Gráfico 2.3, es
posible observar que las propuestas con variancias más extremas se
traducen en procesos de Markov que arrojan estimaciones algo más
alejadas de la media a posteriori teórica, representada por la línea
horizontal.
43
Gráfico 2.2 - Porcentaje de aceptación para las 496 propuestas
Gráfico 2.3 - Medias estimadas para las 496 propuestas
44
3. Paradigma Bayesiano Vs Paradigma Frecuentista
Presentados los principales conceptos e instrumentos de la

inferencia bayesiana, cabe preguntarse acerca de las mayores
diferencias entre este método y los considerados tradicionales.
En el paradigma frecuentista, también llamado clásico, resulta
esencial el concepto de repetir un gran número de veces el proceso
aleatorio que genera los datos observados. Dos herramientas
estadísticas ampliamente utilizadas, como los intervalos de confianza
y la probabilidad asociada a una estadística, pueden definirse bajo
este enfoque de la siguiente manera:
• La probabilidad p asociada a una estadística definida para llevar a

cabo un test de hipótesis es la probabilidad de observar datos que
proporcionen un valor de la estadística igual o más extremo que el
obtenido, si el proceso aleatorio responsable de generar los datos se
repitiese bajo las mismas condiciones, dado que la hipótesis nula es
correcta.
• Un intervalo de confianza del (1 − α)% es un intervalo que
contiene el verdadero valor del parámetro en el (1 − α)% de las
ocasiones, suponiendo que pudieran extraerse diversas muestras y

para cada una se calculase un IC. Dado que el parámetro es fijo, una
vez construido el intervalo la probabilidad de que éste cubra el valor
real se reduce a dos posibilidades: 1 (efectivamente lo cubre) ó 0 (no
lo cubre).
Bajo el paradigma bayesiano, en cambio, los datos son fijos y

no pueden replicarse. Los parámetros pasan a ser variables aleatorias
y en consecuencia las interpretaciones resultan más intuitivas:
45
• p es la probabilidad estimada de que una hipótesis sea cierta,

dados los datos observados.
• Un intervalo de confianza del (1 − α)% es un intervalo que
contiene el verdadero valor del parámetro con una probabilidad igual

a (1 − α) .
Como se ve, dos conceptos tan comunes dentro de la

estadística poseen, según cada escuela, definiciones profundamente
diferentes. En consecuencia, las conclusiones a las que se puede
arribar siguiendo una técnica u otra son disímiles:
• Frecuentismo: si se replica millones de veces el procedimiento

aplicado, la frecuencia de cobertura será tal que el verdadero valor
del parámetro se encontrará dentro del intervalo estimado el
(1 − α)% de las veces.
• Bayesianismo: dado el conjunto de datos observado, el verdadero

valor del parámetro de interés posee una probabilidad igual a (1 − α)
de encontrarse dentro del intervalo construido.
A continuación se presenta otro concepto de uso frecuente

dentro de la estadística, el de “precisión”, comparando la relación que
posee con ambas escuelas.
• Precisión: dado un cierto conjunto de datos y un mismo modelo

asumido, es común que los errores estándares bayesianos resulten
menores que los obtenidos bajo el paradigma frecuentista. Esto se
debe a que, mediante las probabilidades a priori, el Teorema de
Bayes incorpora al análisis un mayor volumen de información en
comparación a los métodos clásicos, reduciendo así la incertidumbre
46
acerca de los parámetros. Por ende los estimadores bayesianos son,

generalmente, más precisos que los frecuentistas.
A pesar de las marcadas diferencias entre ambas teorías,

existen autores conciliadores (Little, 2006; Verde, 2010) que
proponen amalgamar los dos paradigmas para aprovechar lo mejor
de cada uno. Little argumenta que a la hora de formular y evaluar un
modelo el método frecuentista es preferible al bayesiano; lo contrario
ocurre cuando se desean realizar inferencias bajo un modelo
asumido. Por lo tanto, lo más natural es desarrollar y chequear el
modelo desde una mirada frecuentista y luego utilizar herramientas
bayesianas para efectuar inferencias.
47
3.1 Principio de Verosimilitud
El principio de verosimilitud establece que, cuando se desean

realizar inferencias acerca de un parámetro θ luego de haber
observado una variable z, toda la información relevante brindada por
la muestra se encuentra contenida en la función de verosimilitud de
z. Como corolario, si dos verosimilitudes expresadas en función de θ
son proporcionales entre sí, la información que brindan es
exactamente la misma y por ello deben conducir a conclusiones
equivalentes.
En el siguiente ejemplo, basado en un artículo publicado
originalmente en 1976 por Lindley & Phillips, se demuestra cómo los
métodos frecuentistas, a diferencia de los bayesianos, pueden
conducir a resultados que violan el principio de verosimilitud.
Supongamos un experimento en el cual se arroja una moneda

al aire repetidas veces, registrándose la cantidad de caras y cruces
obtenidas. Se definen:
• Y: variable aleatoria que representa el número de caras obtenido.
• p: parámetro que representa la probabilidad real de que la

moneda caiga con la cara hacia arriba.
El interés se centra en comprobar si la verdadera proporción de

caras es igual a ½ o es, en realidad, mayor que este valor. Por tal
motivo se plantean las hipótesis:
H0 ) p = 1 / 2 Vs H1 ) p > 1 / 2
Tras 12 tiradas se obtuvieron 9 caras (C) y 3 cruces (X). Si bien

esta información parece suficiente para proceder a realizar un test de
hipótesis, se desconoce la regla utilizada para tomar la decisión de
48
finalizar el experimento. Esta situación obliga a considerar dos

posibles escenarios:
Caso I) El número n=12 de tiradas fue fijado de antemano. Por lo

tanto, la variable Y sigue una distribución Binomial (12,p) y la función
n 12 
de verosimilitud resulta L 1 (p) =   ⋅ p y ⋅ (1 − p)n − y =   ⋅ p 9 ⋅ (1 − p)3 .
y 9
Caso II) Antes de comenzar el experimento se decidió detenerlo

luego de haber observado r=3 cruces. En este caso Y se distribuye
según una Binomial Negativa con parámetros (3,p). La verosimilitud
 y + r − 1 y 11 
es ahora L 2 (p) =   ⋅ p ⋅ (1 − p)r =   ⋅ p 9 ⋅ (1 − p)3 .
 y  9
Se observa que L 1 (p) ∝ L 2 (p) ∝ p 9 ⋅ (1 − p)3 . En consecuencia,
siguiendo el principio de verosimilitud, las inferencias basadas tanto

en L1 como en L2 deben conducir a idénticos resultados. Sin embargo,
a pesar de ser proporcionales, ocurre justamente lo contrario:
Caso I) Se pone a prueba la hipótesis nula H0 ) p = 1 / 2 desde una
perspectiva frecuentista. Su valor p asociado resulta:
y 12 − y
 1 12
12   1   1 
P Y ≥ 9 /p =  =
 2
∑   ⋅   ⋅   ≅ 0,073 .
y =9  y  2 2
La probabilidad de observar lo observado o algo aún más

extremo, suponiendo que la moneda no está sesgada, es cercana a
0,073. Utilizando un nivel de significación del 5%, podemos concluir
que no existen evidencias suficientes para rechazar la hipótesis nula.
En otras palabras, la moneda no está sesgada.
Caso II) Se calcula nuevamente el valor p asociado, utilizando esta

vez el enfoque que considera la distribución Binomial Negativa:
49
y 3
 1 ∞
 y + 2  1   1 
P Y ≥ 9 /p =  =
 2
∑   ⋅   ⋅   ≅ 0,0327 .
y =9  y  2 2
En este caso la probabilidad asociada es menor a 0,05 y por lo

tanto se rechaza la hipótesis nula, concluyendo que al lanzar la
moneda es más probable obtener cara que cruz.
Esta especie de paradoja se produce cuando se consideran

diferentes reglas de detención para el experimento en curso. Según
se considere una u otra opción, el espacio muestral de diferentes
valores que pudieron haberse observado (concepto fundamental para
la definición del valor p frecuentista) se modifica sustancialmente. Los
conjuntos de posibles eventos más extremos están conformados,
para cada caso, de la siguiente manera:
Caso I) {9C y 3X; 10C y 2X; 11C y 1X; 12C y 0X}
Caso II) {9C y 3X; 10C y 3X; 11C y 3X; 12C y 3X; etc.}
Bajo el paradigma bayesiano esta información, como así

también el motivo por el cual se dio por finalizado el experimento,
resultan irrelevantes. La solución bayesiana estándar al presente
problema consiste en combinar una distribución a priori Beta(a,b) con
los datos observados, resultando la distribución a posteriori del
a+9
parámetro p una Beta (a + 9, b + 3) con E (p) = . La
(a + 9) + (b + 3)
probabilidad de que la proporción de interés p sea mayor a ½ puede
calcularse directamente como el área bajo la curva de la densidad
Beta a la derecha de 0,5.
El ejemplo presentado demuestra que el ensayo de hipótesis
frecuentista basa sus conclusiones no sólo en la función de
verosimilitud, sino también en información que no se encuentra
contenida en ella (en este caso el criterio para finalizar el
50
experimento) incumpliendo así los preceptos del principio de

verosimilitud. Cabe destacar que la introducción de probabilidades a
priori ajenas al proceso de recolección de datos no constituye una
violación del principio, ya que éste hace referencia únicamente a
información surgida del experimento en sí.
En la Tabla 3.1 se presentan los resultados obtenidos tras
aplicar el Teorema de Bayes en la resolución del ejemplo anterior,
considerando tres escenarios diferentes. Las distribuciones a
posteriori resultantes pueden observarse en los Gráficos 3.1 a 3.3.
Tabla 3.1 – Resultados para tres Probabilidades a Priori diferentes

Distr. a E(p) a Distr. a E(p) a Prob.
Priori de p Priori Posteriori Posteriori Asociada(1)
Beta(1,9) 0,1 Beta(10,12) 0,4545 0,3318
Beta(1,1) 0,5 Beta(10,4) 0,7143 0,9539
Beta(9,1) 0,9 Beta(18,4) 0,8182 0,9993
(1)
La probabilidad asociada se calcula como P(H1) = P(p>0,5)
Densidades a Posteriori
Gráfico 3.1 - Beta(10,12)
51
52
4. Aplicación
En la presente sección se analiza un conjunto de datos

conformado por 874 resultados de partidos de fútbol, disputados por
el Club Atlético Newell’s Old Boys de Rosario, acontecidos entre
agosto de 1990 y junio de 2013. El objetivo principal del estudio
consiste en predecir el resultado final del encuentro, utilizando para
ello ciertas variables explicativas que, se supone, influyen sobre el
marcador.
Para llevar a cabo el análisis se emplearon las técnicas de
inferencia bayesiana descritas en las secciones anteriores. El modelo
postulado también fue ajustado a través de métodos frecuentistas,
permitiendo así comparar tanto el desempeño como las
interpretaciones propias de cada paradigma. Además, se hace
especial hincapié en el chequeo de las condiciones de convergencia
para las cadenas de Markov simuladas.
53
4.1 Descripción del conjunto de datos
La Asociación del Fútbol Argentino (AFA) es la entidad

encargada de organizar las competiciones de fútbol profesional más
importantes a nivel nacional, controlando tanto el Campeonato de
Primera División como las diferentes ligas de ascenso.
Desde sus inicios en 1931 el torneo de Primera División ha
mutado en numerosas ocasiones la forma de disputa y el número de
equipos participantes. La última gran modificación reglamentaria se
produjo a mediados de 1990, cuando pasaron a disputarse dos
torneos por año, denominados Apertura y Clausura (actualmente
Inicial y Final). La temporada comienza en agosto de cada año, con la
disputa del Torneo Inicial, donde se enfrentan 20 equipos entre sí a
una rueda. Este campeonato consta de 19 fechas y finaliza
generalmente en diciembre. Por su parte, el Torneo Final transcurre
entre febrero y junio del año siguiente. Posee el mismo formato de
disputa que el Torneo Inicial, invirtiéndose las localías de cada
equipo. De esta manera, cada conjunto disputa en un año calendario
38 partidos: 19 en el primer semestre, correspondientes al Torneo
Final de la temporada iniciada el año anterior, y los restantes 19 en el
segundo semestre, correspondientes al Torneo Inicial de la nueva
temporada.
Desde la Temporada 1990/1991 hasta la 2012/2013, última
para la cual se registraron datos, se llevan disputados 46 torneos
cortos. Por ende, aquellos equipos que se mantuvieron en Primera
División de manera ininterrumpida durante ese lapso de tiempo
participaron de un total de 46 ⋅ 19 = 874 encuentros. El conjunto de
datos utilizado en la presente tesina corresponde, entonces, a los 874
partidos disputados por Newell’s Old Boys en torneos cortos.
La variable respuesta considerada fue el resultado final del
encuentro, clasificada en tres valores: victoria, empate o derrota.
Como variables explicativas se incluyeron la condición de localía de
54
Newell’s (binaria, toma los valores local o visitante) y el resultado

parcial del encuentro a los 30 minutos de juego, clasificada como
victoria parcial, empate parcial o derrota parcial.
El objetivo del estudio consta en predecir de la forma más fiel
posible la probabilidad de que un encuentro termine en victoria,
empate o derrota de Newell’s, teniendo en cuenta el marcador parcial
del partido a los 30 minutos de juego y considerando, además, el
hecho de haber jugado como local o visitante.
El conjunto de datos observado se presenta en la Tabla 4.1:
Tabla 4.1 – Partidos de NOB entre 19/08/1990 y 23/06/2013

Resultado Resultado Final del encuentro
Condición Totales
Parcial 30’ Victoria Empate Derrota
Victoria 87 15 6 108
Local Empate 98 110 64 272
Derrota 7 21 29 57
Victoria 41 18 10 69
Visitante Empate 57 104 94 255
Derrota 8 27 78 113
Totales: 298 295 281 874
Para cumplir con los objetivos se plantea el ajuste de modelos

que consideren al resultado final como variable respuesta y a la
condición y resultado parcial como explicativas, sin obviar el carácter
ordinal de la variable respuesta.
55
4.2 Software
Los resultados incluidos en la presente tesina se obtuvieron

utilizando diferentes paquetes de software estadístico. El
procedimiento logistic perteneciente al software SAS/STAT® Versión
9.2 fue empleado con el objetivo de obtener resultados máximo-
verosímiles que sirvieran como referencia. Algunos de los modelos
analizados en esta etapa fueron ajustados a través del package VGAM
(Yee, 2010) en la versión 2.15.2 de R1, ya que no resulta posible
estimarlos a través del procedimiento logistic de SAS. Para el ajuste
de los modelos bayesianos mediante simulación MCMC se utilizó la
versión 1.4.3 de WinBUGS2; estos resultados pueden replicarse
ejecutando las mismas sentencias en la versión 3.2.1 de OpenBUGS.
Para analizar algunas de las salidas producidas por WinBUGS fue
necesario recurrir al package coda, implementado bajo la versión
2.15.2 de R. Además, los gráficos incluidos fueron creados utilizando
el package ggplot2 (Wickham, 2009) de R.
La popularidad de la inferencia bayesiana, acrecentada durante

los últimos veinte años, se debe en gran parte al desarrollo de
programas y algoritmos computacionales capaces de lidiar con los
problemas de estimación que conllevan estos métodos. En este
contexto, la aparición del software gratuito WinBUGS constituyó un
paso fundamental hacia la masificación de las aplicaciones basadas
en el Teorema de Bayes.
WinBUGS utiliza técnicas del tipo Monte Carlo vía Cadenas de
Markov para simular muestras de una determinada función de
densidad a posteriori, lo que le permite ajustar un gran número de
1
R Core Team (2012). R: A language and environment for statistical computing.
R Foundation for Statistical Computing, Vienna, Austria.
ISBN 3-900051-07-0, URL http://www.R-project.org/.
2
Lunn, D.J., Thomas, A., Best, N., y Spiegelhalter, D. (2000)
WinBUGS -- a Bayesian modelling framework: concepts, structure, and extensibility
Statistics and Computing, 10: 325-337.
56
modelos estadísticos. Su nombre proviene del inglés “Bayesian

inference Using Gibbs Sampling” ya que para generar las cadenas
implementa generalmente el muestreador de Gibbs, un caso
particular del algoritmo de Metropolis-Hastings. La última versión
estable (1.4.3) fue lanzada en agosto de 2007 y puede descargarse
desde la página web http://www.mrc-bsu.cam.ac.uk/bugs/. A partir
de ese momento la actualización del software fue discontinuada,
enfocándose todos los esfuerzos en el desarrollo de una versión en
código abierto del programa, llamada OpenBUGS, que también puede
descargarse en forma gratuita.
De acuerdo a Lunn et al. (2009) la facilidad para estimar el
criterio DIC y la flexibilidad a la hora de ajustar cualquier tipo de
modelo son algunas de las principales razones del éxito obtenido por
el programa. Sin embargo, esta flexibilidad ha sido también la causa
de numerosas aplicaciones incorrectas de la estadística bayesiana.
Por ejemplo, el software otorga resultados concretos, sin ningún tipo
de advertencia, aún cuando el modelo ajustado no sea identificable,
la cadena de valores simulados no haya alcanzado la convergencia o
la distribución a posteriori de los parámetros resulte impropia.
Además, en Lunn et al. (2009) los propios autores admiten que los
mensajes de error generados por WinBUGS son en ocasiones
indescifrables y no guardan relación alguna con el error verdadero,
tornando difícil la resolución de los mismos incluso para los
desarrolladores del software.
Entre las ventajas del programa se encuentra la posibilidad de

definir el modelo en su totalidad sin necesidad de escribir las líneas
de código correspondientes. Esto puede llevarse a cabo utilizando el
editor gráfico Doodle, incluido en WinBUGS, que permite especificar
el DAG (Directed Acyclic Graph, también conocido como directed
graphical model) asociado a cada modelo.
57
Otro punto a favor de este software es su capacidad de

interactuar con el popular paquete estadístico R, a través de
numerosas librerías desarrolladas específicamente para analizar y
editar archivos de salida provenientes de WinBUGS u OpenBUGS. Las
más populares son coda (Plummer et al., 2006), R2WinBUGS (Sturtz
et al., 2005) y BRugs (Thomas et al., 2006).
58
4.3 Modelo de Odds Proporcionales
Teniendo en cuenta que la respuesta Y puede considerarse

como una variable multicategórica ordinal, se postula en primer
instancia un modelo de Odds Proporcionales que incorpore “Resultado
Parcial” y “Condición” como variables explicativas. El modelo
propuesto para j=1,2 es:
 P (Y ≤ j) 
Logit P (Y ≤ j) = log   = β 0 j + β1 ⋅ cond + β 2 ⋅ vic + β 3 ⋅ emp
 P (Y > j) 
Este modelo describe la probabilidad asociada a que Y caiga

dentro de una categoría menor o igual a la j-ésima, asumiendo que el
efecto de las covariables es el mismo en cada ecuación.
Se crean dos variables indicativas, llamadas vic y emp, para
incorporar la variable “Resultado Parcial” al modelo, siendo “Derrota”
la categoría de referencia. De la misma manera, la variable cond
toma el valor 0 si Newell’s actuó como visitante y el valor 1 si lo hizo
como local:
Resultado Parcial vic emp Condición cond

Victoria 1 0 Visitante 0
Empate 0 1 Local 1
Derrota 0 0
De acuerdo a los valores que toma la variable Y = Resultado

Final, se definen:
π 1 = P (Y = 1) = Probabilidad de que el resultado final sea Victoria;
π 2 = P (Y = 2) = Probabilidad de que el resultado final sea Empate;
π 3 = P (Y = 3) = Probabilidad de que el resultado final sea Derrota.
Las ecuaciones logit planteadas pueden interpretarse de la

siguiente manera:
59
 π1   P (Ganar) 
• Si j=1: Logit P (Y ≤ 1) = log   = log   ;
 π2 + π3   P (No Ganar) 
 π + π2   P (No Perder) 
• Si j=2: Logit P (Y ≤ 2) = log  1  = log   .
 π3   P (Perder) 
4.2.1 Enfoque frecuentista

Inicialmente se ajusta el modelo mediante el procedimiento
logistic de SAS, el cual aplica el método de máxima verosimilitud a
través de un algoritmo de mínimos cuadrados iterativamente
reponderados, denominado Scoring de Fisher. Se obtuvieron los
siguientes resultados:
Tabla 4.2 – Estimaciones MV para el Modelo de Odds Proporcionales

Error ChiSq de
Parámetro GL Estimador Pr > ChiSq
Estándar Wald
Intercept 1 1 -2,5411 0,1864 185,9 <0,0001
Intercept 2 1 -0,8042 0,1658 23,5 <0,0001
cond 1 0,7287 0,1340 29,6 <0,0001
vic 1 3,0439 0,2397 161,2 <0,0001
emp 1 1,2834 0,1804 50,6 <0,0001
Los parámetros asociados a las variables explicativas

“Condición” y “Resultado Parcial” son significativos a un nivel del 5%.
Por otro lado, el test que evalúa el supuesto de Odds Proporcionales
arroja una probabilidad asociada cercana a 0,44. Por lo tanto, resulta
válido considerar que el efecto de las covariables es el mismo en
ambas ecuaciones logit. Sus estimaciones resultaron:
• η̂1 = Logit P (Y ≤ 1) = −2,54 + 0,73 ⋅ cond + 3,04 ⋅ vic + 1,28 ⋅ emp
• η̂2 = Logit P (Y ≤ 2) = −0,80 + 0,73 ⋅ cond + 3,04 ⋅ vic + 1,28 ⋅ emp
60
A partir de η̂1 y η̂2 es posible estimar (π 1 , π 2 , π 3 ) , es decir las
probabilidades de ganar, empatar o perder, para cada uno de los seis

ˆ1, π
perfiles de respuesta. Multiplicando a (π ˆ2, π
ˆ 3 ) por el total de
observaciones registradas en cada perfil se obtienen las frecuencias

ajustadas por el modelo, las cuales pueden utilizarse para evaluar la
calidad del ajuste.
En la Tabla 4.3 se presentan las estimaciones que surgen del
modelo de Odds Proporcionales. Como puede apreciarse, el ajuste es
altamente satisfactorio. La diferencia entre datos observados y
estimados es menor a 5 partidos para todas las celdas, y en el caso
particular del perfil “Visitante-Derrota Parcial” la coincidencia es total.
Tabla 4.3 – Frecuencias ajustadas por el Modelo de Odds Proporcionales

Condición
Victoria 84 (87) 19 (15) 5 (6)
Local Empate 101 (98) 109 (110) 63 (64)
Derrota 8 (7) 19 (21) 30 (29)
Victoria 43 (41) 19 (18) 7 (10)
Visitante Empate 56 (57) 101 (104) 97 (94)
Derrota 8 (8) 27 (27) 78 (78)
Nota: entre paréntesis figuran las frecuencias observadas.
La bondad del ajuste del modelo puede evaluarse formalmente

mediante tests de hipótesis aplicados a las estadísticas de Pearson y
Deviance. Para j = 1, 3 ∧ i = 1, 6 se define nij como la frecuencia
observada en la categoría de respuesta j-ésima del perfil de

covariables i-ésimo. A su vez, las frecuencias ajustadas por el modelo
dentro del perfil i-ésimo vienen dadas por µ̂ij = ni . ⋅ π
ˆ j / i para j = 1, 3 . A
partir de estos valores es posible calcular las dos medidas de bondad

de ajuste:
6 3 (nij − µ̂ij )2
• Chi-Cuadrado de Pearson: X =2
∑∑
i =1 j =1 µ̂ij
;
61
6 3  nij 
• Deviance: G2 = 2 ⋅ ∑ ∑ nij ⋅ ln   .
 µ̂ 
i =1 j =1  ij 
En ambos casos la hipótesis nula H0) plantea que el modelo

provee un ajuste apropiado, mientras que la alternativa, equivalente
al modelo saturado, indica lo contrario. Bajo H0) las estadísticas X2 y
G2 siguen una distribución χ N2 − P , siendo N el número total de logits
modelados y P la cantidad de parámetros estimados por el modelo.

En este ejemplo, N = I ⋅ (J − 1) = 6 ⋅ 2 = 12 y P = 5 , lo que equivale a 7
grados de libertad.
Analizando la Tabla 4.4 se observa que las probabilidades
asociadas a las estadísticas son en ambos casos mayores a 0,8. Este
resultado lleva a no rechazar la hipótesis nula, concluyendo que el
ajuste del modelo puede considerarse aceptable.
Tabla 4.4 – Bondad de Ajuste del Modelo de Odds Prop. Frecuentista

Estadística Valor GL Pr. Asociada
Pearson 3,640 7 0,820
Deviance 3,482 7 0,837
4.2.2 Enfoque bayesiano

El modelo de Odds Proporcionales propuesto en la sección
anterior se ajustó nuevamente, esta vez desde un enfoque
bayesiano, a través del software WinBUGS.
A la hora de elegir distribuciones a priori no informativas, un
razonamiento simplista conduce a la implementación de
distribuciones constantes en el espacio multidimensional de los
parámetros. Sin embargo, los efectos estimados por un modelo de
este tipo pueden tomar cualquier valor del conjunto de números
reales, y al combinar la información muestral con distribuciones a
priori uniformes es posible obtener distribuciones a posteriori
impropias, no integrables a uno. En estos casos Agresti (2010)
62
recomienda utilizar distribuciones a priori difusas y a la vez propias,

proponiendo una densidad Normal con un desvío estándar de gran
magnitud. En consecuencia, los cinco parámetros presentes en el
modelo recibieron una distribución a priori Normal con media µ = 0 y
variancia σ 2 = 1000 . Esto equivale a suponer un desconocimiento

previo total acerca de la dirección y la fuerza de los efectos, siendo
de esperar que las distribuciones a posteriori se encuentren
dominadas por los datos.
Para obtener muestras de la distribuciones a posteriori de los
parámetros se iniciaron dos cadenas de Markov independientes. En
una de ellas se tomaron como valores iniciales las estimaciones MV
brindadas por el procedimiento logistic de SAS (Cadena 1), mientras
que en la restante el proceso fue iniciado en un vector de ceros
(Cadena 2). La decisión de simular dos cadenas diferentes se debe a
que el chequeo de la convergencia de las mismas, presentando en la
Sección 4.2.3, resulta más fácil cuando se cuenta con más de un
proceso de Markov para analizar.
En total fueron corridas 100.000 iteraciones de ambas cadenas,
de las cuales las primeras 1.000 fueron descartadas por corresponder
al período de calentamiento (burn-in). Debido a la autocorrelación
observada inicialmente (Sección 7.2.3 Anexo) se aplicó una poda de
intervalo 5, reduciendo cada cadena a 19.800 observaciones por
parámetro. Tras unir ambos procesos el número total de muestras
para cada parámetro se elevó a 39.600, obteniéndose los siguientes
resultados:
Tabla 4.5 – Estimaciones Bayesianas para el Modelo de Odds Prop.

Parámetro Media Desvío Cuantil 2,5% Cuantil 97,5%
β01: Int 1 -2,5484 0,1821 -2,914 -2,197
β02: Int 2 -0,8054 0,1621 -1,130 -0,494
β1: cond 0,7296 0,1337 0,469 0,992
β2: vic 3,0576 0,2392 2,595 3,532
β3: emp 1,2873 0,1765 0,943 1,638
63
Las estimaciones son muy similares a las obtenidas

anteriormente con el enfoque frecuentista, registrándose diferencias
recién a partir del segundo y tercer decimal. Estas discrepancias son
mínimas en términos prácticos, manteniéndose inalterables las
frecuencias ajustadas por el modelo (Tabla 4.3). Además, si se
comparan los desvíos de los estimadores máximo-verosímiles (Tabla
4.2) con aquellos alcanzados mediante el paradigma bayesiano (Tabla
4.5), se observa que estos últimos son levemente menores, en todos
los casos, que los obtenidos tras el ajuste frecuentista. Las
probabiliades ajustadas por el modelo bayesiano se presentan en la
Tabla 4.6.
Tabla 4.6 – Prob. ajustadas por el Modelo de Odds Prop. Bayesiano

Condición
Victoria 0,77 (0,81) 0,18 (0,14) 0,05 (0,05)
Local Empate 0,37 (0,36) 0,40 (0,40) 0,23 (0,24)
Derrota 0,14 (0,12) 0,34 (0,37) 0,52 (0,51)
Victoria 0,62 (0,59) 0,28 (0,26) 0,10 (0,15)
Visitante Empate 0,22 (0,22) 0,40 (0,41) 0,38 (0,37)
Derrota 0,07 (0,07) 0,24 (0,24) 0,69 (0,69)
Nota: entre paréntesis figuran las probabilidades observadas.
4.2.3 Diagnósticos de convergencia

Antes de interpretar los resultados obtenidos tras el ajuste
bayesiano, es necesario chequear que los procesos estocásticos
iniciados hayan alcanzado la convergencia. Para ello se aplican las
técnicas descritas en la Sección 2.4 sobre las 100.000 iteraciones de
cada cadena. Los valores iniciales seleccionados para cada una se
presentan en la Tabla 4.7.
Como puede apreciarse en los gráficos 4.1 a 4.5, luego de
pocas iteraciones ambas cadenas se superponen, siendo imposible
distinguir una de otra. En todos los casos la Cadena 2 se aleja
rápidamente de las cercanías del cero, acercándose a las zonas de la
distribución a posteriori con mayor probabilidad.
64
Estos son indicios favorables para el supuesto de convergencia,

ya que no parecen existir áreas de la distribución a posteriori que no
hayan sido visitadas por los procesos. Además, el aspecto de los
gráficos indica que el porcentaje de valores aceptados en cada caso
es razonable.
Tabla 4.7 – Valores iniciales para las cadenas de Markov

Parámetro Cadena 1 Cadena 2
β01: Int 1 -2,54 0
β02: Int 2 -0,8 0
β1: cond 0,73 0
β2: vic 3,04 0
β3: emp 1,28 0
Cadenas de Markov para el modelo de Odds Proporcionales
65
Como puede apreciarse en los gráficos de la Función de

Autocorrelación (FAC) incluidos en la sección 7.2.3 del Anexo, ambas
cadenas sufren de altos niveles de correlación entre las muestras de
cada parámetro. Para mitigar este problema se aplicó una poda de
intervalo 5. Los resultados fueron satisfactorios, en especial para los
66
parámetros asociados a los efectos “Condición: Local” y “Resultado

Parcial: Victoria”. Por el contrario, en los demás casos se observan,
aún luego de la poda, rezagos con correlaciones mayores a 0,5.
Sin embargo, en este ejemplo la presencia de autocorrelación
no parece ser un inconveniente importante, ya que el tamaño de
muestra efectivo (ESS) que se obtiene al unir las cadenas es
suficientemente elevado. El ESS puede interpretarse como el número
de muestras independientes que se necesitan para alcanzar la misma
precisión que la obtenida a través de las muestras MCMC (Hoff,
2009). En la Tabla 4.8 se presentan los tamaños de muestra efectivos
para los cinco parámetros del modelo, calculados utilizando el
package coda de R.
Tabla 4.8 – Tamaño de muestra efectivo aproximado

Parámetro Cadena 1 Cadena 2 ESS Total
β01: Int 1 1.524 1.431 2.955
β02: Int 2 1.589 1.610 3.199
β1: cond 5.546 5.823 11.369
β2: vic 2.678 2.510 5.188
β3: emp 1.683 1.772 3.455
En consecuencia, la precisión obtenida en la estimación de β1 es

igual a la que se hubiese alcanzado a través de 11.369 muestras
independientes de β1.
Para analizar de manera formal la convergencia de los procesos
se llevó a cabo el test propuesto por Geweke. Los segmentos
analizados corresponden al 10% inicial y al 50% final de cada
cadena. Se grafican los scores Z calculados para diversas longitudes
del período de burn-in, junto con la banda del 95% de confianza para
una distribución Normal estándar (Gráficos 4.6 y 4.7).
67
Test de Geweke para diferentes burns-ins
Gráfico 4.6 - Cadena 1
Gráfico 4.7 - Cadena 2
68
En general, para todos los parámetros del modelo y la

Deviance, se verifica Z < 1,96 y por lo tanto el diagnóstico de
Geweke no brinda evidencias en contra del supuesto de convergencia.

Esto implica que las medias de los segmentos iniciales y finales no
son significativamente diferentes, siendo razonable suponer que los
valores muestreados tanto al principio como al final del proceso
pertenecen a la misma distribución.
Otro test útil para diagnosticar el estado de convergencia de

más de un proceso estocástico es el de Brooks, Gelman & Rubin
(BGR). Este método compara las variabilidades entre (B) e intra (W)
B
cadenas a través de la estadística R = . Cuando R se acerca a la
W
unidad, puede concluirse que los procesos analizados son
convergentes. En la sección 7.2.4 del Anexo se encuentran graficados
los valores de R, B y W para diferentes intervalos de la cadena, cada
uno con un período de calentamiento (burn-in) correspondiente a la
primer mitad de las observaciones incluidas.
Puede apreciarse que en todos los casos la estadística R se
aproxima a 1, siendo posible afirmar que las cadenas han alcanzado
la convergencia y no es necesario aumentar el número de iteraciones
para mejorar la calidad de las estimaciones.
Por último, se llevó a cabo el diagnóstico propuesto por Raftery

& Lewis para evaluar la longitud adecuada de los procesos de Markov
simulados. Las Tablas 4.9 y 4.10 indican el número de iteraciones
necesarias, junto con el burn-in, para estimar la mediana de la
distribución de cada parámetro, con una precisión de ± 0,05 y una
probabilidad de cobertura igual a 0,95. Se incluye también el Factor

de Dependencia, que mide el porcentaje de simulaciones extra
llevadas a cabo debido a la correlación.
69
Tabla 4.9 – Diagnóstico de Raftery & Lewis para la Cadena 1

Parámetro Burn-in Total Iter. Factor Dep.
β01: Int 1 133 16.074 41,8 %
β02: Int 2 154 17.952 46,6 %
β1: cond 32 4.084 10,6 %
β2: vic 84 12.075 31,4 %
β3: emp 108 14.130 36,7 %
Tabla 4.10 – Diagnóstico de Raftery & Lewis para la Cadena 2

Parámetro Burn-in Total Iter. Factor Dep.
β01: Int 1 132 17.666 45,9 %
β02: Int 2 144 18.264 47,4 %
β1: cond 44 6.116 15,9 %
β2: vic 92 12.742 33,1 %
β3: emp 144 17.088 44,4 %
Luego de descartar las primeras 1.000 muestras y aplicar una

poda de intervalo 5, las cadenas se vieron reducidas a 19.800
observaciones cada una. Afortunadamente, el método de Raftery &
Lewis indica que la cantidad de muestras necesarias para obtener
estimaciones con la precisión fijada es, como mínimo, cercano a
18.000 en cada proceso. En base a estos resultados, es posible
concluir que la longitud de las cadenas de Markov iniciadas resulta
suficiente a los efectos de estimar la mediana de los parámetros del
modelo con una precisión adecuada.
Como era de esperarse, los mayores valores del Factor de
Dependencia se observan en aquellos parámetros que presentaron
originalmente una autocorrelación elevada. Por ejemplo, el tamaño
muestral requerido para estimar la mediana de β02 en la segunda
cadena es 47,4% mayor a aquel que se hubiese necesitado en caso
de no existir correlación entre las muestras.
En base a lo expuesto a lo largo de esta sección, se concluye

que las muestras obtenidas se aproximan satisfactoriamente a las
distribuciones a posteriori de los parámetros, resultando aptas para
ser utilizadas como base de diversas inferencias.
70
4.3 Modelos alternativos
Si bien el modelo de Odds Proporcionales postulado inicialmente

otorga un ajuste altamente satisfactorio, se estudiaron otros modelos
para respuestas multicategóricas con el objetivo de comparar los
resultados obtenidos y evaluar algunos de los supuestos realizados.
Una versión más general del modelo de Odds Proporcionales
viene dada por el modelo Logit Acumulativo con coeficientes
diferentes. En este caso el efecto de las variables explicativas varía
entre ecuación y ecuación, elevándose así el número de parámetros a
estimar. Concretamente, el modelo planteado para j = 1, 2 resulta:
 P (Y ≤ j) 
Logit P (Y ≤ j) = log   = β 0 j + β1 j ⋅ cond + β 2 j ⋅ vic + β 3 j ⋅ emp
 P (Y > j) 
Las ecuaciones logit se interpretan de manera equivalente al

caso de Odds Proporcionales:
 π1   P (Ganar) 
• Si j=1 : Logit P (Y ≤ 1) = log   = log   ;
 π2 + π3   P (No Ganar) 
 π + π2   P (No Perder) 
• Si j=2 : Logit P (Y ≤ 2) = log  1  = log   .
 π3   P (Perder) 
El nuevo ajuste se realizó a través de WinBUGS, asignando a

todos los parámetros distribuciones a priori no informativas normales
con media µ=0 y variancia σ 2 = 1000 . Los valores iniciales
utilizados en una de las cadenas de Markov corresponden a las

estimaciones MV obtenidas tras ajustar el modelo mediante el
package VGAM de R. La restante cadena fue iniciada en un vector de
ceros para comprobar la convergencia de los procesos.
Tras descartar las primeras 1.000 muestras y aplicar una poda
de intervalo 5 se obtuvieron los resultados presentados en la Tabla
71
4.11. Allí puede apreciarse que tanto la dirección como la magnitud

de los efectos asociados a las covariables es similar en ambas
ecuaciones logit, lo que respalda el supuesto de Odds Proporcionales.
Las frecuencias ajustadas por el modelo se exponen en la Tabla 4.12.
Tabla 4.11 – Estimaciones Bayesianas para el Modelo Logit Acumulativo

β01: Int 1 -2,7022 0,2806 -3,276 -2,180
β02: Int 2 -0,7904 0,1717 -1,131 -0,458
β11: cond 1 0,7554 0,1615 0,437 1,075
β12: cond 2 0,7227 0,1600 0,407 1,033
β21: vic 1 3,2347 0,3199 2,633 3,878
β22: vic 2 2,7659 0,3119 2,174 3,395
β31: emp 1 1,4041 0,2871 0,867 1,992
β32: emp 2 1,2955 0,1882 0,925 1,661
Tabla 4.12 – Frecuencias ajustadas por el Modelo Logit Acumulativo

Condición
Victoria 85 (87) 16 (15) 7 (6)
Local Empate 100 (98) 110 (110) 62 (64)
Derrota 8 (7) 20 (21) 29 (29)
Victoria 43 (41) 17 (18) 9 (10)
Derrota 7 (8) 28 (27) 78 (78)
El ajuste, si bien es bueno, no presenta una mejora sustancial

con respecto al obtenido a partir del modelo de Odds Proporcionales.
En consecuencia, este último modelo resulta preferible, ya que es
más parsimonioso que el Logit Acumulativo.
Finalmente, se ajustó un modelo de Categorías Adyacentes con

los mismo efectos en ambas ecuaciones. Para j = 1, 2 se tiene:
 P (Y = j) 
log   = β 0 j + β1 ⋅ cond + β 2 ⋅ vic + β 3 ⋅ emp
 P (Y = j + 1) 
72
Las dos ecuaciones así definidas modelan las siguientes

probabilidades, las cuales difieren en cuanto a su interpretación con
respecto a las ajustadas anteriormente:
π   P (Ganar) 
• Si j=1 : log  1  = log   ;
 π2   P (Empatar) 
π   P (Empatar) 
• Si j=2 : log  2  = log   .
 π3   P (Perder) 
Al igual que antes, se establecieron distribuciones a priori

normales con media µ = 0 y variancia σ 2 = 1000 para los cinco
parámetros. Se simularon dos cadenas en WinBUGS, una iniciada en

un vector de ceros y la restante en las estimaciones MV de los
parámetros otorgadas por el package VGAM de R. Se dispuso que las
1.000 primeras muestras de ambos procesos sean descartadas, por
pertenecer al período de calentamiento, y luego se aplicó una poda
de intervalo 5, obteniéndose las estimaciones que figuran en la Tabla
4.13. Las frecuencias ajustadas por el modelo de Categorías
Adyacentes se presentan en la Tabla 4.14.
Tabla 4.13 – Estimaciones Bayesianas para el Modelo de Categ. Adyacentes

β01: Int 1 -1,4664 0,1704 -1,808 -1,144
β02: Int 2 -0,9589 0,1337 -1,224 -0,701
β1: cond 0,5169 0,0967 0,329 0,707
β2: vic 2,1831 0,1874 1,824 2,561
β3: emp 0,9361 0,1358 0,675 1,208
Tabla 4.14 – Frecuencias ajustadas por el Modelo de Categ. Adyacentes

Condición
Victoria 80 (87) 24 (15) 4 (6)
Local Empate 103 (98) 105 (110) 64 (64)
Derrota 8 (7) 19 (21) 30 (29)
Victoria 42 (41) 21 (18) 6 (10)
Derrota 7 (8) 29 (27) 77 (78)
73
A primera vista, resulta evidente que el ajuste proporcionado

por el modelo de Odds Proporcionales es superior al conseguido
mediante el de Categorías Adyacentes. Si bien poseen diferentes
estructuras, ambos modelos pueden compararse con respecto al valor
del Criterio de Información Deviance, presentado a continuación.
4.3.1 Comparación de los modelos a través del DIC

El Criterio de Información Deviance (DIC) es una medida de
comparación ampliamente utilizada en el contexto de análisis
bayesianos. En la Tabla 4.15 se presentan los valores observados del
DIC para cada uno de los tres modelos ajustados mediante métodos
bayesianos.
Tabla 4.15 – Criterio de Información Deviance para los tres modelos

Modelo PMD1 Deviance pD DIC
Odds Prop. 64,44 59,51 4,93 69,37
Logit Acum. 65,16 57,19 7,97 73,13
Cat. Ady. 70,20 65,23 4,97 75,17
1
PMD se refiere a Posterior Mean Deviance (ver Sección 2.2.2).
Los modelos de Odds Proporcionales y Logit Acumulativo

suministran un ajuste similar, siendo este último levemente superior
de acuerdo al valor de la estadística Deviance. Sin embargo, el DIC
penaliza al modelo Logit Acumulativo debido a la elevada cantidad de
parámetros incluidos, seleccionando como modelo más conveniente al
de Odds Proporcionales. Por su parte, el modelo de Categorías
Adyacentes presenta el DIC más elevado, resultando así el menos
recomendable.
Teniendo en cuenta los valores observados del Criterio de
Información Deviance, se concluye que el modelo más adecuado a la
hora de describir la probabilidad de ganar, empatar o perder un
cotejo disputado por Newell’s es el de Odds Proporcionales.
74
4.4 Interpretación del modelo de Odds Proporcionales
Una ventaja de aplicar el paradigma bayesiano es la posibilidad

de interpretar de manera más intuitiva los resultados obtenidos. Por
ejemplo, analizando la Tabla 4.16 se concluye que la probabilidad de
que el valor del parámetro β1 se encuentre dentro del intervalo
(0,469;0,992) es igual a 0,95. Esta interpretación es posible gracias a
la forma en que se construyen los intervalos de confianza cuando se
utilizan técnicas bayesianas. En la inferencia frecuentista, por el
contrario, la conclusión se encuentra ligada al porcentaje de
ocasiones en las cuales un intervalo construido de esa manera
cubriría el verdadero valor de β1, considerando que pudieran
extraerse un gran número de muestras y para cada una de ellas se
ajustara un modelo de Odds Proporcionales.
Los límites inferiores de los intervalos bayesianos asociados a
los parámetros (β1 , β 2 , β 3 ) son mayores a cero. Este hecho nos da una
pauta para concluir que el efecto de las covariables incorporadas al

modelo es positivo.
Tabla 4.16 – Intervalos de Confianza del 95%

IC Bayesiano IC Frecuentista
Parámetro
LI LS LI LS
β01: Int 1 -2,914 -2,197 -2,906 -2,176
β02: Int 2 -1,13 -0,494 -1,129 -0,479
β1: cond 0,469 0,992 0,466 0,991
β2: vic 2,595 3,532 2,574 3,514
β3: emp 0,943 1,638 0,930 1,637
En la Tabla 4.17 se comparan los resultados del ajuste

frecuentista con aquellos obtenidos al considerar distribuciones a
priori con diferentes niveles de precisión. La estimación que figura en
la última columna corresponde a una aproximación de la media a
posteriori, obtenida como un promedio ponderado entre la estimación
MV y la media a priori:
75
E (β / y) ≅ ω A ⋅ β̂ MV + (1 − ω A ) ⋅ E (β) , (4.1)
Var (β)
con ω A = , siendo E (β) y Var (β) la esperanza y
Var (β) + Vâr (β̂MV )
variancia a priori, respectivamente, del parámetro β. La fórmula (4.1)

coincide con la (2.4), aplicada para calcular la esperanza a posteriori
en el contexto de una conjugación Normal-Normal. Agresti (2010) la
utiliza para estimar E (β / y) sin la necesidad de simular procesos de
Markov.
Tabla 4.17 – Resultados a posteriori para diferentes escenarios

Distribución Estim.
Parámetro Media Desvío
a priori Ponderada
Normal (0,1000) 0,7296 0,1337 0,7287
β1: cond Normal (0,1) 0,7003 0,1307 0,7158
Estimación MV 0,7287 0,1340 -
Normal (0,1000) 3,0576 0,2392 3,0437
β2: vic Normal (0,1) 2,7959 0,2268 2,8785
Normal (0,1000) 1,2873 0,1765 1,2834
β3: emp Normal (0,1) 1,1092 0,1682 1,2429
La distribución a priori difusa Normal (0,1000) incluida en la

comparación conduce a resultados muy similares a aquellos
otorgados por el método de estimación de Máxima Verosimilitud. Sin
embargo, las estimaciones obtenidas a partir de la distribución a
priori Normal estándar se alejan levemente de las restantes,
disminuyendo sus valores. Este resultado puede explicarse
considerando que el tamaño muestral no es lo suficientemente
grande como para dominar la estimación de los parámetros, pero es
imposible reducir totalmente la influencia de la información a priori
provista inicialmente.
Se observa además que las estimaciones ponderadas, si bien no
hacen uso de la información provista por las cadenas de Markov,
76
constituyen una aceptable aproximación de la media a posteriori de

los parámetros.
4.4.1 Razones de odds

Interpretar el modelo a través de razones de odds resulta útil,
ya que permite apreciar la influencia que ejercen las variables
explicativas sobre las frecuencias observadas en cada categoría de
respuesta:
∧
• RO cond = exp (β̂1 ) = exp (0,7296) = 2,07 ⇒ La chance de obtener un
resultado mejor es 2,07 veces mayor cuando Newell’s juega como

local, manteniendo constante el resultado parcial a los 30 minutos.
Esto ocurre tanto cuando se compara la probabilidad de ganar vs no
ganar, como cuando se compara la probabilidad de no perder vs
perder.
∧
• RO vic = exp (β̂ 2 ) = exp (3,0576) = 21,28 ⇒ La chance de obtener un
resultado mejor es 21 veces mayor cuando el equipo finaliza la

primer media hora al frente del marcador, manteniendo constante la
condición de localía. Esto ocurre tanto cuando se compara la
probabilidad de ganar vs no ganar, como cuando se compara la
probabilidad de no perder vs perder.
∧
• RO emp = exp (β̂ 3 ) = exp (1,2873) = 3,62 ⇒ La chance de obtener un
resultado mejor es 3,62 veces mayor cuando el equipo se encuentra

empatando al término de los primeros 30 minutos, manteniendo
constante la condición de localía. Esto ocurre tanto cuando se
compara la probabilidad de ganar vs no ganar, como cuando se
compara la probabilidad de no perder vs perder.
77
En la Tabla 4.18 se presentan los intervalos de credibilidad del

95% para las tres razones de odds:
Tabla 4.18 – RO Estimadas por el Modelo de Odds Prop. Bayesiano

Efecto RO Estimada Cuantil 2,5% Cuantil 97,5%
Condición 2,0743 1,5989 2,6969
Victoria 21,2764 13,3966 34,1923
Empate 3,6230 2,5672 5,1449
Los intervalos construidos con el método HPD poseen una

amplitud menor que los incluidos en la Tabla 4.18. Sin embargo, a
pesar de ser más precisos, resultan inapropiados cuando se analizan
funciones no lineales de los parámetros estimados. Este es el caso de
las razones de odds, para las cuales se recomienda utilizar los
intervalos usuales de colas iguales. El inconveniente de los intervalos
HPD se manifiesta cuando se modifica la categoría de referencia
asociada a una variable explicativa. Por ejemplo, de acuerdo a las
variables indicativas definidas, β̂1 corresponde a la estimación del
efecto de jugar en condición de local. Al ajustar nuevamente el

modelo tras cambiar la categoría de referencia, se observa que el
efecto de jugar como visitante resulta igual a (−β̂1 ) . Si en el primer
caso el intervalo de tipo HPD consiste en los valores incluidos en el

conjunto (θ a ; θb ) , cuando se invierte la categoría modelada el
intervalo HPD estará constituido por los valores del conjunto

(−θb ; − θ a ) . Esta reciprocidad no se verifica al comparar los intervalos
∧
HPD para funciones no lineales de β̂1 , como exp (β̂1 ) = RO cond ,
tornando inaceptable su utilización.
También resulta de interés calcular la probabilidad asociada a

observar razones de odds mayores a ek, lo que equivale a obtener
parámetros mayores a cierto valor k. En términos bayesianos, esto
puede llevarse a cabo investigando las densidades a posteriori de
78
cada parámetro (Sección 7.2.1 Anexo). Por ejemplo, para la variable

“Condición” se tiene:
P (RO cond > 2) = P [exp (β1 ) > exp(0,693)] = P (β1 > 0,693) ≅ 0,605 .
De esta manera es posible afirmar, con una certeza cercana al

60%, que cuando Newell’s juega como local la chance de obtener un
resultado mejor es, como mínimo, el doble de esa chance como
visitante. Esta interpretación es válida si se mantiene constante el
resultado parcial a los 30 minutos.
4.4.2 Comparación de hipótesis mediante el Factor de Bayes

En la Sección 2.2.3 se presentó el Factor de Bayes, medida
ampliamente utilizada en los análisis bayesianos para cuantificar la
evidencia a favor de ciertas hipótesis. En el contexto del presente
ejemplo, esta herramienta resulta útil para poner a prueba la fuerza
de los efectos estimados.
Se desea comprobar si el parámetro β1, asociado al efecto de
jugar en condición de local, es mayor a 0,5. Para ello se plantean dos
hipótesis igualmente probables a priori:
 H0 ) β1 ≥ 0,5
 con P (H0 ) = P (H1 ) = 1
H ) β < 0,5 2
 1 1
En este caso, el Factor de Bayes (B01) resulta igual al odds a

posteriori de la hipótesis nula:
P (H0 / y)
P (y / H0 ) P (H1 / y) P (H0 / y) P (β1 ≥ 0,5 / y)
B 01 = = = = .
P (y / H1 ) P (H0 ) P (H1 / y) P (β1 < 0,5 / y)
P (H1 )
79
Tanto P (β1 ≥ 0,5 / y) como P (β1 < 0,5 / y) pueden calcularse
analizando las cadenas de Markov simuladas al ajustar el modelo de

Odds Proporcionales, observando la proporción de muestras de β1
que caen por encima y debajo de 0,5. Tras definir un burn-in de
1.000 iteraciones y aplicar una poda de intervalo 5, la información
combinada de las Cadenas 1 y 2 otorga los siguientes resultados:
 37.925
 P (β1 ≥ 0,5 / y) = 39.600 ≅ 0,9577


 1.675
 P (β1 < 0,5 / y) = ≅ 0,0423
 39.600
En consecuencia, el Factor de Bayes resulta:
P (β1 ≥ 0,5 / y) 0,9577

B 01 = = ≅ 22,64 .
P (β1 < 0,5 / y) 0,0423
Siguiendo la escala de valores presentada en la Tabla 2.1,

puede concluirse que la evidencia muestral a favor de la hipótesis
nula H0 ) β1 ≥ 0,5 es fuerte. En términos del problema, esto implica
que los datos avalan fuertemente la posibilidad que

exp (β1 ) ≥ exp (0,5) ⇒ RO cond ≥ 1,6487 , permitiendo concluir con
firmeza que cuando Newell’s actúa en condición de local,

manteniendo constante el resultado parcial, la chance de obtener un
resultado mejor es al menos 65% mayor que esa misma chance en
condición de visitante.
80
5. Consideraciones finales
La intención de este trabajo fue presentar los principales

conceptos que componen el cuerpo de la inferencia bayesiana de una
manera simple, incorporando ejemplos comparativos respecto a la
teoría clásica para facilitar su comprensión.
Los fundamentos de la teoría bayesiana fueron concebidos
mucho antes que se desarrollara la teoría clásica, pero su aplicación
en la práctica es reciente debido a la necesidad de contar con grandes
recursos computacionales. Para llevar a cabo un análisis bayesiano,
deben simularse muestras provenientes de una cierta función de
densidad multivariada, generalmente con expresión desconocida,
llamada distribución a posteriori. Esta distribución constituye la base
de la inferencia bayesiana, y se obtiene al combinar la función de
verosimilitud de los datos con la distribución a priori definida para los
parámetros, la cual refleja la incertidumbre acerca de los mismos en
el momento previo a la recolección de los datos.
El grado de influencia de las probabilidades a priori dependerá
del volumen de información previa disponible. Cuando las
distribuciones a priori son chatas o poco informativas, las
estimaciones puntuales bayesianas resultan, por lo general, iguales
en términos prácticos que las estimaciones obtenidas a través de
métodos clásicos. No obstante, en algunos casos es posible definir
probabilidades a priori subjetivas, construidas en base al
conocimiento de expertos en el tema o a resultados de estudios
similares. Cuando se combina este tipo de distribuciones a priori con
muestras pequeñas, los resultados se verán fuertemente afectados
por el tipo de información extra introducida.
Una de las principales diferencias entre ambas escuelas consiste
en el tratamiento otorgado a datos y parámetros. Como consecuencia
81
de esto, en el enfoque clásico se concluye acerca de posibles valores

del conjunto de datos (considerados aleatorios), dado un valor fijo de
los parámetros. El método bayesiano, por el contrario, basa sus
interpretaciones en posibles valores de los parámetros, que ahora son
aleatorios, dado un conjunto de datos fijo.
En la presente tesina se ilustraron las semejanzas y diferencias
en la aplicación de ambos paradigmas en un problema relacionado al
deporte. Aquí quedó demostrado que el enfoque clásico cuenta con la
ventaja de la simplicidad, ya que con sólo imponer una distribución a
los datos y definir el modelo pueden obtenerse resultados de forma
casi inmediata. Algunas complicaciones adicionales surgen cuando se
adopta una perspectiva bayesiana: definir probabilidades a priori
adecuadas y en base a ellas simular cadenas de Markov convergentes
no siempre es una tarea fácil. Sin embargo, éstos y otros obstáculos
a sortear se ven justificados cuando se analizan las virtudes del
método bayesiano. Las inferencias son válidas para cualquier tamaño
muestral y no dependen de supuestos distribucionales asintóticos,
mientras que las conclusiones acerca de los parámetros de interés
resultan mucho más intuitivas al basarse únicamente en
probabilidades y no en conjuntos de datos no observados. Además,
los estimadores bayesianos resultan generalmente más precisos que
los frecuentistas.
Cabe destacar que no se tuvieron en cuenta distribuciones a
priori subjetivas, ya que se consideró que el conjunto de datos
analizado no ameritaba la inclusión de información proveniente de
fuentes externas. Por otro lado, en modelos de Odds Proporcionales
la especificación de priors informativas orientadas hacia los
parámetros no es trivial, ya que éstos se relacionan con las
probabilidades acumuladas a través de funciones no lineales. Como
resulta poco intuitivo analizar de antemano los valores que pueden
llegar a tomar los efectos, es común imponer distribuciones a priori
directamente sobre las probabilidades de cada categoría de
82
respuesta, para cada uno de los perfiles definidos por las variables
explicativas.
La elección entre un paradigma u otro dependerá generalmente
de las características particulares del problema a resolver, siendo
inapropiado utilizar invariablemente un único enfoque. Por ejemplo, si
se cuenta con cierto grado de información a priori, resultará mucho
más natural emplear técnicas bayesianas. Caso contrario, deberá
evaluarse cuál es el enfoque más adecuado para dar respuesta a las
preguntas planteadas y, además, si se cuenta con los recursos
computacionales necesarios para aplicar el método bayesiano.
Este trabajo constituye un primer acercamiento a una teoría de
inferencia estadística de escasa difusión en el área, sentando las
bases para lograr un mayor desarrollo de la temática a futuro.
83
6. Bibliografía
Agresti A. (2010). Analysis of Ordinal Categorical Data - Second

Edition. John Wiley & Sons.
Bayes T. & Price R. (1763). An essay towards solving a problem in

the doctrine of chances. Philosophical Transactions of the Royal
Society of London, Vol. 53.
Berger J.O. (1985). Statistical Decision Theory and Bayesian Analysis

- Second Edition. Springer.
Best N.G. & Cowles M.K. & Vines S.K. (1996). CODA: Convergence
Diagnosis and Output Analysis Software for Gibbs sampling output -
Version 0.30. MRC Biostatistics Unit.
Brooks S.P. (1998). Markov Chain Monte Carlo method and its
application. Journal of the Royal Statistical Society: Series D, Vol. 47
- Nº 1.
Brooks S.P. & Gelman A. (1998). General methods for monitoring

convergence of iterative simulations. Journal of Computational and
Graphical Statistics, Vol. 7 - Nº 4.
Celeux G. & Forbes F. & Robert C.P. & Titterington D.M. (2006).
Deviance Information Criterion for missing data models. Bayesian
Analysis, Vol. 1 - Nº 4.
Congdon P. (2006). Bayesian Statistical Modelling - Second Edition.

John Wiley & Sons.
Dale A.I. (1999). A history of inverse probability: from Thomas Bayes

to Karl Pearson - Second Edition. Springer.
Dobson A.J. (2002). An Introduction to Generalized Linear Models -

Second Edition. Chapman & Hall/CRC.
Dobson A.J. & Barnett A.G. (2008). An Introduction to Generalized

Linear Models - Third Edition. Chapman & Hall/CRC.
Fienberg S.E. (2006). When did Bayesian inference become

"Bayesian"?. Bayesian Analysis, Vol. 1 - Nº 1.
84
Gelfand A.E. & Smith A.F.M. (1990). Sampling-based approaches to

calculating marginal densities. Journal of the American Statistical
Association, Vol. 85 - Nº 410.
Gelman A. & Carlin J.B. & Stern H.S. & Rubin D.B. (2004). Bayesian
Data Analysis - Second Edition. Chapman & Hall/CRC.
Gelman A. & Rubin D.B. (1992). Inference from iterative simulation

using multiple sequences. Statistical Science, Vol. 7 - Nº 4.
Geman S. & Geman D. (1984). Stochastic relaxation, Gibbs

distributions, and the Bayesian restoration of images. IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol. 6 - Nº
6.
Geweke J. (1992). Evaluating the accuracy of sampling-based

approaches to the calculation of posterior moments. Bayesian
Statistics 4 - Oxford University Press.
Gilks W.R. & Richardson S. & Spiegelhalter D.J. (1996). Markov Chain
Monte Carlo in Practice. Chapman & Hall/CRC.
Grimmett G.R. & Stirzaker D.R. (2001). Probability and random

processes - Third Edition. Oxford University Press.
Hastings W.K. (1970). Monte Carlo sampling methods using Markov

Chains and their applications. Biometrika, Vol. 57 - Nº 1.
Hoff P.D. (2009). A First Course in Bayesian Statistical Methods.

Springer.
Irony T.Z. & Singpurwalla N.D. (1997). Noninformative priors do not

exist: a discussion with José M. Bernardo. Journal of Statistical
Planning and Inference, Vol. 65.
Jeffreys H. (1961). Theory of Probability - Third Edition. Oxford

University Press.
Jordan M.I. (2010). Jeffreys priors. Stat 260: Bayesian modeling and
inference, Lecture 6.
Kass R.E. & Raftery A.E. (1995). Bayes Factors and model
uncertainty. Journal of the American Statistical Association, Vol. 90 -
Nº 430.
Laplace P.S. (1774). Mémoire sur la probabilité des causes par les
événements. Mémoires de mathématique et de physique, présentés à
85
l'Académie Royale des Sciences par divers sçavans, et lus dans ses
assemblées, Vol. 6.
Lindley D.V. & Phillips L.D. (1976). Inference for a Bernoulli Process
(a Bayesian view). The American Statistician, Vol. 30 - Nº 3.
Little R.J.A. (2006). Calibrated Bayes: a Bayes/Frequentist roadmap.

The American Statistician, Vol. 60 - Nº 3.
Lunn D.J. & Jackson C.H. & Best N.G. & Thomas A. & Spiegelhalter
D.J. (2012). The BUGS Book: A Practical Introduction to Bayesian
Analysis. Chapman & Hall/CRC.
Lunn D.J. & Spiegelhalter D.J. & Thomas A. & Best N.G. (2009). The
BUGS project: evolution, critique and future directions. Statistics in
Medicine, Vol. 28 - Nº 25.
Metropolis N.C. & Rosenbluth A.W. & Rosenbluth M.N. & Teller A.H. &
Teller E. (1953). Equation of state calculations by fast computing
machines. Journal of Chemical Physics, Vol. 21 - Nº 6.
Ntzoufras I. (2009). Bayesian Modeling using WinBUGS. John Wiley &

Sons.
Plummer M. & Best N.G. & Cowles M.K. & Vines S.K. (2006). CODA:
Convergence Diagnosis and Output Analysis for MCMC. R News, Vol.
6.
Raftery A.E. & Lewis S.M. (1992). How many iterations in the Gibbs
sampler?. Bayesian Statistics 4 - Oxford University Press.
Robert C.P. & Casella G. (2011). A short history of Markov Chain

Monte Carlo: subjective recollections from incomplete data. Statistical
Science, Vol. 26 - Nº 1.
Ross S.M. (1999). Simulation - Second Edition. Prentice Hall.
Spiegelhalter D.J. & Best N.G. & Carlin B.P. & Van Der Linde A.
(2002). Bayesian measures of model complexity and fit. Journal of
the Royal Statistical Society: Series B, Vol. 64 - Nº 4.
Spiegelhalter D.J. & Thomas A. & Best N.G. & Lunn D.J. (2007).
WinBUGS User Manual - Version 1.4.3. MRC Biostatistics Unit.
Stigler S.M. (1982). Thomas Bayes's Bayesian Inference. Journal of

the Royal Statistical Society: Series A, Vol. 145 - Nº 2.
86
Stigler S.M. (1986). The History of Statistics: the measurement of

uncertainty before 1900. Harvard University Press.
Sturtz S. & Ligges U. & Gelman A. (2005). R2WinBUGS: a package

for running WinBUGS from R. Journal of Statistical Software, Vol. 12 -
Nº 3.
Syversveen A.R. (1998). Noninformative Bayesian priors.

Interpretation and problems with construction and applications.
Norges teknisk-naturvitenskapelige universitet Preprint Statistics, Vol.
3/1998.
Thomas A. & O'Hara B. & Ligges U. & Sturtz S. (2006). Making BUGS
Open. R News, Vol. 6.
Verde P.E. (2010). An introduction of Bayesian data analysis with R

and BUGS: a simple worked example. Estadística IASI, Vol. 62 - Nº
179.
Wickham H. (2009). ggplot2: Elegant Graphics for Data Analysis.

Springer.
Yang R. & Berger J.O. (1997). A catalog of noninformative priors.

ISDS Discussion Paper 1997-42, Duke University.
Yee T.W. (2010). The VGAM Package for Categorical Data Analysis.
Journal of Statistical Software, Vol. 32 - Nº 10.
Zhu M. & Lu A.Y. (2004). The counter-intuitive non-informative prior

for the Bernoulli Family. Journal of Statistics Education, Vol. 12 - Nº
2.
87
7. Anexo
7.1 Modelos Lineales Generalizados para respuestas

7.1 multicategóricas
Los Modelos Lineales Generalizados (MLG) ofrecen una amplia

variedad de posibilidades a la hora de modelar variables
multicategóricas, ya sean éstas nominales u ordinales. Tomando
como punto de partida las ideas presentes en el modelo de Regresión
Logística, comúnmente utilizado para analizar respuestas
dicotómicas, es posible generalizar el método, haciendo viable su
aplicación para los casos en que la variable de interés puede tomar
uno de J > 2 valores posibles.
En todos los modelos presentados a continuación, se considera
que la variable respuesta Y sigue una distribución Multinomial con
parámetros (n, π 1 , π 2 , K , π J ) . Si se cuenta con n observaciones
independientes de Y que resultan en yj respuestas para la j-ésima

categoría ( j = 1, 2, K , J ), su distribución puede expresarse como:
J
n!
⋅ ∏ πj j .
y
f (y 1 , y 2 , K , y J / n, π 1 , π 2 , K , π J ) = J
∏y !
j =1
j
j =1
J
En este contexto, n = ∑y
j =1
j es el número total de pruebas
realizadas. A su vez, cada π j = P (Y = y j ) representa la probabilidad
de que, en un determinado ensayo, la variable Y caiga dentro de la j-

ésima categoría. Las probabilidades deben verificar la condición
J
∑π
j =1
j = 1.
88
Si bien en este caso la distribución de la variable respuesta no

pertenece a la familia exponencial, requisito básico de los MLG, puede
demostrarse que la distribución conjunta de J variables Poisson,
condicionadas al valor de su suma, es Multinomial. Esta relación entre
las distribuciones Multinomial y Poisson, que sí se encuentra dentro
de la familia exponencial, hace válida la aplicación de los MLG para
modelar una variable respuesta con las características mencionadas
(Dobson, 2002).
Estimar de forma precisa las πj y deducir la manera en la cual
influye sobre ellas un conjunto de variables independientes es el
objetivo principal de los modelos considerados en este capítulo.
7.1.1 Modelo de Regresión Logística Nominal

En este tipo de modelos se considera que las J categorías de
respuesta no poseen ningún orden natural. Para poder especificar las
ecuaciones logísticas es necesario seleccionar a una de ellas como
categoría de referencia. Si, por ejemplo, se elige a la primera ( j = 1)
luego es posible definir (J − 1) predictores lineales de la forma:
 πj 
log   = x' ⋅ β j = ηj
 para j = 2, 3, L , J .
π
 1
siendo x un vector de variables explicativas y βj el vector de

parámetros asociado al j-ésimo predictor lineal ηj. Es de esperar que
el efecto de las covariables varíe de acuerdo a la categoría de
respuesta que se compara con la de referencia; debido a esto los
parámetros β se modifican de ecuación a ecuación.
La estimación de las probabilidades asociadas a cada categoría,
fijado el valor de las covariables presentes en el modelo, viene dada
por:
89
 1
 J
para j = 1
1 + ∑ exp (η̂ j )
 j=2

π̂ j = 
 exp (η̂ j )
 para j = 2, 3, L , J
 J
1 + ∑ exp (η̂ j )
 j=2
7.1.2 Modelo Logit Acumulativo

A diferencia del anterior, este modelo toma en cuenta la
ordinalidad de las categorías a la hora de definir las ecuaciones
logísticas. Se modelan (J − 1) relaciones, basadas en el logit de la
probabilidad que la variable Y caiga dentro de una categoría menor o

igual a la j-ésima:
P (Y ≤ j) π1 + π 2 + K + π j
log it P (Y ≤ j) = log = log = x' ⋅ β j = ηj
P (Y > j) π j +1 + π j + 2 + K + π J
para j = 1, 2, L , J − 1 .
El modelo Logit Acumulativo se caracteriza por incorporar las J

categorías en cada una de sus ecuaciones, en contraste a lo que
ocurre en el modelo de Regresión Logística Nominal, donde solo
entran en juego 2 categorías a la vez.
Tomando η0 = −∞ y η J = +∞ es posible obtener una expresión
para las probabilidades estimadas por el modelo:
exp (η̂ j ) exp (η̂ j − 1 )

ˆj =
π − para j = 1, 2, K , J .
1 + exp (η̂ j ) 1 + exp (η̂ j − 1 )
Existen ocasiones en las cuales este modelo arroja resultados

que contradicen las leyes básicas de probabilidad. Concretamente, es
posible obtener estimaciones de la forma P̂ (Y ≤ j) > P̂ (Y ≤ j + k) para
90
k > 0, en presencia de covariables continuas. Debido a este

inconveniente, muchas veces es preferible considerar otros modelos a
la hora de analizar variables multicategóricas ordinales.
7.1.3 Modelo de Odds Proporcionales

Este es un caso especial, más parsimonioso, del Modelo Logit
Acumulativo. Asume que el efecto de las covariables es el mismo
para cada logit, variando únicamente el intercepto entre las
ecuaciones. Posee la ventaja de respetar el orden de las categorías,
ya que a través de sus probabilidades estimadas queda asegurada la
condición P̂ (Y ≤ 1) ≤ P̂ (Y ≤ 2) ≤ K ≤ P̂ (Y ≤ J) , cualquiera sea el valor
de las covariables incluidas.

El modelo de Odds Proporcionales se expresa:
P (Y ≤ j) π1 + π 2 + K + π j
log it P (Y ≤ j) = log = log = β0j + x ' ⋅ β = ηj
P (Y > j) π j+1 + π j+ 2 + K + π J
para j = 1, 2, L , J − 1 . (I)
Las probabilidades pueden estimarse de forma idéntica a como

se obtienen para el modelo Logit Acumulativo:
exp (η̂ j ) exp (η̂ j − 1 )

ˆj =
π − para j = 1, 2, K , J .
1 + exp (η̂ j ) 1 + exp (η̂ j − 1 )
La ecuación (I) plantea implícitamente un supuesto de

proporcionalidad que no siempre se verifica. Por ello, es necesario
confirmar el cumplimiento del supuesto antes de interpretar los
resultados. Autores como Agresti (2010) advierten que los tests
empleados regularmente para chequear esta suposición no son
confiables, argumentando que la decisión entre aplicar este modelo o
91
el Logit Acumulativo debe basarse en términos de bondad de ajuste y

practicidad.
La propiedad de Odds Proporcionales surge a partir del
siguiente razonamiento: supongamos que se desea comparar la
chance de observar una respuesta en las categorías (1,2,…,j) dado
que una variable explicativa X toma el valor x1, contra la chance de
obtener una respuesta en esas mismas categorías, siendo que X toma
el valor x2. Siguiendo el modelo planteado en (I) estas cantidades
pueden expresarse como:
 P (Y ≤ j / X = x1 ) P (Y ≤ j / X = x1 )
1 − P (Y ≤ j / X = x ) = P (Y > j / X = x1 )
= exp (β 0 j + β1 ⋅ x1 )
 1

 P (Y ≤ j / X = x ) P (Y ≤ j / X = x2 )
 2
= = exp (β 0 j + β1 ⋅ x 2 )
1 − P (Y ≤ j / X = x 2 ) P (Y > j / X = x2 )
La razón de odds (RO) asociada resulta:
exp (β 0 j + β1 ⋅ x1 )
RO j (x1 vs x 2 ) = = exp [β1 ⋅ (x 1 − x 2 )] .
exp (β 0 j + β1 ⋅ x 2 )
En consecuencia, cuando X = x1 la chance de observar una
respuesta en una categoría menor o igual a j es exp [β1 ⋅ (x1 − x 2 )]
veces la chance para el caso X = x 2 . El logaritmo natural de la razón
de odds, igual a β1 ⋅ (x1 − x 2 ) , es proporcional a la distancia existente
entre x1 y x2; de ahí el supuesto de proporcionalidad que da nombre

al modelo.
7.1.4 Modelo de Categorías Adyacentes

En lugar de considerar probabilidades acumuladas, este modelo
ofrece la alternativa de modelar razones entre categorías sucesivas:
92
 πj 
log   = x ' ⋅ β j = η j con j = 1, 2, L , J − 1 .
π 
 j +1 
Los parámetros βj pueden variar entre ecuaciones si se supone

que el efecto de las variables explicativas no es el mismo para todos
los pares de categorías adyacentes. A su vez, si se sostiene el
supuesto de Odds Proporcionales, es probable que un modelo de este
tipo con βj idénticos provea un buen ajuste. A diferencia de lo que
ocurre cuando se consideran logits acumulados, ambas versiones del
modelo de Categorías Adyacentes otorgan estimaciones de
probabilidades acumuladas que respetan la ordinalidad de la variable
respuesta, verificando P̂ (Y ≤ 1) ≤ P̂ (Y ≤ 2) ≤ K ≤ P̂ (Y ≤ J) .
Las probabilidades estimadas por el modelo se obtienen

mediante las siguientes fórmulas:
  J −1 
 exp  ∑ η̂k 
 
 k = j  para j = 1, 2, L , J − 1
 J −1
 J −1 
1 + ∑ exp  ∑ η̂k 
 t =1 k =t 

ˆj = 
π
 1
 para j = J
 J −1
 J −1 
1 + ∑
t =1
exp  ∑ η̂k 
k =t 



Existe una estrecha relación entre este modelo y el de

Regresión Logística Nominal, ya que conociendo el valor de los
predictores lineales para uno de los dos, es posible calcular los
correspondientes al restante. Partiendo del Nominal, con J como clase
de referencia, las ecuaciones de categorías adyacentes resultan:
 πj  π  π 
log   = log  j  − log  j + 1  .
π   π 
π 
 j +1   J  J 
93
Análogamente, para obtener los logit del modelo de Regresión

Logística Nominal a partir de los adyacentes, la fórmula a aplicar es:
 πj  J −1
 πk 
log 
π
=
 ∑ log  π  .
 J  k=j  k +1 
94
7.2 Ajuste del Modelo de Odds Proporcionales
Si se ajusta un modelo desde el modo script, el software

WinBUGS 1.4.3 establece por defecto un burn-in de 1.999
iteraciones. Debido a esto, el tamaño de muestra a posteriori
empleado para calcular las estadísticas descriptivas se ve reducido:
en lugar de emplear las 200.000 iteraciones disponibles,
correspondientes a las dos cadenas de 100.000 pasos iniciadas, se
utilizan 2 ⋅ (100.000 − 1.999) = 196.002 valores.
Código WinBUGS para el ajuste del Modelo de Odds Proporcionales
model {
for (i in 1:6) {
y[i,1:3] ~ dmulti(p[i,1:3],n[i]); # Respuesta Multinomial
# Probabilidades
p[i,1] <- max(0.00001,exp(eta[i,1])/(1+exp(eta[i,1])));
p[i,2] <- max(0.00001,(exp(eta[i,2])/(1+exp(eta[i,2]))) - p[i,1]);
p[i,3] <- max(0.00001,1 - p[i,1] - p[i,2]);
# Predictores Lineales
eta[i,1] <- int1 + cond*local[i] + vic*pg[i] + emp*pe[i];
# Frecuencias Estimadas
victorias[i,1] <- n[i]*p[i,1];
empates[i,1] <- n[i]*p[i,2];
derrotas[i,1] <- n[i]*p[i,3];
# Priors
int1~dnorm(0,0.001);
cond~dnorm(0,0.001);
vic~dnorm(0,0.001);
emp~dnorm(0,0.001);
95
Tabla 7.1 – Salida WinBUGS para el Modelo de Odds Proporcionales

node mean sd MC error 2.5% median 97.5% start sample
cond 0.7301 0.1334 0.001243 0.47 0.7297 0.9916 2000 196002
derrotas[1,1] 5.304 1.018 0.006511 3.544 5.223 7.529 2000 196002
derrotas[2,1] 62.58 5.565 0.03962 52.06 62.45 73.85 2000 196002
derrotas[3,1] 29.57 2.482 0.03421 24.74 29.56 34.43 2000 196002
derrotas[4,1] 6.664 1.189 0.007154 4.585 6.569 9.242 2000 196002
derrotas[5,1] 97.47 6.687 0.04642 84.51 97.4 110.8 2000 196002
derrotas[6,1] 77.98 3.898 0.06676 70.16 78.05 85.42 2000 196002
deviance 64.42 3.141 0.0245 60.3 63.77 72.23 2000 196002
emp 1.287 0.1763 0.002902 0.9444 1.285 1.637 2000 196002
empates[1,1] 19.13 2.534 0.01203 14.38 19.06 24.34 2000 196002
empates[2,1] 108.6 5.171 0.02646 98.6 108.6 118.8 2000 196002
empates[3,1] 19.39 1.5 0.01603 16.38 19.41 22.26 2000 196002
empates[4,1] 19.32 1.994 0.01212 15.4 19.31 23.22 2000 196002
empates[5,1] 101.1 4.872 0.02761 91.6 101.0 110.7 2000 196002
empates[6,1] 26.72 2.776 0.0429 21.38 26.69 32.2 2000 196002
int1 -2.548 0.1823 0.003171 -2.914 -2.546 -2.197 2000 196002
int2 -0.8055 0.1623 0.002787 -1.13 -0.8034 -0.4933 2000 196002
vic 3.057 0.2383 0.003199 2.595 3.054 3.529 2000 196002
victorias[1,1] 83.57 3.398 0.01781 76.54 83.69 89.88 2000 196002
victorias[2,1] 100.8 6.914 0.03567 87.49 100.7 114.5 2000 196002
victorias[3,1] 8.044 1.282 0.01883 5.749 7.969 10.76 2000 196002
victorias[4,1] 43.02 2.97 0.01804 37.07 43.07 48.71 2000 196002
victorias[5,1] 56.46 5.211 0.04015 46.69 56.34 67.06 2000 196002
victorias[6,1] 8.304 1.401 0.02423 5.813 8.215 11.3 2000 196002
7.2.1 Funciones de densidad a posteriori
96
97
98
7.2.2 Evolución de las medias e IC del 95%

La línea roja corresponde a la cadena iniciada en un vector de
ceros, mientras que la azul corresponde a la cadena iniciada en las
estimaciones obtenidas mediante SAS.
Intercepto Logit 1
-2.0
-2.5
-3.0
2000 25000 50000 75000 100000

Iteración
Intercepto Logit 2
-0.4
-0.6
-0.8
-1.0
-1.2
2000 25000 50000 75000 100000

Iteración
99
Empate
2.0
1.5
1.0
0.5
2000 25000 50000 75000 100000

Iteración
Victoria
4.0
3.5
3.0
2.5
2000 25000 50000 75000 100000

Iteración
Local
1.0
0.8
0.6
0.4
2000 25000 50000 75000 100000

Iteración
100
7.2.3 Función de autocorrelación

Int 1 Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5
Cadena 1
Cadena 2
Int 2 Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5
Cadena 1
Cadena 2
101
Condición Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5
Cadena 1
Cadena 2
Victoria Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5
Cadena 1
Cadena 2
102
Empate Burn-in = 0 y poda = 0 Burn-in = 1000 y poda = 5
Cadena 1
Cadena 2
103
7.2.4 Diagnóstico BGR

La línea roja representa el valor de R, la azul corresponde a la
variabilidad intra cadenas (W) y la verde a la variabilidad entre
cadenas (B).
El primer intervalo considerado incluye desde la observación
2.490 hasta la 2.979 inclusive; el segundo comienza en la
observación 2.980 y finaliza en la 3.959, y así sucesivamente. En
total, se calcularon los valores de R, W y B para 100 intervalos
diferentes, cada uno de los cuales incorpora 500 muestras más que el
anterior. El último de ellos es el más amplio y está conformado por
las muestras correspondientes a las iteraciones del intervalo (51.000
– 99.999).
104
105
106
7.3 Ajuste del Modelo Logit Acumulativo
Código WinBUGS para el ajuste del Modelo Logit Acumulativo
model {
for (i in 1:6) {
# Probabilidades
p[i,1] <- max(0.00001,exp(eta[i,1])/(1+exp(eta[i,1])));
p[i,2] <- max(0.00001,(exp(eta[i,2])/(1+exp(eta[i,2]))) - p[i,1]);
p[i,3] <- max(0.00001,1 - p[i,1] - p[i,2]);
eta[i,1] <- int1 + cond1*local[i] + vic1*pg[i] + emp1*pe[i];
eta[i,2] <- int2 + cond2*local[i] + vic2*pg[i] + emp2*pe[i];
# Priors
cond1~dnorm(0,0.001);
vic1~dnorm(0,0.001);
emp1~dnorm(0,0.001);
cond2~dnorm(0,0.001);
vic2~dnorm(0,0.001);
emp2~dnorm(0,0.001);
Tabla 7.2 – Salida WinBUGS para el Modelo Logit Acumulativo

cond1 0.7556 0.1613 0.001738 0.4385 0.7568 1.075 2000 196002
cond2 0.7225 0.1601 0.00149 0.4084 0.7225 1.033 2000 196002
deviance 65.16 3.998 0.0354 59.32 64.5 74.7 2000 196002
emp1 1.405 0.2867 0.006335 0.8684 1.398 1.99 2000 196002
emp2 1.295 0.188 0.002904 0.9269 1.295 1.662 2000 196002
int1 -2.703 0.2805 0.006312 -3.277 -2.696 -2.179 2000 196002
int2 -0.7905 0.1719 0.002762 -1.132 -0.7885 -0.458 2000 196002
vic1 3.235 0.3203 0.006499 2.631 3.228 3.883 2000 196002
vic2 2.766 0.3126 0.003463 2.174 2.758 3.399 2000 196002
107
7.4 Ajuste del Modelo de Categorías Adyacentes
Código WinBUGS para el ajuste del Modelo de Categorías Adyacentes Prop.
model {
for (i in 1:6) {
# Probabilidades
p[i,1] <- max(0.00001,exp(eta[i,1]+eta[i,2])/(1+exp(eta[i,1]+eta[i,2])+exp(eta[i,2])));
p[i,2] <- max(0.00001,exp(eta[i,2])/(1+exp(eta[i,1]+eta[i,2])+exp(eta[i,2])));
p[i,3] <- max(0.00001,1/(1+exp(eta[i,1]+eta[i,2])+exp(eta[i,2])));
# Priors
cond~dnorm(0,0.001);
vic~dnorm(0,0.001);
emp~dnorm(0,0.001);
Tabla 7.3 – Salida WinBUGS para el Modelo de Categorías Adyacentes

cond 0.5174 0.09651 8.235E-4 0.3303 0.5175 0.707 2000 196002
deviance 70.2 3.166 0.02532 66.03 69.54 78.04 2000 196002
emp 0.9358 0.1359 0.002128 0.6734 0.9333 1.208 2000 196002
int1 -1.466 0.1703 0.002539 -1.808 -1.464 -1.142 2000 196002
int2 -0.9585 0.1336 0.001797 -1.223 -0.9569 -0.7009 2000 196002
vic 2.182 0.1874 0.002424 1.823 2.18 2.56 2000 196002
108
7.5 Código de R para la cadena del Ejemplo 2.5
# MUESTRA SIMULADA
n <- 50
mu <- 3
sigma <- 1
y <- rnorm(n,mean=mu,sd=sigma)
# CADENA
burnin <- 100
inicio <- burnin+1
iter <- 1000
N <- burnin + iter
# PRIOR
mup <- 0
sigmap <- 10
# POSTERIOR
rho <- (1/sigmap^2)/((1/sigmap^2)+(n/sigma^2))
media <- (1-rho)*mean(y)
desvio <- sqrt(1/((1/sigmap^2)+(n/sigma^2)))
sdprop <- seq(0.05,5,by=0.01) #DIFERENTES DESVIOS PARA LA PROPUESTA

largo <- length(sdprop)
medias <- matrix(0,largo,1)
accrate <- matrix(0,largo,1)
sd1 <- matrix(0,iter,1)
#### LOOP ####
for (j in 1:largo) {
tita <- matrix(0,N+1,1)
titae <- matrix(0,N+1,1)
ptita <- matrix(0,N+1,1)
ptitae <- matrix(0,N+1,1)
alfa <- matrix(0,N+1,1)
rech <- 0
#PROPOSAL
titae[1] <- qnorm(runif(1),mean=tita[1],sd=sdprop[j])
#POSTERIOR = VEROSIMILITUD * PRIOR

ptita[1] <- prod(dnorm(y,mean=tita[1],sd=sigma))*dnorm(tita[1],mean=mup,sd=sigmap)
#POSTERIOR DEL VALOR PROPUESTO = VEROSIMILITUD * PRIOR

ptitae[1] <- prod(dnorm(y,mean=titae[1],sd=sigma))*dnorm(titae[1],mean=mup,sd=sigmap)
#PROBABILIDAD DE ACEPTACION
alfa[1] <- min(1,ptitae[1]/ptita[1])
for (i in 2:N+1) {
if (runif(1)<alfa[i-1]) {
tita[i]=titae[i-1]
} else {
tita[i]=tita[i-1]
rech <- rech+1
}
titae[i] <- qnorm(runif(1),mean=tita[i-1],sd=sdprop[j])
ptita[i] <- prod(dnorm(y,mean=tita[i],sd=sigma))*dnorm(tita[i],mean=mup,sd=sigmap)
ptitae[i] <- prod(dnorm(y,mean=titae[i],sd=sigma))*dnorm(titae[i],mean=mup,sd=sigmap)
alfa[i] <- min(1,ptitae[i]/ptita[i])
}
acep <- 100*(1-rech/N)

medias[j,1]=mean(tita[inicio:N])
accrate[j,1]=acep
109
# 1,26,176 SON LOS DESVIOS DE LA PROPUESTA GRAFICADOS

if (j==1) {
for (k in 1:1000) {
sd1[k]=tita[k+100]
}
}
if (j==26) {
for (k in 1:1000) {
sd2[k]=tita[k+100]
}
}
if (j==176) {
for (k in 1:1000) {
sd3[k]=tita[k+100]
}
}
}
110

2013 Marfetán Diego

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2013 Marfetán Diego

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional de Rosario

Facultad de Ciencias Económicas y Estadística

Alumno: Diego Marfetán Molina

Directora: Mgs. Leticia Hachuel

2. Conceptos básicos de la Inferencia Bayesiana 114

2.1 Probabilidades a priori 116

2.1.1 Priors no informativas 117

2.1.2 Evaluar el peso de la prior 119

2.1.3 Priors impropias 110

2.1.4 Conjugación 110

2.2 Inferencia Bayesiana 113

2.2.1 Intervalos de confianza 114

2.2.2 El criterio de información Deviance 115

2.2.3 El Factor de Bayes 117

2.3 Métodos MCMC 121

2.3.1 Simulando la distribución a posteriori 121

2.3.2 El método de Monte Carlo 122

2.3.3 Cadenas de Markov 124

2.3.4 El muestreador de Metropolis-Hastings 126

2.3.5 El muestreador de Gibbs 130

2.4 Diagnósticos de convergencia de cadenas 131

2.4.1 Múltiples cadenas 132

2.4.2 Test de autocorrelación 133

2.4.3 Diagnóstico de Geweke 134

2.4.4 Diagnóstico BGR 135

2.4.5 Método de Raftery & Lewis 136

3. Paradigma Bayesiano Vs Paradigma Frecuentista 145

3.1 Principio de Verosimilitud 148

4.1 Descripción del conjunto de datos 154

4.2 Software 156

4.3 Modelo de Odds Proporcionales 159

4.2.1 Enfoque frecuentista 160

4.2.2 Enfoque bayesiano 162

4.2.3 Diagnósticos de convergencia 164

4.3 Modelos alternativos 171

4.3.1 Comparación de los modelos a través del DIC 174

4.4 Interpretación del modelo de Odds Proporcionales 175

4.4.1 Razones de odds 177

4.4.2 Comparación de hipótesis mediante el 179

5. Consideraciones finales 181

7.1 Modelos Lineales Generalizados para respuestas 188

7.1.1 Modelo de Regresión Logística Nominal 189

7.1.2 Modelo Logit Acumulativo 190

7.1.3 Modelo de Odds Proporcionales 191

7.2 Ajuste del Modelo de Odds Proporcionales 195

7.2.1 Funciones de densidad a posteriori 196

7.2.2 Evolución de las medias e IC del 95% 199

7.2.3 Función de autocorrelación 101

7.2.4 Diagnóstico BGR 104

7.3 Ajuste del Modelo Logit Acumulativo 107

7.4 Ajuste del Modelo de Categorías Adyacentes 108

7.5 Código de R para la cadena del Ejemplo 2.5 109

“An essay towards solving a problem in the doctrine of chances”

éxitos obtenidos tras n repeticiones y π la probabilidad de éxito en

(Stigler, 1986). Recurriendo a una notación actual, el principio

exhaustivas. Se considera que P (A j ) y P (B / A j ) , definidas

respectivamente como la probabilidad de que actúe cada una de las

ocurre B, la probabilidad de que éste haya sido causado por Aj viene

En el postulado original, Laplace consideró implícitamente

El objetivo principal de este trabajo consiste en presentar los

La presente tesina se encuentra organizada de la siguiente

2. Conceptos básicos de la Inferencia Bayesiana

Si en lugar de causas y efectos se incorporan al Teorema de

• θ: vector de parámetros (θ1 , θ2 , K , θm ) que puede incluir efectos