Está en la página 1de 5

Cuantificación de Incertidumbre

IDMI310 - Introducción a la Cuantificación de Incertidumbre en Ingeniería


Estudiante: Asignación 2
Francisca Fernanda Cárdenas Fuentealba
Universidad Austral de Chile
Profesor:
Luis Ulises Medina Uzcátegui Facultad de Ciencias de la Ingeniería
Fecha: Magíster en Ingeniería Mecánica y
04 de Noviembre, 2022 Materiales

1. El video menciona cuatro métodos para estimar la densidad o distribución posterior ¿Cuáles son esos
métodos y que características generales tienen de acuerdo a lo señalado por el autor?
Los métodos que el autor menciona y sus características son:

1. Analytical Approach: Corresponde al enfoque clásico o enfoque analítico, es poco o nada usado, se usa
solo para comprender la lógica del análisis bayesiano.
2. Grid Approximation: Corresponde a contar las posibilidades para cada una de las posibles explicacio-
nes de los datos. Sin embargo, es computacionalmente demasiado costosa para problemas poco sim-
ples.

3. Quadratic Approximation: O aproximación de Laplace, aquí se aproxima la distribución como una dis-
tribución normal multivariada. Es muy útil, sin embargo, está limitada, ya que muchos problemas no
son gaussianos multivariados
4. Markov chain Monte Carlo: Es un modelo mucho más lento, sin embargo, es más capaz, ya que no po-
see muchas de las limitaciones que los otros métodos poseen.

1
2. A través de un primer ejemplo, el autor ilustra el concepto general de cadena de Markov y Monte Carlo.
La figura 1 se refiere a dicho ejemplo.

Figura 1: Figura referida al primer ejemplo desarrollado en [1]

Conforme a lo explicado en el video:

2.1. ¿qué criterio utiliza el “rey Markov” para ir de una isla a la otra?
El criterio consiste en voltear una moneda al final de la semana para decidir si debe ir a la derecha o a la
izquierda, luego compara la población de la isla en la que está con la de la isla seleccionada. Finalmente, la
probabilidad de que se mueva a la isla seleccionada corresponde a la proporción PPob obselec.
actual
. Este procedimien-
to se repite al final de cada semana.

2.2. En este ejemplo, según lo descrito por el autor, ¿qué representaría la cadena?, ¿y por qué sería una
cadena de Markov? ¿Y por qué Monte Carlo?
La cadena representa la secuencia de datos de la distribución, el autor indica que corresponde a una cadena
de Markov porque es una secuencia temporal, donde solo influye el valor inmediatamente anterior al actual
con muestras siempre crecientes, Monte Carlo quiere decir que el algoritomo utilizado se basa en la aleatori-
zación para realizar el cálculo.

2
3. De acuerdo a lo relatado por el autor, el primer algoritmo para implementar cadenas de Markov con
Monte Carlo (MCMC) se denomina Rosenbluth básico, más conocido como Metropolis [1]. En la figura 2 se
ilustra una gráfica que presenta dos parámetros estadísticos. En el video esta figura se utiliza para ilustrar
una animación que explica el referido algoritmo ¿Qué representa el parámetro en el eje horizontal (mu) y el
parámetro en el eje vertical (log(sigma))?

Figura 2: Sobre algoritmo Rosenbluth básico o Metrópolis. Tomado de [1]

En el gráfico mu representa la media de una distribución normal y log_sigma representa la desviación están-
dar sigma de la distribución normal, pero en escala logarítmica con el fin de que no exista un límite en 0 y
sea continua.
De acuerdo al autor, ¿por qué este algoritmo puede resultar ineficiente?
El autor dice que el algoritmo de Rosenbluth es ineficiente, ya que requiere ajustes respecto a que tan lejos
busca la propuesta, ya que si la propuesta es buscada muy cerca, muchas de esas serán rechazadas lo que
se traduce en cómputos ineficientes, ya que lo ideal seria que la mayor cantidad posible de propuestas sean
válidas.

3
4. Alternativas más eficientes que el algoritmo de Metrópolis, para aplicar MCMC, son aquellas basadas en
el gradiente como, por ejemplo, el denominado Monte Carlo hamiltoniano (hMC).

Figura 3: Sobre ejemplo ilustrativo para explicar método Monte Carlo hamiltoniano. Adaptado de [1]

4.1. ¿Qué analogías establece el autor entre el ejemplo del skateboarder (ver Figura 3) y el algoritmo hMC
para describir de forma general dicho algoritmo?
Lo que el autor explica es que debido a la fuerza de gravedad y la energía potencial, es más probable que
el patinador pase más tiempo cerca del fondo del bowl que en los bordes más altos, lo que se relaciona con
una distribución de probabilidad, ya que tienen zonas con mayor probabilidad posterior que otras, además al
igual que el bowl, la forma de la distribución no necesita ser perfectamente normal.

4.2. ¿Es más eficiente este método que el Metrópolis? Explique.


Este método es más eficiente que el metrópolis, ya que la forma de muestreo es más rápida, y precisa, sin
embargo, para que esta eficiencia sea lo más alta posible también requiere de ajustes de la distancia de mues-
treo, lo que ya está semi automatizado en muchos algoritmos, donde primero se selecciona un tamaño de pa-
so adecuado. Además, el autor indica que en distribuciones más complejas (menos circulares y normales),
metrópolis tendera a hacer muchas más propuestas rechazadas que el método hMC, por lo que, a mayor sea
la complejidad de la distribución, más será la diferencia en la eficiencia entre de métodos.

4.3. Este método requiere hallar el gradiente. De acuerdo al autor, ¿qué técnicas existen para determinar
el gradiente?
Para determinar el gradiente se puede medir en cada punto de la distribución o se puede calcular derivando
la función que lo describe si se conoce, pero son métodos poco eficientes. Lo que se usa es una librería open-
sourse llamada Stan, la que realiza auto-diff (auto diferenciación) para calcular los gradientes basándonos en
el modelo matemático que sé haya utilizado para definir el estudio o experimento.

4
5. En el video se señalan cinco criterios para diagnosticar la convergencia de algoritmos para aplicar MCMC
(ver figura 4). Las siguientes preguntas se refieren a dos de esas técnicas.

Figura 4: Sobre técnicas para examinar convergencia al aplicar algoritmos MCMC. Tomado de [1]

5.1. ¿En qué consisten los gráficos de trayectoria (Trace plots)? ¿Cómo se determina la convergencia basa-
da en el uso de estos gráficos?
Consisten en iniciar diferentes cadenas en diferentes lugares de la distribución aleatoriamente, y correrlas
simultáneamente, se traza un gráfico lineal unidimensional de cada una de las variables y cada una de las
iteraciones debería mantenerse más o menos en la misma franja del gráfico, si bien, no asegura que la cadena
este correcta si no converge asegura que la cadena es incorrecta.

5.2. ¿En qué consiste el criterio de convergencia basado en la estimación del número efectivo de muestras
(Number of effective samples) ¿Cómo se asegura la convergencia basada en este criterio?
El número efectivo de muestras es que tan larga seria una cadena si cada una de las muestras fuera indepen-
diente de la anterior. Si una cadena de Markov no se está explorando eficientemente, las muestras se corre-
lacionarán entre sí y no solo con la anterior. Para ver la convergencia de esta técnica se utiliza u gráfico de
autocorrelación, en el cual se puede apreciar la correlación entre las variables, este debería ser decreciente
y rápidamente converger a 0. En el caso del ejemplo se aprecia que ya en la quinta iteración la correlación
es aproximadamente 0. Sin embargo, el número efectivo demuestras no es un absoluto y dependerá de la di-
mensión de cada problema.

Referencias
[1] Richard McElreath. Statistical rethinking 2022 lecture 08 - markov chain monte carlo, https://www.
youtube.com/watch?v=Qqz5AJjyugM&t=2634s.

También podría gustarte