Está en la página 1de 7

Objetivos

• En esta clase se revisaran concepto introductorios del aprendizaje


automático reforzado y se definen métodos para generar el valor de una
acción.

Casa Central: Toesca 1783 | Mesa Central: 2 2582 6000


La Serena: Av. Francisco de Aguirre 0405 | Mesa Central: 51 247 9150
Implementación incremental

Sea Ri ahora la recompensa recibida después de la i-ésima selección de esta acción, y sea Qn la
estimación del valor de su acción después de haber sido seleccionada n - 1 veces, que ahora
podemos escribir simplemente como

Casa Central: Toesca 1783 | Mesa Central: 2 2582 6000


La Serena: Av. Francisco de Aguirre 0405 | Mesa Central: 51 247 9150
Implementación incremental

Es fácil y mejor idear fórmulas incrementales


para actualizar promedios con cálculos
pequeños y constantes necesarios para
procesar cada nueva recompensa. Dadas Qn y
la n-ésima recompensa, Rn, el nuevo
promedio de todas las n recompensas puede
calcularse mediante.

Casa Central: Toesca 1783 | Mesa Central: 2 2582 6000


La Serena: Av. Francisco de Aguirre 0405 | Mesa Central: 51 247 9150
Trabajo en clases
• Responda las siguientes preguntas para el caso de estimación de Qn+1 estacionario

• 1. Si la cantidad de pasos es grande que pasa con la estimación de Qn+1

• 2. Si la cantidad de pasos es pequeña que pasa con la estimación de Qn+1

• 3. ¿Qué sucede si Qn es igual a Rn.

• 4. ¿Qué sucede si la diferencia entre la recompensa y el valor de la acción es grande?

• 5. ¿Qué sucede si la diferencia entre la recompensa y el valor de la acción es pequeño?

Casa Central: Toesca 1783 | Mesa Central: 2 2582 6000


La Serena: Av. Francisco de Aguirre 0405 | Mesa Central: 51 247 9150
Implementación incremental

Inicializar, para a=1 hasta k


Q(a) = 0
¿Cual es la complejidad del
N(a) = 0
algoritmo?
Loop:
A= max Q(a) con probabilidad 1-e Defina una estrategia para
a (acción aleatoria) con probabilidad e mejorar este algoritmo en cuanto
R = bandido(A) al recurso computacional utilizado
para resolver un problema
N(A) = N(A)+1
complejo de muchas opciones.
Qn+1 = Qn + (1/n) [Rn – Qn]

Casa Central: Toesca 1783 | Mesa Central: 2 2582 6000


La Serena: Av. Francisco de Aguirre 0405 | Mesa Central: 51 247 9150

También podría gustarte