Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Trabajo Robotica
Trabajo Robotica
Robótica
CCOMP10-1
2021
ViZDoom permite desarrollar bots de IA que juegan a Doom usando solo la información
visual (el búfer de pantalla). Está destinado principalmente a la investigación en aprendizaje
visual automático y, en particular, al aprendizaje por refuerzo profundo.
ViZDoom API es amigable con el aprendizaje por refuerzo (adecuado también para
aprender de demostración, aprendizaje de aprendizaje o aprendizaje a través del
aprendizaje de refuerzo inverso, etc.).
Implementación:
Modelo
El modelo seguido es el de Double Deep Q Learning, con política e-greedy Para calcular los
valores Q, se emplea el aprendizaje temporal diferencial donde se busca optimizar el error
de mínimos cuadrados:
Se han ejecutado 5 épocas de entrenamiento cada una con 100 episodios. Los resultados
son los siguientes:
En general mantuvo puntajes altos por lo que se puede concluir que aprendió correctamente
a eliminar al enemigo.
Se premia al agente por cada tic (acción) con la cual permanece vivo sobre un charco de
ácido. Para sobrevivir puede recoger medikits ubicados aleatoriamente. El episodio termina
después de 2100 tics. Al morir se recibe una penalidad de 100 puntos y termina el episodio.
Al igual que el escenario anterior se ejecutan 5 épocas con 100 episodios cada una con los
siguientes resultados:
Época Supervivencia Tiempo Memoria Uso GPU Uso CPU
promedio (minutos)
El promedio de supervivencia general está alrededor de 700 tics, por lo que el robot logra
sobrevivir más de la mitad del episodio en general.
Conclusiones