Está en la página 1de 4

ALPHASTAR

a. Aplicaciones De RL
En la última década, las investigaciones en las que se ha usado alguna forma de RL han
sufrido un gran aumento, especialmente en el campo de los videojuegos.
Uno de los grandes culpables de esto es el lanzamiento de Arcade Learning Environment
(ALE) en 2013 que se define como una plataforma y metodología para evaluar el desarrollo
de IA general. ALE es un entorno de trabajo diseñado para facilitar el desarrollo de agentes
que jueguen juegos de la Atari 2600, una videoconsola desarrollada en 1977. Uno de los
trabajos que más ha destacado en este campo y ha servido como base para el desarrollo de
soluciones RL es ”Playing Atari with Deep Reinforcement Learning”. En este artículo se
introduce un nuevo modelo de aprendizaje que solo tiene como entrada píxeles del juego.
b. Atari with Deep Reinforcement Learning :
DeepMind es una compañía de inteligencia artificial y creó un programa de inteligencia
artificial utilizando aprendizaje de refuerzo profundo que juega juegos.

Pero AlphaGo había sido entrenado jugando contra jugadores humanos. Esta versión fue
capaz de superar el nivel de Atari with Deep Reinforcement Learning el avance más
importante y con mayor repercusión fue la creación de AlphaGo [31], el primer programa
capaz de derrotar a un jugador profesional y a un campeón mundial de Go, convirtiéndose
en el mejor jugador de la historia en 2016. Un año después, se desarrolló su sucesor,
AlphaGo Zero que utiliza DRL junto a la búsqueda en arbol de Monte-Carlo para.
elegir el mejor movimiento. Fue entrenado compitiendo solamente contra el mismo,
mientras que AlphaGo había sido entrenado jugando contra jugadores humanos. Esta
versión fue capaz de superar el nivel de AlphaGo en tan solo 3 días de entrenamiento.
Además, usando la misma IA en otros juegos de mesa como ajedrez o shogi consiguió
vencer a los mejores programas de cada juego. Además, usando la misma IA en otros
juegos de mesa como ajedrez o shogi consiguió vencer a los mejores programas de cada
juego.

c. Solución de Problemas De RL:


Como sus creadores ya habían demostrado grandes avances en juegos de mesa, buscaron un
reto mayor con videojuegos modernos más complejos. Por este motivo nació AlphaStar
centrado en aprender a jugar al juego Starcraft II Figura, un juego de estrategia en tiempo
real, es decir, sin turnos como en Go o ajedrez. Además cuenta con un número de acciones
mucho mayor que cualquiera de los juegos de mesa mencionados anteriormente ya que en
él se pueden construir distintos edificios, obtener recursos y dirigir a un ejercito formado
por distintos grupos. Es considerado una de los juegos de estrategia más completos y
complejos. AlphaStar fue capaz de vencer a varios jugadores profesionales, aunque también
perdió alguna batalla, por lo que aún podría mejorar.
Otro proyecto que surgió de forma paralela a AlphaStar diseñada para jugar a Dota 2, un
juego en el que se juega por equipos de cinco. También incluye compras dentro de la
partida con oro que se obtiene al matar monstruos y bases enemigas que hay que derrotar.
El principal cambio respecto a los experimentos nombrados anteriormente es que en este
caso hay distintos jugadores que tienen que colaborar con el fin de obtener la victoria. Las
pruebas de este programa empezaron siendo de uno contra uno para probar las habilidades
individuales y posteriormente empezó a jugar contra equipos profesionales, consiguiendo
ganar a OG el equipo campeón en 2018

1. Tipos de redes usadas:


Resnet: Es un tipo de red neuronal convolucional, pero añade conexiones
(Skip Connections). Estas permiten saltar capas dentro de la arquitectura, esto permite
apilar un mayor número de capas.
Feed forward: Es la arquitectura de red neuronal básica. La principal propiedad de esta
red es que la señal viaja estrictamente unidireccionalmente de entrada a salida.
Trasformeer: Esta red intenta implementar el (aprendizaje relacional) esto busca las
entidades de importancia para poder ganar, y las relaciones entre estas.
Depp LSTM: (memoria a largo-corto plazo): esta red permite codificar y memorizar
(incluso a largo plazo) la información que es relevante a lo largo del tiempo de la
partida
Bibliografía

DeepMind. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement


learning. NATURE, 7,10,11,12,15.
https://rua.ua.es/dspace/bitstream/10045/107649/1/Inteligencia_Artificial_para_Videojuego
s_con_Deep_Reinf_Molina_Garcia_Alvaro.pdf

También podría gustarte