Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estruturar base
Organizar tropas
47
Estas perguntas que permitiro ao agente a organizao da execuo do plano que lhe
dado.
Outro ponto a ser considerado neste tipo de situao que o agente esta inserido num
ambiente no deterministico com indeterminismo ilimitado, dado que o mesmo interage com
um conjunto de outros agentes. Neste sentido, o agente deve estar pronto para mudar de
estratgia sempre que necessario. A abordagem do monitoramento e replanejamento de
execuo parece ser uma boa soluo para este tipo de situao.
Quanto ao planejamento multiagente, no so necessarias consideraes adicionais.
2.3.2. A Aprendizagem nos agentes
2.3.2.1. Caracterizao geral
A aprendizagem pode ser deIinida como sendo a Iuno cognitiva atravs da qual o
agente, ao ser exposto a determinadas situaes, que normalmente lhes so novas, desenvolve
novas respostas para se adequar a estas novas situaes.
RICH & KNIGHT (1993: pp. 513-58) discute as seguintes Iorma de aprendizagem:
1. Aprendizagem por memorizao;
2. Aprendizagem por aconselhamento;
3. Aprendizagem por exemplos ou induo;
4. Aprendizagem baseada em explicaes;
5. Aprendizagem por descoberta;
6. Aprendizagem por analogia;
7. Aprendizagem por meio de redes neurais e aprendizagem gentica.
No entanto, aqui sero tratados apenas os mtodos memorizao, aconselhamento,
aprendizagem por induo e aprendizagem baseada em explicaes, dada a sua aplicao mais
Iacilmente observavel nos jogos de estratgia em tempo real.
A memorizao consiste na estocagem de dados com vistas a utilizao Iutura,
podendo ser util para se evitar o recalculo de determinados valores pelo agente, recalculo esse
que pode prejudicar o seu desempenho.
48
A aprendizagem por aconselhamento consiste na recepo de inIormaes gerais
provindas de entidades externas ao agente, sendo que, ao agente, cabe transIormar estas
inIormaes gerais em procedimentos especiIicos com vistas a superar debilidades ou
aperIeioar seu desempenho onde este ja se mostra satisIatorio.
A induo consiste no processo atravs do qual um determinado agente, a partir de
inIormaes coletadas do ambiente, deIine, ao longo do tempo, classes que agrupam
caracteristicas comuns de um conjunto de elementos distintos captados do ambiente.
Ela surge da importncia de se criar uma estrutura no agente que permita ao mesmo
realizar tal empreendimento. RICH & KNIGHT (idem: p. 527) discute a questo
argumentando que 'independente do modo como as classes devem ser descritas, sempre
diIicil elaborar a mo uma boa deIinio de classe, sendo que 'isto particularmente verdade
em dominios que no so muito bem entendidos ou que mudam rapidamente. Deste ponto
que surge 'a idia atraente de produzir um programa de classiIicao que consiga desenvolver
sua propria deIinio de classe.
A induo utiliza-se de um conjunto de experincias para Iormular um determinado
conceito. No entanto, a aprendizagem de conceitos complexos atravs da utilizao deste
mtodo normalmente requer um numero consideravel de instncias de treinamento (idem: pp.
541-2). A aprendizagem baseada em explicaes surge ento como uma soluo para este
problema.
A aprendizagem baseada em explicaes consiste num modelo de aprendizagem onde
o agente adquire um novo aprendizado a partir de uma unica experincia, atravs de sua
avaliao e posterior generalizao. Neste sentido, o agente precisa basicamente de 4
inIormaes de entrada:
1. Um exemplo de treinamento, que consiste na experincia a ser avaliada com vistas a
aprendizagem;
2. Um conceito-objetivo, que consiste numa 'descrio de alto nivel do que o agente
deve aprender (idem: p. 543)
3. Um critrio de operacionalidade, que so os conceitos utilizaveis pelo agente;
4. Uma teoria do dominio, que consiste num 'conjunto de regras que descrevem
relacionamentos entre objetos e aes em um dominio (idem).
49
A partir destas entradas, 'o EBL |algoritmo de aprendizagem baseada em explicaes|
computa uma generali:ao do exemplo de treinamento que seja suIiciente para descrever o
conceito-objetivo e que tambm satisIaa o critrio da operacionalidade (idem).
Alm destas metodologias, o autor tambm tece, no capitulo onde trata da
aprendizagem, consideraes rapidas da metodologia da aprendizagem por meio de redes
neurais e da aprendizagem atravs da utilizao dos algoritmos genticos. No entanto, so
apenas consideraes no sentido de descrever de Iorma genrica tais metodologias.
2.3.2.2. A aplicao da aprendizagem nos jogos eletrnicos de estratgia em tempo real
Tal como a aplicao da Iuno cognitiva do planejamento, no diIicil observar-se a
aplicabilidade dos conceitos de aprendizagem aos jogos eletrnicos de estratgia em tempo
real.
A partir do momento em que o agente exposto ao campo de batalha, deve
constantemente recolher inIormaes acerca do mesmo para ento processa-las e assim
retornar uma resposta adequada a este ambiente hostil no qual esta inserido. Esta
caracterizao, no entanto, insuIiciente para caracterizar a situao da aprendizagem, dado
que determinados comportamentos podem ser modelados a partir de Iunes pr-
determinadas na estrutura do agente. Isto implica dizer que, dadas as Iunes pr-deIinidas no
agente, este apenas se dara ao trabalho de analisar as inIormaes que coleta e retornar
respostas conIorme estas Iunes que lhes so colocadas a priori.
A situao da aprendizagem, na perspectiva aqui apresentada, Iica mais evidente
quando se considera que o ambiente de um jogo de estratgia em tempo real altamente
dinmico, em Iuno do Iato de este tipo de jogo ter como caracteristica essencial o Iato de
que no apenas um agente que esta inserido no ambiente, mas diversos agentes que
interagem entre si e necessitam, em Iuno disso, estar prontos para trabalhar no so
considerando o ambiente onde esto inseridos, mas tambm as aes dos outros agentes que
esto inseridos no campo de batalha.
Outro ponto a se considerar nesta questo o Iato de que os diIerentes agentes podem,
em decorrncia das situaes, mudar sua estratgia. Aqui esta se desconsiderando ainda
hipotese da utilizao de um agente computacional. Considera-se, por enquanto, apenas a
50
interao de um agente computacional com um ou mais agentes controlados por seres
humanos que estejam inseridos no campo de batalha.
No necessaria muita delonga para se observar que o ser humano ja bastante
dinmico em suas aes, dada sua complexa estrutura intelectual. Isto lhe permite Iacilmente
mudar suas estratgias com vistas a atingir seus objetivos. Desta Iorma, pode-se observar
claramente que necessario dotar os agentes inteligentes controlados por computador de uma
estrutura de aprendizagem, dada as condies altamente dinmicas onde esto inseridos.
Esta estrutura de aprendizagem Iaz, assim, com que o agente analise o ambiente onde
esta inserido para ento desenvolver respostas adequadas a situao. Entretanto, esta situao
pode se modiIicar, seja repentina ou gradativamente, e estas novas situaes que surgem
Iazem com que o agente necessite se adequar as mesmas.
Por ora, sera Ieita apenas consideraes genricas a respeito da questo da
aprendizagem aplicada aos agentes aqui considerados. Consideraes mais especiIicas sero
Ieitas no capitulo IV deste trabalho, onde sera abordada a questo dos agentes cognitivos
evolutivos.
2.4. Consideraes Finais
Neste capitulo, discutiu-se, essencialmente, a questo dos agentes inteligentes
aplicados aos jogos eletrnicos de estratgia em tempo real, iniciando-se atravs de uma breve
exposio a respeito da tecnologia da Inteligncia ArtiIicial, seguindo-se ento para as
consideraes a respeito dos agentes inteligentes e sua tipologia. Apos isso, procedeu-se a
discusso a respeito das Iunes cognitivas do planejamento e da aprendizagem, sendo que,
para cada uma das reIeridas Iunes, Ioi, inicialmente, apresentada uma caracterizao geral,
atravs de sua conceituao e a discusso a respeito de suas metodologias de implementao,
para a partir disso explorar-se a discusso a respeito da aplicabilidade destas metodologias aos
jogos eletrnicos de estratgia em tempo real. A aprendizagem, no entanto, Ioi apenas tratada
de Iorma genrica em sua aplicabilidade a este gnero de jogos, dado que mais pertinente
que seja tratada em conjunto com a discusso a respeito dos agentes cognitivos evolutivos,
que sero apresentados no capitulo IV deste trabalho.
51
CAPITULO 3 - OS AGENTES COGNITIVOS NO 1OGO OU1LIJE
3.1. Introduo
Realizadas as devidas consideraes a respeito dos jogos eletrnicos de estratgia em
tempo real e dos agentes inteligentes, cabe agora realizar a analise da aplicao destes agentes
ao jogo que objeto deste trabalho.
O objetivo deste capitulo consiste precisamente na realizao desta analise, onde
iniciar-se-a com uma caraterizao geral do jogo Outlive, na qual sera realizada uma breve
caracterizao sobre o seu lanamento e a historia do jogo, alm de se realizar uma
caracterizao sobre a a dinmica de Iuncionamento do mesmo. Apos isso, sera realizada a
analise acerca dos agentes cognitivos aplicados ao jogo em questo, iniciando-se atravs do
relato de observaes empiricas para que ento se proceda a uma analise mais sistematica dos
reIeridos agentes, a partir da realizao de alguns experimentos que sero descritos mais
adiante. Apos a descrio destes experimentos, proceder-se-a as consideraes Iinais.
3.2. Outlive
O jogo Outlive Ioi lanado em 2001 pela empresa brasileira Continuum Entertainment.
Ilustrao 15. Logotipo aa Continuum
Entertainment. Extraiao ao fogo Outlive.
52
Sua historia se passa num Iuturo relativamente proximo, marcado pela escassez dos
recursos naturais, combinada com o surgimento de movimentos Iocados na tomada do poder
politico e caracterizados pelo uso de aes terroristas e Ioras paramilitares como Iorma de
alcanar seu objetivo.
Em Iuno disso, os grandes conglomerados econmicos e os paises mais poderosos
do planeta Iormam o Conselho Munaial, organizao cujo objetivo se coloca no sentido de
combater os grupos acima citados.
Para se resolver o problema da escassez dos recursos naturais, surge o programa
espacial Outlive, que consiste essencialmente no envio de sondas com vistas a varrer todo o
Sistema Solar em busca de recursos naturais que pudessem suprir a demanda existente na
Terra e posterior explorao dos locais mais propicios a esta atividade.
Apos a realizao das sondagens e dos devidos estudos, chega-se a concluso de que o
local do Sistema Solar mais propicio a explorao seria Tit, satlite natural de Saturno, pelo
Iato de ser o local mais rico em recursos naturais. No entanto, havia ali um grande problema:
sua atmosIera era impropria para a sobrevivncia humana, o que tornava impossivel o envio
de misses tripuladas por pessoas.
A partir disso que surge um dos dilemas centrais da historia do jogo, que consiste na
seguinte pergunta: 'que tipo de misso deve ser enviada a tal lugar?.
A partir deste dilema, surgem duas posies distintas, uma deIendendo o envio de
seres modiIicados geneticamente para o local e a outra se posicionando no sentido do envio de
misses tripuladas por robs, sendo que uma acirrada disputa se desenrola entre as duas Ioras
politicas.
Ilustrao 16. Uniaaae robotica a esqueraa e ser moaificaao
geneticamente a aireita. Imagem extraiaa ao fogo Outlive.
53
Devido ao alto grau de instabilidade politica que se instala no planeta, o Conselho
Munaial assume o controle politico do mesmo, Iicando ento o general Robert J. Kaminski
como seu comandante supremo.
O jogo inicia-se com o jogador controlando Ioras do Conselho Munaial, comandadas
pelo ento tenente Brad Maxwell. O objetivo do jogador no inicio do jogo combater as
Ioras do Exercito aa Liberaaae, uma das Ioras paramilitares citadas no inicio deste topico.
No entanto, o desenvolvimento do jogo mostra que, na realidade, o Conselho Munaial no o
que parecia ser. No decorrer do jogo, descobre-se que uma articulao Ieita dentro do
mesmo para beneIiciar a Mechatronics, conglomerado econmico da area de produo de
robs e, por isso mesmo, deIensor do envio de tripulao robotica para a misso Outlive.
A real Iaceta do Conselho Munaial revelada proximo ao Iim da campanha
12
humana.
No desenvolvimento da historia mais especiIicamente, na misso 5 da campanha humana
Maxwell, junto com Peter Mackenzie, especialista em explosivos, investigam instalaes da
Mechatronics e descobrem que a mesma no tem apenas se dedicado a produo de robs
com vistas a explorao de recursos minerais, mas tambm os tem desenvolvido enquanto
instrumentos blicos, de Iorma ilegal. Apos conseguir provas do que constatam e entrega-las a
Kaminski, este promete realizar uma investigao mais apurada a respeito da questo. No
entanto, ainda no era o momento para isto, uma vez que a misso Outlive tinha de ser
lanada e Ioras do Exercito aa Liberaaae buscavam impedir este lanamento. A misso 6 da
campanha humana consiste exatamente em destruir as baterias anti-areas com as quais a
Iora rebelde busca abater as 3 naves a serem enviadas a Tit.
12
O conceito de campanha um conceito geral nos jogos eletrnicos de estratgia em tempo real e se reIere a um
conjunto de partidas que o jogador cumpre no jogo com cada uma das raas que o mesmo possui, sendo que no
decorrer destas campanhas o jogador vai gradativamente podendo utilizar os recursos de cada raa. Alm disso,
em geral a historia do jogo se desenvolve no modo campanha, sendo que os outros modos de jogo tem apenas o
carater do entretenimento.
Ilustrao 17. A
esqueraa, Maxwell. A
aireita, Kaminski.
Imagem extraiaa ao
fogo Outlive
54
Na misso, duas das baterias so destruidas, mas uma terceira, que no havia sido
descoberta, acaba destruindo a nave Outlive 1, e esta cai em um arquiplago.
Maxwell, junto com Mackenzie, so enviados para encontrar os destroos da nave, e
neste ponto ocorre a traio de Kaminski, que tenta usar as Ioras do Conselho Munaial que
acompanhava os dois para executa-los. Mas Maxwell e Mackenzie so salvos pelas Ioras do
Exercito aa Liberaaae e por seu lider, Pablo Morales, e Mackenzie revela a Maxwell ser
membro da Iora rebelde, convidando-o a se unir aos mesmos. A partir deste momento,
Maxwell passa a compor o reIerido Exrcito.
A partir dai, o jogo passa por uma algumas reviravoltas at encontrar seu desIecho. Ao
Iim da campanha humana, o Exercito aa Liberaaae destitui o Conselho Munaial, Iormando
ento a Confeaerao, que passa a administrar os rumos do planeta.
A partir disso, a Mechatronics se organiza para destruir a ConIederao, sendo essa a
trama que envolve a segunda campanha do jogo, a campanha rob. Ao Iinal, a corporao
alcana seu objetivo, e Carl Eberhardt, seu presidente, assume o controle do planeta.
Ilustrao 18. A
esqueraa, Morales. A
aireita, Macken:ie.
Imagem extraiaa ao
fogo Outlive
55
No entanto, antes da destruio da ConIederao, Maxwell que capturado no
ultimo ataque da Mechatronics organiza uma resistncia, que encampa uma luta contra a
Mechatronics, sendo essa a trama da ultima campanha do jogo a campanha cooperativa. Ao
Iim desta, a Mechatronics Iinalmente destruida e ento Iormada a Nova Confeaerao,
constituindo este o Iim da historia do jogo.
ConIorme exposto, o jogo se divide em 3 campanhas: a campanha humana, a
campanha rob e a campanha cooperativa. Nas duas primeiras campanhas, tal como indicam
seus respectivos nomes, o jogador controla, respectivamente, Ioras humanas e Ioras
roboticas. A terceira campanha se caracteriza pelo uso combinado de Ioras das duas raas.
As caracteristicas das raas sero descritas adiante.
Ha dois recursos que o jogador deve administrar: os crditos e a energia.
Os crditos podem ser obtidos atravs das seguintes Iormas:
1. Explorao de jazidas que podem ser encontradas espalhadas pelo mapa. Tais jazidas
podem ser jazidas de Ierro ou de urnio.
2. Coleta de sucata que sobra quando uma determinada unidade a exceo dos
vampiros e dos abominaveis destruida;
3. Recebimento de crditos de exrcitos aliados;
Ilustrao 19. Carl Eberharat. Imagem extraiaa
ao fogo Outlive.
56
Ja a energia pode ser adquirida atravs de algumas construes especiIicas, sendo que
os humanos a adquirem atravs da construo de geraaores eolicos e usinas nucleares e os
robs a adquirem atravs da construo de geraaores solares e geraaores raaioativos.
Quanto aos modos de jogo, ha os seguintes:
Um jogador, com os seguintes modos:
Campanha onde se pode jogar a campanha humana, rob ou cooperativa;
Mapa personalizado.
Modo multijogador, que pode ser jogado, dentre outras Iormas, atravs de rede local
ou atravs da Internet.
O mapa personalizado o modo que sera o Ioco deste jogo.
Neste modo, o jogador solicitado a escolher um mapa para jogar. Cada mapa possui
suas especiIicidades, como por exemplo as dimenses e o numero maximo de jogadores
sejam eles humanos ou agentes cognitivos que interagiro com o jogador.
O jogo possui duas raas: a humana e a robotica. As estruturas de cada uma so
descritas a seguir:
Ilustrao 20. Acima, o
aspecto ae uma fa:iaa ae
uranio. Abaixo, o aspecto
ae uma fa:iaa ae ferro.
Imagem extraiaa ao fogo
Outlive
57
1. Humanos:
1. Quartel General: Estrutura principal de uma base humana. Produz construtores,
coletores, abominaveis e ICBM's
13
;
2. Laboratrio de pesquisa: Estrutura onde so realizadas as pesquisas com vistas
ao aperIeioamento tecnologico da base;
3. Central de Inteligncia: Estrutura atravs da qual pode-se coletar inIormaes
acerca do ambiente e acerca dos eventuais inimigos. Possui as seguintes
Iuncionalidades:
1. Roubar informaes: Permite ao jogador obter as seguintes inIormaes de
um inimigo:
1. Nome;
2. Numero de unidades;
3. Situao diplomatica, ou seja, com quem o inimigo mantm alianas e
quais so os exrcitos em relao aos quais o inimigo mantm-se neutro;
4. Finanas;
5. Numero de estruturas construidas.
2. Abrir viso: Permite que se abra a viso de uma determinada parte do
ambiente por um determinado periodo de tempo.
3. Roubar pesquisa: Permite que se tome posse de uma pesquisa realizada por
outro agente;
4. Monitorar jogador: Permite que todas as aes de um determinado jogador
seja visualizada por um determinado periodo de tempo;
5. Paralisar construes: Permite que se paralise construes inimigas por um
determinado periodo de tempo;
6. Desarmar ICBM: Permite que se desarme um ICBM lanado por algum
inimigo.
4. Mercado: Estrutura onde pode-se descartar unidades inutilizadas vendendo-as ou
comprar unidades prontas para compor o exrcito.
5. Fbrica de veculos: Estrutura para construo de unidades terrestres. Produz as
seguintes unidades:
1. Construtor;
13
O jogo possui um patch que permite que o quartel general produza tambm a unidade transportador.
58
2. Coletor;
3. Explorador;
4. Dominador;
5. Lana-chamas;
6. Lana-misseis;
7. Tanque;
8. Tanque pesado.
6. Fbrica de aeronaves: Estrutura que produz unidades areas. Permite que se
produza as seguintes unidades:
1. Transportador;
2. Helicoptero;
3. Caa.
7. Torre de defesa: Estrutura que permite a deIesa de uma base.
8. Extrator de minrio: Estrutura que permite a extrao de minrios. Para que
possa ser Ieita a extrao, deve-se ter pelo menos uma unidade do tipo coletor,
sendo que o extrator de minrio suporta at 4 coletores extraindo-lhe minrio
simultaneamente. Para ajudar na coleta de minrios, pode ser utilizada a estrutura
Refinaria. Caso no haja alguma reIinaria construida, os coletores, apos extrair o
minrio do extrator, dirigir-se-o para o quartel general.
9. Refinaria: Estrutura na qual os minrios so depositados apos serem extraidos
pelos coletores.
10. Processador de minrio: Estrutura que permite a consecuo de minrios sem a
necessidade do uso de coletores ou reIinarias.
11. Gerador elico: Estrutura utilizada para a gerao de energia para a base.
12. Usina nuclear: Outra estrutura de gerao de energia. Possui capacidade maior
que a dos geradores eolicos.
13. Retransmissor de energia: Esta estrutura esta relacionada com o conceito de
malha ae energia. A malha de energia consiste na area atingida pelas estruturas
geradoras de energia. Caso alguma estrutura da base Iique Iora desta area,
necessario o uso de um retransmissor para que esta estrutura possa receber energia.
2. Robs:
59
1. Centro de Controle: Estrutura com Iunes analogas ao quartel general dos
humanos. Permite que se construa as unidades morfo, saqueaaor, holograma e
clone
14
.
2. Centro tecnolgico: Estrutura que permite a realizao de pesquisa com vistas a
melhoria tecnologica da base;
3. Centro de informaes: Estrutura com Iunes similares a central de inteligncia
humana. No entanto, apresenta algumas diIerenas em relao a estas, a saber:
1. Operao atravs de vrus: A central de inteligncia humana opera atravs da
aplicao de uma determinada quantidade recursos e um certo periodo de
tempo para que a operaes de espionagem sejam concluidas. O centro de
inIormaes robotico opera atravs da produo de virus. Apos produzidos, os
mesmos podem ser utilizados para tentar invadir os sistemas inimigos, sem a
necessidade de espera pela realizao das operaes. Ou seja, assim que os
virus so acionados quando esto disponiveis o resultado da operao de
espionagem aparece de imediato.
2. Redirecionamento de ICBM's: Ao invs de desarmar, os robs podem
redirecionar os ICBM's inimigos, alterando sua trajetoria original.
4. Base recicladora: Estrutura que permite que se repare ou descarte uma
determinada unidade, reciclando-a.
5. Fbrica bsica: Estrutura que permite que se construa unidades basicas dos robs.
Pode construir as seguintes unidades:
1. MorIo;
2. Saqueador;
3. Invasor;
4. Tornado;
5. Electro;
6. Tempestade;
7. Vingador.
6. Fbrica avanada: Estrutura que permite que se construa as unidades mais
avanadas da raa rob. Pode construir as seguintes unidades:
1. Caos;
14
O centro de controle rob tambm possibilitado a construir a unidade Tornaao apos a aplicao do patch
mencionado anteriormente.
60
2. Trovo;
3. Incinerador;
4. Apocalipse.
7. Canho de defesa: Estrutura de deIesa que permite a deIesa contra unidades
terrestre inimigas.
8. Canho antiareo: Estrutura de deIesa que ataca unidades areas inimigas
15
9. Usina de purificao: Estrutura com Iunes similares as da reIinaria humana;
10. Base de minerao: Estrutura com Iunes similares as do extrator de minrio
humano;
11. Assimilador de minrio: Estrutura com Iunes analogas as do processador de
minrio humano;
12. Gerador solar: Estrutura com Iunes similares as do gerador eolico humano.
Aqui pode-se observar mais uma diIerena entre os robs e os humanos, uma vez
que o gerador solar possui uma taxa de produo de energia constante, enquanto
que no gerador eolico a taxa de produo de energia varia conIorme a Iora do
vento. Alm disso, o gerador solar gera uma quantidade de energia maior
1617
.
13. Gerador radioativo: Estrutura com Iunes similares as da usina nuclear humana.
Assim como o gerador solar em relao ao gerador eolico, o gerador radioativo
gera uma quantidade de energia maior que a usina nuclear humana.
Uma tabela relacionando as estruturas e suas imagens pode ser encontrada no apndice
B deste trabalho.
Os tipos de unidades esto especiIicados no apndice C, e o apndice D expe uma
tabela relacionando as unidades e suas respectivas imagens. Neste capitulo do trabalho, sero
realizadas apenas algumas ponderaes a respeito de alguns aspectos das mesmas.
As unidades podem ser selecionadas no jogo atravs de duas Iormas: individualmente
ou em esquadres, sendo que para cada uma destas Iormas de seleo, ha comandos
especiIicos que o jogador pode enviar a(s) unidade(s).
15
Aqui pode-se observar mais uma diIerena entre os humanos e os robs. A torre de deIesa humana combina,
em si, as Iunes de deIesa anti-terra e deIesa antiarea. Ja os robs possuem uma estrutura para cada tipo de
deIesa.
16
Aqui ha de se observar tambm outro Iator: as estruturas da raa rob normalmente consomem mais energia
que as estruturas humanas.
17
Outro ponto de diIerena a se notar o Iato de os robs se utilizarem do conceito de malha ae energia de Iorma
diIerente dos humanos. Na raa rob, no importando a distncia que separa as estruturas geradoras de energia
das outras estruturas, estas ainda assim continuaro recebendo energia daquelas.
61
No jogo Outlive em especiIico, as unidades podem ser divididas em 4 categorias
basicas:
1. Unidades construtoras;
2. Unidades coletoras;
3. Unidades de transporte;
4. Unidades de combate.
Todas as unidades possuem, em comum, os seguintes comandos
18
:
Mover: Faz com que uma unidade locomova-se para um determinado ponto do mapa.
Parar: Faz com que a unidade Iique parada num determinado local, so saindo do
mesmo em caso de ataque inimigo, quando passa a revidar o ataque recebido.
Manter posio: Faz com que a unidade Iique no mesmo local, independente de estar
sendo atacada ou no. Quando atacada, revida o ataque apenas quando o inimigo
esta ao seu alcance na posio onde esta.
Atacar: Faz com que a unidade ataque alguma unidade ou estrutura inimiga.
Patrulhar: Faz com que a unidade patrulhe o espao entre o ponto onde esta no
momento em que recebe o comando do agente controlador e um ponto determinado
por este.
Fugir: Faz com que a unidade Iuja para um determinado ponto do mapa, que pode ser
a propria base do agente controlador esta a opo padro ou algum ponto pr-
determinado pelo mesmo.
As unidades de combate, alm dos comandos especiIicados logo atras, possuem
tambm os seguintes comandos:
18
E importante aqui destacar o conceito de caminho, utilizado no jogo. Um caminho consiste num conjunto de
pontos do mapa que Iorma uma trajetoria que pode ser trilhada por uma unidade ou conjunto de unidades. Os
caminhos podem ser editados no decorrer de uma partida, sendo que Iicam identiIicados permanentemente por
um ponto inicial e um ponto Iinal. No mbito dos caminhos, podem ser dados os seguintes comandos as unidade:
mover, atacar ou patrulhar. O comando mover Iaz com que a unidade trilhe todo o caminho, parando quando
atinge o seu Iim. O comando patrulhar Iaz com que a unidade patrulhe aquele caminho; e, Iinalmente, o
comando atacar Iaz com que a unidade percorra aquele caminho, atacando todas as estruturas ou unidades
inimigas que encontrar no mesmo.
62
Escoltar: Faz com que a unidade acompanhe uma outra unidade, deIendendo-a no
caso de necessidade;
Ataque de guerrilha: Faz com que a unidade lance um ataque rapido a alguma
estrutura inimiga, Iugindo logo em seguida.
Quando a unidade selecionada individualmente, so apresentados ao jogador o
conjunto de comandos que lhe so especiIicos. Ja quando so selecionadas em esquadres,
podem ocorrer dois tipos de situaes:
1. Quando so selecionadas unidades do mesmo tipo, apresentado ao jogador o
conjunto de comandos especiIicos daquele tipo de unidade;
2. Quando so selecionadas unidades de tipos diIerentes, apresentado o conjunto de
comandos comuns aos tipos de unidades selecionados. No entanto, no lugar do
comando patrulhar, apresentado o comando espalhar, que Iaz com que as unidades
selecionadas se dispersem.
3.3. Os Agentes Cognitivos no jogo Outlive
3.3.1. Introduo
Realizadas as devidas consideraes a respeito da dinmica de Iuncionamento do jogo
Outlive, proceder-se-a agora a analise dos agentes cognitivos utilizados em tal jogo. Tal
exposio sera realizada inicialmente atravs da descrio de experincias no sistematicas
com o jogo para posteriormente proceder-se a descrio dos experimentos realizados tendo o
reIerido jogo como base.
No decorrer de experincias no sistematicas com tal jogo, pde-se perceber que os
agentes cognitivos utilizados no mesmo possuem uma capacidade de adaptao as estratgias
utilizadas pelo jogador. No entanto, esta adaptao ocorria apenas no mbito de uma partida
no jogo, no se estendendo para alm disso. Desta Iorma, no se pode aIirmar que ha um
esquema de aprendizado eIetivo no jogo, dado que o agente, quando lida com o mesmo
jogador uma outra vez, tera de iniciar novamente todo o ciclo de aprendizagem.
A partir destas observaes, lanou-se a proposta de analisar mais sistematicamente a
conduta destes agentes no jogo, alm de se estudar a possibilidade de desenvolver uma
63
proposta de um mtodo que Iaa com que estes agentes possuam um esquema eIetivo de
aprendizagem
19
. A analise da conduta destes agentes alvo dos experimentos que sero
discutidos logo adiante, enquanto o estudo da possibilidade da implementao de esquemas de
aprendizagem eIetiva sera objeto do proximo capitulo deste trabalho.
3.3.2. Os experimentos
3.3.2.1. Caracterizao geral
Foram realizados um conjunto de experimentos com vistas a compreenso do
comportamento dos agentes cognitivos implementados no jogo Outlive.
Inicialmente, o projeto previa realizao de um total de 9 experimentos para a partir
dos mesmos avaliar a conduta dos reIeridos agentes. Em cada um destes experimentos, seriam
Ieitas combinaes entre as duas raas existentes no mesmo, utilizando-se um maximo de 3
agentes em um mesmo experimento. Tal metodologia daria origem as seguintes combinaes:
1. Humano;
2. Rob;
3. Humano x humano;
4. Humano x rob;
5. Rob x rob;
6. Humano x humano x humano;
7. Humano x humano x rob;
8. Humano x rob x rob;
9. Rob x rob x rob.
No ambiente de cada experimento, os agentes teriam suas bases desestruturadas at
suas partes essenciais. Ou seja, o pesquisador
20
trataria de deixar apenas as estruturas
estritamente necessarias para a manuteno de cada agente. A partir disso, o jogador passaria
a administrar ataques alternando entre o uso de unidades terrestres e unidades areas para
19
Aqui o conceito de aprendizagem eIetiva se reIere a possibilidade de o agente acumular sua aprendizagem para
alm de uma partida, diIerentemente da IA existente no jogo, onde a aprendizagem no cumpre com esta
condio.
20
Dependendo do contexto, este tambm podera ser denominado, neste trabalho, pelo termo fogaaor.
64
assim avaliar de que Iorma os agentes se adaptariam a estratgia utilizada, alm de observar
como se daria a politica de alianas entre os agentes, quando Iorem utilizados mais de um.
Entretanto, no decorrer do desenvolvimento do projeto, puderam ser observadas
algumas questes que levaram o pesquisador a realizar algumas modiIicaes na metodologia
a ser utilizada.
Primeiramente, detectou-se, atravs de pesquisas por meio da Internet, que possivel
ativar determinadas trapaas no jogo. Tais trapaas so ativadas atravs da digitao de
determinados comandos na interIace de envio de mensagens entre os jogadores que existe no
jogo, conIorme o quadro a seguir.
Cdigo Trapaa
#can i play with madness
Faz com que as unidades e estruturas controladas pelo jogador
tornem-se indestrutiveis.
#Iear oI the dark
Faz com que todo o mapa seja revelado ao jogador
permanentemente, sem a apresentao da nvoa de guerra.
#be quick or be dead
Faz com que a construo de estruturas e unidades do jogador
seja acelerada consideravelmente.
#Iortunes oI war
Faz com que sejam injetados 25.000 crditos na economia do
jogador.
Quadro 1 - Trapaas possveis no jogo Outlive
Avaliando que o uso de tais mecanismos no traria prejuizo aos experimentos,
resolveu-se utiliza-los.
Alm disso, no decorrer do desenvolvimento dos experimentos pde-se observar que a
utilizao de at 3 agentes nos mesmos seria desnecessaria, uma vez que a estrutura logica
dos diversos agentes similar e, desta Iorma, a utilizao desta metodologia revelar-se-ia
improdutiva. Desta Iorma, resolveu-se utilizar um conjunto de combinaes que utilizassem
um maximo de 2 agentes, alm da realizao de mais um experimento, utilizando-se 7
agentes, o que representaria um dos casos mais gerais possiveis para o jogo
21
.
21
A realizao de todas as combinaes possiveis com a utilizao de 7 agentes seria impossivel, dado que tal
empreitada tornaria necessaria a realizao de um total de 8 experimentos, alm dos 5 previstos para as
combinaes de at 2 agentes, o que geraria a necessidade de realizao de 13 experimentos no total. O unico
experimento utilizando 7 agentes levou cerca de 5 horas e meia para ser realizado. Dados estes elementos, pode-
se observar que seria inviavel e at mesmo improdutivo, caso Iosse viavel a realizao desta quantidade de
experimentos. Em Iuno disso, resolveu-se realizar apenas um dos experimentos possiveis nesta condio o
que representa o caso de maior equilibrio no numero de exrcitos por raa no jogo, contando com 4 exrcitos
humanos (incluindo aqui o exrcito controlado pelo jogador) e 4 exrcitos robs. o apndice F apresenta as
combinaes possiveis para o caso da utilizao de 7 agentes.
65
Apos as modiIicaes, a metodologia passou a contar com as seguintes caracteristicas:
1. Realizao de 6 experimentos, com os cinco primeiros previstos no projeto inicial e
mais um, utilizando-se 7 agentes.
2. Para cada experimento, o pesquisador passa a seguir o seguinte procedimento:
1. Aciona as trapaas;
2. Desenvolve sua base principal
22
;
3. Constroi bases de produo de recursos em todas as jazidas do mapa, a exceo
das encontradas nas bases principais dos agentes controlados pelo computador.
4. Observa, por um determinado periodo de tempo, a conduta dos agentes nas
condies em que Iica o experimento apos a realizao do passo 3;
5. ConIorme a necessidade, ativa a trapaa que injeta 25.000 crditos em sua
economia;
6. ConIorme a necessidade, injeta crditos na economia dos agentes;
7. Em um determinado momento do experimento, o jogador desestrutura todas as
suas bases de produo de recursos, a exceo da localizada em sua base principal,
para assim avaliar a resposta dos agentes.
8. ConIorme a necessidade, elimina um ou mais agentes no experimento, para avaliar
a resposta dos agentes remanescentes;
9. Realiza veriIicaes periodicas, atravs de operaes de espionagem, para avaliar
a politica de alianas dos agentes e a quantidade de crditos que possuem no
momento.
10. Para concluir o experimento, elimina todos os agentes que ainda estiverem no
mapa.
A reIerida metodologia Ioi consolidada no segundo experimento, onde o pesquisador
percebeu que esta seria a maneira mais produtiva de se avaliar a conduta dos agentes no jogo.
No primeiro experimento, o pesquisador procedeu da seguinte Iorma:
22
Aqui importante distinguir os conceitos de base principal e base ae proauo ae recursos, que sero
utilizados daqui por diante. A base principal consiste na base que alocada para cada agente controlador no
inicio de uma partida, e onde normalmente cada agente controlador constroi suas estruturas principais. A base
de produo de recursos, conIorme o nome indica, consiste numa base localizada em uma jazida qualquer do
mapa, e que normalmente contm um processador de minrio ou assimilador de minrio, dependendo da raa
que a construir, alm de normalmente conter estruturas de deIesa para o caso de um ataque inimigo. Possui a
Iuno de coletar crditos para a economia do agente controlador.
66
1. No realizou o procedimento 7;
2. Realizou alguns ataques a base principal do agente, sem no entanto elimina-lo, para
assim veriIicar suas respostas;
3. No injetou crditos na economia do agente;
4. No registrou os momentos em que os eventos registrados ocorreram. Este
procedimento passou a ser seguido apenas no experimento 2.
Em todos os experimentos, o pesquisador controlou exrcitos humanos, devido a
Iuncionalidade aominao da unidade dominador, que permite que se converta unidades de
agentes inimigos para o exrcito do jogador, e conseqentemente permitindo a converso de
unidades morfo para a construo de bases robs para auxilio, nas ocasies em que houverem
agentes controlando bases rob no mapa.
O apndice E Iaz uma descrio detalhada dos eventos ocorridos durante cada um dos
experimentos realizados.
3.3.3.2. Caracterizao dos experimentos
3.3.3.2.1. Experimento I
Neste experimento, Ioi utilizado apenas 1 agente, controlando uma base humana,
sendo que puderam ser observados os seguintes eventos durante a sua realizao:
O agente leva um certo tempo para se adaptar a estratgia do jogador de utilizar
unidades areas em sua deIesa, sendo que comea a utilizar lana-misseis em seus
ataques a partir do 6 ataque. No entanto, a partir disso, o agente gradativamente
aumenta a cobertura anti-area para seus ataques;
Em um determinado momento do jogo, o agente age como se tivesse noo de que no
tem condies de vencer o jogador. Desta Iorma, passa a atacar as bases de produo
de recursos por diversas vezes utilizando apenas 3 caas e 3 helicopteros, um ataque
de pequenas propores e, conseqentemente, Iacilmente neutralizado.
Em um determinado momento do jogo, o agente constroi uma central de inteligncia
em um local distante de sua base principal, ao essa aparentemente incoerente.
67
Depois de um certo periodo em que o jogador utiliza lana-misseis para repelir os
ataques areos do agentes, este passa a utilizar tanques pesados e lana-misseis em um
de seus ataques, sendo que apos este volta a utilizar o esquema de 3 caas e 3
helicopteros, sendo que em um dos ataques utiliza 4 unidades de cada uma das
reIeridas logo acima.
Em uma avaliao geral, pode-se dizer que, neste experimento, o agente apresentou
uma conduta adaptativa limitada, dado que sua adaptao em boa parte do experimento Ioi
demorada, como por exemplo o caso da utilizao de lana-misseis
23
em ataques, que apenas
ocorre no 6 ataque ao jogador. Alm disso, a sua conduta em um momento do experimento
pareceu incoerente, quando o agente constroi uma central de inteligncia num ponto
relativamente isolado do mapa.
3.3.3.2.2. Experimento II
Neste experimento Ioram utilizados 2 agentes, ambos controlando bases humanas.
Sero denominados como exercito vermelho e exercito roxo.
Em seu decorrer Ioram observados os seguintes eventos:
Com menos de 30 minutos do inicio, a aliana entre os agentes ja esta consolidada;
Em seu segundo ataque, o exrcito roxo ja demonstra uma atitude adaptativa, expressa
na utilizao de lana-misseis no ataque. A mesma conduta adotada pelo exrcito
vermelho em seu segundo ataque ao jogador;
Os dois agentes, em determinado momento do experimento, passam a realizar aes
conjuntas, sendo que a primeira ao neste sentido a construo, pelo exrcito
vermelho, de uma usina nuclear junto a malha de energia do exrcito roxo;
Em determinado momento, os agentes passam a dividir tareIas entre si, sendo que o
exrcito vermelho Iica sob a responsabilidade de tomar as bases de produo de
recursos do jogador, enquanto o exrcito roxo trata de atacar a base principal do
mesmo;
23
Mais inIormaes a respeito desta unidades podem ser encontradas no apndice C deste trabalho.
68
Apos o jogador destruir quase por completo o exrcito vermelho, este constroi
algumas estruturas na base principal do exrcito roxo. Tal situao Ioi caracterizada
pelo jogador como simbiose estrategica;
Apos tomar cerca de 60 das jazidas de minrio encontradas no mapa, o exrcito
vermelho para de construir bases de produo de recursos, situao essa que perdura
at o Iim do experimento.
Em termos mais gerais, pde-se observar, durante este experimento, que os agentes
possuem em sua estrutura o conceito de necessiaaae. Ou seja, os mesmos avaliam a situao
em que se encontram num determinado momento e a partir desta avaliao agem sobre o
ambiente Isto pde ser observado no mbito da construo da aliana entre os agentes, onde
os mesmos aparentemente observaram que para terem condies de vencer o jogador teriam
de se unir, e no momento onde o exrcito vermelho para de construir bases de produo de
recursos, pois aparentemente seu agente controlador observou que para manter sua base em
boas condies de operao no necessitaria tomar todas as jazidas de minrio do mapa,
tomando apenas as que se Iizessem necessarias para a realizao de tal Ieito.
Pde-se observar tambm que, quando os agentes Iormam alianas, em alguns
momentos surge uma situao em que a aliana entre os mesmos torna-se orgnica. Ou seja,
os dois exrcitos, atravs de diviso de tareIas e compartilhamento de recursos neste caso a
energia, quando o exrcito vermelho passa a construir sistematicamente nos limites da base do
exrcito roxo agem como se Iossem apenas um exrcito em operao
.
3.3.3.2.3. Experimento III
Neste experimento Ioi utilizado um agente controlando uma base da raa rob.
Neste experimento puderam ser observados os seguintes eventos:
O agente, logo no inicio do experimento, ja demonstra uma postura expansionista,
construindo sua primeira base de produo de recursos aos 7 minutos do inicio do
experimento;
69
Em seu segundo ataque ao jogador, o agente ja demonstra preocupao em relao a
cobertura anti-area para seus ataques, sendo que o primeiro ataque Iora neutralizado
por unidades areas do jogador;
Num determinado momento do experimento, o agente demonstra uma atitude
adaptativa consideravelmente interessante: ao ver uma rota at uma das bases de
produo de recursos que era alvo de um ataque do agente obstruida, o agente
utiliza uma rota alternativa para chegar ao seu alvo. A ilustrao 15 descreve a
situao
Em termos gerais, pde-se observar que o agente, agora no controle de uma base rob,
demonstrou uma postura mais expansionista em relao ao agente controlando uma base
humana, dado que a primeira base de produo de recursos do agente neste experimento se
deu antes dos 10 minutos do inicio do mesmo. Aparentemente tal conduta esta relacionada as
vantagens do uso da unidade morfo da raa rob, dado que com o uso de varios exemplares da
mesma permite que se construa bases rapidamente. A atitude adaptativa do agente com
relao a passagem obstruida por unidades do jogador tambm um Ieito digno de nota.
70
3.3.3.2.4. Experimento IV
Neste experimento Ioram utilizados 2 agentes, ambos controlando exrcitos da raa
rob, sendo que os mesmos sero denominados como exrcito verde
24
e exrcito roxo.
No decorrer do experimento, puderam ser observados os seguintes eventos:
A aliana entre os agentes se consolida nas proximidades dos 40 minutos de
experimento;
Os agentes se comportam dentro do parmetro da expanso limitada. Apos o jogador
desestruturar suas bases de produo de recursos, o exrcito roxo constroi 6 bases
deste tipo e o exrcito verde constroi 5 delas. No entanto, mesmo havendo outras
24
No experimento, este agente controlou um exrcito indicado pela cor verde claro. Mas para Iins de
simpliIicao da descrio, sera denominado aqui como exrcito verde.
Ilustrao 21. Exposio aa estrategia utili:aaa pelo agente. A
aglomerao aestacaaa no retangulo 1 consiste na
aglomerao ae cerca ae 50 uniaaaes aereas ao fogaaor,
enquanto que a aglomerao aestacaaa no retangulo 2 inaica
uma aglomerao ae 9 incineraaores e 9 tempestaaes. Poae-se
observar que o caminho esta completamente bloqueaao. Desta
forma, o agente utili:a a rota inaicaaa pela trafetoria vermelha
a esqueraa aa imagem em :oom.
71
jazidas de minrio que podiam ser exploradas, os agentes no demonstraram interesse
em explora-las. Este um outro indicio que permite observar que aparentemente os
agentes possuem em sua estrutura o conceito de necessidade, a partir do qual avaliam
se devem ou no continuar expandindo sua base.
Neste experimento, o aspecto mais digno de nota Ioi a possibilidade de se observar
novamente a aparente existncia do conceito de necessidade na estrutura dos agentes. Este o
segundo experimento onde os agentes se comportam dentro do parmetro sugerido por este
conceito, sendo que tal comportamento ja pde ser observado no decorrer do experimento II.
3.3.3.2.5. Experimento V
Neste experimento, Ioram utilizados, a exemplo dos 3 anteriores, 2 agentes: um
controlando um exrcito humano o qual sera denominado exrcito laranja e o outro
controlando um exrcito rob, e sera denominado exrcito vermelho.
Durante a execuo do experimento, puderam ser observados os seguintes eventos:
O primeiro ataque dos agentes, aos 28 minutos do experimento, ja um ataque
conjunto;
Apos o Iracasso do primeiro ataque, os agentes atacam bases de produo de recursos
do jogador em paralelo, ou seja, so realizados varios ataques que ocorrem
aproximadamente no mesmo periodo de tempo, mas a bases de produo de recursos
diIerentes do jogador. Alm disso, os ataques parecem se dar com vistas a enIraquecer
o jogador, dado que o primeiro ataque se dirigiu a base principal do mesmo.
Em termos gerais, no puderam ser realizadas observaes que possam ser
consideradas signiIicativas para o trabalho.
72
3.3.3.2.6. Experimento VI
Este experimento Ioi realizado com vistas a se observar uma situao dentre as mais
gerais possiveis para o jogo: a utilizao do maximo de agentes permitido para o mesmo, ou
seja, 7 agentes.
A distribuio dos agentes entre as raas objetivou observar a situao com maior
equilibrio possivel. Dado que o pesquisador utiliza-se sempre de um exrcito humano,
resolveu-se colocar 3 dos agentes controlando bases humanas e 4 controlando bases
roboticas. A disposio dos agentes esta relacionada no quadro abaixo:
Raa Exrcito
Humano
Exrcito verde
Exrcito amarelo
Exrcito laranja
Rob
Exrcito vermelho
Exrcito verde claro
Exrcito azul
Exrcito roxo
Quadro 2 - distribuio dos agentes entre as raas
No decorrer do experimento, puderam ser observados os seguintes eventos:
So Iormadas duas alianas de agentes: a primeira delas, que sera denominada aliana
1, Iormada pelo exrcito vermelho, exrcito verde claro, exrcito roxo e exrcito
amarelo, enquanto que a outra, a ser denominada aliana 2, Iormada pelo exrcito
azul, exrcito verde e exrcito laranja.
Pde-se observar, a certa altura do experimento, que neste parece se repetir a
estratgia utilizada por uma aliana de agentes de um dos agentes assumir a liderana
da mesma, realizando os ataques as bases inimigas, tal como ocorreu no experimento
II, no qual o exrcito vermelho cumpriu com tal papel;
Aos 49 minutos do inicio do experimento, pde ser observado o primeiro indicio de
simbiose estratgica entre os agentes, representada pela construo de algumas
73
estruturas de deIesa do exrcito verde em uma base de produo de recursos do
exrcito azul;
Apos realizar alguns ataques ao jogador e observar que os mesmos no so eIetivos, a
aliana 2 passa a atacar a aliana 1, voltando a atacar sistematicamente o jogador
apenas quando enIraquece esta;
Em determinadas situaes, ataques de um agente recebem reIoros de tropas de outro
agente aliado;
Em outras situaes, agentes aliados realizam ataques conjuntos a bases inimigas.
Alm disso, ha outras situaes onde agentes aliados alternam ataques. Ou seja,
enquanto um agente realiza um ataque, o outro prepara, na retaguarda, outra Iora de
ataque, que ataca uma base inimiga pouco tempo depois que o ataque do primeiro
agente Ialha. E enquanto ocorre este ataque, o agente responsavel pelo primeiro ataque
prepara uma outra Iora de ataque. E assim por diante.
As alianas Iormadas se mantiveram Iirmes at o Iim do experimento. Apesar disso,
pde-se observar que nas proximidades do Iim do experimento, os inimigos se
concentraram num objetivo comum: a eliminao do jogador na partida.
Puderam ser observadas, neste experimento, 3 situaes dignas de nota. A primeira Ioi
a Iormao de duas alianas entre agentes distintos, que se mantiveram estaticas at o Iim do
experimento, sendo que, ao Iim do mesmo, as duas alianas, embora inimigas, se mantiveram
Iocadas em um objetivo comum: a eliminao do jogador. A segunda Ioi o redirecionamento
de objetivos ocorrido na aliana 2, que apos perceber que seus ataques contra o jogador eram
ineIetivos, passou a atacar a aliana 1, sendo que apenas apos enIraquecer esta passou a atacar
o jogador de Iorma sistematica novamente. A terceira situao observada Ioi o revezamento
dos ataques dos agentes em determinado momento do jogo, sendo que, enquanto um agente
realizava um ataque a uma base inimiga, outro preparava um ataque que era realizado pouco
depois que o primeiro Iracassava, e assim por diante.
74
3.3.3.3. Consideraes gerais a respeito dos experimentos
No decorrer dos experimentos, puderam ser observados alguns comportamentos nos
agentes, cujo agrupamento numa categoria mais geral interessante.
O primeiro experimento Ioi o unico experimento onde o agente demonstrou uma
atitude adaptativa limitada. No entanto, aparentemente isto esta relacionado as condies em
que se deu este experimento, uma vez que o pesquisador se comportou de Iorma diIerente da
qual se comportou nos outros experimentos, no injetando crditos na economia do agente,
alm de no desestruturar suas bases de produo de recursos em determinado momento do
experimento.
No experimento III, onde o agente se encontrava no controle de um exrcito rob,
houve uma postura mais expansionista do mesmo. De acordo com o que pde ser observado,
tal postura se da em Iuno da unidade morIo da raa rob. No caso de exrcito humano, um
conjunto de construtores levaria um certo tempo para construir uma base. No entanto, com o
uso de unidades morIo, pode-se construir, em um tempo relativamente curto, uma base de
produo de recursos. Ha de se levar em conta que tal base Iora construida numa jazida
consideravelmente proxima da base principal do agente.
No experimento VII Ioi observado um conjunto de outras circunstncias interessantes.
Inicialmente a concretizao de duas alianas e a sua manuteno at o Iim do experimento,
ainda que as duas alianas, embora inimigas, se Iocaram em atacar apenas o jogador,
aparentemente se Iocando no objetivo de elimina-lo. Alm disso, aes cooperativas bastante
sistematicas entre agentes aliados puderam ser observadas quando da realizao de ataques a
inimigos, aes essas em alguns momentos expressas atravs de ataques alternados a bases
dos mesmos.
Em geral, os agentes demonstraram uma capacidade adaptativa razoavel, a exceo do
experimento I, que Ioi realizado em condies distintas dos demais. Ainda assim, pde-se
conIirmar a observao Ieita anteriormente a realizao destes experimentos: a aprendizagem
que ocorre nos agentes ocorre apenas no mbito de uma partida.
A soluo desta questo sera discutida no capitulo IV.
75
3.4. Consideraes Finais
Este capitulo teve como objetivo realizar uma analise a respeito do jogo Outlive,
analisando sua estrutura de jogo e os agentes cognitivos utilizados no mesmo. Na seo 2, Ioi
realizada a analise do jogo, sendo que nesta seo explorou-se a historia do jogo e alguns
aspectos da dinmica de Iuncionamento do mesmo. Na seo 3, Ioram analisados os agentes
cognitivos de tal jogo, iniciando-se com a descrio de algumas observaes que Ioram
realizadas anteriormente a concepo deste trabalho para apos isso descrever-se o conjunto de
experimentos que Ioram realizados com o jogo para se avaliar estes agentes. Para cada
experimento Ioi realizada uma descrio a respeito do numero de agentes utilizados, a sua
distribuio em raas, um conjunto de eventos signiIicativos e, por Iim, algumas
consideraes gerais a respeito destes agentes. Apos estas descries, Ioram realizadas
algumas consideraes mais gerais a respeito do comportamento dos agentes nos
experimentos.
76
CAPITULO 4 - OS AGENTES COGNITIVOS EVOLUTIVOS
4.1. Introduo
Este capitulo tem como objetivo realizar a discusso a respeito dos agentes cognitivos
propostos ao inicio deste trabalho. Os agentes cognitivos evolutivos sero expostos na seo
4.2, sendo que inicialmente realizada uma introduo, onde sera Ieita uma caracterizao
geral acerca dos agentes cognitivos evolutivos. Apos isso, sero discutidos os trabalhos que
Ioram consultados e serviram de base para este trabalho, sendo que inicialmente sero
discutidos conceitos comuns aos dois trabalhos e, apos isso, sera Ieita uma descrio dos
mesmos. Prosseguir-se-a, ento, a discusso de alguns pontos que puderam ser observados em
ambos os trabalhos para ento prosseguir-se as consideraes Iinais.
4.2. Os Agentes Cognitivos Evolutivos
4.2.1. Introduo
Em termos mais gerais, pode-se dizer que os agentes cognitivos evolutivos so um
modelo de agente cognitivo que possui a capacidade de absorver esquemas de aprendizagem
eIetiva. Por aprendizagem eIetiva entende-se a realizao de uma aprendizagem que Iixa-se a
estrutura do agente. Tal conceito Ioi projetado tendo-se em vista os agentes cognitivos do jogo
Outlive, que embora demonstrem possuir esquemas de aprendizagem, possuem esquemas que
se mantm apenas no mbito de uma partida, sendo que todas as inIormaes adquiridas no
decorrer de uma partida por um agente, de acordo com o que pde ser observado, no so
mantidas para adiante.
Em Iuno da deteco deste problema, levantou-se a hipotese de que seria possivel
projetar um modelo de agente que possui a capacidade de realizar este Ieito, ou seja, tomar os
esquemas de aprendizagem para outras partidas.
4.2.2. A literatura a respeito dos agentes cognitivos evolutivos
No decorrer da pesquisa, puderam ser encontrados dois autores (CROCOMO, 2008;
PONSEN, 2004) que discutem a questo da implementao de agentes cognitivos que podem
77
ser enquadrados dentro do conceito de agente cognitivo evolutivo levantado no decorrer deste
trabalho.
CROCOMO discute os agentes inseridos no contexto da criao de algoritmos
evolutivos para aprendizado online em jogos eletrnicos. Seu enIoque no se da no campo dos
jogos de estratgia em tempo real. No entanto, sera discutido aqui, dado que seu trabalho esta
relacionado com a proposta aqui levantada.
PONSEN ja discute os agentes no mbito dos jogos discutidos neste trabalho. Ele
trabalho no sentido de utilizar os algoritmos evolutivos no sentido de aperIeioar a
Inteligncia ArtiIicial Adaptativa dos RTS.
A discusso dos dois autores se coloca na questo da aprendizagem de maquina, que
esta relacionada a questo da adaptao da maquina aos comportamentos do jogador, sendo
que, dentro desta questo, identiIicam, de acordo com indicao dada por MANSLOW (2002,
apua CROCOMO: p. 16; apua PONSEN: p. 11) duas Iormas adaptao:
Adaptao indireta: utiliza-se de comportamentos pr-programados que so
alternados com base em estatisticas do jogo, sendo que tanto estas estatisticas quanto
as mudanas ocorridas no comportamento do agente so deIinidos pelos
programadores do jogo. PONSEN cita a utilizao desta tcnica no jogo MAX PAINE
2.
Adaptao direta: esta Iorma de adaptao age diretamente na criao de novos
comportamentos para os agentes,a travs da utilizao de algoritmos de otimizao e
aprendizado por reIoro com vistas a alterao do comportamento dos mesmos. No
entanto, CROCOMO adverte que esta uma tcnica de diIicil controle e, alm disso,
necessario encontrar uma medida de desempenho adequada para o agente uma tareIa
de diIicil execuo. No entanto, esta tcnica apresenta, de acordo com o mesmo autor,
as seguintes vantagens: no limitar os comportamentos possiveis dos agentes e
necessitar de pouco conhecimento do programador a respeito de bons
comportamentos. PONSEN cita a utilizao desta tcnica no jogo BLACK & WHITE
2.
Alm disso, ambos os autores ponderam que as tcnicas de aprendizagem de maquina
podem ser utilizadas de duas Iormas:
78
Aprendizagem offline: ocorre sem a interveno de jogadores humanos, sendo que
CROCOMO aIirma que 'pode ser realizado em modo batch ou at mesmo antes do
jogo ser lanado, durante sua produo, sendo que, 'desta Iorma, as estratgias pr-
programadas disputam entre si, e a tcnica de aprendizado empregada visa a obteno
de estratgias melhores para serem utilizadas no jogo produzido (pp. 16-7).
Aprendizagem online: neste modelo de aprendizagem, o processo ocorre atravs da
interao com o usuario. Ou seja, os processos de aprendizagem ocorrem apos o jogo
ser lanado comercialmente, em contraste com a outra metodologia. SPRONCK (apua
PONSEN: p. 7; apua CROCOMO: p. 17) relata que a aprendizagem online deve
cumprir com quatro requisitos:
Rapdez: ~o algoritmo de aprendizagem deve ser computacionalmente rapido,
pois realizado durante a execuo do jogo. Desta Iorma, um algoritmo lento
atrapalha o desempenho do jogo (CROCOMO).
Robustez: 'o mecanismo de aprendizado deve suportar uma quantidade de
aleatoriedade signiIicante, normalmente presente nos jogos comerciais (idem).
Efetividade: 'as estratgias adaptadas devem ser pelo menos to desaIiadoras
quanto as programadas explicitamente (idem).
Eficincia: 'um pequeno conjunto de testes deve ser suIiciente para que o
aprendizado ocorra (idem)
Alm destes conceitos, PONSEN ainda discute, dentro da questo da aprendizagem
online, que esta pode ser subdividida em duas modalidades:
1. Aprendizagem supervisionada: tal modalidade de aprendizagem requer que o
jogador indique o grau de sucesso auIerido pela IA do jogo. Disto, pode-se observar
que esta modalidade exclui a hipotese da aprendizagem automatica (p. 7).
2. Aprendizagem no-supervisionada: ocorre independentemente do parecer do
jogador a respeito da IA do jogo. PONSEN, em seu trabalho, trabalha com este
conceito quando se reIere a aprendizagem online.
79
Com relao as tcnicas de implementao de agentes cognitivos evolutivos, os
autores discutem duas: o Dynamic Scripting e o algoritmo evolutivo, tambm denominado
pelo termo algoritmo genetico. Ambas as tcnicas sero expostas brevemente adiante.
4.2.2.1. O Dynamic Scripting
O Dynamic Scripting uma tcnica proposta por SPRONCK et al. com vistas a prover
aprendizagem online em jogos comerciais, baseando-se em tcnicas de aprendizado por
reIoro (CROCOMO: P. 50).
O Dynamic Scripting utiliza-se de uma base de regras que tem o papel de gerar scripts
que controlaro o comportamento dos agentes. A cada regra atribuido um peso que inIlui na
possibilidade de a mesma ser selecionada para gerar o comportamento do agente. Quanto
maior o peso de uma regra, maior a sua probabilidade de ser selecionada.
Apos selecionada, a regra aplicada ao agente para uma determinada atividade e, apos
a execuo desta atividade, uma Iuno de avaliao acionada. Esta Iuno retorna um valor
que indica a aptido do agente. Apos a avaliao da atividade, o valor do peso da regra que
gerou o script utilizado atualizado, sendo que incrementado quando a regra utilizada se
mostra eIiciente na realizao da atividade e decrementado em caso contrario. Desta Iorma, o
agente gradualmente adapta seu comportamento a situao em que inserido. No caso de um
jogo de estratgia em tempo real, ocorre a gradual adaptao do agente ao estilo de jogo do
jogador enIrentado pelo agente (PONSEN: p. 17).
4.2.2.2. O algoritmo gentico
O algoritmo gentico opera atravs de uma analogia com a Teoria da Evoluo
proposta por Charles Darwin (CROCOMO, p. 39).
O algoritmo inicia-se atravs da inicializao de um conjunto de possiveis solues
para um dado problema. Este conjunto, dentro do contexto do algoritmo, denominado
populao.
Cada soluo em potencial denominada cromossomo, sendo que as mesmas so
compostas, cada uma, por um conjunto de estados denominados genes. Observe-se que cada
um dos conceitos concebido como uma analogia com os conceitos da gentica.
80
Para cada cromossomo inicializado, realizado um teste, sendo que ao Iim do mesmo
sera atribuido ao cromossomo um valor de aptido, que indica a sua eIicacia (TOMASSINI
apua CROCOMO: p. 39).
Dentre os cromossomos inicializados, realizado um processo de seleo, sendo que a
literatura cita um conjunto de mtodos com vistas a cumprir com este Iim, como por exemplo
a roleta, o torneio (BRAMLETTE apua CROCOMO: p. 41), o elitismo (TOMASSINI apua
idem) ou a hereditariedade (SIMES, 2000: apua idem). Alm disso, pode-se utilizar a
'seleo do cromossomo com melhor aptido para ser o pai da populao na proxima
iterao (SIMES et al.: apua idem). Neste modelo, 'o cromossomo 'pai' mantido para a
proxima gerao, e os operadores evolutivos utilizados so aplicados aos outros
cromossomos, criando uma nova gerao de solues candidatas (idem).
Apos realizada a seleo, so aplicados aos cromossomos remanescentes os
operadores evolutivos. Dentre estes operadores, podem ser destacados a tcnica do genocidio
(idem) e as Iunes de predao (SIMES et al; CROCOMO et al.: apua idem), que
'simulam um predador que elimina os individuos menos adaptados da populao
(CROCOMO: idem)
Neste trabalho sero expostos apenas os operadores crossover e mutao. A exposio
Ieita a seguir:
Crossover: os cromossomos pais so selecionados aos pares e dentre os mesmos
realizado um processo de troca de genes, sendo que deste processo nasce o
cromossomo Iilho. Para cada um de seus genes, a possibilidade de o gene do
cromossomo Iilho ser herdado de um pai em especiIico de 50.
Mutao: no cromossomo Iilho, realizado um processo onde cada um dos seus
genes submetido a um processo estocastico que possibilita que o gene seja
modiIicado.
Tanto o crossover quanto a mutao consistem de processos estocasticos, sendo que
no crossover cada gene do cromossomo Iilho surge da combinao dos genes dos
cromossomos pais, sendo que dentre os genes destes selecionado um que sera alocado ao
cromossomo Iilho e, dos dois cromossomos pais nos quais realizado o processo, a
probabilidade de o cromossomo Iilho herdar o gene de 50 para cada pai. Ja no processo de
81
mutao, conIorme exposto, o processo realizado em cada um dos genes do cromossomo
Iilho. A probabilidade de ocorrncia de mutao no cromossomo Iilho especiIicada pelo
desenvolvedor do algoritmo, de acordo com a necessidade que este determinar para a situao
especiIica com a qual estiver lidando.
Apos a realizao deste processo, realizada uma nova iterao do algoritmo, sendo
que nesta iterao a gerao que advir do processo especiIicado anteriormente sera testada e
seus cromossomos mais aptos sero selecionados para a realizao de crossover e mutao.
Este processo realizado at que seja alcanado um parmetro especiIicado pelo
desenvolvedor, denominado critrio de parada. Este critrio pode ser algum indicador de
que o algoritmo encontrou cromossomos aptos a resolver satisIatoriamente o problema
colocado ou um determinado numero de iteraes do algoritmo.
4.2.3. O trabalho de CROCOMO
O trabalho de CROCOMO se coloca no sentido de questionar uma aIirmativa de
SPRONCK et al., sendo que, de acordo com a mesma, impossivel implementar o algoritmo
gentico para aprendizagem online em jogos eletrnicos, pois este algoritmo no satisIaz os
requisitos da eIetividade e da eIicincia neste modelo de aprendizagem.
Neste sentido, o autor busca colocar em teste a aIirmativa, atravs dos seguintes
procedimentos:
1. Modelagem e programao de um jogo que se mostre um bom ambiente para os testes
do algoritmo gentico;
2. Desenvolvimento de um algoritmo gentico adequado ao jogo construido, e que seja
capaz de produzir solues adaptativas para os problemas encontrados no reIerido
jogo;
3. Implementao do Dynamic Scripting para resolver o mesmo problema e comparao
desta tcnica com o algoritmo gentico.
O autor reIuta a aIirmao de SPRONCK et al. a respeito da eIetividade argumentando
que, no trabalho deste, o Dynamic Scripting Ioi baseado em dominio de conhecimento, o que
torna as estratgias advindas de sua operao to desaIiadoras quanto as estratgias projetadas
82
manualmente, tornando, portanto, a tcnica eIetiva. O algoritmo gentico utilizado por
CROCOMO tambm se baseia em dominio de conhecimento, o que o torna eIetivo, da mesma
Iorma que o Dynamic Scripting projetado por SPRONCK et al.
O jogo utilizado no trabalho baseou-se no sistema de batalha do jogo Balaurs Gate,
um jogo da categoria dos CRPG's
25
. Este mesmo jogo Ioi utilizado por SPRONCK et al. em
sua discusso a respeito da utilizao do Dynamic Scripting pelos agentes cognitivos dos
jogos. CROCOMO argumenta que sua escolha se da no sentido de Iacilitar a comparao com
o trabalho de SPRONCK et al. Outra argumentao do autor vai no sentido de que o reIerido
jogo apresenta um grau de complexidade signiIicativo, e caso o algoritmo gentico possa ser
aplicado com sucesso ao mesmo, sera possivel implementar esta tcnica em outros jogos com
menores graus de complexidade.
O jogo utilizado baseia-se na utilizao de dois grupos de 4 personagens que so
colocados em disputa. Cada um destes grupos Iormado por 2 magos e 2 guerreiros. O
guerreiro um tipo de unidade propicia ao combate de curta distncia, enquanto o mago, em
Iuno de suas habilidades na Ieitiaria, mais adequado para uso em combate de longa
distncia.
Para comparar as duas metodologias em questo, CROCOMO realizou um conjunto
de testes onde as mesmas Ioram colocadas em conIronto com um agente simulando um
jogador humano e, apos isso, Ioram colocadas Irente a Irente para veriIicar qual das duas
apresentaria melhor capacidade de adaptao.
O jogador humano Ioi simulado atravs da utilizao das seguintes possiveis
estratgias:
Ofensiva: 'os personagens do jogador possuem como prioridade diminuir a vida de
seus oponentes na maior velocidade possivel: guerreiros sempre atacam o inimigo
mais proximo, enquanto os magos usam suas magias de dano mais Iortes
(CROCOMO, 2008: p. 64).
Deteriorante: 'os guerreiros iniciam a batalha utilizando poes contra paralisia: apos
isso atacam o inimigo mais proximo. Os magos utilizam todas as suas magias para
debilitar os oponentes durante os primeiros turnos (idem).
25
Computer Role Playing Game, outro nome dado ao gnero RPG, exposto no capitulo I.
83
Amaldioante: 'guerreiros sempre atacam o inimigo mais proximo; os magos
utilizam magias de invocao, reduo de atributos, e magias de controle (idem).
Defensivo: 'guerreiros comeam bebendo poes que reduzam dano do elemento
fogo (diminuindo dano de algumas magias); apos isso, atacam o inimigo mais
proximo. Os magos usam todas suas magias deIensivas e magias de invocao
(idem).
Alm disso, 3 taticas compostas Ioram utilizadas pelo autor:
Ttica aleatria: 'a cada batalha, uma das quatro taticas (.) selecionada de
maneira aleatoria (CROCOMO: p. 65)
Ttica aleatria para cada personagem: a tcnica aleatoria aplicada a cada um dos
personagens do grupo, sendo que a tatica aplicada a um determinado personagem
independe da tatica aplicada aos outros.
Mudana de estratgias: 'o grupo comea utilizando uma das quatro (.) tcnicas
aleatoriamente. Enquanto a tcnica utilizada pelo grupo vitoriosa, ela mantida;
quando a tcnica derrotada, outra selecionada (idem).
Para avaliar o desempenho dos agentes com a utilizao de cada uma das duas
tcnicas de implementao dos agentes, Ioi realizado, a cada batalha, o calculo de aptido
mdia dos grupos durante as ultimas 10 batalhas (idem). O autor expe que 'quando este
valor Ior maior para o grupo controlado pelo computador, dito que a estratgia do
computador dominou a estratgia do usuario (idem). A partir destes valores, so calculados
outros dois:
1. Ponto de equilbrio mdio: 'numero da primeira batalha apos a qual o grupo
controlado pelo computador domina o grupo do usuario por pelo menos 10 batalhas
consecutivas. (idem)
2. Ponto de equilbrio absoluto: 'numero da primeira batalha apos a qual um numero
consecutivo de batalhas em que o grupo do computador vence (.) nunca seguido
por um numero maior de batalhas consecutivas em que o grupo do usuario vence (p.
65-6).
84
Com relao a estes dois valores, o autor pondera que quanto menores Iorem, mais
eIiciente se mostrara o algoritmo (p. 66).
Em seu experimento, o autor realizou uma bateria de duas mil partidas envolvendo a
tatica ofensiva contra cada um dos algoritmos propostos no trabalho. Alm disso, realizou 21
baterias como esta contra cada uma das outras 3 tcnicas simples expostas anteriormente e 11
baterias contra as taticas compostas expostas em seu trabalho.
No primeiro experimento, o autor consegue observar que ambos os algoritmos
conseguem se adaptar a estratgia do agente simulando um jogador humano num numero
pequeno de partidas, o que evidencia que ambos os algoritmos cumprem com o critrio da
eIicincia para aprendizagem online.
Nos outros testes, o autor conclui que, at este ponto, no possivel dizer qual das
duas tcnicas expostas apresenta melhor resultado, uma vez que suas taxas de desempenho
so similares.
Quando exposto a estratgia aleatoria, o Dynamic Scripting apresentou uma limitao,
que consiste no Iato de que, num dos experimentos realizados, no obteve um ponto de
equilibrio absoluto. O autor argumenta que isso ocorre em Iuno do Iato de que em algumas
partidas, devido ao Iator sorte, o Dynamic Scripting pode aumentar o peso de regras no
adequadas, e at mesmo excluir regras necessarias para obter uma estratgia vencedora.
Pondera, assim, que o Dynamic Scripting, tal como implementado em seu trabalho e no
trabalho de SPRONCK et al., permite que seja atribuido peso zero a uma determinada regra, o
que Iaz com a tcnica perca sua capacidade de adaptao com o passar do tempo (p. 73). Com
relao a este problema em especiIico, mais a Irente (p. 85) o autor argumenta que o modelo
pode ser aprimorado atravs da deIinio de um peso minimo maior que zero a ser utilizado.
Assim, 'nenhuma regra seria permanentemente descartada e (.) a tcnica preservaria sua
capacidade de adaptao. Continuando (idem), o autor pondera que ' provavel que com esta
correo a eIicincia da tcnica diminua, pois regras que ja tenham sido testadas e tenham se
mostrado inadequadas contra a estratgia utilizada continuariam apresentando a possibilidade
de serem testadas.
O autor, para poder atestar qual dos dois algoritmos apresentaria melhores resultados,
realizou uma comparao direta entre os dois, colocando-os em disputa. Ou seja, programou
uma batalha onde em cada um dos grupos Ioi implementado um dos algoritmos. Nesta
comparao, Ioi realizado um total de 5 testes, sendo que no primeiro Ioram realizadas 21
85
baterias compostas por 2000 partidas e, apos isso, Ioram realizados testes aproximadamente
nos mesmos moldes, mas envolvendo um numero menor de partidas, sendo que em um Ioram
realizadas 300 partidas, em outro 200, 100 num terceiro e em outro teste, por Iim, Ioram
realizadas 50 partidas.
No primeiro experimento, o algoritmo gentico mostrou-se signiIicativamente mais
eIiciente que o Dynamic Scripting. Tal resultado Ioi atingido atravs da utilizao de um
indice de Ireqncia de vitorias das tcnicas, sendo que neste experimento, o algoritmo
gentico alcanou um indice de 0,6, contra um indice de aproximadamente 0,4 do Dynamic
Scripting. Tal indice obtido atravs da comparao do numero de vitorias obtidas por um
determinado algoritmo com o total de partidas disputado (p. 76). Tal comparao pode ser
sintetizada na seguinte equao
26
:
FJ=
NJ
NP
Equao 1
Onde:
FV consiste na Ireqncia de vitorias de uma determinada tcnica;
NV consiste no numero de partidas que Ioram vencidas pela reIerida tcnica;
NP o numero total de partidas disputado.
Apos realizar o teste com 2000 partidas, o autor pondera que este parmetro
insuIiciente para se comparar os dois algoritmos em relao ao critrio da eIicincia, pois este
26
A equao Ioi adaptada do original, sendo que neste esta elencada da seguinte Iorma:
x| i =
JAE
NP
Equao 2
Onde:
x|i| a Ireqncia de vitorias vencidas pelo grupo adaptado pelo algoritmo gentico durante o jogo i.
VAE o numero de vitorias obtidas pelo grupo cuja estratgia evoluida pelo algoritmo gentico;
NP o numero total de partidas realizadas.
A adaptao Ieita aqui o Ioi com vistas a adaptar a equao para aplicao tanto ao algoritmo gentico
quanto ao Dynamic Scripting, uma vez que a Iormulao dada por CROCOMO leva em considerao a aplicao
ao algoritmo gentico, o que pode causa conIuso quando se trabalha a equao em relao ao Dynamic
Scripting.
86
critrio 'diz respeito a um numero pequeno de partidas para que o aprendizado ocorra (p.
78). Esta condio lhe serve de estimulo para realizar os outros experimentos, sendo que
nestes os indices de Ireqncia de vitorias de cada tcnica apresentaram os seguintes valores:
Nmero de partidas
realizadas
Indice de freqncia
de vitrias do
Dynamic Scripting
27
Indice de freqncia
de vitrias do
algoritmo gentico
28
300 0,51 0,48
200 0,51 0,49
100 0,51 0,48
50 0,46 0,52
Quadro 3 - Relao dos ndices de freqncia de vitrias de cada tcnica
Implementada nos experimentos realizados. Adaptado de (CROCOMO, 2008: p. 79)
CROCOMO pondera que para cada indicador de Ireqncia de vitorias de cada
tcnica esta associado um indice de erro amostral aproximado, encontrado da seguinte Iorma:
0,028 para o experimento com 2000 partidas;
0,026 para o experimento com 300 partidas;
0,025 para o experimento com 200 partidas;
0,025 para o experimento com 100 partidas;
0,023 para o experimento com 50 partidas;
Este erro amostral obtido atravs da seguinte equao: (pp. 76-7):
e=
.
s
n
Equao 3
Onde:
e o erro amostral associado a cada experimento;
s a varincia amostral;
27
Valor aproximado.
28
Valor aproximado.
87
n o numero de jogos realizado (amostras)
A varincia amostral (s) pode ser encontrada, de acordo com o autor (p. 77), atravs
da seguinte equao
29
:
s=
1
(n-1)
_
i=1
n
( x| i -meaia( x))
Equao 4
Onde:
x|i| o valor da amostra;
mdia(x) a mdia das amostras;
n o numero de jogos realizados (amostras).
Desta Iorma, o autor argumenta que apenas o indicador de Ireqncia de vitorias
insuIiciente para se dizer que uma tcnica superior a outra em um determinado numero de
partidas, sendo que isso pode ser dito apenas quando o pior caso de uma determinada tcnica
A tem desempenho melhor que o melhor caso de uma outra tcnica B.
O melhor caso de uma determinada tcnica de aprendizagem pode ser dado pela
soma da Ireqncia de vitorias da mesma num determinado experimento com o erro amostral
associado a este experimento. Ja o pior caso consiste na diIerena entre estes dois parmetros.
Em suma, para que se possa dizer que uma tcnica de aprendizagem A superior a
uma outra tcnica, denominada aqui por B, a seguinte inequao deve ser satisIeita:
FJA-ea>FJB+eb
Equao 5
Onde:
FVA consiste na Ireqncia de vitorias do grupo onde Ioi utilizada a tcnica de
aprendizagem A;
29
Equao tambm adaptada do original. No entanto, no ha, neste caso, diIerenas signiIicativas.
88
ea consiste no erro amostral associado ao experimento realizado, sendo que seu valor
deve ser subtraido da Ireqncia de vitorias do grupo no qual utilizada a tcnica de
aprendizagem A;
FVB consiste na Ireqncia de vitorias do grupo onde Ioi utilizada a tcnica de
aprendizagem B;
eb consiste no erro amostral associado ao experimento, sendo que seu valor deve ser
adicionado a Ireqncia de vitorias do grupo no qual utilizada a tcnica de
aprendizagem B.
O autor, para veriIicar esta condio, realizou dois testes, sendo que no primeiro
buscou veriIicar a superioridade do Dynamic Scripting em relao ao algoritmo gentico para
cada tipo de situao possivel ou seja, realizou o teste para os experimento com 300, 200,
100 e 50 partidas disputadas entre as duas tcnicas em questo. No segundo teste, Ioi Ieito o
inverso, ou seja, o autor buscou veriIicar a superioridade do algoritmo gentico em relao ao
Dynamic Scripting.
No primeiro teste, no pde ser veriIicada, em nenhum momento, a superioridade do
Dynamic Scripting em relao ao algoritmo gentico. No entanto, no segundo teste o
algoritmo gentico se mostrou superior ao Dynamic Scripting no caso da utilizao de 50
partidas entre as duas tcnicas. Desta Iorma, o autor conclui que o algoritmo gentico possui
uma eIicincia igual ou superior ao Dynamic Scripting, reIutando, assim a aIirmativa de
SPRONCK et al. a respeito da impossibilidade da utilizao daquela tcnica para a
aprendizagem online em jogos eletrnicos.
Os resultados obtidos por CROCOMO so demonstrados nos quadros abaixo.
VeriIicao da Superioridade da tcnica Dynamic Scripting
Partidas por jogo FVA ea ~ FVB eb Validade da Inequao
300 0,448716 ~ 0,500972 Falsa
200 0,480273 ~ 0,513059 Falsa
100 0,483811 ~ 0,504557 Falsa
50 0,440483 ~ 0,544976 Falsa
Quadro 4 - Verificao da superioridade do Dynamic Scripting em relao ao
algoritmo gentico. Extrado de (CROCOMO, 2008: p. 81)
89
VeriIicao da Superioridade da tcnica Algoritmo Gentico
Partidas por jogo FVA ea ~ FVB eb Validade da Inequao
300 0,450444 ~ 0,540118 Falsa
200 0,462367 ~ 0,530737 Falsa
100 0,453843 ~ 0,534589 Falsa
50 0,49882 > 0,486525 Verdadeira
Quadro 5 - Verificao da superioridade do algoritmo gentico em relao ao
Dynamic Scripting. Adaptado de (CROCOMO, 2008: p. 81)
Ao Iim de seu trabalho, CROCOMO consegue demonstrar as seguintes premissas:
1. E possivel implementar o algoritmo gentico para aprendizagem online em jogos
eletrnicos;
2. O algoritmo gentico mostra um desempenho igual ou superior ao Dynamic Scripting
quando as duas tcnicas so colocadas Irente a Irente em um numero pequeno de
partidas a serem disputadas;
3. O Dynamic Scripting, quando exposto a um ambiente com a utilizao de muitas
partidas, perde sua capacidade de adaptao, pois no decorrer do processo passa a
atribuir peso zero a determinadas regras em sua base de regras, o que as Iaz serem
descartadas permanentemente. A respeito deste ponto em especiIico, o autor prope
uma Iorma de se superar esta limitao, atravs da criao da possibilidade de
atribuio de valor minimo maior que zero as regras do algoritmo, alertando, no
entanto, que esta operao pode trazer prejuizos a eIicincia da tcnica.
4.2.4. O trabalho de PONSEN
PONSEN, em seu trabalho, parte dos seguintes problemas para iniciar sua pesquisa:
1. E possivel projetar e implementar um algoritmo gentico que descubra novas taticas e
estratgias para os jogos de estratgia em tempo real?
2. As taticas e estratgia descobertas atravs de aprendizagem offline melhoraro o
desempenho da base de regras do Dynamic Scripting?
90
Para responder a estes problemas, o autor segue a seguinte metodologia:
1. Seleciona um ambiente de jogo de estratgia em tempo real Ilexivel e de acordo com
as ultimas especiIicaes
30
para o gnero para a realizao da pesquisa experimental;
2. Projeta e implementa o Dynamic Scripting no jogo selecionado e demonstra que a
tcnica Iunciona contra varias estratgias oponentes em varios mapas;
3. Aplica a aprendizagem offline utilizando um algoritmo gentico para o jogo
selecionado;
4. Traduz as taticas e estratgias descobertas atravs da aprendizagem offline em novas
regras para a base de regras do Dynamic Scripting e mostra que estas adies
melhoram a perIormance desta tcnicas de aprendizagem no jogo selecionado (p. 9).
Para a realizao do experimento, Ioi selecionado o jogo Wargus, derivado do jogo
Stratagus, um jogo de estratgia em tempo real open source
31
. A escolha deste jogo se da em
Iuno dos seguintes critrios:
1. O ambiente do jogo deveria ser Iacilmente acessivel e modiIicavel;
2. O ambiente de jogo deveria incluir uma linguagem de script, preIerencialmente com
uma soIisticada API
32
de IA, capaz de suportar tcnicas de aprendizagem;
3. Os experimentos deveriam ser, preIerencialmente, rapidos;
4. O jogo deve estar de acordo com as ultimas especiIicaes existentes em termos de
jogabilidade, o que implica que o jogo deve incorporar IA no-trivial
33
.
De inicio, Ioi investigada a possibilidade de se utilizar jogos comerciais para a
realizao da pesquisa (p. 15), dado que os jogos modernos, de acordo com o autor, so
perIeitos para Iins de pesquisa em Iuno de seus ambientes realistas e IA no-trivial. No
entanto, observou-se que isto no seria possivel, devido aos seguintes Iatores:
30
O autor utiliza o termo state-of-the-art para deIinir o conceito.
31
O termo open source se reIere aos softwares que possuem seu codigo-Ionte abertos a qualquer pessoa que
deseje realizar qualquer modiIicao no codigo dos mesmos para que estes se adqem as necessidades que o
desenvolvedor julgar convenientes.
32
Application Programming Interface, em portugus pode ser traduzido como InterIace de Programao de
Aplicaes
33
O conceito de IA no-trivial no deIinido de Iorma rigorosa pelo autor.
91
1. A maioria das empresas de produo de jogos no possibilitam que pesquisadores
Iaam modiIicaes em seus motores de IA;
2. Apesar de alguns jogos comerciais incluirem editores para a modiIicao de sua IA, o
processo de edio ou extremamente entediante ou permite muito poucas
possibilidades de edio.
Em Iuno disso, o autor resolveu procurar o jogo que serviria como ambiente
experimental entre os jogos open source, selecionando, por Iim, o jogo Stratagus, dado que
este se mostrou o ambiente mais estavel e apropriado para estes experimentos. A escolha do
autor se da em Iuno dos seguintes Iatores:
1. Stratagus um soIisticado motor de RTS que pode ser utilizado para a construo de
jogos de estratgia em tempo real similares a diversos jogos comerciais existentes,
alm de poder ser executado em varias plataIormas existentes (Windows, Unix, Mac,
etc.);
2. Os scripts de Stratagus so deIinidos na linguagem de programao LUA
34
,
atualmente uma das mais populares linguagens de programao para jogos. De acordo
com o autor, LUA uma poderosa mas surpreendentemente conIortavel linguagem de
programao, perIeita para a implementao de soIisticadas tcnicas de IA, como por
exemplo o Dynamic Scripting e o algoritmo gentico.
3. Stratagus possui recursos uteis como por exemplo um modo fast fowara, no qual os
graIicos so parcialmente desligados, o que resulta em experimentos rapidos, que
levam entre 1 e 3 minutos para serem concluidos, o que Iacilitou a implementao de
um ambiente onde exrcitos controlados pelo computador seriam colocados Irente a
Irente.
4. No decorrer de uma partida ou ao Iim da mesma, pode-se acessar Iacilmente diversas
inIormaes sobre seu andamento, como por exemplo o tempo que um exrcito levou
para derrotar o outro, o numero de unidades que um determinado exrcito destruiu ou
perdeu e outras, o que util quando se pensa em projetar medidas de desempenho.
34
LUA uma linguagem de programao 'inteiramente projetada, implementada e desenvolvida por uma equipe
na PUC-Rio (LUA, 2010), nascendo e crescendo no TecgraI, o Grupo de Tecnologia em Computao GraIica
desta mesma Universidade. Atualmente, desenvolvida no laboratorio LABLUA. Ambos os laboratorios esto
vinculados ao Departamento de InIormatica da PUC-Rio. O nome da linguagem uma reIerncia ao satlite
natural da Terra (WIKIPEDIA, 2010), e no consiste numa sigla, como pode parecer a principio.
92
Uma rapida comparao permite que se observe que estes 4 Iatores apontados pelo
autor encaixa-se perIeitamente nos 4 Iatores apontados logo atras.
Stratagus Ioi tomado como base para o jogo que Ioi realmente utilizado nos
experimentos. Este jogo o jogo Wargus, que consiste num jogo derivado de um conjunto de
modiIicaes no jogo Warcraft II, da Bli::ara Entertainment
35
, Ieitas com base no motor de
jogo de Stratagus.
O autor executou seu trabalho com base no trabalho de SPRONCK et al., onde este
demonstra a aplicao do Dynamic Scripting a jogos eletrnicos. No entanto, este trabalho Ioi
produzido utilizando-se um CRPG. Para poder adequar o Dynamic Scripting ao contexto de
um jogo de estratgia em tempo real, PONSEN teve de Iazer algumas modiIicaes, que so
listadas a seguir:
1. Foi introduzido neste trabalho o conceito de estados e avaliao de estados. Um
estado, dentro da deIinio do autor (p. 18), consiste na situao caracterizada pela
posse, por parte de um jogador ou de um agente, de um conjunto de estruturas e um
conjunto de regras que o mesmo pode selecionar. A condio para a transio de
estado consiste na construo de um novo tipo de estrutura no decorrer de uma partida.
Ao Iim de cada estado, o desempenho do agente avaliado para que possa ser
realizada a atualizao de pesos na base de regras;
2. O trabalho de SPRONCK et al., aplicado aos CRPG's, emprega diIerentes bases de
regras para cada tipo de personagem no jogo. A implementao de PONSEN emprega
diIerentes bases de regras para os diIerentes estados de um jogo de estratgia em
tempo real;
3. Na implementao original do Dynamic Scripting para os CRPG's, realizada por
SPRONCK et al., o sucesso de uma regra expresso por um unico peso. PONSEN, no
entanto, avalia que isso no basta para o caso de um jogo de estratgia em tempo real,
sendo que nesta modalidade de jogo necessario associar varios pesos as regras, o que
signiIica, em termos mais especiIicos, que a cada estado devem ser associados pesos,
dado que a cada estado corresponde uma base de regras.
4. Enquanto o Dynamic Scripting nos CRPG's executa atualizao de pesos com base em
uma luta, a implementao desta tcnica nos jogos de estratgia em tempo real executa
35
Mais inIormaes sobre o jogo podem ser encontradas no capitulo I deste trabalho.
93
esta atualizao baseada na avaliao do desempenho da IA no jogo como um todo
(aptido geral
36
) e na avaliao do desempenho da IA nas mudanas de estado (aptido
por estado
37
). Desta Iorma, a Iuno de atualizao de pesos baseada na combinao
da aptido geral com a aptido por estado. O uso desta combinao, de acordo com
MANSLOW (2004, apua PONSEN), aumenta a eIicincia do algoritmo.
Ambas as Iunes de atualizao de pesos possuem valores no intervalo |0,1| (p. 20).
Para Iins metodologicos, o autor assume que o agente vence quando sua aptido geral alcana
valores maiores do que 0,5 e perde quando o valor de sua aptido geral menor do que 0,5,
embora reconhea que nem sempre isso expressa uma condio real (pp. 20-1). As propores
da vitoria ou da derrota do agente sero determinada pela distncia entre o valor de aptido
geral do agente e o valor 0,5, sendo quanto maior a distncia, mais esmagadora tera sido a
vitoria ou a derrota.
A Iuno de aptido geral do agente calculada atravs da comparao da relao
entre a pontuao do agente e a soma da pontuao deste com o seu oponente
38
e um
parmetro que o autor deIine como sendo o ponto ae equilibrio
39
, localizado no intervalo |0,1|
e no qual, de acordo com o autor, os pesos no so mudados.
A relao alfa pode ser enunciada da seguinte Iorma:
o=
Sa
( Sa+So)
Equao 6
Onde:
o a variavel que representa a relao alfa;
Sa a pontuao do agente;
So a pontuao do oponente do agente.
36
Overall fitness, no original.
37
State fitness, no original.
38
Daqui por diante, esta relao sera denominada como relao alfa.
39
Break-even point, no original.
94
Quando o agente perde a partida, a Iuno de aptido geral obtida atravs da
comparao e extrao do menor valor entre a relao alfa e o ponto de equilibrio. A Iuno
pode ser expressa da seguinte Iorma:
F=min(o, b)
Equao 7
Onde:
F a aptido geral do agente;
o a relao alfa;
b o ponto de equilibrio.
Quando o agente vence a partida, a sua aptido geral sera dada atravs do maximo
entre o ponto de equilibrio e a relao alfa. A Iuno pode ser expressa da seguinte Iorma:
F=max (o, b)
Equao 8
Onde:
F a aptido geral do agente;
o a relao alfa;
b o ponto de equilibrio.
Ja a Iuno de aptido por estado do agente dada de acordo com as seguintes
condies:
No estado 1 a Iuno de aptido dada pela relao alfa naquele estado. Pode ser
expressa da seguinte Iorma:
95
Fi=oi
Equao 9
Sendo que:
oi =
Sai
( Sai+Soi )
Equao 10
Onde:
Fi a aptido do agente no estado i, sendo que, neste caso, i 1;
o i a relao alfa para o estado i;
Sai a pontuao do agente no estado i;
Soi a pontuao do oponente do agente no estado i.
Nos estados posteriores ao estado 1, a aptido por estado dada pela diIerena entre
a relao alfa no estado considerado e a relao alfa no estado imediatamente anterior ao
estado em questo. Pode ser expressa da seguinte Iorma:
Fi=oi-oh
Equao 11
Sendo que:
h=i-1
Equao 12
E
96
oh=
Sah
(Sah+Soh)
Equao 13
Onde:
i o estado considerado;
h o estado anterior ao estado considerado, conIorme pode-se observar na equao
12;
u i a relao alfa no estado i;
u h a relao alfa no estado h;
Sah a pontuao do agente no estado h;
Soh a pontuao do oponente do agente no estado h.
A Iuno de pontuao do agente deIinida da seguinte Iorma:
Sx=0,7Mx+0,3Bx
Equao 14
Onde:
Sx a pontuao a ser dada ao agente;
Mx a pontuao militar do agente, ou seja, o numero de pontos auIeridos atravs da
destruio de estruturas ou unidades inimigas;
Bx pontuao estrutural do agente
40
, ou seja, o numero de pontos auIeridos atravs de
treinamento de tropas e construo de estruturas.
Para que se continue a exposio, sero apresentadas duas novas relaes, a relao
beta e a relao gama, sendo que cada uma das duas pode ser extraida tanto para a partida
como um todo quanto para um estado em especiIico. Desta Iorma, elas podem ser encontradas
nas seguintes Iormas:
40
Builaing points, no original
97
Relao beta geral;
Relao beta por estado;
Relao gama geral;
Relao gama por estado.
A relao beta geral pode ser expressa da seguinte Iorma:
=
(b-F )
b
Equao 15
Onde:
representa a relao beta;
b o ponto de equilibrio;
F a aptido geral do agente.
A relao beta para o estado i pode ser expressa da seguinte Iorma:
i=
(b-Fi )
b
Equao 16
Onde:
i representa a relao beta no estado i;
b o ponto de equilibrio;
Fi a aptido do agente no estado i.
98
A relao gama geral pode ser expressa da seguinte Iorma:
=
( F-b)
(1-b)
Equao 17
Onde:
y representa a relao gama;
F a aptido geral do agente;
b o ponto de equilibrio.
Por Iim, a expresso gama para o estado i pode ser expressa da seguinte Iorma:
i=
( Fi -b)
(1-b)
Equao 18
Onde:
y representa a relao gama no estado i;
Fi a aptido do agente no estado i;
b o ponto de equilibrio.
Apos cada partida,o peso das regras empregadas nela atualizado, sendo que, antes
desta atualizao, a aptido geral do agente comparada ao ponto de equilibrio. Caso a
aptido geral do agente no alcance o ponto de equilibrio, realizado o seguinte
procedimento:
1. do peso original da regra utilizada, ou seja, do peso que a regra ja possuia antes de ser
utilizada, so deduzidos:
99
1. O produto da relao beta geral por uma punio maxima deIinida para a
implementao sendo que a este produto atribuido peso 0,3; e
2. O produto da relao beta para o estado considerado e da punio aplicada a regra
sendo que a este produto atribuido peso 0,7;
2. O resultado da operao anterior comparada ao peso minimo admitido para a
implementao, sendo que o maior dentre os dois valores sera considerado como o
novo peso da regra.
Este procedimento pode ser sintetizado na seguinte equao:
W=max(Wmin , Worg-0,3P-0,7iP)
Equao 19
Onde:
W o novo peso a ser atribuido a regra;
Wmin o peso minimo admitido para a regra;
Worg o peso original da regra;
a relao beta geral;
i a relao beta para o estado i;
P a punio maxima aplicada a regra no caso de a mesma se mostrar ineIetiva para
resolver um determinado problema;
F a aptido geral do agente;
b o ponto de equilibrio.
Ja em caso contrario, ou seja, quando a aptido do agente alcana o valor do ponto de
equilibrio ou maior que este, realizado o seguinte procedimento:
1. Ao peso original atribuido a regra, so adicionados:
1. O produto da relao gama pela recompensa maxima deIinida para a
implementao ao qual atribuido peso 0,3; e
100
2. O produto da relao gama para o estado considerado pela recompensa citada
anteriormente ao qual atribuido peso 0,7;
2. O resultado da operao anterior comparado ao peso maximo admitido para a
implementao, e o menor valor dentre os dois selecionado como o novo peso a ser
atribuido a regra.
Este procedimento pode ser sintetizado na seguinte equao:
W=min(Worg+0,3R+0,7iR ,Wmax)
Equao 20
Onde:
W novo peso a ser atribuido a regra considerada;
Worg o peso original da regra utilizada;
y a relao gama geral para o agente;
R a recompensa maxima admitida para a implementao;
y i a relao gama para o agente no estado i;
F a aptido geral do agente;
b o ponto de equilibrio.
PONSEN utilizou, para a simulao Ieita em seu trabalho, a seguinte atribuio de
valores:
A P atribuiu valor 175;
A R atribuiu valor 200;
A Wmax atribuiu valor 1250;
A Wmin atribuiu valor 25;
A b atribuiu valor 0,5.
101
O objetivo do primeiro experimento realizado pelo autor, utilizando o Dynamic
Scripting, provar que um agente utilizando esta tcnica adapta-se com sucesso a um agente
utilizando uma IA estatica.
As condies ideais para o experimento so as condies onde o agente controlado
pelo Dynamic Scripting seja adaptavel tanto a ataques realizados ja no inicio da partida
quanto a longas batalhas. Desta Iorma, os experimentos Iorma conduzidos em um mapa
pequeno e em um mapa grande, sendo que o autor aIirma, em relao a isto, que uma partida
realizada em um mapa pequeno mais provavelmente decidida por batalhas signiIicativas
realizadas ainda no inicio da partida, enquanto que o mapa grande permite que ambos os
jogadores avancem para outros estagios de evoluo, o que produz interessantes batalhas entre
unidades avanadas (p.22).
Neste experimento, Ioi utilizada a IA padro de ataque por terra incluida em
Stratagus como a IA estatica. No entanto, Ioram realizadas algumas pequenas melhorias na
mesma, uma vez que a sua implementao original ja estava sendo vencida pelo agente
controlado pelo Dynamic Scripting antes de este auIerir qualquer aprendizagem. A IA de
ataque por terra aprimorada uma estratgia Iocada no ataque, na deIesa e na melhoria
tecnologica da base, e que Iavorece ataques por terra em relao aos ataques por mar ou por
via area. Esta IA Ioi aplicada tanto para o mapa pequeno quanto para o mapa grande.
Alm disso, o autor implementou outras duas IA's para testar o agente controlado
pelo Dynamic Scripting: O ataque de soldados
41
e o ataque de cavaleiros
42
, sendo que o ataque
de soldados se Ioca no objetivo de destruir o oponente com unidades de ataque baratas logo
no inicio da partida. Ja o ataque de cavaleiros se Ioca na rapida melhoria tecnologica da base,
lanando grandes ataques com unidades Iortes assim que estas esto disponiveis (idem) A
primeira IA Ioi utilizada em um mapa pequeno, enquanto o ataque de cavaleiros Ioi utilizado
para um mapa grande.
Para medir o desempenho do agente controlado pelo Dynamic Scripting em relao
as IA's estaticas, Ioram utilizados dois indicadores:
Randomization turning point (RTP): este conceito explicado da seguinte Iorma:
apos cada partida, calculada a aptido mdia para cada agente nas ultimas 10
partidas. Estes valores so ento utilizados para se realizar um teste de randomizao
41
Solaiers rush no original.
42
Knights rush no original.
102
(COHEN, 1995, apua PONSEN) com a hipotese nula de que ambos os agentes (o
estatico e o dinmico) possuem o mesmo nivel de habilidade. Diz-se que o agente
dinmico superou o agente estatico quando a hipotese pode ser descartada com um
grau de certeza de 90. O RTP consiste na primeira partida onde esta condio
satisfeita.
Absolute 1urning Point (ATP): a primeira partida apos a qual uma srie de partidas
consecutivas vencidas pelo agente dinmico nunca seguida por uma srie
consecutiva maior de partidas vencidas pelo agente estatico.
Continuando sua exposio, o autor relata que valores pequenos tanto para o RTP
quanto para o ATP indicam que o Dynamic Scripting esta sendo eIiciente em sua Iuno, uma
vez que indicam que o agente controlado por esta tcnica esta precisando de poucos jogos
para superar o agente estatico (SPRONCK et al., 2003, apua PONSEN). Se o agente
dinmico no Ior capaz de superar, estatisticamente, o agente estatico num limite de 100
partidas, o experimento parado e o algoritmo ento retorna a aptido mdia do agente.
Para os 4 tipos de IA utilizados, Ioram realizadas as seguintes quantidades de testes:
IA de ataque por terra em mapa pequeno: 31 testes;
IA de ataque por terra em mapa grande: 21 testes;
Ataque de soldados: 10 testes;
Ataque de cavaleiros: 10 testes.
Os experimentos realizados pelo autor mostraram que o agente controlado pelo
Dynamic Scripting conseguiu se adaptar aos dois primeiros agentes estaticos, mas no
conseguiu auIerir adaptao ao ataque de soldados e ao ataque de cavaleiros, sendo que contra
o primeiro, conseguiu vencer uma mdia de 1 em cada 100 partidas e contra o segundo
conseguiu vencer uma mdia de 1 em cada 50 partidas. Em Iuno disto, o autor observa que
o Dynamic Scripting no se mostrou bem sucedido quando colocado diante de estratgias
otimizadas, sendo que um dos Iatores relacionados a isso o Iato de que, embora a reIerida
tcnica seja uma tcnica adaptativa, ela se prende as suas bases de regras, sendo que caso
estas regras oIeream solues num numero insuIiciente, a tcnica se mostrara incapaz de
rapidamente descobrir taticas que possam se mostrar eIetivas. A partir disso, o autor passa a
103
se Iocar na busca de novas estratgias, busca essa que deve ser empenhada pelo proprio
agente dinmico
43
, atravs da utilizao do algoritmo gentico.
Logo ao inicio de sua exposio a respeito da aplicao do algoritmo gentico aos
jogos de estratgia em tempo real, o autor Iaz algumas consideraes a respeito de algumas
questes importantes nesta implementao, que so as seguintes:
Codificao dos cromossomos: um esquema de codiIicao deve ser capaz de
representar qualquer soluo possivel para o problema, e preIerencialmente de Iorma
que no possa representar solues inviaveis;
Avaliao dos cromossomos: projetar uma Iuno de aptido apropriada essencial
para que o algoritmo gentico Iuncione de Iorma eIetiva. O indicador de aptido de
um cromossomo deve corresponder a sua capacidade para resolver um determinado
problema. Desta Iorma, uma deIinio adequada do problema crucial quando se
projeta a reIerida Iuno. Em um jogo de estratgia em tempo real, o problema pode
ser descrito como sendo vencer exrcitos opositores num determinado mapa. Assim,
uma vitoria esmagadora sobre o inimigo deve gerar uma pontuao de aptido maior
do que uma vitoria de pequenas propores.
Tamanho da populao: em muitos jogos de estratgia em tempo real, as prioridades
de construo do agente ou seja, a Iorma como sera ordenada a construo de suas
estruturas de grande importncia para a sua estratgia. A populao inicial
utilizada no algoritmo deve possuir variaes de prioridades de construo em numero
suIiciente para testar varias estratgias e buscar uma soluo otimizada para o
problema. No entanto, se a populao Ior muito grande, a evoluo pode tomar muito
tempo. No caso contrario, ou seja, quando so o oIerecidas muito poucas solues
para o algoritmo, este pode convergir para uma soluo Iraca em Iuno da
amostragem insuIiciente do espao de busca.
A codiIicao Ioi Ieita de Iorma que os genes de um cromossomo Ioram agrupados
em estados, sendo que um estado ativado quando o agente executa pelo menos um de seus
genes. Todos os cromossomos tiveram ao menos o estado 1 ativado, enquanto os outros
43
Outro termo pelo qual os agentes cognitivos evolutivos podero ser denominados neste trabalho. Alm deste,
estes agentes podero ser denominados tambm pelo termo agente evolutivo.
104
estados variavam de acordo com a prioridade de construo. Foram codiIicados 4 tipos de
genes: os genes de construo, os de economia, os de pesquisa e os de combate, sendo que:
1. Os genes de construo Ioram responsabilizados pela construo de estruturas, sendo
identiIicados com a letra B seguida de um numero entre 1 e 12, que representaria a
estrutura selecionada;
2. Os genes de pesquisa so responsaveis pela melhoria tecnologica da base, sendo
identiIicadas pela letra R seguida de um numero entre 13 e 21
44
;
3. Os genes de economia so responsaveis pelo treino de unidades construtoras, sendo
representados pela letra E seguida do numero desejado dessas unidades;
4. Os genes de combate so responsaveis pelas atividades militares do agente, sendo
representados pela letra C seguida de um numero representando o estado atual sendo
que cada estado permite que se trabalhe com diIerentes unidades. Por exemplo, um
gene de combate no estado 1 iniciado com um 'C1, enquanto este mesmo tipo de
gene no estado 20 iniciado com um 'C20 (p. 27). O primeiro parmetro de um gene
de combate sempre o identiIicador de um exrcito, sendo que o jogo Stratagus, a
poca da realizao do trabalho de PONSEN, suportava at 10 exrcitos controlaveis,
sendo estes identiIicados por um numero que varia entre 0 e 9. O ultimo parmetro
sempre o papel do exrcito, que pode ser oIensivo ou deIensivo. O numero de
parmetros entre o primeiro e o ultimo parmetros varia dependendo do estado em que
a base do agente estiver.
Antes de se proceder a exposio acerca da Iuno de aptido do agente, sera exposta
o conceito da relao aelta, necessario para a compreenso daquela Iuno.
A relao aelta consiste na relao entre os pontos militares do agente dinmico e a
soma destes com os pontos militares do agente estatico, e pode ser expressa da seguinte
Iorma:
44
O autor no chega a especiIicar o signiIicado desta numerao.
105
6=
Ma
(Ma +Mo)
Equao 21
Sendo que:
o o simbolo representativo da relao;
Ma so os pontos militares do agente dinmico;
Mo so os pontos militares do oponente do agente dinmico.
A Iorma atravs da qual a Iuno de aptido do agente evolutivo sera calculada
depende da vitoria ou da derrota do mesmo numa determinada partida.
Caso o agente seja derrotado, a Iuno consistira no calculo do produto da relao
beta com a relao entre o tempo que o agente estatico levou para derrotar o agente evolutivo
e o tempo maximo admitido para uma partida. O tempo decorrido para a vitoria do agente
estatico denominado como ciclo de jogo
45
, e o tempo maximo admitido para uma partida
denominado como ciclo de jogo maximo
46
. Este produto ento comparado ao ponto de
equilibrio e o menor dos dois valores atribuido a aptido do agente.
Este procedimento pode ser sintetizado na seguinte equao:
F=min(
GC
EC
6 , b)
Equao 22
Onde:
F o indicador de aptido do agente;
GC o ciclo de jogo
47
;
EC o ciclo de jogo maximo
48
;
o a relao delta;
45
Game cycle no original.
46
Ena cycle no original.
47
GC a sigla para game cycle, conIorme o original.
48
EC a sigla para ena cycle, conIorme o original.
106
b o ponto de equilibrio.
Ja no caso contrario, ou seja, quando o agente evolutivo vence a partida contra o
agente estatico, apenas a relao aelta comparada ao ponto de equilibrio, sendo que o
indicador de aptido do agente recebe o maior valor dentre os dois.
Este procedimento pode ser expresso na seguinte equao:
F=max (b ,6)
Equao 23
Sendo que:
F a aptido do agente;
o a relao aelta;
b o ponto de equilibrio.
E importante destacar que, tal como no caso de Dynamic Scripting, a aptido do
agente pode receber valores no intervalo |0,1|
Continuando, o autor argumenta que se o agente programado com o algoritmo
gentico capaz de levar em Irente uma longa batalha mas ainda assim perder, provavel que
o cromossomo utilizado nesta batalha esteja proximo de encontrar uma soluo para o
problema da adaptao, e pequenas mudanas em seus genes podem resultado num
cromossomo com condies de vencer, eIetivamente, a partida. O Iator GC/EC permite que se
garanta que cromossomos que perdem uma partida apos resistirem por um bom tempo
recebero um indicador de aptido maior do que cromossomos que levam pouco tempo para
serem derrotados (p. 28)
Com relao aos operadores genticos aplicados aos cromossomos, Ioram os
seguintes:
1. Crossover de estados: so selecionados 2 cromossomos para serem cromossomos pais
e nestes realizado uma checagem para veriIicar se existem ao menos 3 estados
apropriados para crossover ativados. CertiIica-se que o cromossomo Iilho herdara
107
material gentico de ambos os pais para se evitar que ocorra um processo de
clonagem, ou seja, evitar que o cromossomo Iilho receba todo o seu material gentico
de apenas um dos pais
49
. Apos a realizao de crossover de estado no ultimo estado
ativado, as partes remanescentes do cromossomo so copiadas de um dos pais.
2. Mutao por reposio de regras: seleciona-se um cromossomo pai e, para cada
estado ativado, todas as regras de economia, pesquisa ou combate tm uma
probabilidade de 25 de soIrer um processo de reposio;
3. Mutao por influncia de regra
50
: seleciona-se um cromossomo pai e para cada
estado ativado os parmetros das regras de economia ou combate possuem uma
probabilidade de 50 de soIrerem mutao. A mutao se da dentro de um parmetro
pr-deIinido (no intervalo entre um valor minimo e um valor maximo).
4. Randomizao: gera-se um novo cromossomo completo.
Como mecanismo de seleo, Ioi utilizado o torneio, sendo que, nesta metodologia,
so selecionados, aleatoriamente, M cromossomos 'vitoriosos de um total de N
cromossomos para serem os cromossomos pais. Quanto maior o valor de N, maior a presso
da seleo (BUCKLAND 2004, apua PONSEN). O autor justiIica a utilizao do mtodo
com os seguintes argumentos:
1. E de Iacil implementao;
2. Tem maior probabilidade de gerar boas solues;
3. Quando se escolhe um valor pequeno para N, evita-se que a populao convirja
prematuramente
Na implementao, Ioi atribuido valor 3 a N e valor 1 a M, ou seja, so escolhidos 3
cromossomos e o melhor dentre os 3 tomado para ser o cromossomo pai da proxima
gerao, sendo que o pior dentre os 3 cromossomos descartado.
Como critrios de parada, Ioram conIigurados como sendo ou o Iato de o indice de
aptido atingir um determinado valor ou o algoritmo realizar um determinado numero de
iteraes, uma vez que no ha garantias de que o algoritmo encontrara uma soluo com
49
O termo clonagem no utilizado no original. Foi utilizado aqui por julgar-se ser um termo apropriado para
descrever a condio ora apresentada.
50
Rule biasea mutation, no original.
108
indice de aptido que exceda o valor colocado (p. 29). Quando um dos dois critrios
alcanado, o processo retorna a melhor soluo, reinicia a populao e inicia uma nova busca
(idem)
Nos experimentos, Ioram utilizados o ataque de soldados e o ataque de cavaleiros
como a IA estatica, uma vez que estas duas IA's se mostraram problematicas para o Dynamic
Scripting original. O tamanho da populao Ioi conIigurado no numero de 50 cromossomos.
O critrio de parada por aptido Ioi conIigurado como 0,75 para o ataque de soldados e 0,7
para o ataque de cavaleiros. E o critrio de parada por iteraes Ioi conIigurado como 250 (p.
30).
O algoritmo gentico rapidamente encontrou solues, sendo que quase todos os
experimentos Ioram encerrados antes de 250 iteraes com indices de aptido excedendo os
valores colocados como critrios de parada. Nisto, o autor conclui que este algoritmo capaz
de descobrir novas taticas e estratgias para lidar com IA's otimizadas que se mostraram
problematicas para o Dynamic Scripting original.
Apos o resultado obtido com o algoritmo gentico, o autor codiIica algumas das
solues encontradas por este em regras para a base de regras do Dynamic Scripting, com
vistas a aprimorar o desempenho desta tcnica e demonstrar que a mesma pode vencer as IA's
do ataque de soldados e do ataque de cavaleiros ou pelo menos melhorar seu desempenho em
relao a estas.
Assim, as solues descobertas a partida da operao do algoritmo gentico Ioram
cuidadosamente examinadas e discutidas, sendo que a partir disso Ioram realizadas 5
mudanas na base de regras original, que so descritas a seguir:
1. Foi reconhecido um padro muito obvio na maioria das solues encontradas contra o
ataque de soldados. Nestas, o agente primeiramente construiu um Ierreiro, e a partir
disso pesquisou melhorias nas armas e nos equipamentos de proteo das unidades,
para ento poder atacar de Iorma eIetiva a IA oponente com soldados Iortemente
armados. A primeira regra adicionada a base de regras, denominada de regra anti-
ataque de soldados, executa exatamente estas aes;
2. Em quase todas as solues contra o ataque de cavaleiros, Ioi observado que o
algoritmo gentico preIeriu treinar unidades avanadas o mais cedo possivel. Isto
inspirou o autor a criar a segunda regra inserida na nova base de regras do Dynamic
109
Scripting. Sempre que o agente dinmico estava a 'uma estrutura de distncia
51
de
treinar unidades avanadas, a regra, quando selecionada, construia esta estrutura e
ento realizava ataques com unidades avanadas.
3. No decorrer dos experimentos, o autor pde observar a importncia de impulsionar a
economia atravs da expanso da base do agente. A base de regras original ja oIerecia
diversas oportunidades para a realizao desta expanso. No entanto, durante os
experimentos com a antiga base de regras, o autor observou que as bases de produo
de recursos Ireqentemente eram Iacilmente destruidas pela IA oponente. Portanto,
estas regras Ireqentemente recebiam pesos baixos. Atravs de uma analise mais
atenta das solues encontradas pelo algoritmo gentico, o autor pode observar que
este, antes de expandir sua base, tratava de organizar sua deIesa, concluindo, a partir
desta inIormao, que, para que se possa construir novas bases de produo de
recursos, deve-se ter condies de deIend-la. Em Iuno disso, o treinamento de
exrcitos de deIesa Ioi incluido na nova regra de expanso da base;
4. A quarta regra Ioi obtida atravs da seleo de um cromossomo bem sucedido contra o
ataque de cavaleiros e posterior copia de todas as aes codiIicadas em estados
ativados diretamente para a regra;
5. Aqui no Ioi criada nenhuma regra nova. Apenas Ioram realizadas mudanas de
parmetros em regras militares ja existentes. Foram examinados todos os genes
ativados para todos os cromossomos, sendo que nisso Ioi analisado quais os tipos de
unidades que o algoritmo gentico preIeriu utilizar durante um determinado momento
do jogo
52
. Com base nestas estatisticas, determinados parmetros das regras militares
existentes Ioram modiIicados.
Apos a descrio das novas regras, o autor expe que as inseriu na base de regras
atravs de um processo de substituio. Ou seja, substituiu determinadas regras da base de
regras original pelas novas regras, com vistas a manter a mesma com o mesmo tamanho que
possuia originalmente.
Para cada uma das duas IA's, Ioram realizados 10 experimentos. Alm disso, a nova
base de regras Ioi testada contra as IA's de ataque por terra em mapa grande e em mapa
pequeno, sendo que, para cada uma destas, Ioram realizados 11 testes. Da mesma Iorma como
51
'One builaing away, no original.
52
'Specific temporal state of the game, no original
110
nos experimentos anteriores, o desempenho relativo do algoritmo Ioi quantiIicado com o RTP
e o ATP. Se o jogador dinmico Ior incapaz de estatisticamente superar o jogador estatico
num limite de 100 partidas, os experimentos so paradas e o algoritmo retorna a aptido
mdia do agente dinmico. Para este experimento, a penalidade e a recompensa maximas Ioi
atribuido valor 400, com vistas a encorajar pesos altos para as regras.
Realizados os experimentos, o Dynamic Scripting aprimorado superou as IA's de
ataque por terra em mapa pequeno e em mapa grande sem a necessidade de adquirir qualquer
aprendizado (p. 34).
Com relao as duas IA's otimizadas, ou seja, contra o ataque de soldados e ataque
de cavaleiros, Ioram obtidos os seguintes resultados:
Contra o ataque de soldados, Ioi obtida uma mdia de vitorias de 1 para cada 3 para o
agente no qual Ioi implementada a nova base de regras, enquanto que, com a antiga
base de regras, a mdia de vitorias Iicou de 1 para cada 100 partidas disputadas.
Contra o ataque de cavaleiros, o agente dinmico passou a vencer uma mdia de 1 em
cada 10 partidas disputadas, enquanto que com a antiga base de regras, a taxa de
vitorias Ioi de 1 para cada 50.
Com relao as pontuaes de aptido do agente, com a antiga base de regras Ioi
conseguida uma aptido mdia de 0,2, enquanto que, com a nova base de regras, a aptido
mdia passou ao patamar de 0,3.
Desta Iorma, o autor conclui que, embora a nova base de regras no permita que os
agente evolutivo sobrepuje estatisticamente as IA's estaticas aprimoradas (ataque de soldados
e ataque de cavaleiros), o agente, com a sua utilizao, melhora seu desempenho em relao a
estas IA's.
4.2.5. Consideraes gerais acerca dos trabalhos consultados
No decorrer do processo de pesquisa acerca dos agentes cognitivos evolutivos mais
especiIicamente na leitura dos dois autores utilizados como reIerncia para a redao deste
capitulo Ioi possivel observar alguns pontos interessantes, e que sero expostos a seguir:
111
CROCOMO, no decorrer de seu trabalho, detecta uma Ialha no trabalho de
SPRONCK, que consiste na possibilidade de uma determinada regra receber valor
minimo igual a zero, o que Iaz com que a tcnica do Dynamic Scripting, tal como
implementada por SPRONCK, perca sua capacidade de adaptao com o passar do
tempo. CROCOMO, neste sentido, toma como uma de suas recomendaes para
trabalhos Iuturos que a tcnica seja aprimorada, atravs da anulao de possibilidade
de uma regra receber peso 0, atravs da condio de que o peso minimo para uma
regra seja conIigurado de Iorma a receber um valor positivo. No entanto, esta
implementao realizada por PONSEN possivelmente orientado por SPRONCK,
uma vez que este o orientador do trabalho. PONSEN atribui valor 25 ao peso
minimo que uma regra pode receber, sendo que a regra nunca recebera valor menor
que este, uma vez que o novo peso de uma regra, quando o agente dinmico perde a
partida onde esta utilizada, obtida atravs de comparao do valor do peso minimo
que ela pode receber com o valor do peso original diminuido pelas punies recebidas
pela regra, sendo que o maior dentre os dois valores passara a ser o novo peso da
regra. Desta Iorma, pode-se observar que, mesmo que o valor original deduzido da
regra seja menor que o peso minimo admitido para a mesma, o novo peso da regra
nunca tera valor menor do que o peso minimo admitido. Assim, aparentemente esta
superado o problema da perda de capacidade de adaptao por parte da tcnica. No
entanto, PONSEN no tece consideraes a respeito do eIeito que tal implementao
tem na eIicincia da tcnica, sendo que este ponto tocado por CROCOMO quando
este discute a reIerida implementao, argumentando que a mesma podera trazer
prejuizos a eIicincia do Dynamic Scripting.
Alm do peso minimo admitido para uma determinada regra, PONSEN implementa
outro mecanismo aparentemente interessante: a atribuio de um peso maximo
admissivel para uma regra. Aparentemente este mecanismo garante que no ocorra o
processo que sera denominado aqui de monopolio ae uma regra, sendo que este
processo ocorreria caso uma regra receba um peso demasiadamente alto, o que Iaria
com esta Iique com uma probabilidade demasiadamente alta de ser escolhida, sendo
que isso poderia causar prejuizos a outras regras e at ao proprio agente, uma vez que
a oportunidade de este utiliza-las poderia ser drasticamente reduzida.
112
PONSEN utiliza-se, em seu trabalho, de um esquema demasiadamente condensado
para representar uma situao relativamente complexa no caso, as Iunes de
aptido dos agentes cognitivos evolutivos utilizando o Dynamic Scripting e o
algoritmo gentico, alm da Iuno de atualizao de pesos das regras para aquela
tcnica. Isto gerou diIiculdades na hora de interpretar as Iormulas utilizadas. Neste
sentido, Ioram levantados, neste trabalho, os conceitos das relaes alfa, beta, gama e
aelta com o objetivo tornar mais compreensiveis os processos atravs dos quais
medida a aptido do agente e atualizado o peso das regras utilizadas pelo mesmo em
uma determinada partida quando utilizada a tcnica do Dynamic Scripting. A partir
destes conceitos, buscou-se expor, passo a passo, de que Iorma estes processos so
realizados.
4.3. Consideraes Finais
Este capitulo Ioi baseado na proposta de se discutir os agentes cognitivos evolutivos,
sendo que inicialmente Ioi realizada uma caracterizao geral dos mesmos para ento
proceder-se a discusso de trabalhos que tratam do assunto. Na discusso a respeito destes, Ioi
realizado inicialmente uma caracterizao de alguns conceitos que puderam ser encontrados
nos dois para ento proceder-se a uma analise de cada um. Apos esta discusso, Ioram
realizadas algumas consideraes gerais a respeitos dos trabalhos para ento proceder-se as
consideraes Iinais.
113
Concluso e Recomendaes para Trabalhos Futuros
Este trabalho Ioi concebido com o objetivo de se discutir a questo da Inteligncia
ArtiIicial nos jogos eletrnicos de estratgia em tempo real. Mais especiIicamente, discutiu-se
a questo da implementao de agentes cognitivos com a capacidade de aprendizagem eIetiva
contra seus oponentes, partindo-se da seguinte questo:
E possivel a criao de um modelo de agente cognitivo que possua um esquema de
aprendizagem eIetivo em sua estrutura?
A partir desta questo, Ioi realizada a pesquisa com vista a respond-la, realizada
com o cumprimento das seguintes etapas:
1. Pesquisa bibliograIica acerca dos jogos eletrnicos de estratgia em tempo real,
buscando inIormaes sobre sua historia, seus principais conceitos e suas diIerenas
em relao a alguns gneros de jogos proximos;
2. Pesquisa bibliograIica acerca dos agentes inteligentes, buscando-se o Ioco nas Iunes
cognitivas do planejamento e aprendizagem. Alm disso, buscou-se estudar a
implementao destas Iunes especiIicamente nos jogos eletrnicos de estratgia em
tempo real;
3. Realizao de experimentos com o jogo Outlive com vistas a veriIicar de Iorma mais
sistematica como os agentes do reIerido jogo se comportam diante de um conjunto de
situaes possiveis;
4. Pesquisa bibliograIica com vistas a veriIicar a possibilidade de implementao de
agentes tais como os levantados na Iase de projeto deste trabalho.
Apos realizada o devido processo de pesquisa a respeito da Inteligncia ArtiIicial
aplicada aos jogos de estratgia em tempo real e a outros gneros, Ioi possivel veriIicar que
sim, possivel a implementao dos agentes cognitivos evolutivos, sendo que ja existem
tcnicas que permitem esta implementao e, at o momento, de acordo com o que Ioi
possivel pesquisar, existem duas tcnicas sendo discutidas no mbito desta questo: o
114
Dynamic Scripting e o algoritmo gentico, sendo que ambas as tcnicas Ioram discutidas no
capitulo IV.
Pde-se observar que a nomenclatura agente cognitivo evolutivo no aplicada na
literatura que Ioi pesquisada. Para se denominar este tipo de agente, Ioram utilizados termos
como agente ainamico e agente evolutivo. Outra nomenclatura que pde ser levantada no
decorrer desta pesquisa Ioi a nomenclatura de agente aaaptativo, embora esta no tenha sido
utilizada no decorrer deste trabalho. Tal nomenclatura parece tambm apropriada, pois
expressa a Iorma como o agente se comporta diante de um eventual oponente: adapta a sua
estratgia a estratgia utilizada por este quando no lhe possivel venc-lo num determinado
momento.
A aprendizagem online, dentro da literatura consultada, se mostrou aplicavel tanto
aos jogos do gnero CRPG quanto no mbito dos jogos de estratgia em tempo real. Nos
CRPG's, a reIerida modalidade de aprendizagem mostrou-se aplicavel atravs das duas
tcnicas expostas neste trabalho. No entanto, no Ioi encontrado nenhum trabalho que trata da
implementao do algoritmo gentico em jogos de estratgia em tempo real. Ainda assim,
PONSEN, embora no reconhea a aplicabilidade deste algoritmo para aprendizagem online
em jogos eletrnicos, mostra um Iator interessante para esta discusso, uma vez que, quando
aplica este algoritmo para aprendizagem offline com vistas a descobrir novas taticas e
estratgias para serem codiIicadas em novas regras para serem utilizadas pelo Dynamic
Scripting, demonstra que o reIerido algoritmo descobre rapidamente estas taticas e estratgias
para lidar com os oponentes que Ioram colocados diante de si. As concluses apresentadas por
CROCOMO tambm so animadoras neste sentido, uma vez que este autor demonstra que,
dentro do ambiente do jogo de CRPG apresentado em seu trabalho, o algoritmo gentico
mostra uma capacidade similar ou superior de adaptao em relao ao Dynamic Scripting,
sendo que, quando os dois algoritmos Ioram colocados em conIronto direto em um
quantitativo grande a partidas, o algoritmo gentico mostrou-se signiIicativamente superior a
outra tcnica.
Enquanto sugesto para trabalhos Iuturos, pde ser levantada a questo da
implementao do algoritmo gentico para aprendizagem online em jogos eletrnicos de
estratgia em tempo real.
115
REFERNCIAS BIBLIOGRFICAS
BRAMLETTE, Mark F. Initialization, Mutation and selection methods in genetic algorithms
Ior Iunction optimization. In: INTERNATIONAL CONFERENCE ON GENETIC
ALGORITHMS, 4, 1991, San Mateo, CA. Proceedings of the Fourth International
Conference on Genetic Algorithms. San Mateo, CA: ICGA, 1991. p. 100-107.
BUCKLAND, M. (2004). Building Better Genetic Algorithms. AI Game Programming
Wisaom 2 (ed. S. Rabin), Charles River Media, 2002, pp. 649-660.
CHUNG, M. et. al. Monte Carlo Planning in RTS Games. University oI Alberta.
Edmonton, Alberta, Canada.
COHEN, R.C. (1995). Paragraph 5.3.2: A Randomization oI the Paired Sample Test,
Empirical Methoas for Artificial Intelligence, MIT Press, pp. 168-170
CROCOMO, M.K. Um Algoritmo Evolutivo para Aprendizado On-line em 1ogos
Eletrnicos. Dissertao apresentada ao Instituto de Cincias Matematicas e de Computao
ICMC-USP, como parte dos requisitos para obteno do titulo de Mestre em Cincias
Cincias da Computao e Matematica Computacional. USP So Carlos. Fevereiro de 2008.
99 p.
GERYK, B. Age of Empires II: The Age of Kings. In: A History of Real-Time Strategy
Games - Part II. 1999 - present. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtimept2/p204.html. Acessado em
19/07/09.
GERYK, B. A History of Real-Time Strategy Games - Part II. 1999 - present. Disponivel
em http://www.gamespot.com/gamespot/geatures/all/realtimept2. Acessado em 21/07/09.
GERYK, B. Dune II. In: A History of Real-Time Strategy Games - Part I: 1989-1999.
Disponivel em http://www.gamespot.com/gamespot/Ieatures/all/realtime/p202.html.
Acessado em 19/07/09.
GERYK, B. Herzog Zwei. In: A History of Real-Time Strategy Games - Part I: 1989-
1999. Disponivel em http://www.gamespot.com/gamespot/Ieatures/all/realtime/p201.html.
Acessado em 19/07/09.
GERYK, B. Homeworld. In: A History of Real-Time Strategy Games - Part II: 1999-
present. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtimept2/p203.html. Acessado em
19/07/09.
GERYK, B. Starcraft. In: A History of Real-Time Strategy Games - Part I: 1989-1999.
Disponivel em http://www.gamespot.com/gamespot/Ieatures/all/realtime/p502.html.
Acessado em 19/07/09.
116
GERYK, B. Total Annihilation. In: A History of Real-Time Strategy Games - Part I:
1989-1999. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtime/p501.html. Acessado em
19/07/09
GERYK, B. Warcraft: Orcs & Humans. In: A History of Real-Time Strategy Games -
Part I: 1989-1999. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtime/p301.html. Acessado em
19/07/09.
GERYK, B. Warzone 2100. In: A History of Real-Time Strategy Games - Part II: 1999-
present. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtimept2/p201.html. Acessado em
19/07/09.k
LUA. A Linguagem de Programao Lua. Disponivel em
http://www.lua.org/portugues.html. Acessado em 15/02/10.
MANSLOW, John. Learning and Adaptation. In: STEVE RABIN. AI game Programming
Wisdom. Washington: Charles River Media, 2002. p. 557-566. CD-ROM.
MANSLOW, J. 2004. ~Using Reinforcement Learning to Solve AI Control Problems. AI
Game Programming Wisaom 2 (ed. S. Rabin), Charles River Media, pp. 591-601.
PONSEN, M. Improving Adaptive Game AI with Evolutionary Learning. A thesis
submitted in IulIillment oI the requirements Ior the degree oI Master oI Science. Faculty oI
Media & Knowledge Engineering. DelIt University oI Technology. DelIt, 2004. 46 p.
RICH, Elaine. Inteligncia Artificial / Elaine Rich, Kevin Knight ; traduo Maria Claudia
Santos Ribeiro Ratto ; reviso tcnica Alvaro Antunes So Paulo : Makron Books, 1993.
RUSSEL, S. J. Inteligncia Artificial: traduo da segunda eduo / Stuart Russel, Peter
Norvig, traduo de PubliCare Consultoria. Rio de Janeiro : Elsevier, 2004 2
reimpresso.
SIMES, Eduardo do Valle. Development of an embedded evolutionary controller to
enable collision-free navigation of a population of autonomous mobile robots. 2000. 289
I. Tese (Doutorado) Electronic Engineering, University oI Kent, Canterburry, 2000.
SIMES, Eduardo do Valle; DIMOND, Keith R. An evolutionary controller Ior autonomous
Muti-Robot Systems. In: SYSTEMS, MAN AND CYBERNETICS, 1999, Tokyo.
Proceedings of the IEEE International Conference on Systems, Man and Cybernetics.
Tokyo: IEEE, 1999. p. 596-601.
SPRONCK, P.; SHPRINKHUIZEN-KUYPER, I.; POSTMA, E. Online Adaptation oI Game
Opponent AI in Theory and Practice. In. INTERNATIONAL CONFERENCE ON
INTELLIGENT GAMES AND SIMULATION, 4, 2003, Londres. Proceedings of the 4
th
117
International Conference on Intelligent Games and Simulation. Wolverhampton:
University oI Wolverhampton, 2004. p. 45-53.
TOMASSINI, Marco. A Survey oI Genetic Algorithms. In: WORLD ScientiIic: Annual
Reviews oI Computational Physics: World ScientiIic, 1995. p.87-118.
WIKIPEDIA, the Iree encyclopedia. Lua (Programming Language). Disponivel em
http://en.wikipedia.org/wiki/Lua28programminglanguage29. Acessado em 16/02/10.
WIKIPEDIA, the Iree encyclopedia. Micromanagement. Disponivel em
http://en.wikipedia.org/wiki/Micromanagement(computergaming). Acessado em 01/08/09.
WIKIPEDIA, the Iree encyclopedia. Real-time Strategy. Disponivel em
http://en.wikipedia.org/wiki/Real-timestrategy. Acessado em 17/08/09.
WIKIPEDIA, the Iree encyclopedia. Real-time Tactics. Disponivel em
http://en.wikipedia.org/wiki/Real-timetactics#GenreclassiIication. Acessado em 01/08/09.
WIKIPEDIA, the Iree encyclopedia. Time-keeping systems in games. Disponivel em
http://en.wikipedia.org/wiki/Real-timevs.turn-basedgameplay . Acessado em 01/08/09 .
118
APNDICE A - ESQUEMA DE PLANE1AMENTO EM GRAFO PARA AGENTES
INTELIGENTES EM 1OGOS DE ESTRATGIA EM TEMPO REAL
119
Nveis de Estado/Ao Estados/Aes possveis no nvel Descio
S(0)
Base desestruturada
A base do agente ainda no
esta estruturada de Iorma que
lhe permita lanar ataques aos
inimigos.
Inimigos no campo de batalha
A(0)
Estruturar base
Organizar a base de Iorma
que seja possivel ao agente a
realizao de ataques as bases
inimigas
Receber ataque inimigo
S(1)
Base estruturada
A base encontra-se em
condies que permitam ao
agente lanar ataques aos
inimigos
Base desestruturada
Base destruida
A base do agente destruida
pelas Ioras inimigas
(base destruida)
A base do agente no
destruida pelas Ioras
inimigas
Inimigos no campo de batalha
A(1) Atacar inimigos
O agente ataca as bases
inimigas
S(2)
Inimigos destruidos
Os inimigos do agente so
destruidos
Base estruturada
Base desestruturada
Base destruida
(base destruida)
Inimigos no campo de batalha
Quadro 1 - Descrio dos possveis estados no grafo
120
APNDICE B - ESTRUTURAS DO 1OGO OU1LIJE E RESPECTIVAS IMAGENS
53
Raa Estrutura Imagem
Humana
Quartel general
Laboratorio de pesquisa
Central de inteligncia
Mercado
Fabrica de veiculos
53
Imagens extraidas do proprio jogo.
121
Fabrica de aeronaves
Torre de deIesa
Extrator de minrio
ReIinaria
Processador de minrio
Gerador eolico
122
Usina nuclear
Retransmissor de energia
Rob
Centro de controle
Centro tecnologico
Centro de inIormaes
Base recicladora
123
Fabrica basica
Fabrica avanada
Canho de deIesa
Canho antiareo
Usina de puriIicao
Base de minerao
Assimilador de minrio
124
Gerador solar
Gerador radioativo
125
APNDICE C - UNIDADES DO 1OGO OU1LIJE
Raa
Categoria
da
unidade
Nome da
unidade
Descrio da
unidade
Comandos especficos da
unidade
Observaes
Human
a
Construtor
a
Construtor 3. Reparar
construo: Faz
com que o
construtor realize
operaes de
manuteno numa
determinada
estrutura;
4. Demolir
construo: Faz
com que o
construtor
desmonte uma
determinada
estrutura;
5. Construes
bsicas: Permite
que se construa
uma das seguintes
estruturas:
1. Quartel
general;
2. Laboratorio de
pesquisas;
3. Central de
Inteligncia;
4. Mercado;
5. Fabrica de
veiculos;
6. Fabrica de
aeronaves;
7. Torre de
deIesa.
5. Construes de
recursos: Permite
que se construa
uma das seguintes
estruturas:
1. ReIinaria;
2. Extrator de
minrio;
126
3. Processador de
minrio;
4. Retransmissor
de energia;
5. Gerador
eolico;
6. Usina nuclear.
4. Instalar mina
terrestre: Faz
com que o
construtor instale
uma mina terrestre
num ponto
determinado do
mapa, apos ter
sido realizada a
melhoria
tecnologica que
permite a
utilizao deste
recurso.
Coletora Coletor
5. Coletar minrio:
Faz com que o
coletor colete
minrio em um
extrator de minrio
ou na sucata de
unidades
destruidas;
6. Retornar
minrio: Faz com
que a unidade
transporte o
minrio coletado
ao quartel general
ou a reIinaria mais
proxima.
Transporte Transporta
dor
5. Carregar veculo:
Faz com que o
transportador
carregue uma
unidade
determinada pelo
agente controlador
em seu interior;
6. Descarregar
todos os veculos:
127
Faz com que o
transportador
descarregue todas
as unidades que
porventura estejam
em seu interior
54
Combate
Explorador
Unidade de
combate de
pequeno porte
3. Explorar: Faz
com que o
explorador
percorra o mapa
para Iins de
reconhecimento;
4. Nitro: Faz com
que o explorador
torne-se mais
veloz por um
breve periodo de
tempo;
5. Instalar bomba
relgio: Faz com
que o explorador
instale uma bomba
em um ponto
especiIico do
mapa.
Dominado
r
Unidade de
combate de
mdio porte
4. Incubar vampiro:
Faz com que o
dominador incube
um vampiro em
um abominavel.
Apos um
determinado
periodo de tempo,
o vampiro surge,
matando o
abominavel que
lhe serviu de
hospedeiro;
5. Dominar: Faz
com que o
dominador instale
numa unidade
inimiga um
54
Tambm possivel descarregar apenas uma unidade. Quando o transportador carrega uma determinada
unidade, no painel de controle do jogo, quando seleciona-se o transportador em questo, so apresentadas ao
jogador as unidades que esto no interior do transportador. Para se descarregar a unidade individualmente, basta
que se pressione o boto esquerdo do mouse na unidade que se deseja descarregar.
128
dispositivo que Iaz
com que a mesma
passe a seguir as
ordens do agente
controlador
proprietario do
dominador em
questo.
Lana-
chamas
Unidade de
combate de
curta distncia.
Pode atacar
apenas alvos
terrestres.
4. Napalm: Aumenta
o poder de ataque
do lana-chamas
por um curto
periodo de tempo.
Lana-
misseis
Unidade de
combate anti-
areo. No
pode atacar
unidades
terrestres.
4. Repetio rpida:
Aumenta o poder
de ataque do
lana-misseis por
um curto periodo
de tempo.
Tanque
Unidade de
combate
terrestre. No
pode atacar
unidades
areas.
Tanque
pesado
Unidade de
combate
terrestre com
canho de
longo alcance.
No pode
atacar
unidades
areas.
3. Invencibilidade:
Faz com que seja
impossivel inIligir
dano ao tanque
pesado por um
curto periodo de
tempo.
Helicopter
o
3. Explorar: Faz
com que o
helicoptero
percorra o mapa
para Iins de
reconhecimento;
4. Lanar mssil
incendirio: Faz
com que o
helicoptero lance
um poderoso
129
missil em alvos
terrestres.
Caa
3. Explorar: Faz
com que o caa
percorra o mapa
para Iins de
reconhecimento
4. Invisibilidade:
Faz com que o
caa Iique
invisivel por um
curto periodo de
tempo.
Abominav
el
5. Explorar: Faz
com que o
abominavel
percorra o mapa
para Iins de
reconhecimento.
Vampiro
Unidade criada
a partir da
incubao de
um
abominavel
por um
dominador.
4. Sacrificar
vampiro: Faz com
que o vampiro se
sacriIique em um
ponto especiIico
do mapa, lanando
um gas toxico que
causa
consideraveis
danos a estruturas
e unidades
inimigas que
estejam nas
proximidades.
131
minrio;
4. Gerador solar;
5. Gerador
radioativo;
Instalar
dispositivos
paralisantes: Faz
com que o morIo
instale em algum
ponto especiIico
do mapa um
conjunto de
dispositivos que
paralisam unidades
inimigas quando
tocados por estas.
Coletora Saqueador
7. Coletar minrio:
Faz com que o
saqueador colete
minrio em uma
base de minerao
ou na sucata de
unidades
destruidas;
8. Retornar
minrio: Faz com
que o saqueador
transporte o
minrio coletado
ao quartel general
ou a usina de
puriIicao mais
proxima.
57
Concluso do
experimento.
Experimento III
Utilizao de um agente controlando uma base rob: o exrcito vermelho.
Tabela III
Eventos ocorridos durante o experimento III
Momento Evento Observaes
00:07:00
O agente constroi sua
primeira base de produo de
recursos.
Empreendimento
indica postura expansionista
por parte do agente.
00:13:00
O agente constroi sua
segunda base de produo de
recursos.
00:35:00
O agente ataca uma
das bases de produo de
recursos do jogador,
utilizando 6 invasores.
Ataque neutralizado
por Iora composta por
unidades areas
00:37:00
O agente ataca base de
produo de recursos do
jogador, utilizando 8
invasores, 1 trovo e 1
tempestade.
A utilizao do
tempestade indica
preocupao com cobertura
anti-area para o ataque.
00:38:00 O agente ataca base de
produo de recursos do
jogador, utilizando 7
invasores e 1 incinerador.
Aqui pde ser
observado o curto
periodo entre os dois
ultimos ataques, o que
57
No Ioi registrado o momento em que Ioi Iinalizado o experimento.
146
parece indicar um
cerco a base de
produo de recursos
do jogador.
O agente no
demonstra utilizar
estratgias adaptativas
a estratgia do
jogador, dado que ele
no parece dar ateno
a cobertura anti-area
para seus ataques.
00:48:00
Agente ataca base de
produo de recursos do
jogador, utilizando 11
invasores.
O agente demonstra
uma atitude
consideravelmente oIensiva,
dado que a base em questo
a base de produo de
recursos que se encontra mais
proxima a base principal do
jogador.
01:00:00
O agente ataca base de
produo de recursos do
jogador, utilizando 3
incineradores e 6
tempestades.
A atitude demonstra
uma atitude adaptativa do
agente, que demonstra maior
preocupao com a cobertura
anti-area para seus ataques,
dado que o jogador deIende
sua base utilizando
essencialmente unidades
areas.
01:07:00
O agente, ao ver uma
rota at uma das bases de
produo de recursos do
jogador obstruidas por
unidades deste, utiliza uma
rota alternativa para alcanar
a reIerida base.
O agente demonstra
aqui uma atitude adaptativa
bastante interessante, ao
adaptar sua rota de Iorma a
escapar das unidades que
bloqueavam seu caminho at
a base que era seu alvo.
01:13:00
O agente ataca base de
produo de recursos do
jogador, utilizando 1
incinerador e 4 tempestades.
Outro ataque onde o
agente demonstra
consideravel preocupao na
cobertura anti-area de seus
ataques, preocupao essa
expressa no uso dos
tempestades neste ataque.
01:25:00 O jogador desestrutura
suas bases de produo de
recursos, para veriIicar a
147
resposta do agente.
01:28:00
O agente ja comea a
tomar as bases de produo
de recursos desestruturadas
pelo jogador.
03:05:00
O jogador destroi a
base principal do agente
Apos ter sua base
principal destruida, o
agente a reconstroi em
outro ponto do mapa,
ponto esse que ja
possuia estruturas pr-
instaladas.
O jogador cerca o
local onde o agente
instala sua base, dado
que o local isolado
do resto do mapa.
03:15:00
O agente constroi uma
base de produo de recursos
no local onde Iicava sua base
principal original.
Aqui o agente rompe o
cerco lanado pelo jogador,
aparentemente utilizando a
habilidade de teletransporte
da unidade tornado para levar
um morIo at o local onde
instala sua base de produo
de recursos.
03:22:00
Concluso do
experimento.
Experimento IV
Utilizao de dois agentes, ambos controlando exrcitos robs.
Exrcito verde-claro, que sera denominado como exrcito verde;
Exrcito roxo.
Tabela IV
Eventos ocorridos durante o experimento IV
Momento Evento Observaes
00:22:00 Exrcito verde ataca
uma das bases de produo do
jogador, utilizando 10
At o momento os
agentes no so aliados.
148
invasores.
00:29:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 2 invasores.
00:34:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 3 caos
e 1 electro.
00:40:00
Aliana dos agentes ja
esta consolidada.
00:46:00
Ambos os agentes
apresentam postura
expansionista.
Aqui o jogador decide
desestruturar suas
bases de produo de
recursos para veriIicar
a resposta dos agentes.
00:55:00
Assim que o jogador
desestrutura suas bases de
produo de recursos, os
agentes tratam de avanar
sobre as mesmas.
01:18:00
O jogador observa que
os agentes novamente se
comportam dentro do
parmetro da expanso
limitada. O exrcito roxo
constroi 6 bases de produo
de recursos e o exrcito verde
constroi 5, sendo que ainda ha
mais jazidas que podiam ser
tomadas pelos mesmos no
mapa. Ao que parece, os
agentes possuem em sua
estrutura o conceito de
necessidade, sendo que a
partir deste conceito, os
mesmos avaliam se devem ou
no continuar expandindo sua
base.
01:58:00 Concluso do experimento
149
Experimento V
Utilizao de dois agentes, um controlando um exrcito humano e o outro controlando
um exrcito rob.
Exrcito laranja humano;
Exrcito vermelho rob.
Tabela V
Eventos ocorridos durante o experimento V
Momento Evento Observaes
00:28:00
Exrcito laranja ataca
base principal do jogador
utilizando 12 invasores.
00:28:00
Agentes realizam
ataque conjunto a base
principal do jogador
Aqui ja se observa a
aliana entre os dois
agentes consolidada.
Jogador realiza sua
deIesa com unidades
areas.
00:34:00
Os agentes realizam
um ataque paralelo a duas
bases de produo de recursos
do jogador, cada base sendo
atacada por um dos agentes.
Exrcito laranja utiliza
4 troves, 3 caos e 1
tornado, enquanto o
exrcito vermelho
utiliza 2 tanques
pesados e 3
helicopteros.
Ao que parece, apos o
Iracasso do primeiro
ataque a base
principal, os agente
passam a atacar as
bases de produo de
recursos do jogador
com vistas a
enIraquec-lo.
00:43:00 Os agentes realizam
outro ataque paralelo,
aproximadamente nos
mesmos moldes do anterior.
Neste ataque, o
exrcito laranja utiliza
4 caos, 2 invasores e 1
tempestade, o que ja
indica um certo grau
de preocupao com a
cobertura anti-area
150
para seus ataques.
Exrcito vermelho
ataca com 2
helicopteros e 2 caas.
Jogador realiza sua
deIesa com a
utilizao de unidades
areas.
00:47:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 4 tanques pesados
e 4 helicopteros.
00:49:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 4
troves e 1 electro.
00:53:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 3 tanques pesados
e 6 helicopteros
00:54:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 2
troves e 7 tempestades.
Desta vez pode-se
observar uma preocupao
maior por parte do agente
com relao a cobertura anti-
area para o ataque.
00:59:00
Agentes realizam
ataque conjunto a uma das
bases de produo de recursos
do jogador, utilizando Iorte
cobertura anti-area.
Exrcito vermelho
utiliza 4 lana-chamas
e 6 lana-misseis;
Exrcito laranja utiliza
1 caos e 4
tempestades.
Agentes demonstram
aqui uma atitude
adaptativa em relao
a estratgia do
jogador.
01:05:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 3 helicopteros e 6
caas.
01:15:00
Agentes dividem as
jazidas disponiveis entre si.
01:30:00
Concluso do
experimento.
Experimento VI
Utilizao de 7 agentes, sendo que 3 controlam exrcitos humanos e 4 controlando
exrcitos robs. A distribuio dos exrcitos segue a tabela a seguir.
Tabela VI
Relao dos exrcitos utilizados no experimento VI
Raa Exrcito
Humano
Exrcito verde
Exrcito amarelo
Exrcito laranja
Rob
Exrcito vermelho
Exrcito verde claro
Exrcito azul
Exrcito roxo
Os eventos ocorridos no experimento so relacionados a seguir.
Tabela VII
Eventos ocorridos no experimento VI
Momento Evento Observaes
00:09:00
Exrcito roxo ataca
base principal do jogador,
utilizando 4 invasores.
Jogador realiza sua
deIesa com unidades areas.
00:19:00 Exrcito roxo ataca DeIesa do jogador
152
novamente a base principal
do jogador, utilizando, desta
vez, 2 electros.
realizada com unidades
areas.
00:26:00
Exrcito amarelo ataca
base de produo de recursos
do jogador localizada
proximo a sua base principal.
Jogador deIende a
base utilizando 2
incineradores.
00:30:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 2 caos,
1 electro e 1 tornado.
Jogador se deIende
utilizando unidades areas.
00:30:00
Alianas entre os
agentes ja esto consolidadas
So Ieitas duas
alianas, relacionadas a
seguir:
Aliana 1: exrcito
vermelho, exrcito
verde claro, exrcito
roxo e exrcito
amarelo;
Aliana 2: Exrcito
azul, exrcito verde e
exrcito laranja.
00:31:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 2
tanques, 1 dominador e 1
transportador
Jogador realiza a
deIesa com o uso de unidades
areas.
00:42:00
Novo ataque do
exrcito amarelo a base de
produo de recursos do
jogador.
Aqui parece se repetir
a estratgia inimiga de um
dos exrcitos de um
determinado bloco aliado
assumir a liderana do
mesmo, realizando os ataques
as bases do jogador, tal como
ocorreu no experimento II,
onde o exrcito vermelho
naquele experimento assumiu
tal papel.
00:49:00
Exrcito verde
constroi estruturas de deIesa
em base de produo de
recursos do exrcito azul para
reIorar sua segurana
Aqui aparece o
primeiro indicio de ocorrncia
da simbiose estratgica na
partida.
00:49:00 Exrcito amarelo ataca
base de produo de recursos
153
do jogador, utilizando 2
dominadores.
00:53:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 4
tanques, 1 tanque pesado, 1
dominador, 1 transportador e
1 helicoptero.
00:55:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 3
troves e 2 tempestades.
00:56:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 5 invasores e 2
incineradores.
00:57:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 2
tanques pesados.
00:59:00
Exrcito azul ataca
base de produo de recursos
do exrcito verde claro,
utilizando 6 incineradores e 4
vingadores.
01:01:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 3
incineradores e 4
tempestades.
01:01:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 2
tanques pesados e 2 lana-
misseis.
01:16:00
Exrcito azul ataca
base de produo de recursos
do jogador, utilizando 6
troves e 3 tempestades.
01:17:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 2
tanques pesados e 6 lana-
misseis.
155
do jogador, utilizando 1
tanque pesado, 1 lana-
misseis e 1 helicoptero.
01:17:00
O jogador desestrutura
a base de produo de
recursos proxima a base do
exrcito amarelo e que vinha
recebendo continuos ataques
deste e de outros agentes para
poder veriIicar a resposta dos
mesmos
01:20:00
Apos a
desestruturao da base de
produo de recursos do
jogador, o exrcito laranja
passa a atacar a base principal
do exrcito amarelo.
01:23:00
O exrcito verde
constroi base de produo de
recursos no local da antiga
base de produo de recursos
do jogador e que Iora
recentemente desestruturada
pelo mesmo.
Exrcito laranja
constroi torre de deIesa para
proteger a base, o que indica
esIoros conjuntos entre os
agentes.
01:24:00
Exrcito roxo e
exrcito vermelho realizam
ataque conjunto a base de
produo de recursos do
jogador, este com 2 troves e
2 tempestades e aquele com 2
troves e 1 tempestade.
01:27:00
Exrcito azul se junta
ao ataque a base do exrcito
amarelo, utilizando 3
incineradores e 3 tempestades
Ocorrncia de ao
conjunta entre agentes
aliados.
01:30:00
O exrcito amarelo
eliminado pelas Ioras da
aliana 2.
01:32:00
O exrcito vermelho
ataca a base principal do
jogador, utilizando 4
tempestades e 2
incineradores.
01:37:00
Exrcito verde ataca
base principal do exrcito
verde claro, utilizando 4
tanques pesados e 2
dominadores, sendo que estes
Iicam na retaguarda do ataque
Enquanto o exrcito
verde ataca, o exrcito
laranja deixa 5
tanques e 1 tanque
pesado nas
proximidades,
aparentemente como
Iora de apoio para o
caso de o exrcito
verde Ialhar em seu
ataque.
Ataque do exrcito
verde neutralizado
pelo exrcito verde
claro com a utilizao
de unidades areas.
01:42:00
Exrcito laranja ataca
base de produo de recursos
do exrcito verde claro,
utilizando 4 tanques e 2
tanques pesados.
Enquanto isso, o
exrcito verde prepara Iora
de ataque, que Iica na
retaguarda.
01:43:00
Exrcito verde lana
ICBM contra exrcito verde
claro
Lanamento do ICBM
se da durante o ataque do
exrcito laranja a mesma
base, outro indicio de ao
conjunta dos agentes aliados.
01:44:00
Ataque laranja
neutralizado por deIesa area
verde clara.
01:46:00
Exrcito vermelho e
exrcito roxo realizam ataque
conjunto a base de produo
de recursos do jogador, com o
exrcito vermelho utilizando
1 trovo e 1 tempestade e o
exrcito roxo utilizando 3
incineradores e 5
tempestades.
01:46:00
Assim que a base de
produo de recursos verde
clara destruida, o exrcito
azul constroi uma base de
produo de recursos sua no
local.
01:48:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 1
tanque pesado e 4 lana-
misseis.
Isto parece indicar que
a aliana 2, agora Iortalecida,
vai se lanar contra o jogador.
01:51:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 4 caos e 2
tempestades.
01:52:00
Exrcito verde ataca
base de produo de recursos
do jogador, utilizando 5 lana
misseis e 3 tanques pesados
01:54:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 3
lana-misseis e 2 tanques
pesados.
158
pesados.
01:55:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 1 tempestade e 3
incineradores.
01:56:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 4 tempestades e 4
incineradores.
02:05:00
Exrcito azul e
exrcito laranja realizam
ataque conjunto a base de
produo de recursos do
jogador, com o exrcito
laranja utilizando 1 tanque
pesado e 1 transportador e o
exrcito azul utilizando 2
incineradores e 2
tempestades.
02:09:00
Exrcito verde claro e
exrcito roxo realizam ataque
conjunto a base de produo
de recursos do jogador, com o
exrcito roxo utilizando 4
tempestades e 4 troves e o
exrcito verde claro
utilizando 3 apocalipses.
02:14:00
O jogador desestrutura
todas as suas bases de
produo de recursos, para
veriIicar a resposta dos
agentes.
02:15:00
Exrcito roxo ataca
base principal do jogador,
utilizando 2 tempestades e 3
incineradores.
02:17:00 Apos a
desestruturao das bases de
produo de recursos do
jogador, os outros exrcitos
tomam conta das mesmas,
cada um controlando as que
lhe so possiveis.
02:26:00
Exrcito vermelho
ataca base de produo de
recursos do exrcito azul,
utilizando 4 troves e 1
tempestade.
02:28:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 4 tempestades e 4
incineradores.
02:29:00
Exrcito laranja ataca
base de produo de recursos
do exrcito vermelho,
utilizando 3 lana-misseis e 2
tanques.
Apos este ataque, o
exrcito laranja investe contra
a base do jogador.
02:32:00
Exrcito roxo ataca
base de produo de recursos
do exrcito laranja, utilizando
4 tempestades e 5 troves.
02:32:00
Exrcito laranja lana
ICBM contra a base principal
do exrcito vermelho.
02:37:00
Exrcito roxo constroi
base de produo de recursos
na antiga base principal do
exrcito verde claro. Mas
logo recebe ataque do
exrcito verde, que utiliza 4
lana-misseis e 8 tanques
pesados.
02:39:00
Exrcito verde claro
eliminado pela aliana 2.
Aliana 1 passa a
contar apenas com o exrcito
vermelho e exrcito roxo.
02:43:00 Exrcito vermelho e
exrcito roxo realizam ataque
conjunto a base de produo
160
de recursos do exrcito verde,
com o exrcito roxo
utilizando 4 tempestades e 4
troves e o exrcito vermelho
utilizando 2 incineradores e 1
tempestade.
02:52:00
Exrcito laranja lana
ICBM contra base principal
do jogador.
Esta movimentao
parece indicar que o jogador
o alvo da aliana 2 neste
momento.
02:56:00
Exrcito verde ataca a
base principal do jogador,
utilizando 7 caas e 7 lana-
misseis.
Fora de ataque
acompanhada por Iora do
exrcito laranja contendo 3
tanques pesados e 3 lana-
misseis na retaguarda.
03:03:00
Exrcito laranja ataca
a base principal do jogador,
utilizando 4 tanques pesados
e 3 lana-misseis.
03:04:00
Exrcito laranja ataca
a base principal do jogador,
utilizando 3 helicopteros e 4
transportadores.
03:06:00
Aqui, o jogador
percebe que a aliana 2 tem
como objetivo a sua
eliminao da partida.
Resolve, ento injetar crditos
nas economias dos agentes
componentes da aliana 1 e
destruir o exrcito laranja,
que tem sido o principal
agente da aliana 2 em
operaes de ataque para a
partir disso observar o
comportamento dos agentes.
03:19:00
Jogador elimina o
exrcito laranja.
03:20:00 Exrcito azul e
exrcito roxo realizam ataque
conjunto a base principal do
jogador, com o exrcito roxo
utilizando 1 incinerador e 1
trovo e o exrcito azul
utilizando 5 tempestades e 2
161
incineradores.
03:22:00
Apos a destruio do
exrcito laranja, o exrcito
roxo avana sobre algumas de
suas antigas bases de
produo de recursos,
enquanto exrcito verde toma
algumas outras.
03:26:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 2 tornados, 1
tempestade e 1 trovo.
03:31:00
Exrcito verde e
exrcito azul lanam ataque
conjunto a base principal do
jogador, com o exrcito azul
utilizando 2 apocalipses e o
exrcito verde utilizando 2
lana-misseis e 1 tanque.
03:31:00
Exrcito verde lana
ICBM contra base principal
do jogador
03:34:00
Exrcito roxo ataca
base de produo de recursos
do exrcito verde, utilizando
3 apocalipses e 3
tempestades.
03:49:00
Exrcito vermelho
ataca base de produo de
recursos do exrcito verde,
utilizando 5 apocalipses.
03:56:00
Exrcito vermelho
ataca a base principal do
jogador, utilizando 5
apocalipses.
03:58:00
Exrcito vermelho
ataca a base principal do
jogador, utilizando 1
tempestade e 5 vingadores.
04:08:00
Exrcito roxo ataca a
base principal do jogador.
Os eventos recentes
indicam que, embora
inimigas, as duas alianas
esto concentradas num
objetivo comum: a eliminao
do jogador.
04:21:00
Jogador elimina
exrcito verde.
05:32:00
Os dois agentes
remanescentes (exrcito azul
e exrcito roxo) realizam
ataque paralelo a base
principal do jogador.
05:34:00
Concluso do
experimento.
163
APNDICE F - COMBINAES POSSIVEIS DE AGENTES PARA O CASO DE
UTILIZAO DE 7 AGENTES NUMA MESMA PARTIDA
1. 7 exrcitos humanos;
2. 6 exrcitos humanos e 1 exrcito rob;
3. 5 exrcitos humanos e 2 exrcitos robs;
4. 4 exrcitos humanos e 3 exrcitos robs;
5. 3 exrcitos humanos e 4 exrcitos robs;
6. 2 exrcitos humanos e 5 exrcitos robs;
7. 1 exrcito humano e 6 exrcitos robs;
8. 7 exrcitos robs.