Bug Battle Artificial Intelligence: Controlling Software Agents with Dynamic Decision Networks

Rathbun, Bradley

Please use this identifier to cite or link to this item: https://hdl.handle.net/11264/1365

Title:	Bug Battle Artificial Intelligence: Controlling Software Agents with Dynamic Decision Networks
Authors:	Rathbun, Bradley Royal Military College of Canada / Collège militaire royal du Canada Liang, Yawei
Keywords:	POMDP DDN Reward Function
Issue Date:	26-Oct-2017
Abstract:	Agent-based models (ABMs) seek to predict behaviour or develop insights into a system by assessing emerging complex behaviour that results from individual entities adhering to simple rules. Partially observable Markov decision processes (POMDPs) can be used as an ABM for real-world problems where limited information is available to guide decisions and action outcome is variable. POMDPs are notoriously expensive to solve computationally, but Dynamic Decision Networks (DDNs) exploit independence in system variables to develop approximate solutions. Key features in a DDN are the reward and utility functions used to guide decisions made by the software agents. This research assesses the performance of a DDN-controlled agent against an agent designed with expert domain knowledge for an established simulation environment called “Bug Battle”. Variations of reward and utility functions were tested to determine resulting diﬀerences in behaviour. It was found that employing DDNs was an eﬀective strategy for agent performance. Les modèles basés sur les agents (MBA) cherchent à prédire le comportement ou à développer la perspicacité sur un système en évaluant les comportements complexes émergents qui résultent d'entités individuelles adhérant à des règles simples. Les processus décisionnels partiellement observables de Markov (PDPOM) peuvent être utilisés comme MBA pour des problèmes de monde réel où des informations limitées sont disponibles pour guider les décisions et les résultats d'action sont variables. Les PDPOM sont notoirement coûteux à résoudre de manière informatique, mais les réseaux dynamiques de décision (RDD) exploitent l'indépendance dans les variables système pour développer des solutions approximatives. Les fonctionnalités clés dans un RDD sont les fonctions de récompense et d'utilité utilisées pour guider les décisions prises par les agents logiciels. Cette recherche évalue la performance d'un agent contrôlé par RDD contre un agent conçu avec des connaissances de domaine spécialisées pour un environnement de simulation établi appelé «Bug Battle». Les variations dans les fonctions de récompense et les fonctions d'utilité ont été testées pour déterminer les différences de comportement. On a constaté que l'utilisation de RDD était une stratégie efficace pour la performance de l'agent.
URI:	https://hdl.handle.net/11264/1365
Appears in Collections:	Theses

Files in This Item:

File	Description	Size	Format
Bug Battle Thesis.pdf	Full document with Annexes	2.09 MB	Adobe PDF	View/Open

Show full item record

Language selection

Search