Please use this identifier to cite or link to this item:
https://hdl.handle.net/11264/1365
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Rathbun, Bradley | - |
dc.contributor.other | Royal Military College of Canada / Collège militaire royal du Canada | en_US |
dc.date.accessioned | 2017-10-26T14:49:36Z | - |
dc.date.accessioned | 2019-12-04T18:39:26Z | - |
dc.date.available | 2017-10-26T14:49:36Z | - |
dc.date.available | 2019-12-04T18:39:26Z | - |
dc.date.issued | 2017-10-26 | - |
dc.identifier.uri | https://hdl.handle.net/11264/1365 | - |
dc.description.abstract | Agent-based models (ABMs) seek to predict behaviour or develop insights into a system by assessing emerging complex behaviour that results from individual entities adhering to simple rules. Partially observable Markov decision processes (POMDPs) can be used as an ABM for real-world problems where limited information is available to guide decisions and action outcome is variable. POMDPs are notoriously expensive to solve computationally, but Dynamic Decision Networks (DDNs) exploit independence in system variables to develop approximate solutions. Key features in a DDN are the reward and utility functions used to guide decisions made by the software agents. This research assesses the performance of a DDN-controlled agent against an agent designed with expert domain knowledge for an established simulation environment called “Bug Battle”. Variations of reward and utility functions were tested to determine resulting differences in behaviour. It was found that employing DDNs was an effective strategy for agent performance. | en_US |
dc.description.abstract | Les modèles basés sur les agents (MBA) cherchent à prédire le comportement ou à développer la perspicacité sur un système en évaluant les comportements complexes émergents qui résultent d'entités individuelles adhérant à des règles simples. Les processus décisionnels partiellement observables de Markov (PDPOM) peuvent être utilisés comme MBA pour des problèmes de monde réel où des informations limitées sont disponibles pour guider les décisions et les résultats d'action sont variables. Les PDPOM sont notoirement coûteux à résoudre de manière informatique, mais les réseaux dynamiques de décision (RDD) exploitent l'indépendance dans les variables système pour développer des solutions approximatives. Les fonctionnalités clés dans un RDD sont les fonctions de récompense et d'utilité utilisées pour guider les décisions prises par les agents logiciels. Cette recherche évalue la performance d'un agent contrôlé par RDD contre un agent conçu avec des connaissances de domaine spécialisées pour un environnement de simulation établi appelé «Bug Battle». Les variations dans les fonctions de récompense et les fonctions d'utilité ont été testées pour déterminer les différences de comportement. On a constaté que l'utilisation de RDD était une stratégie efficace pour la performance de l'agent. | en_US |
dc.language.iso | en | en_US |
dc.subject | POMDP | en_US |
dc.subject | DDN | en_US |
dc.subject | Reward Function | en_US |
dc.title | Bug Battle Artificial Intelligence: Controlling Software Agents with Dynamic Decision Networks | en_US |
dc.type | Theses | - |
dc.title.translated | L'intelligence Artificielle de la Bataille de Bug: Contrôle des agents logiciels avec les réseaux de décision dynamiques | en_US |
dc.contributor.supervisor | Liang, Yawei | - |
dc.date.acceptance | 2016-10-20 | - |
thesis.degree.discipline | Computer Science/Sciences informatiques | en_US |
thesis.degree.name | MSc (Master of Science/Maîtrise ès sciences) | en_US |
Appears in Collections: | Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Bug Battle Thesis.pdf | Full document with Annexes | 2.09 MB | Adobe PDF | View/Open |
Items in eSpace are protected by copyright, with all rights reserved, unless otherwise indicated.