Please use this identifier to cite or link to this item:
https://hdl.handle.net/11264/1082
Title: | Learning Cyber Defence Tactics from Scratch with Cooperative Multi-Agent Reinforcement Learning |
Authors: | Wiebe, Jacob Royal Military College of Canada Al Mallah, Ranwa |
Keywords: | Autonomous Cyber Defence Cooperative Multi-Agent Reinforcement Learning Reinforcement Learning Game Design Centralized Training Decentralized Execution |
Issue Date: | 30-Mar-2023 |
Abstract: | Recent advancements in deep learning techniques have opened new possibilities for designing solutions for autonomous cyber operations. Teams of
intelligent agents in computer network defence roles may reveal promising
avenues to safeguard cyber and kinetic assets. The aim of this thesis is to
provide evidence to support or refute the applicability of cooperative MARL
to a range of tactical cyber defence tasks. In a simulated game environment,
agents are evaluated on their ability to jointly mitigate attacker activity in
a host-based defence scenario. The complex and interrelated effects of game
design elements on the performance of learning systems are explored. The
results demonstrate the adaptability of MARL systems to learn in the context
of various game objectives and network sizes while being sufficiently robust to
perform in large, dynamic problem spaces. Les récents progrès des techniques d'apprentissage en profondeur ont ouvert de nombreuses nouvelles possibilités dans le domaine des cyber opérations. Des groupes d'agents autonomes et intelligents chargés de défendre un réseau informatique pourraient ouvrir de nouvelles voies pour protéger les actifs cyber et cinétiques. L'objectif de cette thèse est de démontrer l'applicabilité de l'Apprentissage par Renforcement Multi-Agent (ARMA) coopératif à une gamme de tâches tactiques en cyberdéfense. Dans un environnement de jeu simulé, les agents sont évalués selon leur capacité d'atténuer conjointement l'activité des menances provoquées par un attaquant dans un scénario visant la défense de l'hôte. Les effets des différents paramètres du jeu sur la performance des systèmes d'apprentissage sont complexes et interdépendants et seront explorés. Les résultats démontrent l'adaptabilité des systèmes ARMA à apprendre dans un contexte de divers tailles de réseau et d'objectifs de jeu tout en étant suffisamment robustes pour les espaces de problèmes qui soient grands et dynamiques. |
URI: | https://hdl.handle.net/11264/1082 |
Appears in Collections: | Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Thesis_Final_Wiebe.pdf | 1.44 MB | Adobe PDF | View/Open |
Items in eSpace are protected by copyright, with all rights reserved, unless otherwise indicated.