Learning Cyber Defence Tactics from Scratch with Cooperative Multi-Agent Reinforcement Learning

Wiebe, Jacob

Please use this identifier to cite or link to this item: https://hdl.handle.net/11264/1082

Title:	Learning Cyber Defence Tactics from Scratch with Cooperative Multi-Agent Reinforcement Learning
Authors:	Wiebe, Jacob Royal Military College of Canada Al Mallah, Ranwa
Keywords:	Autonomous Cyber Defence Cooperative Multi-Agent Reinforcement Learning Reinforcement Learning Game Design Centralized Training Decentralized Execution
Issue Date:	30-Mar-2023
Abstract:	Recent advancements in deep learning techniques have opened new possibilities for designing solutions for autonomous cyber operations. Teams of intelligent agents in computer network defence roles may reveal promising avenues to safeguard cyber and kinetic assets. The aim of this thesis is to provide evidence to support or refute the applicability of cooperative MARL to a range of tactical cyber defence tasks. In a simulated game environment, agents are evaluated on their ability to jointly mitigate attacker activity in a host-based defence scenario. The complex and interrelated effects of game design elements on the performance of learning systems are explored. The results demonstrate the adaptability of MARL systems to learn in the context of various game objectives and network sizes while being sufficiently robust to perform in large, dynamic problem spaces. Les récents progrès des techniques d'apprentissage en profondeur ont ouvert de nombreuses nouvelles possibilités dans le domaine des cyber opérations. Des groupes d'agents autonomes et intelligents chargés de défendre un réseau informatique pourraient ouvrir de nouvelles voies pour protéger les actifs cyber et cinétiques. L'objectif de cette thèse est de démontrer l'applicabilité de l'Apprentissage par Renforcement Multi-Agent (ARMA) coopératif à une gamme de tâches tactiques en cyberdéfense. Dans un environnement de jeu simulé, les agents sont évalués selon leur capacité d'atténuer conjointement l'activité des menances provoquées par un attaquant dans un scénario visant la défense de l'hôte. Les effets des différents paramètres du jeu sur la performance des systèmes d'apprentissage sont complexes et interdépendants et seront explorés. Les résultats démontrent l'adaptabilité des systèmes ARMA à apprendre dans un contexte de divers tailles de réseau et d'objectifs de jeu tout en étant suffisamment robustes pour les espaces de problèmes qui soient grands et dynamiques.
URI:	https://hdl.handle.net/11264/1082
Appears in Collections:	Theses

Files in This Item:

File	Description	Size	Format
Thesis_Final_Wiebe.pdf		1.44 MB	Adobe PDF	View/Open

Show full item record

Language selection

Search