Please use this identifier to cite or link to this item: https://hdl.handle.net/11264/1227
Title: Competitive Reinforcement Learning for Autonomous Cyber Operations
Authors: McDonald, Garrett
Royal Military College of Canada
Al Mallah, Ranwa
Keywords: Reinforcement Learning
Autonomous Cyber Operations
Issue Date: 5-May-2023
Abstract: Reinforcement learning (RL) has been responsible for some of the most im- pressive advances in the field of Artificial Intelligence (AI). RL has benefited substantially from the emergence of deep neural networks that enable learning agents to approximate optimal behavior in increasingly complex environments. In particular, research in competitive RL has shown that multiple agents com- peting in an adversarial environment can learn simultaneously to discover their optimal decision-making policies. In recent years, competitive RL algorithms have been used to train performant AI for a variety of games and optimization problems. Understanding the funda- mental algorithms that train these AI models is essential for using these tools to address real-world challenges. Cybersecurity is a domain where the emerging research in competitive RL is being considered for its real-world application. In order to develop Automated Cyber Operations (ACO) tools using RL, various environments are available to simulate network security incidents. Many of these ACO environments have been made open-source in just the past three years. These new environments have facilitated promising research exploring the potential of AI for cybersecurity. The existing research in these environments is typically one-sided: a red or blue agent is trained to optimize their decision- making against a static opponent with a fixed policy. By training against just one opponent, or a static set of opponents, the learn- ing AI will not maintain high performance against every other possible opponent in the scenario. Competitive RL can be used to discover the optimal decision- making policies against any potential opponent in an adversarial environment. However, it has not been attempted in these emerging ACO simulations. The aim of this thesis is to train agents using competitive RL to approximate their game theory optimal policies in a simulated ACO environment.
L'apprentissage par renforcement (RL) a été à l'origine de certaines des avancées les plus impressionnantes dans le domaine de l'Intelligence Artificielle (IA). RL a considérablement bénéficié de l'émergence de réseaux de neurones profonds qui permettent aux agents d'apprentissage d'approximer un comportement optimal dans des environnements de plus en plus complexes. En particulier, la recherche en RL compétitif a démontré que la mise en place de plusieurs agents en compétition dans un même environnement leurs permettrait d’apprendre simultanément à découvrir leurs politiques de prise de décision optimales. Ces dernières années, de nombreux algorithmes RL compétitifs ont été utilisés pour entraîner de performants agents IA pour une variété de jeux et de problèmes d'optimisation. Comprendre les algorithmes fondamentaux qui entraînent ces modèles d'IA est essentiel pour utiliser ces outils afin de relever les défis du monde réel. La cybersécurité est un domaine où la recherche émergente en RL compétitif est envisagée pour son application dans le monde réel. D’un autre côté, afin de développer des outils de cyber-opérations automatisées (ACO) à l'aide de RL, différents environnements existent pour simuler des incidents de sécurité sur un réseau. Bon nombre de ces environnements ACO sont devenus ouvert au public au cours des trois dernières années seulement. Ces nouveaux environnements ont facilité des recherches prometteuses sur le potentiel de l'IA pour la cybersécurité. La recherche existante dans ces environnements est généralement unilatérale : un agent rouge ou bleu est entraîné pour optimiser sa prise de décision contre un adversaire statique avec une politique fixe. En s'entraînant contre un seul adversaire ou un ensemble statique d'adversaires, l'agent IA ne maintiendra pas de hautes performances contre tous les autres adversaires possibles du scénario. Le RL compétitif peut être utilisé pour découvrir les politiques optimales de la théorie des jeux pour tout adversaire potentiel dans un environnement antagoniste. Cependant, cela n'a pas été tenté dans ces environnements ACO émergents. L'objectif de cette thèse est d’entraîner des agents utilisant le RL compétitif pour approximer leurs politiques optimales de la théorie des jeux dans un environnement ACO simulé.
URI: https://hdl.handle.net/11264/1227
Appears in Collections:Theses

Files in This Item:
File Description SizeFormat 
Competitive_RL_for_ACO.pdf2.05 MBAdobe PDFView/Open


Items in eSpace are protected by copyright, with all rights reserved, unless otherwise indicated.