Please use this identifier to cite or link to this item: https://hdl.handle.net/11264/604
Title: REINFORCEMENT LEARNING APPROACHES TO FLOCKING WITH FIXED-WING UAVS IN A STOCHASTIC ENVIRONMENT
Authors: Hung, David Shao Ming
Royal Military College of Canada / Collège militaire royal du Canada
Givigi, Sidney
Keywords: Reinforcement Learning
Q-learning
Dyna-Q
Flocking
Unmanned Aerial Vehicles
Issue Date: 4-May-2015
Abstract: In the past two decades, unmanned aerial vehicles (UAVs) have demonstrated their efficacy in supporting both military and civilian applications, where tasks can be dull, dirty, dangerous, or simply too costly with conventional methods. Many of the applications contain tasks that can be executed in parallel, thus can benefit in terms of effectiveness from deploying multi-UAVs working together as a force multiplier. However, to do so requires autonomous coordination among the UAVs, similar to swarming behaviors seen in animals and insects. This research looks at flocking with fixed-wing UAVs in the context of a model-free reinforcement learning problem, structured as a Markov decision process. The advantage of a model-free approach is that it can be applied to different platforms without the plant and disturbance models, which implies greater adaptability to changing environments and unforeseen situations. We propose two learning approaches that enable the agents, modeled as small fixed-wing UAVs, to learn control policies that facilitate flocking in a leader-follower topology, while operating in a non-stationary stochastic environment. The first approach is based on Peng's Q($\lambda$) with a variable learning parameter, which learns through direct reinforcement learning. The second approach is based on Sutton's Dyna-Q where on-line learning, model learning, and planning are integrated to improve sample efficiency. Our approaches are compared to existing works by evaluating the respective policies at maintaining the desired flocking behavior according to a cost function. Simulation results demonstrate that with the two proposed learning approaches, the agents are able to learn policies that facilitate flocking with a single leader, more importantly, the agents are able to adapt their policies to non-stationary stochastic environments.
Au cours des deux dernières décennies, les drones ont démontré leur efficacité au soutien d’applications tant militaires que civiles, où les tâches sont souvent ennuyeuses, dangereuses, ou tout simplement trop coûteuses avec des méthodes classiques. La plupart des applications contiennent des tâches qui peuvent être exécutées en parallèle. Ces tâches peuvent donc bénéficier d’un gain d’efficacité par le déploiement de plusieurs drones travaillant ensembles comme multiplicateur de force. Cependant, pour ce faire, il faut une coordination autonome parmi les drones, semblable à la formation en volée observée chez les animaux et les insectes. Cette recherche porte sur la formation en volée de drones à voilure fixe dans le contexte d'un problème d'apprentissage par renforcement sans modèle, structuré comme un processus de décision markovien. L'avantage d'une approche sans modèle est qu'elle peut être appliquée à différentes plates-formes sans modèle environnemental, ce qui implique une plus grande adaptabilité à l'évolution de l’environnement et aux situations imprévues. Nous proposons deux méthodes d'apprentissage qui permettent aux agents, modélisés comme des petits drones à voilure fixe, d’apprendre les politiques de contrôle qui facilitent la formation en volée dans une topologie meneur-suiveur, tout en fonctionnant dans un environnement stochastique non stationnaire. L'algorithme dans la première approche est basé sur la méthode d’apprentissage Q ($\lambda$) de Peng avec un paramètre d'apprentissage variable. Le second algorithme est basé sur la méthode Dyna-Q de Sutton où l'apprentissage en ligne, l'apprentissage du modèle, et la planification sont intégrés pour améliorer l'efficacité de l'utilisation des échantillons, ce qui accélère le processus d'apprentissage. Nos approches sont comparées à des œuvres existantes par l’évaluation des politiques respectives au maintien de la formation en volée selon une fonction de coût. Les résultats des simulations démontrent que pour les deux approches proposées, les agents ont appris des politiques qui facilitent la formation en volée. De plus, les agents ont pu adapter leurs politiques aux environnements stochastiques non stationnaires.
URI: https://hdl.handle.net/11264/604
Appears in Collections:Theses

Files in This Item:
File Description SizeFormat 
Hung_Thesis_Final_eSpace.pdfThesis Document5.6 MBAdobe PDFThumbnail
View/Open


Items in eSpace are protected by copyright, with all rights reserved, unless otherwise indicated.