@article { author = {Kankashvar, Mohammadrasoul and Bolandi, Hossein and Mozayani, Naser}, title = {Model-free adaptive optimal control of spacecraft formation flying reconfiguration using Q-Learning}, journal = {Aerospace Knowledge and Technology Journal}, volume = {11}, number = {1}, pages = {41-60}, year = {2022}, publisher = {Malek ashtar University of Technology}, issn = {2322-1070}, eissn = {2645-3622}, doi = {}, abstract = {This paper investigates an optimal adaptive controller based on reinforcement learning while considering orbital perturbations. The controller can achieve mission goals, online without any model. Reconfiguration capabilities provide great flexibility in achieving formation flying mission goals. In reconfiguration, it is desired that spacecrafts migrate from the current formation to a new formation, thus achieving mission goals. Orbital perturbations, difficulties in extracting exact mathematical models, and unknown system dynamics make the optimal reconfiguration problem challenging. Due to the digital nature of spacecraft computer systems, controllers have to be implemented digitally. Accordingly, this paper introduces an adaptive optimal digital controller for a discounted generalized cost function. The stability of the proposed controller is proven by the Lyapunov method. Then, using the Q-learning method, an algorithm is presented so that the controller can find the optimal control gains in a model-free fashion. Finally, numerical simulations of a formation flying mission scenario, confirm the effectiveness of this method.}, keywords = {Reinforcement Learning,spacecraft formation flying,Q-learning,optimal adaptive control,Multi-Agent Systems}, title_fa = {طراحی کنترل‌کننده تطبیقی بهینه بدون مدل برای باز پیکربندی آرایش پروازی ماهواره‌ها با یادگیری تقویتی}, abstract_fa = {در این مقاله یک کنترل‌کننده تطبیقی بهینه بدون مدل برای باز پیکربندی آرایش پروازی ماهواره‌ها ارائه می‌شود. باز پیکربندی آرایش پروازی ماهواره‌ها، یک قابلیت مهم برای دستیابی به اهداف ماموریت‌های آرایش پروازی ماهواره‌ها است. به دلیل پیچیدگی استخراج یک مدل ریاضی دقیق و همچنین حضور اغتشاشات مداری و نامعینی‌ها طراحی یک کنترل‌کننده بهینه امری دشوار است. در این کار، ابتدا یک کنترل‌کننده بهینه بر مبنای یک تابع هزینه تعمیم‌یافته تخفیف‌یافته استخراج می‌شود. سپس پایداری آن با استفاده از روش لیاپانوف به اثبات می‌رسد. این کنترل‌کننده برای آنکه قابلیت پیاده‌سازی بروی کامپیوتر‌های ماهواره را داشته باشد، به صورت دیجیتالی طراحی شده است. سپس با استفاده از روش‌های یادگیری تقویتی، الگوریتمی برای حل مسئله ارائه می‌شود. این الگوریتم قادر است تا مسئله ردیابی باز پیکربندی آرایش پروازی ماهواره‌ها را به صورت بر-خط و بدون نیاز به مدل حل کند. در انتها، کارایی روش پیشنهادی در یک سناریو ماموریتی بازپیکربندی آرایش پروازی ماهواره‌ها، صحه‌گذاری می‌شود.}, keywords_fa = {آرایش پروازی ماهواره,یادگیری تقویتی,کنترل تطبیقی بهینه,یادگیری کیو,سیستم چند عامله}, url = {https://www.astjournal.ir/article_253071.html}, eprint = {https://www.astjournal.ir/article_253071_8613e7c13ca1730c7d0b7f04b63f13c0.pdf} }