دانش و فناوری هوافضا

دانش و فناوری هوافضا

هدایت و کنترل خودمختار ملاقات مداری با شش درجه آزادی با استفاده از فرایادگیری تقویتی و شبکه‌های ترنسفورمر

نوع مقاله : مقاله پژوهشی

نویسندگان
1 عضو هیئت علمی دانشکده برق دانشگاه صنعتی مالک اشتر
2 دانشکده برق و کنترل ، دانشگاه صنعتی مالک‌اشتر،
چکیده
افزایش تعداد ماهواره‌ها در مدار پایین زمین، خطر برخورد بین اجسام فضایی را به‌شدت افزایش داده است. مأموریت‌های سرویس‌دهی و حذف زباله‌های فضایی می‌توانند با افزایش عمر ماهواره‌ها و پاکسازی مدارها، این تهدید را کاهش دهند. در این پژوهش، یک رویکرد نوین برای هدایت و کنترل فضاپیما در سناریوهای ملاقات مداری با شش درجه آزادی ارائه شده است که مبتنی بر یادگیری تقویتی فرا-آموزشی و شبکه‌های ترنسفورمر است. این مدل با کمک شبکه‌های ترنسفورمر، امکان یادگیری روابط پیچیده زمانی و استنباط اطلاعات پنهان از محیط را برای فضاپیمای تعقیب‌کننده فراهم می‌کند. الگوریتم بهینه‌سازی سیاست مجاورتی (PPO) که برای آموزش مدل به‌کار گرفته شده، در کنترل پیوسته عملکرد بالایی دارد. نتایج شبیه‌سازی‌ها در محیط مجازی نشان می‌دهند که این رویکرد از لحاظ دقت و پایداری بر معماری‌های سنتی مانند LSTM برتری دارد. از سوی دیگر تعداد پارامترهای شبکه، خود چالشی مهم در پیاده سازی بر روی سخت افزارها هست که روش پیشنهادی با کاهش محسوس در تعداد پارامترهای شبکه در کنار افزایش انطباق‌پذیری و بهبود دقت در شرایط متغیر محیطی کمک می کند. این رویکرد می‌تواند به‌عنوان راهکاری مؤثر برای تسهیل مأموریت‌های سرویس‌دهی و مدیریت زباله‌های فضایی مورد استفاده قرار گیرد.
کلیدواژه‌ها

موضوعات


عنوان مقاله English

Autonomous Six-Degree-of-Freedom Orbital Rendezvous Guidance and Control Using Meta-Reinforcement Learning and Transformer Networks

نویسندگان English

Iman Mohammadzaman 1
Mehrdad Mohseni 2
1 Faculty of Electrical and Cybernetic Engineering, Malek Ashtar University of Technology
2 Faculty of Electrical and Cybernetic Engineering, Malek Ashtar University of Technology
چکیده English

The increasing number of satellites in low Earth orbit has significantly heightened the risk of collisions between space objects. Servicing and debris removal missions offer a viable solution by extending satellite lifespans and clearing orbital pathways. This research presents an innovative approach for spacecraft guidance and control in six degrees-of-freedom orbital rendezvous scenarios, employing meta-reinforcement learning and transformer networks. Leveraging transformer networks, this model enables the chaser spacecraft to learn complex temporal relationships and infer hidden information from the environment. The Proximal Policy Optimization (PPO) algorithm, utilized for model training, demonstrates superior performance in continuous control tasks. Simulation results in a virtual environment indicate that this approach outperforms traditional architectures like LSTM in terms of accuracy and stability. Additionally, network parameter count poses a significant challenge for hardware implementation; the proposed method addresses this by achieving substantial parameter reduction alongside enhanced adaptability and improved precision under varying environmental conditions. This approach could serve as an effective solution for facilitating future on-orbit servicing and space debris management missions.

کلیدواژه‌ها English

Orbital rendezvous
Meta-reinforcement learning
Transformer
On-orbit servicing