کنفرانس مهندسی برق ایران

صفحه اصلی / سی امین کنفرانس بین المللی مهندسی برق

طراحی کنترل کننده امن سیستم‌های غیرخطی با استفاده از یادگیری تقویتی و بهینه سازی مجموع مربعات

نویسندگان :

حسین قلی زاده¹ احسان رضوی² سجاد پاک خصال³ سعید شمقدری⁴

1- دانشگاه علم و صنعت ایران 2- دانشگاه صنعتی امیرکبیر 3- دانشگاه علم و صنعت ایران 4- دانشگاه علم و صنعت ایران

کلمات کلیدی :

تکرار سیاست امن،بهینه سازی مجموع مربعات،ناحیه امن،یادگیری تقویتی امن،سیستم غیرخطی

چکیده :

حل مساله مقید یکی از بزرگ‌ترین چالش‌های الگوریتم‌های یادگیری تقویتی می‌باشد. در مساله مقید چنانچه قید بر روی حالت‌های سیستم باشد به آن مسئله ایمنی نیز می‎گویند. اکثر روش‌هایی که بهینگی قانون کنترل را تضمین می‌کنند در مورد ایمنی آن ادعایی ندارند و بالعکس. در این مقاله الگوریتمی برای طراحی کنترل‌کننده امن و بهینه برای یک سیستم غیرخطی پیوسته ارائه می‌شود. در این روش، الگوریتم تکرار سیاست با استفاده از مفهوم تابع مانع (barrier function) به الگوریتم تکرار سیاست امن تبدیل می‌شود. برای حل این مسئله نیازمند داشتن ناحیه امن و ناحیه دارای تضمین پایداری، در حضور قیدهای مسئله هستیم. علاوه بر این یک الگوریتم تکراری دیگر ارائه می‌شود که بزرگترین ناحیه امن و با تضمین پایداری را ارائه می‌کند. این تضمین داده می‌شود که مسیر حالت‌های سیستم از این ناحیه خارج ‌نخواهند شد. در الگوریتم تکرار سیاست از برنامه‌ریزی مجموع مربعات استفاده شده است که روشی موثر برای حل مسائل بهینه‌سازی با قیود چند جمله‌ای می‌باشد. نهایتا کارایی کنترل‌کننده پیشنهاد شده با استفاده از شبیه‌سازی نشان داده شده است.