0% Complete
صفحه اصلی
/
سی و سومین کنفرانس بین المللی مهندسی برق
Better Exploration In Single-Agent Q-Learning Using Controlled Linear Perturbation
نویسندگان :
Sadredin Hokmi
1
Mohammad Haeri
2
1- Sharif university of technology
2- Sharif university of technology
کلمات کلیدی :
Q-learning،Exploration،Controlled Linear perturbation،Convergence rate،Maze،Cart-Pole
چکیده :
Reinforcement learning algorithms, especially model-free algorithms like Q-learning, have shown reliable results in finding optimal solutions for many real-time applications. However, challenges such as exploration in real-time and the convergence rate need to be addressed, and many researches have proposed algorithms to tackle these challenges. Algorithms like speedy Q-learning, Zap Q-learning, algorithms based on adding a regularization term, noise injection, and many others have been introduced. In this paper, an algorithm based on controlled linear perturbation is presented, which, according to the numerical results, can significantly reduce unnecessary explorations that are risky in real-time. Additionally, the proposed algorithm does not depend on the learning rate \mathbit{\alpha}, \mathbit{\gamma}, or changes in coefficients. However, to be effective, the parameters of the algorithm should be chosen within the correct range. The results of applying the proposed algorithm have been compared with three reliable algorithms: standard Q-learning, speedy Q-learning, and noise injection. These comparisons were conducted in a 9x9 maze scenario and in the cart-pole environment.
لیست مقالات
لیست مقالات بایگانی شده
برنامه ریزی احتمالاتی بهینه فیلترهای پسیو در حضور خودروهای برقی متصل به شبکه با قابلیت جبرانسازی هارمونیک در شبکههای توزیع
پریسا انجم شعاع - سعید اسماعیلی
طراحی لایه Max-Pooling نوری مجتمع مبتنی بر Ge2Sb2Te5 برای شبکه های عصبی پیچشی نوری
سمانه امیری - دکتر مهدی میری
A reinforcement learning-based control approach for tracking problem of a class of nonlinear systems: Applied to a Single-Link Manipulator
Farshad Rahimi - Sepideh Ziaei - Reza Mahboobi Esfanjani
اثر پایلوتهای متعامد بر تخمین کانال مایمو انبوه تقسیم فرکانسی مبتنی بر رگرسیون خطی
سید طالب ساداتی لمردی - کمال محامدپور
Experimental Study and Implementation of a Generalized Predictive Controller on Delta Parallel Robot Based on Actuator Identification
Hasan Jalali - Behnam Moradkhani - Hossein Damavandi - Mehdi Tale Masouleh - Ahmad Kalhor
طراحی و پیادهسازی یک ماشین حالت محدود جهت محاسبة تابع مثلثاتی تانژانت معکوس مبتنی بر سری تیلور عقبرونده و با استفاده از دو واحد ضربکنندة DSP48-E بر روی تراشههای FPGA شرکت AMD-XILINX به صورت زمان متغیر
میثم هارونی - پیام سنائی
بهبود تابآوری شبکههای توزیع سنتی در مرحله پیش از حادثه به کمک بازآرایی با الگوریتم ارگانیسم همزیستی
حسین بایسته - رضا شیردره - محمد احمدوند
Generation of orbital angular momentum modes via SSPP leaky-wave antenna based on holography technique
Sajjad Zohrevand - Nader Komjani
A Novel Tunable LC Filter For Ultra High Frequency Applications
Davoud Razaghpour - Mir Majid Ghasemi - Amir Fathi
Artificial Intelligence-Based Prediction of Flexibility Requirements in Power Systems
MohammadReza Zarei-Jeliani - Mahmud Fotuhi-Firuzabad - Niloofar Pourghaderi
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.3.2