0% Complete
صفحه اصلی
/
سی و یکمین کنفرانس بین المللی مهندسی برق
Improving CycleGAN-VC2 Voice Conversion by Learning MCD-Based Evaluation and Optimization
نویسندگان :
Majid Behdad
1
Davood Gharavian
2
1- دانشگاه شهید بهشتی
2- دانشگاه شهید بهشتی
کلمات کلیدی :
CycleGAN-VC،perceptual evaluation،perceptual optimization،MetricGAN،Mel-Cepstral distance،speech quality Assessment،Nisqa tool
چکیده :
Abstract—Nowadays’ voice conversion systems that convert source speakers to target speakers in a speech utterance, have various applications, and improving their quality is very important. One method that still has not attracted enough attention for the VC quality improvements is to concentrate on the optimization of the discriminators of a GAN-based VC System. In this paper, we chose Cycle-GAN-VC2 as the baseline to implement a modified version of Mel-scale human hearing-related objective evaluation metric, Modified Mel-Cepstral Distance (MMCD) to help the discriminators to better learn to judge between real and fake data. We developed and implemented our new metric MMCD that is between 0 and 1 to use it in discriminators’ loss functions. The main goal is to force the discriminators to learn the MMCD metric behavior in its judgements; while in conventional CycleGAN-VC2, discriminators work as the classifiers that decide which data is real and which one is fake without any attention to perceptual references and measures like MCD score that can be varied continuously from zero to one. Experimental results show improvements in the quality of output speech versus MCD measure despite that the training of our baseline VC system is based on a set of non-parallel data, and don’t use any time-alignment in training process. So, in parallel VC systems more improvements could be anticipated.
لیست مقالات
لیست مقالات بایگانی شده
Goodbye Bitcoin: A general framework for migrating to quantum-secure cryptocurrencies
Saeed Banaeian Far - Azadeh Imani Rad - Maryam Rajabzadeh Asaar
طراحی کنترل آموزش پذیر تکرار شونده مقاوم برای سیستم خط نورد فلزات با رویکرد سیستمهای دو بعدی
علی ردانی پور - مسعود شفیعی
Design and Simulation of Axial Flux Permanent Magnet Electrical Machine for Electric Vehicles Application
Hamid Radmanesh - Reza Sharifi
Transmission Dynamics and Optimal Control Strategy to Mitigate the Spread of Novel Coronavirus: The Case of Iran
Reza Shadi - Ahmad Fakharian - Hamid Khaloozadeh
Privacy-Preserving Learning using Autoencoder-based Structure
Mohammad Ali Jamshidi - Hadi Veisi - Mohammad Mahdi Mojahedian - Mohammad Reza Aref
Second-Order Sliding Mode Design Based on the Integration of Proportional-Integral and Nonlinear $\mathcal{H}_\infty$ Controllers for Load Frequency Control
Behrad Samari - Mohammad Javad Yazdanpanah
پیش بینی قیمت انرژی الکتریکی در بازار روز بعد با استفاده از شبکه عصبی مصنوعی تعمیم یافته و با در نظر گرفتن محدودیت سوخت رسانی
حسین صابر - سعید محسنی - رضا پورآقابابا - مصطفی یحیی آبادی
مدل سازی فشرده و شبیه سازی گذار عایق به هادی در افزاره مات مبتنی بر VO2
پرناز عباسی - مجید شالچیان
مشاهدهپذیری در فرآیندهای گراف محدود باند بدونجهت و جهتدار با استفاده از تعداد محدودی از مشاهدات
حمیدرضا خسرویان - محمود کریمی
ارتقای تاب آوری بارهای شبکه های توزیع تحت رویدادهای HILP از طریق امکان سنجی تشکیل ریزشبکه
محمدحسین تاجمیری - محسن حمزه
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.8.0