0% Complete
صفحه اصلی
/
سی و یکمین کنفرانس بین المللی مهندسی برق
Vision Transformer and Parallel Convolutional Neural Network for Speech Emotion Recognition
نویسندگان :
Saber Hashemi
1
Mohammad Asgari
2
1- دانشگاه صداوسیما
2- دانشگاه صدا و سیما
کلمات کلیدی :
speech emotion recognition،vision transformer،convolutional neural network،attention mechanism
چکیده :
Vision transformer (ViT) is a new approach for image processing tasks. The vision transformer splits the image into patches and converts it into a sequence of vectors. This sequence is suitable for the transformer structure. This paper uses the ViT method for speech emotion recognition. Unlike ViT, which splits the image into square patches, we use time frames as patches. Alongside using the frame-based ViT to benefit from its ability to learn global features, we are using a convolutional neural network. The convolutional neural network extracts local features and focuses on the two-dimensional structure of the input. Mel-Frequency Cepstral Coefficients extracted from audio files are used as input for the proposed neural network. Using this model in the RAVDESS dataset, we achieved an unweighted accuracy of 79.2%.
لیست مقالات
لیست مقالات بایگانی شده
Type-2 Fuzzy Wavelet Control for a Quadruple-Tank System based on Disturbance Rejection
Mohammadreza Esmaeilidehkordi - Alireza Nezamzadeh - Maryam Zekri - Iman Izadi - Farid Sheikholeslam
Detecting Variance Changes in Alarm Systems Using Generalized Delay-timers
Zahra Sharifi - Iman Izadi - Jafar Ghaisari
Optimal D2D Resource Allocation in Heterogeneous Cellular Networks by Decentralized Multi-Agent Deep Q-Learning
Pouya Akhoundzadeh - Ghasem Mirjalily - Mohammad taghi Sadeghi
Design of a 2MW Medium Voltage Conventional Hybrid DC Circuit Breaker for Railway Application
Seyed Hamid Khalkhali - Mohsen Taghizadeh Kejani - Ali Asghar Razi Kazemi
ترکیب الگوریتم بهینهساز ازدحام ذرات و شبکه عصبی همگشتی رزنت در مدلسازی و طراحی سطوح انتخابگر فرکانس فراکتالی
امین مزروعی آبکنار - مجتبی مداح علی - مرضیه نصیریان
Enhancing Kriging with Inductive Spatio-Temporal GraphODE
Amin Sheykhzadeh - Behzad Moshiri - Ebrahim Ghafar-Zadeh
طراحی کنترلکننده مد لغزشی دینامیک برای سیستم تعلیق فعال غیر خطی با عملگر غیرایدهآل
مونا عظیمی - الهه مرادی
Multi-Machine Traction Drive Based on Parallel Connected Synchronous Machines
Hassan Mohammadi Pirouz
Identifying Singular 2-D Systems Using 1-D Methods
Masoud Shafiee - Kamyar Azarakhsh
طراحی روش مبتنی بر آنالیز پوش داده برای ارزیابی عملکرد ایستگاه های فوق توزیع و تعیین سطح مطلوب قابلیت اطمینان سیستم توزیع انرژی الکتریکی
محمد رستگار - زهرا یزدانپناه - محمد جوشکی
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.5.2