0% Complete
صفحه اصلی
/
سی و یکمین کنفرانس بین المللی مهندسی برق
Vision Transformer and Parallel Convolutional Neural Network for Speech Emotion Recognition
نویسندگان :
Saber Hashemi
1
Mohammad Asgari
2
1- دانشگاه صداوسیما
2- دانشگاه صدا و سیما
کلمات کلیدی :
speech emotion recognition،vision transformer،convolutional neural network،attention mechanism
چکیده :
Vision transformer (ViT) is a new approach for image processing tasks. The vision transformer splits the image into patches and converts it into a sequence of vectors. This sequence is suitable for the transformer structure. This paper uses the ViT method for speech emotion recognition. Unlike ViT, which splits the image into square patches, we use time frames as patches. Alongside using the frame-based ViT to benefit from its ability to learn global features, we are using a convolutional neural network. The convolutional neural network extracts local features and focuses on the two-dimensional structure of the input. Mel-Frequency Cepstral Coefficients extracted from audio files are used as input for the proposed neural network. Using this model in the RAVDESS dataset, we achieved an unweighted accuracy of 79.2%.
لیست مقالات
لیست مقالات بایگانی شده
بررسی تاثیر دینامیکی سیستمهای انرژی خورشیدی متصل به شبکه بر بارگذاری ترانسفورماتور و بهبود عملکرد شبکه فشار ضعیف توزیع نیروی برق
مهدی محمدی - رضا خدادی - علی معصومی
نحوه کنترل سطوح هوشمند با قابلیت تنظیم مجدد در راستای مقابله با استراق سمع کننده ها
محمد کاظم ناطقی - زلفا زینل پور یزدی
Modeling of dielectrophoretic single-stage continuous separation of Escherichia coli K38 in a microfluidic channel
Saeed Saedy - Navid Alaei Sheini - Shahrzad Ajabi
Design, Simulation, and fabrication of a compact dual-band GNSS antenna
Farnoosh Abbasi - Amir Saman Nooramin
Mapping Human Grasping to 3-Finger Grippers: A Deep Learning Perspective
Fatemeh Naeinian - Elnaz Balazadeh - Mehdi Tale Masouleh
بکارگیری تکنیک کنترل مقاوم جهت طراحی مسیر حرکت خودرو در مانورهای اضطراری ممانعت از برخورد
محمد امین قماشی - رضا کاظمی
Improved Equivalent Input Disturbance Control of Nonlinear Aeropendulum System Using Data-Driven Approach
Mohammad Hossein Bayati - Arman Marzban - Mahsan Tavakoli-Kakhki - Ali Naseh
طراحی قانون رویداد-تحریک دینامیکی برای سیستم های سینگولار خطی به منظور کاهش تعداد بروزرسانی
سیدمحمدرضا احمدانجوی - طاهره بینازاده
Adaptive Control of Telerehabilitation Systems in The Framework of Multi-Agent Systems
Mohammadreza Sheykh - Heidar Ali Talebi - ّIman Sharifi
Performance Analysis of an UAV-assisted cognitive D2D communication-based Disaster Response Network
Hossein Mohammadi Firozjae - Javad Zeraatkar Moghaddam - Mehrdad Ardebilipour
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.3.2