0% Complete
صفحه اصلی
/
سی و یکمین کنفرانس بین المللی مهندسی برق
Vision Transformer and Parallel Convolutional Neural Network for Speech Emotion Recognition
نویسندگان :
Saber Hashemi
1
Mohammad Asgari
2
1- دانشگاه صداوسیما
2- دانشگاه صدا و سیما
کلمات کلیدی :
speech emotion recognition،vision transformer،convolutional neural network،attention mechanism
چکیده :
Vision transformer (ViT) is a new approach for image processing tasks. The vision transformer splits the image into patches and converts it into a sequence of vectors. This sequence is suitable for the transformer structure. This paper uses the ViT method for speech emotion recognition. Unlike ViT, which splits the image into square patches, we use time frames as patches. Alongside using the frame-based ViT to benefit from its ability to learn global features, we are using a convolutional neural network. The convolutional neural network extracts local features and focuses on the two-dimensional structure of the input. Mel-Frequency Cepstral Coefficients extracted from audio files are used as input for the proposed neural network. Using this model in the RAVDESS dataset, we achieved an unweighted accuracy of 79.2%.
لیست مقالات
لیست مقالات بایگانی شده
اصلاح مسیرخروجی ID FANتا دودکش اشکودا و امکان سنجی بازیابی حرارتی دود
یاشار مغمومی - فرشته صادقی
Developing a superlens with High Resolution using Quantum Dot Nano-Particles
Amin Monemian Esfahani - Leila Yousefi
A high speed method for features extraction in face recognition systems
Hosein Khorami - Hadishahriar Shahhoseini
طراحی تنظیمکنندهی خروجی بهینهی مبتنی بر یادگیری تقویتی ایمن با استفاده از تابع مانع کنترلی نمایی
سیدرضا اصغری - سعید شمقدری
بررسی روابط توان دوم برای اعداد باینری با تمرکز بر طراحی و پیاده سازی مدار برای ورودی 4 بیت مثبت و منفی در پروسه استاندارد 0.18 µm CMOS
احمد احمدزاده - امیر فتحی - بهبود مشعوفی
طراحی و پیاده سازی ژنراتور تولید کننده پالس PFN-Marx فشرده و ماژولار برای تولید پالس 25 کیلوولتی
محمد حسین رنجبر - محمدجواد گل علی پور
Adaptive Smooth Super Twisting Sliding Mode Control for Parkinson's Tremor Treatment
Reyhaneh Valibeik - ّFatemeh Jahangiri - Mostafa Abedi
امکان استفاده از پلی آنیلین دوبعدیC3N به عنوان آشکار سازِ گاز استالدهیدِ بازدم در دستگاه های تشخیصِ غیر تهاجمیِ سرطان ریه: مطالعه اصل اولیه
محمد حسین امیدواری - حامد مهدوی نژاد - رزا صفایی اسدآبادی - محمدحسین شیخی
Formation of Singular Multi-Agent Systems via a New Iterative Learning Control Approach
Ali Raddanipour - Masoud Shafiee
Depth Estimation in Monocular Images of Inside the Sewer Pipes for Navigation of Inspection Robots
Zeinab Maroufi - Alireza Hadi Hosseinabadi - Reza Askari moghadam
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.5.3