Music emotion classification using a hybrid CNN-LSTM model

Yakovyna, Vitaliy; Яковина, Віталій Степанович; Korniienko, Valentyn V.; Корнієнко, Валентин Валерійович

eONPUIR
→
1. Періодичні видання національного університету "Одеська політехніка"
→
Applied Aspects of Information Technology = Прикладні аспекти інформаційних технологій
→
2023, Vol. 6, № 4
→
Посмотреть элемент

dc.contributor.author	Yakovyna, Vitaliy
dc.contributor.author	Яковина, Віталій Степанович
dc.contributor.author	Korniienko, Valentyn V.
dc.contributor.author	Корнієнко, Валентин Валерійович
dc.date.accessioned	2023-12-23T18:59:03Z
dc.date.available	2023-12-23T18:59:03Z
dc.date.issued	2023-12-20
dc.identifier.issn	2617-4316
dc.identifier.issn	2663-7723
dc.identifier.uri	http://dspace.opu.ua/jspui/handle/123456789/14216
dc.description.abstract	The emotional content of music, interwoven with the intricacies of human affect, poses a unique challenge for computational recognition and classification. With the digitalization of music libraries expanding exponentially, there is a pressing need for precise, automated tools capable of navigating and categorizing vast musical repositories based on emotional contexts. This study advances music emotion classification in the field of music information retrieval by developing a deep learning model that accurately predicts emotional categories in music. The goal of this research is to advance the field of music emotion classification by leveraging the capabilities of convolutional neural networks combined with long short-term memory within deep learning frameworks. The contribution of this study is to provide a refined approach to music emotion classification, combining the power of convolutional neural networks and long short-term memory architectures with sophisticated preprocessing of the Emotify dataset for a deeper and more accurate analysis of musical emotions. The research introduces a novel architecture combining Convolutional Neural Networks and Long Short-Term Memory networks designed to capture the intricate emotional nuances in music. The model leverages convolutional neural networks for robust feature detection and Long Short-Term Memory networks for effective sequence learning, addressing the temporal dynamics of musical features. Utilizing the Emotify dataset, comprising tracks annotated with nine emotional features, the study expands the dataset by segmenting each track into 20 parts, thereby enriching the variety of emotional expressions. Techniques like the synthetic minority oversampling technique were implemented to counter dataset imbalance, ensuring equitable representation of various emotions. The spectral characteristics of the samples were analyzed using the Fast Fourier Transform, contributing to a more comprehensive understanding of the data. Through meticulous fine-tuning, including dropout implementation to prevent overfitting and learning rate adjustments, the developed model achieved a notable accuracy of 94.7 %. This high level of precision underscores the model's potential for application in digital music services, recommendation systems, and music therapy. Future enhancements to this music emotion classification system include expanding the dataset and refining the model architecture for even more nuanced emotional analysis.	en
dc.description.abstract	Емоційний зміст музики, переплетений із тонкощами впливу на людину, створює унікальний виклик для систем комп’ютерного розпізнавання та класифікації. Оскільки оцифрування музичних бібліотек експоненціально розширюється, існує нагальна потреба в точних автоматизованих інструментах, здатних навігації та класифікації величезних музичних сховищ на основі емоційного контексту. Це дослідження покращує класифікацію музичних емоцій у сфері пошуку музичної інформації шляхом розробки моделі глибокого навчання, яка точно передбачає емоційні категорії в музиці. Метою цього дослідження є розвиток класифікації музичних емоцій шляхом використання можливостей згорткових нейронних мереж у поєднанні з довготривалою короткочасною пам’яттю в рамках глибокого навчання. Внесок цього дослідження полягає в тому, щоб забезпечити вдосконалений підхід до класифікації музичних емоцій, поєднуючи потужність згорткових нейронних мереж і архітектур довготривалої короткочасної пам’яті зі складною попередньою обробкою набору даних Emotify для глибшого та точнішого аналізу музичних емоцій. Дослідження представляє нову архітектуру, що поєднує згорткові нейронні мережі та мережі довготривалої короткочасної пам’яті, призначені для вловлювання складних емоційних нюансів у музиці. Модель використовує згорткові нейронні мережі для надійного виявлення функцій і мережі довготривалої короткочасної пам’яті для ефективного навчання послідовності, звертаючись до часової динаміки музичних особливостей. Використовуючи набір даних Emotify, що включає доріжки з дев’ятьма емоційними характеристиками, дослідження розширює набір даних, сегментуючи кожну доріжку на 20 частин, таким чином збагачуючи різноманітність емоційних проявів. Для протидії дисбалансу набору даних, забезпечуючи рівномірне представлення різних емоцій, було застосовано такі методи, як техніка передискретизації синтетичної меншості. Спектральні характеристики зразків аналізували за допомогою швидкого перетворення Фур’є, що сприяло більш повному розумінню даних. Завдяки ретельному тонкому налаштуванню, включаючи реалізацію відсіву для запобігання надмірному оснащенню та коригування швидкості навчання, розроблена модель досягла помітної точності 94,7 %. Цей високий рівень точності підкреслює потенціал моделі для застосування в цифрових музичних службах, системах рекомендацій і музичній терапії. Майбутні вдосконалення цієї системи класифікації музичних емоцій включають розширення набору даних і вдосконалення архітектури моделі для ще більш тонкого емоційного аналізу.	en
dc.language.iso	en	en
dc.publisher	Odessа Polytechnic National University	en
dc.subject	Deep learning	en
dc.subject	music emotion classification	en
dc.subject	neural network	en
dc.subject	spectrum analysis	en
dc.subject	convolutional neural network	en
dc.subject	глибоке навчання	en
dc.subject	класифікація емоцій	en
dc.subject	нейронна мережа	en
dc.subject	спектральний аналіз	en
dc.subject	згорткова нейронна мережа	en
dc.title	Music emotion classification using a hybrid CNN-LSTM model	en
dc.title.alternative	Класифікація музичних емоцій за допомогою гібридної CNN-LSTM моделі	en
dc.type	Article	en
opu.citation.journal	Applied Aspects of Information Technology	en
opu.citation.volume	4	en
opu.citation.firstpage	418	en
opu.citation.lastpage	430	en
opu.citation.issue	6	en