МНОЖИНА КРИТЕРІЇВ ЕФЕКТИВНОСТІ ФОРМУВАННЯ БАЗ ДАНИХ ЕМОЦІЙНО ЗАБАРВЛЕНИХ ГОЛОСОВИХ СИГНАЛІВ
DOI:
https://doi.org/10.28925/2663-4023.2023.21.6574Ключові слова:
база даних; розпізнавання емоцій; голосовий сигнал; критерій ефективностіАнотація
Значна кількість створених баз даних емоційного мовлення на різних мовах свідчить про великий інтерес дослідницької спільноти до питань синтезу емоційних голосових сигналів та розпізнавання емоцій у голосі людини. У наш час значного використання набувають пристрої, які використовують голосовий інтерфейс взаємодії з користувачем, що особливо виражено в певних роботехнічних системах.
В якості основи для створення комп’ютерних систем розпізнавання емоцій в голосі людини зазвичай використовують нейронні мережі, для навчання яких і потрібні достатньо великі за обсягом бази даних емоційно забарвлених голосових сигналів. Основним підходом, який застосовується при створенні таких баз даних є залучення акторів для відтворення заданого спектру емоцій в їх голосових висловлюваннях, та, відповідно, використання спеціалізованого обладнання для запису та аналізу отриманих аудіоданих. Однак цей підхід вимагає значних часових та ресурсних затрат, що не дозволяє генерувати значні масштаби емоційних голосових висловлювань в осяжні проміжку часу.
Тому для оцінки ефективності формування баз даних емоційно забарвлених голосових сигналів наведено перелік критеріїв, за якими були оцінені засоби формування емоційних баз даних. Результати оцінювання дозволяють обґрунтовано стверджувати, що відомі засоби формування емоційно забарвлених баз даних голосових сигналів людини мають певний ряд недоліків. Для підвищення ефективності засобів формування баз даних емоційних голосових сигналів людини доцільно мати можливість формування баз даних без залучення професійних акторів, наявність спонтанних висловлювань, а не тільки попередньо визначених, наявність багатоголосих висловлювань, а саме діалогів, та наявність можливостей для підрахування часу та обчислювальних ресурсів, які необхідні для формування елементів бази даних.
Завантаження
Посилання
Ekman, P. (2005). Basic Emotions. In Handbook of Cognition and Emotion (p. 45–60). John Wiley & Sons, Ltd. https://doi.org/10.1002/0470013494.ch3
Bachorowski, J.-A., & Owren, M. J. (1995). Vocal Expression of Emotion: Acoustic Properties of Speech Are Associated With Emotional Intensity and Context. Psychological Science, 6(4), 219–224. https://doi.org/10.1111/j.1467-9280.1995.tb00596.x
Hirschberg, J. (2006). Pragmatics and Intonation. In The Handbook of Pragmatics (eds L.R. Horn and G. Ward). https://doi.org/10.1002/9780470756959.ch23
Tereykovska, L. (2023). Methodology of automated recognition of the emotional state of listeners of the distance learning system [Dissertation, Kyiv National University of Construction and Architecture]. Institutional repository of National transport university. http://www.ntu.edu.ua/nauka/oprilyudnennya-disertacij/
Kominek, J., & Black, A. (2004). The CMU Arctic speech databases. SSW5-2004. https://www.lti.cs.cmu.edu/sites/default/files/CMU-LTI-03-177-T.pdf (date of access: 01.06.2023)
Zhou, K., Sisman, B., Liu, R., & Li, H. (2022). Emotional voice conversion: Theory, databases and ESD. Speech Communication, 137, 1–18. https://doi.org/10.1016/j.specom.2021.11.006
Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W. F., & Weiss, B. (2005). A database of German emotional speech. In Interspeech 2005. ISCA. https://doi.org/10.21437/interspeech.2005-446
Livingstone, S. R., & Russo, F. A. (2018). The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLOS ONE, 13(5), Стаття e0196391. https://doi.org/10.1371/journal.pone.0196391
James, J., Tian, L., & Inez Watson, C. (2018). An Open Source Emotional Speech Corpus for Human Robot Interaction Applications. In Interspeech 2018. ISCA. https://doi.org/10.21437/interspeech.2018-1349
10) Costantini, G., Iaderola, I., Paoloni, A., & Todisco, M. (2014). EMOVO Corpus: an Italian Emotional Speech Database. У Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 3501–3504, Reykjavik, Iceland. European Language Resources Association (ELRA).
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 Іван Дичка, Ігор Терейковський, Андрій Самофалов, Людмила Терейковська, Віталій Романкевич
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.