МНОЖИНА КРИТЕРІЇВ ЕФЕКТИВНОСТІ ФОРМУВАННЯ БАЗ ДАНИХ ЕМОЦІЙНО ЗАБАРВЛЕНИХ ГОЛОСОВИХ СИГНАЛІВ

Іван Дичка; Ігор Терейковський; Андрій Самофалов; Людмила Терейковська; Віталій Романкевич

doi:10.28925/2663-4023.2023.21.6574

Автор(и)

Іван Дичка Національного Технічного Університету України «Київський Політехнічний Інститут імені Ігоря Сікорського» https://orcid.org/0000-0002-3446-3076
Ігор Терейковський Національного Технічного Університету України «Київський Політехнічний Інститут імені Ігоря Сікорського» https://orcid.org/0000-0003-4621-9668
Андрій Самофалов Національного Технічного Університету України «Київський Політехнічний Інститут імені Ігоря Сікорського» https://orcid.org/0009-0002-1205-5044
Людмила Терейковська Київський національний університет будівництва і архітектури https://orcid.org/0000-0002-8830-0790
Віталій Романкевич Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського" https://orcid.org/0000-0003-4696-5935

DOI:

https://doi.org/10.28925/2663-4023.2023.21.6574

Ключові слова:

база даних; розпізнавання емоцій; голосовий сигнал; критерій ефективності

Анотація

Значна кількість створених баз даних емоційного мовлення на різних мовах свідчить про великий інтерес дослідницької спільноти до питань синтезу емоційних голосових сигналів та розпізнавання емоцій у голосі людини. У наш час значного використання набувають пристрої, які використовують голосовий інтерфейс взаємодії з користувачем, що особливо виражено в певних роботехнічних системах.

В якості основи для створення комп’ютерних систем розпізнавання емоцій в голосі людини зазвичай використовують нейронні мережі, для навчання яких і потрібні достатньо великі за обсягом бази даних емоційно забарвлених голосових сигналів. Основним підходом, який застосовується при створенні таких баз даних є залучення акторів для відтворення заданого спектру емоцій в їх голосових висловлюваннях, та, відповідно, використання спеціалізованого обладнання для запису та аналізу отриманих аудіоданих. Однак цей підхід вимагає значних часових та ресурсних затрат, що не дозволяє генерувати значні масштаби емоційних голосових висловлювань в осяжні проміжку часу.

Тому для оцінки ефективності формування баз даних емоційно забарвлених голосових сигналів наведено перелік критеріїв, за якими були оцінені засоби формування емоційних баз даних. Результати оцінювання дозволяють обґрунтовано стверджувати, що відомі засоби формування емоційно забарвлених баз даних голосових сигналів людини мають певний ряд недоліків. Для підвищення ефективності засобів формування баз даних емоційних голосових сигналів людини доцільно мати можливість формування баз даних без залучення професійних акторів, наявність спонтанних висловлювань, а не тільки попередньо визначених, наявність багатоголосих висловлювань, а саме діалогів, та наявність можливостей для підрахування часу та обчислювальних ресурсів, які необхідні для формування елементів бази даних.

Завантаження

Дані завантаження ще не доступні.

Посилання

Ekman, P. (2005). Basic Emotions. In Handbook of Cognition and Emotion (p. 45–60). John Wiley & Sons, Ltd. https://doi.org/10.1002/0470013494.ch3

Bachorowski, J.-A., & Owren, M. J. (1995). Vocal Expression of Emotion: Acoustic Properties of Speech Are Associated With Emotional Intensity and Context. Psychological Science, 6(4), 219–224. https://doi.org/10.1111/j.1467-9280.1995.tb00596.x

Hirschberg, J. (2006). Pragmatics and Intonation. In The Handbook of Pragmatics (eds L.R. Horn and G. Ward). https://doi.org/10.1002/9780470756959.ch23

Tereykovska, L. (2023). Methodology of automated recognition of the emotional state of listeners of the distance learning system [Dissertation, Kyiv National University of Construction and Architecture]. Institutional repository of National transport university. http://www.ntu.edu.ua/nauka/oprilyudnennya-disertacij/

Kominek, J., & Black, A. (2004). The CMU Arctic speech databases. SSW5-2004. https://www.lti.cs.cmu.edu/sites/default/files/CMU-LTI-03-177-T.pdf (date of access: 01.06.2023)

Zhou, K., Sisman, B., Liu, R., & Li, H. (2022). Emotional voice conversion: Theory, databases and ESD. Speech Communication, 137, 1–18. https://doi.org/10.1016/j.specom.2021.11.006

Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W. F., & Weiss, B. (2005). A database of German emotional speech. In Interspeech 2005. ISCA. https://doi.org/10.21437/interspeech.2005-446

Livingstone, S. R., & Russo, F. A. (2018). The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLOS ONE, 13(5), Стаття e0196391. https://doi.org/10.1371/journal.pone.0196391

James, J., Tian, L., & Inez Watson, C. (2018). An Open Source Emotional Speech Corpus for Human Robot Interaction Applications. In Interspeech 2018. ISCA. https://doi.org/10.21437/interspeech.2018-1349

10) Costantini, G., Iaderola, I., Paoloni, A., & Todisco, M. (2014). EMOVO Corpus: an Italian Emotional Speech Database. У Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 3501–3504, Reykjavik, Iceland. European Language Resources Association (ELRA).