ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ, ТЕХНОЛОГІЙ, СЕРВІСІВ ТА ПЛАТФОРМ ДЛЯ РОЗПІЗНАВАННЯ ГОЛОСОВОЇ ІНФОРМАЦІЇ В СИСТЕМАХ ЗАБЕЗПЕЧЕННЯ ІНФОРМАЦІЙНОЇ БЕЗПЕКИ

Євген Іосіфов; Володимир Соколов

doi:10.28925/2663-4023.2024.25.468486

Автор(и)

Євген Іосіфов Київський столичний університет імені Бориса Грінченка https://orcid.org/0000-0001-6203-9945
Володимир Соколов Київський столичний університет імені Бориса Грінченка https://orcid.org/0000-0002-9349-7946

DOI:

https://doi.org/10.28925/2663-4023.2024.25.468486

Ключові слова:

Natural Language Processing; аудіодані; розпізнавання голосової інформації; автентифікація; глибоке навчання; машинне навчання; обробка тексту; кібербезпека; інформаційна безпека.

Анотація

У статті проведено комплексний порівняльний аналіз методів, технологій а також розглянуто сучасні підходи до використання технологій розпізнавання мови та обробки природної мови (NLP) у контексті національної безпеки та інформаційної безпеки. Розглянуто ключові аспекти використання технологій для моніторингу комунікацій, виявлення підозрілої активності та застосування у сфері розвідки та контррозвідки, роль у забезпеченні кібербезпеки, можливості біометричної ідентифікації за голосом, етичні та правові аспекти, технологічні виклики. Постановка проблеми акцентує увагу на викликах, пов’язаних із широким впровадженням технологій розпізнавання мови та NLP, зокрема недостатня точність алгоритмів, що створює ризики для надійності систем безпеки. Також підкреслено важливість вирішення етичних та правових питань, пов’язаних із приватністю громадян та можливим зловживанням технологіями для масового нагляду. У роботі наведені приклади систем для забезпечення цілей кібербезпеки, таких як системи масового прослуховування та аналізу, системи цільового моніторингу, платформи аналізу соціальних мереж, системи біометричної ідентифікації та інші. У розділі результатів дослідження представлено високорівневу структуру систем захисту від загроз, яка охоплює канали загроз та рівні захисту. Розглянуто складність сучасних загроз, які можуть інтегруватися в декілька каналів одночасно, зокрема з використанням голосової інформації. Деталізовано місце та роль голосової інформації у структурі захисту від загроз, акцентовано на важливості інтеграції різних систем та платформ для забезпечення комплексної безпеки. Розглянуто два підходи до побудови системи безпеки, яка працює з голосовою інформацією: агрегування максимально можливої інформації з існуючих систем та створення системи під кожну конкретну проблему. Проведено порівняльний аналіз цих підходів, визначено їх переваги та недоліки а також описано обмеження та ризики застосування методів розпізнавання голосової інформації, зокрема надійність та точність технологій, наявність даних для тренування моделей, вартість впровадження, питання конфіденційності та приватності, безпеки даних, використання у військовій та розвідувальній діяльності, етичні питання, ризики підробки голосу та штучних голосів.

Завантаження

Дані завантаження ще не доступні.

Посилання

Dasgupta, S., Piplai, A., Kotal, A., & Joshi, A. (2020). A Comparative Study of Deep Learning based Named Entity Recognition Algorithms for Cybersecurity. In 2020 IEEE International Conference on Big Data, 2596–2604. https://doi.org/10.1109/BigData50022.2020.9378482.

Romanovskyi, O., et al. (2021). Automated Pipeline for Training Dataset Creation from Unlabeled Audios for Automatic Speech Recognition. In Lecture Notes on Data Engineering and Communications Technologies (pp. 25–36). Springer International Publishing. https://doi.org/10.1007/978-3-030-80472-5_3

Tan, H., et al. (2022). Adversarial Attack and Defense Strategies of Speaker Recognition Systems: A Survey. Electronics. https://doi.org/10.3390/electronics11142183

Iosifova, O., Iosifov, I., Rolik, O., & Sokolov, V. (2020). Techniques Comparison for Natural Language Processing. In Proceedings of the 2nd International Workshop on Modern Machine Learning Technologies and Data Science (No. I, vol. 2631, pp. 57–67).

Iosifov, I. Iosifova, O., Sokolov, V., Skladannyi, P., & Sukaylo, I. (2021). Natural Language Technology to Ensure the Safety of Speech Information. In Proceedings of the Workshop on Cybersecurity Providing in Information and Telecommunication Systems II (Vol. 3187, no. 1, pp. 216–226).

Iosifov, I., Iosifova, O., & Sokolov, V. (2020). Sentence Segmentation from Unformatted Text using Language Modeling and Sequence Labeling Approaches. In 2020 IEEE International Conference on Problems of Infocommunications. Science and Technology (PICST) (Vol. 1, pp. 335–337). IEEE. https://doi.org/10.1109/picst51311.2020.9468084

Iosifova, O., Iosifov, I., Sokolov, V., Romanovskyi, O., & Sukaylo, I. (2021). Analysis of Automatic Speech Recognition Methods. In Proceedings of the Workshop on Cybersecurity Providing in Information and Telecommunication Systems (Vol. 2923, pp. 252–257).

Romanovskyi, O., et al. (2022). Prototyping Methodology of End-to-End Speech Analytics Software. In Proceedings of the 4th International Workshop on Modern Machine Learning Technologies and Data Science (Vol. 3312, pp. 76–86).

Mahdavifar, S., & Ghorbani, A. (2019). Application of Deep Learning to Cybersecuri-ty: A Survey. Neurocomputing, 347, 149–176. https://doi.org/10.1016/j.neucom.2019.02.056

Sedkowski, W., & Bierczyński, K. (2022). Perceived Severity of Vulnerability in Cybersecurity: Cross Linguistic Variegation. In 2022 IEEE International Carnahan Conference on Security Technology (pp. 1–4). https://doi.org/10.1109/iccst52959.2022.9896488

Mounnan, O., Manad, O., Boubchir, L., Mouatasim, A., & Daachi, B. (2022). Deep Learning-Based Speech Recognition System using Blockchain for Biometric Access Control. In 2022 9th International Conference on Software Defined Systems (SDS) (pp. 1–2). https://doi.org/10.1109/SDS57574.2022.10062921

Chen, Y., et al. (2021). SoK: A Modularized Approach to Study the Security of Automatic Speech Recognition Systems. ACM Transactions on Privacy and Security, 25, 1–31. https://doi.org/10.1145/3510582

Poulter, C. (2020). Voice Recognition Software—Nuance Dragon Naturally Speaking. Occupational Medicine, 70(1), 75–76. https://doi.org/10.1093/occmed/kqz128

Wang, H. H. (2021). Speech Recorder and Translator using Google Cloud Speech-to-Text and Translation. Journal of IT in Asia, 9(1), 11–28. https://doi.org/10.33736/jita.2815.2021

The Cloud and Microsoft Azure Fundamentals. (2019). Microsoft Azure Infrastructure Services for Architects, Portico, 1–46.. https://doi.org/10.1002/9781119596608.ch1

Chen, L., et al. (2018). IBM Watson: Cognitive Computing in Healthcare and Beyon, AI Magazine [dataset]. In CRAN: Contributed Packages. The R Foundation. https://doi.org/10.32614/cran.package.aws.transcribe

Pickering, J. (2024). Cosegmentation in the IBM Text-to-Speech System. Speech and Hearing. https://doi.org/10.25144/22372

Povey, D., et al. (2011). The Kaldi Speech Recognition Toolkit. In IEEE Workshop on Automatic Speech Recognition and Understanding.

Hannun, A., et al. (2014). Deep Speech: Scaling up end-to-end speech recognition (Version 2). arXiv. https://doi.org/10.48550/arXiv.1412.5567

Lee, A., Kawahara, T. (2009). Recent Development of Open-Source Speech Recognition Engine Julius. In Asia-Pacific Signal and Information Processing Association, Annual Summit and Conference (pp. 131–137).

Huggins-Daines, D., et al. (2006). Pocketsphinx: A Free, Real-Time Continuous Speech Recognition System for Hand-Held Devices. In 2006 IEEE International Conference on Acoustics Speed and Signal Processing Proceedings (Vol. 1, pp. I-185–I-188). IEEE. https://doi.org/10.1109/icassp.2006.1659988

Recognition of Citizens’ Voice with Social Media. (2019). https://doi.org/10.4135/9781526486882

Agnitio Launches Voice Authentication for Android. (2012). Biometric Technology Today, 2012(5), 12. https://doi.org/10.1016/s0969-4765(12)70094-2

Beyond the Standard Model of Verbal Probing. (2005). Cognitive Interviewing, 87–101. https://doi.org/10.4135/9781412983655.n6

Kulke, L., Feyerabend, D., & Schacht, A. (2020). A Comparison of the Affectiva iMotions Facial Expression Analysis Software with EMG for Identifying Facial Expressions of Emotion. Frontiers in Psychology, 11. https://doi.org/10.3389/fpsyg.2020.00329

Vocapia Research SAS. (2024). VoxSigma Speech to Text Software Suite. https://www.vocapia.com/voxsigma-speech-totext.html

Ash, T., Francis, R., & Williams, W. (2018). The Speechmatics Parallel Corpus Filtering System for WMT18. In Proceedings of the 3rd Conference on Machine Translation: Shared Task Papers (pp. 853–859). https://doi.org/10.18653/v1/w18-6472

Iosifov, I., Iosifova, O., Romanovskyi, O., Sokolov, V., & Sukailo, I. (2022). Transferability Evaluation of Speech Emotion Recognition Between Different Languages. In Lecture Notes on Data Engineering and Communications Technologies (pp. 413–426). Springer International Publishing. https://doi.org/10.1007/978-3-031-04812-8_35