ЕКСТРАГУВАННЯ ОБ’ЄКТІВ КІБЕРБЕЗПЕКИ З МАСИВІВ ЕЛЕКТРОННИХ ТЕКСТОВИХ ДОКУМЕНТІВ МЕРЕЖІ ІНТЕРНЕТ ТА СОЦІАЛЬНИХ МЕРЕЖ

Олександр Пучков; Дмитро Ланде; Ігор Субач

doi:10.28925/2663-4023.2024.26.663

Автор(и)

Олександр Пучков Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського” https://orcid.org/0000-0002-8585-1044
Дмитро Ланде Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського” https://orcid.org/0000-0003-3945-1178
Ігор Субач Інституту спеціального зв’язку та захисту інформації Національного технічного університету України “Київський політехнічний інститут імені Ігоря Сікорського” https://orcid.org/0000-0002-9344-713X

DOI:

https://doi.org/10.28925/2663-4023.2024.26.663

Ключові слова:

кібервійна, кібербезпека, Інтернет, відкриті електронні джерела, соціальні мережі, аналіз тексту, об’єкти кібербезпеки

Анотація

Сучасний світ характеризується стрімким розвитком інформаційних технологій (ІТ) та глобальною взаємодією в кіберпросторі. Цей прогрес, незважаючи на його переваги, також призвів до виникнення нових загроз та викликів у сфері кібербезпеки. Кібервійни, які стали справжньою проблемою для держав, організацій та індивідуальних користувачів, вимагають розробки ефективних методів виявлення та аналізу об’єктів кібербезпеки. Одним з ключових аспектів у боротьбі з кіберзагрозами є можливість екстрагування фактографічних даних про об’єкти кібербезпеки з великих масивів текстової інформації. Традиційні методи аналізу тексту мають свої обмеження, особливо при роботі з великими та складними текстовими даними. У зв’язку з цим, актуальним стає застосування сучасних ІТ, які дозволяють з високою точністю та ефективністю обробляти та аналізувати текстову інформацію. У статті представлено методики екстрагування об’єктів кібербезпеки з електронних текстових документів із застосуванням регулярних виразів та виявлення об’єктів кібербезпеки на основі аналізу масивів кириличних текстів. Перша методика забезпечує виявлення фактографічних даних з текстових документів за допомогою регулярних виразів, що дозволяє точно ідентифікувати географічні назви, назви фірм та інші важливі поняття. Друга методика призначена для аналізу кириличних текстів для розпізнавання іменованих сутностей-об’єктів кібербезпеки, що спрощує процедуру екстрагування та підвищує точність отриманого результату. Кожна методика доповнює одна одну, створюючи загальну комплексну систему, яка ефективніше вирішує завдання екстрагування та аналізу об’єктів кібербезпеки порівняно з існуючими у теперішній час рішеннями. Описано алгоритми запропонованих методик, реалізація на практиці яких дозволяє з високою точністю та ефективністю обробляти та аналізувати текстову інформацію, що є важливим кроком у розробці інформаційної технології комп’ютерної розвідки з відкритих електронних джерел та соціальних мереж.

Завантаження

Дані завантаження ще не доступні.

Посилання

Yi, F., Jiang, B., Wang, L., & Wu J. (2020). Cybersecurity Named Entity Recognition Using Multi-Modal Ensemble Learning. IEEE Access, 8, 63214–63224. https://doi.org/10.1109/ACCESS.2020.2984582

Halbouni, A., Gunawan, T. S., Habaebi, M. H., Halbouni, M., Kartiwi, M. & Ahmad, R. (2022). Machine Learning and Deep Learning Approaches for CyberSecurity: A Review. IEEE Access, 10, 19572–19585. https://doi.org/10.1109/ACCESS.2022.3151248

Subach, I., Gerasimov, B., & Sergeev, O. (2006) Extraction of informative phrases from primary electronic documents in information retrieval systems. USiM, 1, 26–29.

Bayer, M., Kuehn, P., Shanehsaz, R., Reuter, C. (2024). CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain. ACM Transactions on Privacy and Security, 27(2(18)), 1–20. https://doi.org/10.1145/3652594

Hassanin, M., & Moustafa, N. (2024). A Comprehensive Overview of Large Language Models (LLMs) for Cyber Defences: Opportunities and Directions. arXiv preprint arXiv:2405.14487.

Gao, C., et al. (2021). A review on cyber security named entity recognition. Front. Inform. Technol. Electron. Eng. 22, 1153–1168.

Hanks, C., Maiden, M., Ranade, P., Finin, T., & Joshi, A. (2022). Recognizing and extracting cybersecurity entities from text. In: Workshop on Machine Learning for Cybersecurity, International Conference on Machine Learning.

Alam, Md T., Bhusal, D., Park, Y., Rastogi, N. (2022). CyNER: A Python Library for Cybersecurity Named Entity Recognition. arXiv preprint arXiv:2204.05754. https://doi.org/10.48550/arXiv.2204.05754

Ghasiya, P., & Okamura K. (2021). Investigating Cybersecurity News Articles by Applying Topic Modeling Method. International Conference on Information Networking (ICOIN), 432–438. https://doi.org/10.1109/ICOIN50884.2021.9333952

Lande, D., Puchkov, O., & Subach, I. (2022). Method of Detecting Cybersecurity Objects Based on OSINT Technology. In: Selected Papers of the XXII International Scientific and Practical Conference “Information Technologies and Security“ (ITS 2022), vol. 3503, 115–124.

Lande, D. V., Subach, I. Y., & Sobolev, A. M. (2019). Computer program for content monitoring of social networks on cybersecurity issues (Certificate of copyright registration for work No. 92744) CyberAggregator.

Lande, D. V., Subach, I. Y., & Sobolev A. M. (2021). Computer program (mapping service) for storing, issuing and researching geoinformation (Certificate of copyright registration for work No. 105772) GeoAggregator.

Hulak, H. M., Zhiltsov, O. B., Kyrychok, R. V., Korshun, N. V., & Skladannyi, P. M. (2024). Information and cyber security of the enterprise. Textbook. Lviv: Publisher Marchenko T. V.