THEORETICAL AND TECHNICAL ASPECTS OF MACHINE LEARNING USAGE IN CYBERSECURITY

Тарас Мелько; Володимир Коцун

doi:10.28925/2663-4023.2025.28.774

Автор(и)

Тарас Мелько Приватний вищий навчальний заклад «Європейський університет» https://orcid.org/0009-0005-7295-5863
Володимир Коцун Приватний вищий навчальний заклад «Європейський університет» https://orcid.org/0000-0003-2363-8157

DOI:

https://doi.org/10.28925/2663-4023.2025.28.774

Ключові слова:

кібербезпека, кібератака, кіберзахист, машинне навчання, глибинне навчання, машинне навчання в кібербезпеці

Анотація

Стаття розглядає технічні та теоретичні питання, пов'язані із застосуванням машинного навчання (ML) у вирішення зростаючих викликів кібератак, оскільки існує потреба в більш агресивних методах боротьби з кіберзлочинами. Дослідження розглядає впровадження технології машинного навчання (ML) як наріжного каменя практично будь-якої сучасної проблеми в кібербезпеці, зокрема процесів і технік, пов’язаних з аналізом проблем, виявленням, прогнозуванням атак і навіть профілюванням поведінки. Пояснюється, як ML забезпечує кращу реакцію порівняно з традиційними методами, такими як виявлення на основі сигнатур, шляхом аналізу великих обсягів даних у реальному часі. Надано огляд ключових особливостей контрольованого та нектрольованого навчання в контексті виявлення аномалій і розпізнавання шкідливої активності з акцентом на алгоритми Support Vector Machine та Isolation Forests, а також детальний розгляд моделі LSTM для аналізу еволюції фішингових URL. Крім того, ці алгоритми висвітлено з точки зору технічної реалізації: контрольоване навчання з використанням Support Vector Machines у Scikit-Learn для класифікації мережевого трафіку на основі таких характеристик, як IP-адреси та порти, нектрольоване навчання з Isolation Forests для виявлення аномалій у багатовимірних даних і глибоке навчання з мережами Long Short-Term Memory (LSTM) для аналізу фішингових URL. У статті досліджуються труднощі при впровадженні алгоритмів ML, такі як дисбаланс класів, Adversarial Attacks та брак прозорості моделей. Такі техніки, як SMOTE (Synthetic Minority Over-sampling Technique), пропонуються для розробки тренувальних наборів даних, тоді як методи Adversarial Training рекомендуються для навчання моделей з метою надійної оптимізації захисту від зловмисного використання моделей. Також підкреслюється роль методів пояснюваності, таких як SHAP і LIME, для зміцнення довіри та прийняття автоматизованих систем ML у кібербезпеці. Визначено можливості для подальших досліджень і запропоновано проводити подальші експерименти для покращення стійкості моделей та метрик продуктивності в обмежених середовищах.

Завантаження

Дані завантаження ще не доступні.

Посилання

Singer, P. W., & Friedman, A. (2014). Cybersecurity and cyberwar: What everyone needs to know. Oxford University Press.

Mitchell, T. M. (1997). Machine learning. McGraw-Hill.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in R. Springer.

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.

Jacobs, J., & Rudis, B. (2014). Data-driven security: Analysis, visualization and dashboards. Wiley.

Joseph, A. D., Nelson, B., Rubinstein, B. I. P., & Tygar, J. D. (2019). Adversarial machine learning. Morgan & Claypool Publishers.

Géron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems (2nd ed.). O'Reilly Media.

Gulli, A., Kapoor, A., & Pal, S. (2019). Deep learning with TensorFlow 2 and Keras: Regression, ConvNets, GANs, RNNs, NLP, and more with TensorFlow 2 and the Keras API (2nd ed.). Packt Publishing.

Chio, C., & Wagner, D. (2018). Machine learning and security: Protecting systems with data and algorithms. O'Reilly Media.

Liu, F. T., Ting, K. M., & Zhou, Z.-H. (2008). Isolation forest. In 2008 Eighth IEEE International Conference on Data Mining, 413–422. IEEE. https://doi.org/10.1109/ICDM.2008.17

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, É. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12(10), 2825–2830.

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321–357.

Sahoo, D., Liu, C., & Hoi, S. C. H. (2019). Malicious URL detection using machine learning: A survey. ACM Computing Surveys, 52(3), 1–37.