ЗАСТОСУВАННЯ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ АТАК У КОРПОРАТИВНІЙ МЕРЕЖІ НА ОСНОВІ FLOW-ОЗНАК
DOI:
https://doi.org/10.28925/2663-4023.2026.33.1167Ключові слова:
виявлення атак, flow-ознаки, Decision Tree, Random Forest, DDoS, botnet, web-атаки, матриця помилок, precision.Анотація
Виявлення шкідливої мережевої активності в корпоративних інформаційних ресурсах на основі статистичних характеристик потоків трафіку є практично значущим завданням, оскільки ефективність детектування визначається не лише загальною точністю, а й співвідношенням хибних спрацювань і пропусків атак, що безпосередньо впливає на навантаження на операторів безпеки та рівень залишкового ризику для організації. У статті подано підхід до виявлення атак у потоці мережевих з’єднань за flow-ознаками з використанням деревоподібних методів машинного навчання та аналізом їх поведінки для різних класів загроз у межах єдиного відтворюваного експериментального протоколу. Для експериментального дослідження використано набір даних CSE-CIC-IDS2018 з ознаками, сформованими CICFlowMeter, та побудовано бінарну постановку benign проти attack для трьох сценаріїв шкідливої активності, що охоплюють botnet-активність, volumetric-атаки типу DDoS (HOIC, LOIC-UDP) і web-атаки (Brute Force-Web, Brute Force-XSS, SQL Injection). Реалізовано порівняння моделей Decision Tree та Random Forest із балансуванням класів та фіксованими параметрами розбиття даних на навчальну і тестову вибірки, що забезпечує коректне зіставлення якості на різних типах атак. Оцінювання виконано за матрицею помилок і похідними показниками для класу атаки, включно з precision і recall, а також аналізом абсолютних значень FP і FN, які є найбільш інформативними у випадку рідкісних атак. Отримані результати демонструють майже повне відокремлення benign і attack для Bot та DDoS, що узгоджується з наявністю виражених патернів у потоці трафіку та високою відокремлюваністю класів у просторі ознак. Для web-атак виявляється принципово різний профіль помилок: Decision Tree забезпечує вищу повноту виявлення за рахунок збільшення кількості хибних тривог і зниження точності спрацювань, тоді як Random Forest формує істотно точніші спрацювання при збільшенні числа пропусків. Показано, що вибір методу детектування доцільно здійснювати з урахуванням типу атаки, дисбалансу класів і допустимого балансу між хибними спрацюваннями та пропусками, а інтерпретація результатів має спиратися на показники, які відображають експлуатаційні наслідки для систем моніторингу корпоративної мережі.
Завантаження
Посилання
Haidur, H. I., Hakhov, S. O., Dmitriiev, V. Y., & Bondarenko, N. V. (2021). Detection of traffic anomalies in organizational information systems using machine learning methods based on categorical field prediction algorithms. Telecommunications and Information Technologies. https://tit.dut.edu.ua/index.php/telecommunication/article/view/2402
Savchenko, T. V., Lutska, N. M., Vlasenko, L. O., & Tomenko, N. D. (2025). Analysis of the effectiveness of network traffic anomaly detection based on machine learning models. Cybersecurity: Education, Science, Technique. https://csecurity.kubg.edu.ua/index.php/journal/article/view/898
Sarhan, M., Layeghy, S., & Portmann, M. (2022). Evaluating standard feature sets towards increased generalisability and explainability of ML-based network intrusion detection. Array. https://www.sciencedirect.com/science/article/abs/pii/S2214579622000533
Sarhan, M., Layeghy, S., & Portmann, M. (2021). Evaluating standard feature sets towards increased generalisability and explainability of ML-based network intrusion detection. arXiv. https://arxiv.org/abs/2104.07183
Canadian Institute for Cybersecurity. (2018). CSE-CIC-IDS2018 dataset. https://www.unb.ca/cic/datasets/ids-2018.html
Amazon Web Services. (n.d.). A realistic cyber defense dataset (CSE-CIC-IDS2018). Registry of Open Data on AWS. https://registry.opendata.aws/cse-cic-ids2018/
Sharafaldin, I., Lashkari, A. H., & Ghorbani, A. A. (2018). Toward generating a new intrusion detection dataset and intrusion traffic characterization. In Proceedings of the International Conference on Information Systems Security and Privacy (ICISSP 2018). https://www.scitepress.org/papers/2018/66398/66398.pdf
Breiman, L. (2001). Random forests. Machine Learning. https://www.stat.berkeley.edu/~breiman/randomforest2001.pdf
Quinlan, J. R. (1993). C4.5: Programs for machine learning. Morgan Kaufmann. https://dl.acm.org/doi/abs/10.5555/152181
Lashkari, A. H. (n.d.). CICFlowMeter [Computer software]. GitHub. https://github.com/ahlashkari/CICFlowMeter
scikit-learn DecisionTreeClassifier documentation
scikit-learn RandomForestClassifier documentation
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Дар'я Шулімова

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.