ЗАСТОСУВАННЯ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ АТАК У КОРПОРАТИВНІЙ МЕРЕЖІ НА ОСНОВІ FLOW-ОЗНАК

Дар'я Шулімова

doi:10.28925/2663-4023.2026.33.1167

Автор(и)

Дар'я Шулімова Державний університет інформаційно-комунікаційних технологій https://orcid.org/0009-0002-9557-990X

DOI:

https://doi.org/10.28925/2663-4023.2026.33.1167

Ключові слова:

виявлення атак, flow-ознаки, Decision Tree, Random Forest, DDoS, botnet, web-атаки, матриця помилок, precision.

Анотація

Виявлення шкідливої мережевої активності в корпоративних інформаційних ресурсах на основі статистичних характеристик потоків трафіку є практично значущим завданням, оскільки ефективність детектування визначається не лише загальною точністю, а й співвідношенням хибних спрацювань і пропусків атак, що безпосередньо впливає на навантаження на операторів безпеки та рівень залишкового ризику для організації. У статті подано підхід до виявлення атак у потоці мережевих з’єднань за flow-ознаками з використанням деревоподібних методів машинного навчання та аналізом їх поведінки для різних класів загроз у межах єдиного відтворюваного експериментального протоколу. Для експериментального дослідження використано набір даних CSE-CIC-IDS2018 з ознаками, сформованими CICFlowMeter, та побудовано бінарну постановку benign проти attack для трьох сценаріїв шкідливої активності, що охоплюють botnet-активність, volumetric-атаки типу DDoS (HOIC, LOIC-UDP) і web-атаки (Brute Force-Web, Brute Force-XSS, SQL Injection). Реалізовано порівняння моделей Decision Tree та Random Forest із балансуванням класів та фіксованими параметрами розбиття даних на навчальну і тестову вибірки, що забезпечує коректне зіставлення якості на різних типах атак. Оцінювання виконано за матрицею помилок і похідними показниками для класу атаки, включно з precision і recall, а також аналізом абсолютних значень FP і FN, які є найбільш інформативними у випадку рідкісних атак. Отримані результати демонструють майже повне відокремлення benign і attack для Bot та DDoS, що узгоджується з наявністю виражених патернів у потоці трафіку та високою відокремлюваністю класів у просторі ознак. Для web-атак виявляється принципово різний профіль помилок: Decision Tree забезпечує вищу повноту виявлення за рахунок збільшення кількості хибних тривог і зниження точності спрацювань, тоді як Random Forest формує істотно точніші спрацювання при збільшенні числа пропусків. Показано, що вибір методу детектування доцільно здійснювати з урахуванням типу атаки, дисбалансу класів і допустимого балансу між хибними спрацюваннями та пропусками, а інтерпретація результатів має спиратися на показники, які відображають експлуатаційні наслідки для систем моніторингу корпоративної мережі.

Завантаження

Дані завантаження ще не доступні.

Посилання

Haidur, H. I., Hakhov, S. O., Dmitriiev, V. Y., & Bondarenko, N. V. (2021). Detection of traffic anomalies in organizational information systems using machine learning methods based on categorical field prediction algorithms. Telecommunications and Information Technologies. https://tit.dut.edu.ua/index.php/telecommunication/article/view/2402

Savchenko, T. V., Lutska, N. M., Vlasenko, L. O., & Tomenko, N. D. (2025). Analysis of the effectiveness of network traffic anomaly detection based on machine learning models. Cybersecurity: Education, Science, Technique. https://csecurity.kubg.edu.ua/index.php/journal/article/view/898

Sarhan, M., Layeghy, S., & Portmann, M. (2022). Evaluating standard feature sets towards increased generalisability and explainability of ML-based network intrusion detection. Array. https://www.sciencedirect.com/science/article/abs/pii/S2214579622000533

Sarhan, M., Layeghy, S., & Portmann, M. (2021). Evaluating standard feature sets towards increased generalisability and explainability of ML-based network intrusion detection. arXiv. https://arxiv.org/abs/2104.07183

Canadian Institute for Cybersecurity. (2018). CSE-CIC-IDS2018 dataset. https://www.unb.ca/cic/datasets/ids-2018.html

Amazon Web Services. (n.d.). A realistic cyber defense dataset (CSE-CIC-IDS2018). Registry of Open Data on AWS. https://registry.opendata.aws/cse-cic-ids2018/

Sharafaldin, I., Lashkari, A. H., & Ghorbani, A. A. (2018). Toward generating a new intrusion detection dataset and intrusion traffic characterization. In Proceedings of the International Conference on Information Systems Security and Privacy (ICISSP 2018). https://www.scitepress.org/papers/2018/66398/66398.pdf

Breiman, L. (2001). Random forests. Machine Learning. https://www.stat.berkeley.edu/~breiman/randomforest2001.pdf

Quinlan, J. R. (1993). C4.5: Programs for machine learning. Morgan Kaufmann. https://dl.acm.org/doi/abs/10.5555/152181

Lashkari, A. H. (n.d.). CICFlowMeter [Computer software]. GitHub. https://github.com/ahlashkari/CICFlowMeter

scikit-learn DecisionTreeClassifier documentation

scikit-learn RandomForestClassifier documentation