ВПЛИВ ОПТИМІЗАЦІЇ ДАТАСЕТУ CSE–CIC–IDS2018 НА ЕФЕКТИВНІСТЬ ГІБРИДНОЇ СТЕКІНГОВОЇ МОДЕЛІ ВИЯВЛЕННЯ МЕРЕЖЕВИХ ВТОРГНЕНЬ
DOI:
https://doi.org/10.28925/2663-4023.2025.30.963Ключові слова:
кібербезпека, загрози, виявлення мережевих вторгнень, CSE–CIC–IDS2018, SMOTE, Min–Max нормалізація, аналіз головних компонент (PCA), стекінг, гібридна модель, машинне навчанняАнотація
У цій статті представлено розширений порівняльний аналіз ефективності гібридної стекінгової моделі, призначеної для виявлення мережевих вторгнень, де особливий акцент зроблено на трансформації показників продуктивності до та після впровадження комплексного методу попередньої обробки сучасного датасету CSE–CIC–IDS2018. Запропонований підхід до підготовки даних базується на синергії трьох стратегічних компонентів: алгоритму SMOTE для інтелектуального балансування класів шляхом генерації синтетичних зразків міноритарних атак, методу Min–Max нормалізації для масштабування ознакового простору до діапазону [0, 1], що забезпечує рівномірний внесок кожного параметра у процес навчання, та методу головних компонент (PCA) для агресивного зниження розмірності даних без втрати ключової дисперсії. Для досягнення максимальної об'єктивності та верифікації результатів було проведено масштабний експериментальний цикл, що охоплював навчання й тестування ключових фундаментальних алгоритмів машинного навчання, а також десяти унікальних конфігурацій гібридного метакласифікатора на основі стекінгового ансамблю. Експериментально доведено, що така глибока оптимізація вхідних даних дозволяє гібридній моделі подолати проблему «перенавчання» на мажоритарних класах та значно підвищити аналітичну потужність, що відобразилося у зростанні показника Accuracy на 3,87% та F1–міри на 5,11%. Найбільш критичним для практичного застосування результатом стало радикальне скорочення часу прогнозування на 76,0%, що фактично знімає обчислювальні бар’єри для інтеграції складних ансамблевих методів у високонавантажені системи виявлення вторгнень, які працюють у режимі реального часу. Таким чином, інтеграція SMOTE, Min–Max нормалізації та PCA визначена як фундаментальна архітектурна передумова для створення стійких до кіберзагроз систем нового покоління, здатних ефективно виявляти аномалії в умовах високої інтенсивності мережевого трафіку.
Завантаження
Посилання
Sharafaldin, I., Lashkari, A. H., & Ghorbani, A. A. (2018). Toward generating a new intrusion detection dataset and intrusion traffic characterization. Proceedings of the 4th International Conference on Information Systems Security and Privacy (ICISSP 2018), 108–116.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321–357.
Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A, 374(2065), 1–16.
Wolpert, D. H. (1992). Stacked generalization. Neural Networks, 5(2), 241–259.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785–794.
Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., & Liu, T. Y. (2017). LightGBM: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 30, 3146–3154.
Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., & Gulin, A. (2018). CatBoost: Unbiased boosting with categorical features. Advances in Neural Information Processing Systems, 31, 6638–6648.
Lim, M., & Al-Hussain, A. (2019). Class imbalance problem in intrusion detection systems: A survey. IEEE Access, 7, 90561–90578.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32.
Fernández, A., García, S., Galar, M., Prati, R. C., Krawczyk, B., & Herrera, F. (2018). Learning from imbalanced data sets. Springer, Cham.
Sommer, R., & Paxson, V. (2010). Outside the closed world: On using machine learning for network intrusion detection. Proceedings of the IEEE Symposium on Security and Privacy, 305–316.
Buczak, A. L., & Guven, E. (2016). A survey of data mining and machine learning methods for cyber security intrusion detection. IEEE Communications Surveys & Tutorials, 18(2), 1153–1176.
Vapnik, V. (1995). The nature of statistical learning theory. Springer.
He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263–1284.
Tavallaee, M., Bagheri, E., Lu, W., & Ghorbani, A. A. (2009). A detailed analysis of the KDD CUP 99 data set. Proceedings of the IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA), 1–6.
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Дмитро Гамза

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.