МЕТОДИКА КОМПЛЕКСНОЇ ОПТИМІЗАЦІЇ ОЗНАК (ФІЧЕРІВ) ДЛЯ СИСТЕМ ВИЯВЛЕННЯ КІБЕРАТАК
DOI:
https://doi.org/10.28925/2663-4023.2026.32.1204Ключові слова:
кібербезпека, системи виявлення вторгнень (IDS), оптимізація ознак, відбір ознак, екстракція ознак, датасет NSL-KDD, аналіз головних компонент (PCA), лінійний дискримінантний аналіз (LDA), машинне навчання, препроцесинг даних, зниження розмірності.Анотація
У статті розглядається одна з найбільш гострих проблем сучасної кібербезпеки — необхідність підвищення ефективності інтелектуальних систем виявлення вторгнень (IDS) в умовах стрімкої цифровізації та ускладнення ландшафту загроз. Автори змістовно обґрунтовують, що традиційні сигнатурні методи стають недостатніми проти атак, керованих штучним інтелектом, що зумовлює перехід до методів машинного навчання. Проте висока розмірність мережевого трафіку та наявність великої кількості надлишкових, корельованих або шумних ознак створюють ефект «прокляття розмірності». Це призводить до критичного зростання обчислювальних витрат, уповільнення реакції систем у реальному часі та зниження точності класифікації через перенавчання моделей. Актуальність роботи підтверджується необхідністю розробки системних підходів до препроцесингу даних, зокрема на прикладі еталонного датасету NSL-KDD.
Об'єктом дослідження є процес оптимізації вхідних даних для класифікаторів кібератак. Автором запропоновано та детально описано чотириетапну методику комплексної оптимізації ознак (фічерів). Методологія базується на гібридному поєднанні різних підходів: попередня обробка: очищення, нормалізація та стандартування; відбір ознак: застосування фільтрових методів (кореляційний аналіз Пірсона, взаємна інформація MI), вбудованих методів та обгорткових методів; виділення ознак: використання методів зниження розмірності, таких як PCA (метод головних компонент) та LDA/ULDA (лінійний дискримінантний аналіз), що дозволяє трансформувати вихідний простір у менший набір некорельованих компонент.
Наукова новизна роботи полягає у системному поєднанні статистичних фільтрів із ансамблевими методами навчання для тонкого налаштування моделей під специфіку мережевого трафіку. У статті наведено математичне обґрунтування кожного методу, зокрема через ентропію Шеннона та індекс Джині. Доведено, що для датасету NSL-KDD використання лише 12–15 найбільш релевантних ознак дозволяє підтримувати точність класифікації на рівні 98–99%, значно випереджаючи моделі, навчені на повному наборі (41 ознака), за показниками швидкості навчання та інференсу. Окрему увагу приділено перевагам методу ULDA у боротьбі з мультиколінеарністю. Автори доходять висновку, що запропонована методика є універсальним інструментом для оптимізації IDS, що дозволяє досягти балансу між точністю, швидкістю та стійкістю системи. Визначено вектори подальших досліджень: адаптація моделей до незбалансованих даних, використання нелінійних автокодувальників на базі глибокого навчання та дослідження стійкості відібраних ознак до змагальних атак.
Завантаження
Посилання
Yevseiev, S. P., Zakovorotnyi, O. Y., Milov, O. V., Kuchuk, H. A., Haluza, O. A., Koval, M. V., Voitko, O. V., & Hryshchuk, R. V. (2024). Methodology for synthesizing models of intelligent management systems and security of critical infrastructure objects. Novyi Svit-2000.
Lukova-Chuyko, N. V., Toliupa, S. V., Nakonechnyi, V. S., & Brailovsky, M. M. (2021). Intrusion detection systems and functional resilience of distributed information systems to cyber threats. Format.
Lande, D. V., Subach, I. Y., & Boyarynova, Y. E. (2018). Fundamentals of the theory and practice of data mining in the field of cybersecurity. ISZZI KPI.
Brailovskyi, M. M., Zybin, S. V., Kobozeva, A. A., Khoroshko, V. O., & Khokhlachova, Y. E. (2021). Analysis of cybersecurity of information systems. FOP Yamchynskyi O. V.
Abubakar, A. I., Chiroma, H., Muaz, A. S., & Ila, L. B. (2015). A review of the advances in cybersecurity benchmark datasets for evaluating data-driven intrusion detection systems. Procedia Computer Science, 62, 221–227.
Bajaj, K., & Arora, A. (2013). Dimension reduction in intrusion detection features using discriminative machine learning approach. IJCSI International Journal of Computer Science Issues, 10, 324–328.
Zhang, F., & Wang, D. (2013). An effective feature selection approach for network intrusion detection. In 2013 IEEE Eighth International Conference on Networking, Architecture and Storage (pp. 307–311). IEEE.
Wahba, Y., Elsalamouny, E., & Eltaweel, G. (2015). Improving the performance of multi-class intrusion detection systems using feature reduction. IJCSI International Journal of Computer Science Issues, 12(3), 355–368.
Tesfahun, A., & Bhaskari, D. L. (2013). Intrusion detection using random forests classifier with SMOTE and feature reduction. In 2013 International Conference on Cloud & Ubiquitous Computing & Emerging Technologies (pp. 127–132).
Dhafian, B., Ahmad, I., & Al-Ghamid, A. (2015). An overview of the current classification techniques in intrusion detection. In International Conference on Security and Management (pp. 82–88).
Desale, K. S., & Ade, R. (2015). Genetic algorithm-based feature selection approach for effective intrusion detection system. In 2015 International Conference on Computer Communication and Informatics (pp. 1–6).
Ganapathy, S., et al. (2013). Intelligent feature selection and classification techniques for intrusion detection in networks: A survey. EURASIP Journal on Wireless Communications and Networking, 2013(1), 271.
Zargari, S., & Voorhris, D. (2012). Feature selection in the corrected KDD dataset. In 2012 International Conference on Emerging Intelligent Data and Web Technologies (pp. 174–180).
Aparicio-Navarro, F., Kyriakopoulos, K. G., & Parish, D. J. (2014). Automatic dataset labelling and feature selection for intrusion detection systems. In 2014 IEEE Military Communications Conference (MILCOM) (pp. 46–51). IEEE.
Relan, N. G., & Patil, D. R. (2015). Implementation of network intrusion detection system using variant of decision tree algorithm. In 2015 IEEE International Conference on Nascent Technologies in the Engineering Field (pp. 1–5).
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Сергій Толюпа, Андрій Кулько

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.