ПРОГНОЗУВАННЯ ЕКСПЛУАТАЦІЇ CVE НА ОСНОВІ ВІДКРИТИХ ДАНИХ NVD ТА KEV ДЛЯ РИЗИКО-ОРІЄНТОВАНОЇ ПРІОРИТИЗАЦІЇ

Автор(и)

  • Владислав Денисюк Національний технічний університет «Харківський Політехнічний Інститут» https://orcid.org/0009-0001-6334-1473

DOI:

https://doi.org/10.28925/2663-4023.2025.30.906

Ключові слова:

CVE, CVSS, KEV, прогноз експлуатації, машинне навчання, логістична регресія, дисбаланс класів, пріоритизація виправлень, ML.NET, кібербезпека

Анотація

Зі зростанням кількості публічно розкритих вразливостей програмного забезпечення команди безпеки стикаються з дедалі більшими труднощами у визначенні пріоритетів проблем, що потребують термінового усунення. Хоча такі системи, як Загальна система оцінювання вразливостей (CVSS), надають оцінки серйозності, вони не вказують, чи буде вразливість використано на практиці. Дослідження пропонує підхід на основі машинного навчання для прогнозування експлуатаційності вразливостей із використанням структурованих публічних даних з Національної бази даних вразливостей (NVD) та каталогу відомих експлуатованих вразливостей (KEV), що підтримується CISA. Сформовано маркований набір даних із понад 300 000 CVE, де випадки експлуатації ідентифікуються за KEV. Вилучені ознаки охоплюють вектори CVSS, ідентифікатори CWE, метадані постачальника/продукту та часові характеристики. Через екстремальний дисбаланс класів (експлуатовані CVE становлять ~0,45%) застосовується метод надсемплінгу і налаштування порогу прийняття рішень. Логістичну регресію, навчену в ML.NET, використано для побудови інтерпретованої моделі; показано, що вона вивчає змістовні патерни, які відрізняють експлуатовані вразливості. Оцінювання на спектрі порогів демонструє високу повноту та зростання точності, пропонуючи прозорий і відтворюваний інструмент для пріоритизації виправлень. Додатково окреслено обмеження, пов’язані з неповнотою KEV як «джерела істини», та окреслено напрями вдосконалення: інтеграцію NLP-ембеддингів описів CVE, калібрування ймовірностей і часово-орієнтовану валідацію для запобігання витоку даних. Такий підхід підсилює ризик-орієнтоване прийняття рішень у кібербезпеці та може бути безпосередньо інтегрований у процеси керування вразливостями в організаціях різного масштабу.

Завантаження

Дані завантаження ще не доступні.

Посилання

Allodi, L., & Massacci, F. (2012). A preliminary analysis of vulnerability scores for attacks in wild: The EKITS and SYM datasets. BADGERS '12: Proceedings of the 2012 ACM Workshop on Building analysis datasets and gathering experience returns for security, 17–24.

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321–357. https://doi.org/10.1613/jair.953

Shalev-Shwartz, S., & Zhang, T. (2014). Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization. Mathematical Programming, 155(1-2), 105–145. https://doi.org/10.1007/s10107-014-0839-0

Zadrozny, B., & Elkan, C. (2002). Transforming Classifier Scores into Accurate Multiclass Probability Estimates. KDD '02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 694–699. https://doi.org/10.1145/775047.775151

Saito, T., & Rehmsmeier, M. (2015). The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets. PLOS ONE, 10(3), Стаття e0118432. https://doi.org/10.1371/journal.pone.0118432

Lu, H., & Mazumder, R. (2020). Randomized Gradient Boosting Machine. SIAM Journal on Optimization, 30(4), 2780–2808. https://doi.org/10.1137/18m1223277

Li, X., Moreschini, S., Zhang, Z., Palomba, F., & Taibi, D. (2023). The anatomy of a vulnerability database: A systematic mapping study. Journal of Systems and Software, 111679. https://doi.org/10.1016/j.jss.2023.111679

Niculescu-Mizil, A., & Caruana, R. (2005). Predicting good probabilities with supervised learning. ICML '05: Proceedings of the 22nd international conference on Machine learning, 625–632. https://doi.org/10.1145/1102351.1102430

Almahmoud, Z., Yoo, P. D., Damiani, E., Choo, K.-K. R., & Yeun, C. Y. (2025). Forecasting Cyber Threats and Pertinent Mitigation Technologies. Technological Forecasting and Social Change, 210, 123836. https://doi.org/10.1016/j.techfore.2024.123836

Ferdous, J., Islam, R., Mahboubi, A., & Islam, M. Z. (2025). A Survey on ML Techniques for Multi-Platform Malware Detection: Securing PC, Mobile Devices, IoT, and Cloud Environments. Sensors, 25(4), 1153. https://doi.org/10.3390/s25041153

Lyu, J., Bai, Y., Xing, Z., Li, X., & Ge, W. (2021). A Character-Level Convolutional Neural Network for Predicting Exploitability of Vulnerability. International Symposium on Theoretical Aspects of Software Engineering (TASE), 119–126. https://doi.ieeecomputersociety.org/10.1109/TASE52547.2021.00014

Downloads


Переглядів анотації: 14

Опубліковано

2025-10-26

Як цитувати

Денисюк, В. (2025). ПРОГНОЗУВАННЯ ЕКСПЛУАТАЦІЇ CVE НА ОСНОВІ ВІДКРИТИХ ДАНИХ NVD ТА KEV ДЛЯ РИЗИКО-ОРІЄНТОВАНОЇ ПРІОРИТИЗАЦІЇ. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка», 2(30), 428–444. https://doi.org/10.28925/2663-4023.2025.30.906