ПОРІВНЯННЯ МЕТОДІВ ЦИФРОВОЇ ОБРОБКИ СИГНАЛІВ ТА МОДЕЛЕЙ ГЛИБИННОГО НАВЧАННЯ У ГОЛОСОВІЙ АУТЕНТИФІКАЦІЇ

Автор(и)

DOI:

https://doi.org/10.28925/2663-4023.2024.25.140160

Ключові слова:

biometric technologies; voice authentication; digital signal processing; mel-frequency cepstral coefficients; linear predictive coding; deep learning; neural networks.

Анотація

У цій статті розглядаються проблеми класичних методів аутентифікації, таких як використання паролів, які часто виявляються ненадійними через різноманітні уразливості. Основні недоліки цих методів включають втрату або крадіжку паролів, їх слабку стійкість до атак, а також складність управління паролями, особливо у великих системах. Біометричні методи аутентифікації, зокрема ті, що базуються на фізичних характеристиках, таких як голос, є перспективним рішенням, оскільки вони забезпечують високий рівень безпеки і зручності для користувачів. Біометричні системи аутентифікації мають переваги над традиційними методами, оскільки голос є унікальною характеристикою для кожної людини, що значно ускладнює можливість підробки або крадіжки. Проте, існують виклики щодо точності і надійності таких систем. Зокрема, голосові біометричні системи можуть стикатися з проблемами, пов'язаними зі змінами голосу через здоров'я, емоційний стан або навколишнє середовище. Метою статті є порівняння сучасних моделей глибинного навчання з традиційними методами цифрової обробки сигналів, які використовуються для розпізнавання особистості за голосом. Для даного дослідження були обрані текстозалежні методи (мел-частотні кепстральні коефіцієнти — MFCC, кодування з лінійним предиктором — LPC) та текстонезалежні методи (ECAPA-TDNN, ResNet) з метою порівняння їхньої ефективності у задачах біометричної аутентифікації за голосом. Експеримент складався з реалізації систем біометричної аутентифікації, побудованих на основі кожного з описаних методів, та оцінки їхньої ефективності на спеціально зібраному наборі даних. Також в роботі детально розглянуто методи попередньої обробки аудіосигналів, які застосовуються в системах голосової автентифікації з метою забезпечення найкращої результативності в задачах розпізнавання мовця, зокрема такі як знешумлення методом спектрального віднімання, нормалізацію енергії, підсилювальну фільтрацію, фреймування та застосування віконного методу.

Завантаження

Дані завантаження ще не доступні.

Посилання

Samuel, F. A., Titilayo, A. O., Abiodun, A. O., Modupe, A. O., Oyeladun, M. B., Mayowa, I. R., & Samuel, A. M. (2021). Voice recognition system for door access control using mobile phone. International Journal of Science and Engineering Applications, 10(9), 132–139. https://doi.org/10.7753/ijsea1009.1004

Amjad Hassan Khan, M. K., & Aithal, P. S. (2022). Voice Biometric Systems for User Identification and Authentication – A Literature Review. International Journal of AppliedEngineering and Management Letters (IJAEML), 6(1), 198–209. https://doi.org/10.5281/zenodo.6471040

Abe, B. C., Araromi, H. O., Shokenu, E. S., Idowu, P. O., Babatunde, J. D., Adeagbo, M. A., & Oluwole, I. H. (2022). Biometric Access Control Using Voice and Fingerprint. Engineering And Technology Journal, 7(7), 1376–1382. https://doi.org/10.47191/etj/v7i7.08

Chen, X., Li, Z., Setlur, S., & Xu, W. (2022). Exploring racial and gender disparities in voice biometrics. Scientific Reports, 12(1). https://doi.org/10.1038/s41598-022-06673-y

Inamdar, F. M., Ambesange, S., Mane, R., Hussain, H., Wagh, S., & Lakhe, P. (2023). Voice Cloning Using Artificial Intelligence and Machine Learning: A review. Journal of Advanced Zoology, 44(S7), 419–427. https://doi.org/10.17762/jaz.v44is7.2721

Dalvi, J., et al. (2022). A survey on face recognition systems. arXiv preprint.

Win, K., Li, K., Chen, J., Viger, P. (2020). Fingerprint classification and identification algorithms for criminal investigation: A survey. Future Generation Computer Systems, 110, 758–771. https://doi.org/10.1016/j.future.2019.10.019

Daugman, J. (2002). How iris recognition works. Proceedings International Conference on Image Processing. https://doi.org/10.1109/ICIP.2002.1037952

Poddar, A., Sahidullah, Md., Saha, G. (2017). Speaker verification with short utterances: a review of challenges, trends and opportunities. IET Biometrics. 7(2), 91–101. https://doi.org/10.1049/iet-bmt.2017.0065. ISSN 2047-4938

Childers, D. G., Hand, M., Larar-Silent, M. J. (1989). Voiced/Unvoiced/Mixed Excitation (Four Way), Classification of Speech. IEEE Trans. On ASSP, 37(11).

Upadhyay, N., & Karmakar, A. (2015). Speech Enhancement using Spectral Subtraction-type Algorithms: A Comparison and Simulation Study. Procedia Computer Science, 54, 574–584. https://doi.org/10.1016/j.procs.2015.06.066

Jakovljević, N., Janev, M., Pekar, D., & Mišković, D. (2008). Energy Normalization in Automatic Speech Recognition. In Lecture Notes in Computer Science, 341–347. https://doi.org/10.1007/978-3-540-87391-4_44

Hviyuzova, D., & Belitskiy, A. (2021). Development of a filter amplifier of the signal pre-processing device for the passive listening mode of the hydroacoustic complex (НАС). E3S Web of Conferences, 266, 04013. https://doi.org/10.1051/e3sconf/202126604013

Introduction to Speech Processing. (n. d.). https://speechprocessingbook.aalto.fi/Representations/Windowing.html

Junqua, J.-C., Mak, B., Reaves, B. (1994). A robust algorithm for word boundary detection in presence of noise. IEEE Trans. on Speech and Audio Processing, 2, 406– 412.

Junqua, J.-C., Mak, B., Reaves, B. (1994). A robust algorithm for word boundary detection in presence of noise. IEEE Trans. on Speech and Audio Processing, 2, 406–412.

Liu, Y., Qian, Y., Chen, N., Fu, T., Zhang, Y., & Yu, K. (2015). Deep feature for text-dependent speaker verification. Speech Communication, 73, 1–13. https://doi.org/10.1016/j.specom.2015.07.003

Heigold, G., Moreno, I., Bengio, S., & Shazeer, N. (2016). End-to-end text-dependent speaker verification. https://doi.org/10.1109/icassp.2016.7472652

Xu, M., Duan, L. Y., Cai, J., Chia, L. T., Xu, C., & Tian, Q. (2004). HMM-Based Audio Keyword Generation. In Lecture Notes in Computer Science, 566–574. https://doi.org/10.1007/978-3-540-30543-9_71

Wijoyo, S. (2011). Speech Recognition Using Linear Predictive Coding and Artificial Neural Network for Controlling Movement of Mobile Robot. http://fportfolio.petra.ac.id/user_files/97-031/E091%20full%20paper-Thiang%20-%20ICIEE%202011.pdf

Desplanques, B., Thienpondt, J., & Demuynck, K. (2020). ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification. https://doi.org/10.21437/interspeech.2020-2650

Jakubec, M., Lieskovska, E., & Jarina, R. (2021). Speaker Recognition with ResNet and VGG Networks, 31st International Conference Radioelektronika (RADIOELEKTRONIKA), 1–5. https://doi.org/10.1109/RADIOELEKTRONIKA52220.2021.9420202

Downloads


Переглядів анотації: 37

Опубліковано

2024-09-25

Як цитувати

Руда, Х., Сабодашко, Д., Микитин, Г., Швед, М., Бордуляк, С., & Коршун, Н. (2024). ПОРІВНЯННЯ МЕТОДІВ ЦИФРОВОЇ ОБРОБКИ СИГНАЛІВ ТА МОДЕЛЕЙ ГЛИБИННОГО НАВЧАННЯ У ГОЛОСОВІЙ АУТЕНТИФІКАЦІЇ. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка», 1(25), 140–160. https://doi.org/10.28925/2663-4023.2024.25.140160