Preview

Қазақстан-Британ техникалық университетінің хабаршысы

Кеңейтілген іздеу

ДИКТОРДЫ СӘЙКЕСТЕНДІРУ КЕЗІНДЕ СӨЙЛЕУДІ СЕГМЕНТАЦИЯЛАУ

https://doi.org/10.55452/1998-6688-2025-22-2-10-23

Толық мәтін:

Аңдатпа

Сөйлеуді сегментациялау – сөйлеу сигналдарын бөлшектерге бөлу процесі, ол дикторды сәйкестендіру және сөйлеуді тану жүйелерінің маңызды аспектісі. Бұл процесс сөйлеудің басталуын және аяқталуын дәл анықтауға мүмкіндік беріп, жүйенің тиімділігін арттырады. Сегментациялау кезінде дауыстық белсенділік детекторларын (VAD) пайдалану маңызды рөл атқарады, өйткені олар сөйлеу мен тыныштық арасындағы шекараларды анықтауға көмектеседі. Алайда, сегментациялау барысында жиі кездесетін қателіктер – жалған оң және жалған теріс нәтижелер, олар жүйенің жалпы дәлдігіне теріс әсер етеді. Осыған байланысты, әртүрлі тәсілдер мен әдістер арқылы қателіктерді азайту қажет. Фондық шуды азайту, терең оқыту модельдерін қолдану, сондай-ақ деректерді аугментациялау секілді шаралар сегментациялау сапасын едәуір жақсарта алады. Спектралды талдау әдістері мен ерекшеліктерін пайдалану сөйлеу мен фондық шу арасындағы айырмашылықты айқын ажыратуға мүмкіндік береді. Бұл зерттеудің мақсаты – сегментациялау процесін оңтайландыру және қателіктердің ықтималдықтарын талдау, сөйлеуді тану жүйелерінің тиімділігін арттыру. Нәтижесінде, бұл жұмыс сөйлеуді тану саласындағы жаңа зерттеулер мен әзірлемелер үшін негіз болады. Мақалада дикторды анықтау үшін ауызша сөйлеуін сегментациялау мәселесі қарастырылған. Жұмыста сегменттеудің мүмкін критерийлері сипатталған – дыбыстық сөйлеудің сапалық және сандық сипаттамалары, мысалы, сөйлеу кідірістері мен интонациясы, сондай-ақ олардың акустикалық корреляциясы. Бұл сарапшыға нақты сегменттік бірліктерді (буындар, сөздер және т.б.) анықтауға, олардың құрылымын жазуға, негізгі белгілерді бөліп көрсетуге мүмкіндік береді.

Авторлар туралы

А. Т. Ахмедиярова
Сәтбаев университеті
Қазақстан

 PhD, қауымдастырылған профессор 

 Алматы қ. 



Ж. М. Алибиева
Сәтбаев университеті
Қазақстан

 PhD, қауымдастырылған профессор

 Алматы қ. 



Н. К. Мукажанов
Сәтбаев университеті
Қазақстан

 PhD, қауымдастырылған профессор 

 Алматы қ. 



Әдебиет тізімі

1. Sujatha C. Vibration, Acoustics and Strain Measurement: Theory and Experiments. – 2023. – 722 p. https://doi.org/10.1007/978-3-031-03968-3_4.

2. Sudeep S. V. N. V. S., Venkata Kiran S., Nandan D., and Kumar S. An Overview of Biometrics and Face Spoofing Detection. – 2021. – ICCCE 2020. – P. 871–881.

3. Златоустова Л.В., Потапова Р.К., Потапов В.В, и Трунин-Донской В.Н. Общая и прикладная фонетика: Учеб. пособие. – 2-е изд., перераб. и доп. - М. : Изд-во Моск. гос. ун-та, 1997. – 416 с.

4. Mukazhanov N., Alibiyeva Zh., Yerimbetova A., Kassymova A., Alibiyeva N. Development of an augmented damerau–levenshtein method for correcting spelling errors in kazakh texts // Eastern-European Journal of Enter-prise Technologies. – 2023. – Vol. 5. – No. 2(125). – P. 23–33. https://doi.org/10.15587/1729-4061.2023.289187.

5. Амаан Ризви, Анупам Джаматия, Двиджен Рудрапал, Кунал Чакма и Бьёрн Гамбек. CrossLingual Speaker Identification for Indian Languages: Материалы 14-й Международной конференции по последним достижениям в обработке естественного языка, Варна, Болгария, 2023. – С. 979–987.

6. Pati D., and Prasanna S.R.M. Speaker verification using excitation source information // International Journal of Speech Technology. – 2012. – Vol. 15. – No. 3. – P. 241–257.

7. Zeinali H., Sameti H., and Burget L. HMM-based phrase-independent i-vector extractor for textdependent speaker verification: IEEE/ACM Transactions on Audio Speech and Language Processing. – 2017. – Vol. 25. – P. 1421–1435.

8. Meftah A.H., Mathkour H., Kerrache S., and Alotaibi Y.A. Speaker Identification in Different Emotional States in Arabic and English. – 2020. – IEEE Access. – Vol. 8. – P. 60070–60083.

9. Гуртуева И.А., Бжихатлов К.Ч. Аналитический обзор и классификация методов выделения признаков акустического сигнала в речевых системах // Известия Кабардино-Балкарского научного центра РАН. – 2022. – Вып. 1. – С. 41–58. https://doi.org/10.35330/1991-6639-2022-1-105-41-58

10. Белов Ю.С., Нифонтов С.В., Азаренко К.А. Применение вейвлет-фильтрации для шумоподавления в речевых сигналах // Фундаментальные исследования. – 2017. – № 4 (часть 1) – С. 29–33.

11. Huang X., Acero A., and Hon H.W. Spoken Language Processing: A Guide to Theory, Algorithms, and Applications. – Prentice Hall, 2001.

12. Deng L., and Yu D. Deep Learning for Speech Recognition // IEEE Signal Processing Magazine. – 2012. – Vol. 29. – No. 6. – P. 82–97.

13. Zhang Y., and Wu Y. Robust Speech Segmentation using Spectral Clustering: IEEE Transactions on Audio, Speech, and Language Processing. – 2017. – Vol. 25. – No. – P. 91815–1827.

14. Hazen T.J., and Reddy R. Voice Activity Detection: A Review of the Literature // Journal of the Acoustical Society of America. – 2012. – Vol. 132. – No. 5. – P. 2994–3005.

15. Нефедов Н.Н., Алимурадов А.К. Краткий обзор способов обнаружения речевой активности // Инжиниринг и технологии. – 2024. – Т. 9. – № 2. – С. 1–6. https://doi.org/10.21685/2587-7704-2024-9-2-9.

16. Sharma, S., and Goyal, N. A Review of Speech Segmentation Techniques // International Journal of Computer Applications. – 2016. – Vol. 134. – No. 11. – P. 10–14.

17. Sak H., Senior A., and Beaufays F. Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition. Proceedings of the 15th International Conference on Speech and Language Processing (INTERSPEECH), 2014. – pp. 338–342, (2014).

18. Gonzalez J., and Rios M.A Comprehensive Study on Speech Segmentation Approaches // Journal of Signal Processing Systems. – 2014. – Vol. 76. – No. 2. – P. 171–182.

19. Li X., and Zhao C. Improved Speech Segmentation Algorithm Based on GMM and VAD // Journal of the Acoustical Society of America. – 2015. – Vol. 137. – No. 3. – P. 1355–1363.

20. Yin J., and Wang Y. A Novel Method for Speech Segmentation Based on Wavelet Transform // International Journal of Speech Technology. – 2019. – Vol. 22. – No. 3. – P. 483–493.


Рецензия

Дәйектеу үшін:


Ахмедиярова А.Т., Алибиева Ж.М., Мукажанов Н.К. ДИКТОРДЫ СӘЙКЕСТЕНДІРУ КЕЗІНДЕ СӨЙЛЕУДІ СЕГМЕНТАЦИЯЛАУ. Қазақстан-Британ техникалық университетінің хабаршысы. 2025;22(2):10-23. https://doi.org/10.55452/1998-6688-2025-22-2-10-23

For citation:


Akhmediyarova A.T., Alibiyeva Zh.M., Мukazhanov N.K. SPEECH SEGMENTATION DURING SPEAKER MATCHING. Herald of the Kazakh-British Technical University. 2025;22(2):10-23. (In Kazakh) https://doi.org/10.55452/1998-6688-2025-22-2-10-23

Қараулар: 23


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)