Preview

Вестник Казахстанско-Британского технического университета

Расширенный поиск

СЕГМЕНТАЦИЯ РЕЧИ ВО ВРЕМЯ СООТВЕТСТВИЯ ДИКТОРА

https://doi.org/10.55452/1998-6688-2025-22-2-10-23

Аннотация

Сегментация речи – это процесс разделения речевых сигналов на части, который является важным аспектом систем идентификации говорящего и распознавания речи. Этот процесс повышает эффективность системы, позволяя точно определять начало и конец речи. Использование детекторов речевой активности (VAD) играет важную роль в сегментации, поскольку они помогают определить границы между речью и тишиной. Однако наиболее распространенными ошибками при сегментации являются ложноположительные и ложноотрицательные результаты, которые негативно влияют на общую точность системы. В связи с этим необходимо снижать ошибки за счет различных подходов и методов. Такие меры, как снижение фонового шума, использование моделей глубокого обучения и увеличение данных, могут значительно улучшить качество сегментации. Использование методов и особенностей спектрального анализа позволяет четко различать речь и фоновый шум. Целью данного исследования является оптимизация процесса сегментации и анализ вероятности ошибок, повышение эффективности систем распознавания речи. В результате эта работа является основой для новых исследований и разработок в области распознавания речи. В статье рассматривается проблема сегментации речи для идентификации говорящего. В работе описаны возможные критерии сегментации – качественные и количественные характеристики звуковой речи, например, речевые задержки и интонация, а также их акустическое соотношение. Это позволяет специалисту выделить конкретные сегментные единицы (слоги, слова и т. д.), записать их структуру, выделить основные признаки.

Об авторах

А. Т. Ахмедиярова
Сатбаев университеті
Казахстан

 PhD, ассоц. профессор 

 Алматы 



Ж. М. Алибиева
Сатбаев университеті
Казахстан

 PhD, ассоц. профессор 

 Алматы 



Н. К. Мукажанов
Сатбаев университеті
Казахстан

 PhD, ассоц. профессор 

 Алматы



Список литературы

1. Sujatha C. Vibration, Acoustics and Strain Measurement: Theory and Experiments. – 2023. – 722 p. https://doi.org/10.1007/978-3-031-03968-3_4.

2. Sudeep S. V. N. V. S., Venkata Kiran S., Nandan D., and Kumar S. An Overview of Biometrics and Face Spoofing Detection. – 2021. – ICCCE 2020. – P. 871–881.

3. Златоустова Л.В., Потапова Р.К., Потапов В.В, и Трунин-Донской В.Н. Общая и прикладная фонетика: Учеб. пособие. – 2-е изд., перераб. и доп. - М. : Изд-во Моск. гос. ун-та, 1997. – 416 с.

4. Mukazhanov N., Alibiyeva Zh., Yerimbetova A., Kassymova A., Alibiyeva N. Development of an augmented damerau–levenshtein method for correcting spelling errors in kazakh texts // Eastern-European Journal of Enter-prise Technologies. – 2023. – Vol. 5. – No. 2(125). – P. 23–33. https://doi.org/10.15587/1729-4061.2023.289187.

5. Амаан Ризви, Анупам Джаматия, Двиджен Рудрапал, Кунал Чакма и Бьёрн Гамбек. CrossLingual Speaker Identification for Indian Languages: Материалы 14-й Международной конференции по последним достижениям в обработке естественного языка, Варна, Болгария, 2023. – С. 979–987.

6. Pati D., and Prasanna S.R.M. Speaker verification using excitation source information // International Journal of Speech Technology. – 2012. – Vol. 15. – No. 3. – P. 241–257.

7. Zeinali H., Sameti H., and Burget L. HMM-based phrase-independent i-vector extractor for textdependent speaker verification: IEEE/ACM Transactions on Audio Speech and Language Processing. – 2017. – Vol. 25. – P. 1421–1435.

8. Meftah A.H., Mathkour H., Kerrache S., and Alotaibi Y.A. Speaker Identification in Different Emotional States in Arabic and English. – 2020. – IEEE Access. – Vol. 8. – P. 60070–60083.

9. Гуртуева И.А., Бжихатлов К.Ч. Аналитический обзор и классификация методов выделения признаков акустического сигнала в речевых системах // Известия Кабардино-Балкарского научного центра РАН. – 2022. – Вып. 1. – С. 41–58. https://doi.org/10.35330/1991-6639-2022-1-105-41-58

10. Белов Ю.С., Нифонтов С.В., Азаренко К.А. Применение вейвлет-фильтрации для шумоподавления в речевых сигналах // Фундаментальные исследования. – 2017. – № 4 (часть 1) – С. 29–33.

11. Huang X., Acero A., and Hon H.W. Spoken Language Processing: A Guide to Theory, Algorithms, and Applications. – Prentice Hall, 2001.

12. Deng L., and Yu D. Deep Learning for Speech Recognition // IEEE Signal Processing Magazine. – 2012. – Vol. 29. – No. 6. – P. 82–97.

13. Zhang Y., and Wu Y. Robust Speech Segmentation using Spectral Clustering: IEEE Transactions on Audio, Speech, and Language Processing. – 2017. – Vol. 25. – No. – P. 91815–1827.

14. Hazen T.J., and Reddy R. Voice Activity Detection: A Review of the Literature // Journal of the Acoustical Society of America. – 2012. – Vol. 132. – No. 5. – P. 2994–3005.

15. Нефедов Н.Н., Алимурадов А.К. Краткий обзор способов обнаружения речевой активности // Инжиниринг и технологии. – 2024. – Т. 9. – № 2. – С. 1–6. https://doi.org/10.21685/2587-7704-2024-9-2-9.

16. Sharma, S., and Goyal, N. A Review of Speech Segmentation Techniques // International Journal of Computer Applications. – 2016. – Vol. 134. – No. 11. – P. 10–14.

17. Sak H., Senior A., and Beaufays F. Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition. Proceedings of the 15th International Conference on Speech and Language Processing (INTERSPEECH), 2014. – pp. 338–342, (2014).

18. Gonzalez J., and Rios M.A Comprehensive Study on Speech Segmentation Approaches // Journal of Signal Processing Systems. – 2014. – Vol. 76. – No. 2. – P. 171–182.

19. Li X., and Zhao C. Improved Speech Segmentation Algorithm Based on GMM and VAD // Journal of the Acoustical Society of America. – 2015. – Vol. 137. – No. 3. – P. 1355–1363.

20. Yin J., and Wang Y. A Novel Method for Speech Segmentation Based on Wavelet Transform // International Journal of Speech Technology. – 2019. – Vol. 22. – No. 3. – P. 483–493.


Рецензия

Для цитирования:


Ахмедиярова А.Т., Алибиева Ж.М., Мукажанов Н.К. СЕГМЕНТАЦИЯ РЕЧИ ВО ВРЕМЯ СООТВЕТСТВИЯ ДИКТОРА. Вестник Казахстанско-Британского технического университета. 2025;22(2):10-23. https://doi.org/10.55452/1998-6688-2025-22-2-10-23

For citation:


Akhmediyarova A.T., Alibiyeva Zh.M., Мukazhanov N.K. SPEECH SEGMENTATION DURING SPEAKER MATCHING. Herald of the Kazakh-British Technical University. 2025;22(2):10-23. (In Kazakh) https://doi.org/10.55452/1998-6688-2025-22-2-10-23

Просмотров: 18


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)