Preview

Вестник Казахстанско-Британского технического университета

Расширенный поиск

СИСТЕМАТИЧЕСКИЙ ОБЗОР И АНАЛИЗ ОСОБЕННОСТЕЙ ИДЕНТИФИКАЦИИ ПО ГОЛОСУ

Аннотация

Идентификация по голосу - это процесс идентификации говорящего по данному высказыванию путем сравнения голосовой биометрии высказывания с теми моделями высказывания, которые были сохранены заранее. Технологии идентификации по голосу получили новое направление благодаря достижениям в области искусственного интеллекта и широко используются в различных областях. Извлечение признаков является одним из наиболее важных аспектов идентификации по голосу, который существенно влияет на процесс и производительность идентификации. Этот систематический обзор проводится для выявления, сравнения и анализа различных подходов, методов и алгоритмов извлечения признаков для идентификации по голосу, чтобы предоставить справочную информацию о подходах извлечения признаков для приложений идентификации по голосу и будущих исследований. В ходе исследования были рассмотрены модели: основанные на шаблонах, основанные на векторном квантовании, динамическом переносе времени, модель гистограмм, стохастические модели, модели гауссовой смеси и скрытая Марковская модель, основанные на Mel-частотных кепстральных коэффициентах, генеративное или векторное квантование, дискриминационные модели (обычно с использованием методов машинного обучения, таких как SVM и ANN). Это исследование показало, что текущая тенденция исследования идентификации заключается в разработке надежной универсальной структуры идентификации по голосу для решения важных проблем идентификации по голосу, таких как адаптивность, сложность, многоязычное распознавание и устойчивость к шуму. Результаты, представленные в этом исследовании, основаны на прошлых публикациях, цитатах и количестве реализаций, причем цитаты являются наиболее актуальными. Эта статья также представляет общий процесс идентификации по голосу.

Об авторах

О. Ж. Мамырбаев
Институт информационных и вычислительных технологий КН МОН РК
Казахстан

PhD



А. С. Кыдырбекова
Институт информационных и вычислительных технологий КН МОН РК
Казахстан


А. Т. Ахмедиярова
Институт информационных и вычислительных технологий КН МОН РК
Казахстан

РhD, ГНС



М. Тұрдалыұлы
Институт информационных и вычислительных технологий КН МОН РК
Казахстан

докторант, НС



Н. О. Мекебаев
Институт информационных и вычислительных технологий КН МОН РК
Казахстан

докторант, НС



Список литературы

1. A. Jain L.Hang and S. Pankanti. “Can multi-biom etrics im prove perform ance,” Proceedings of Auto ID, 59-64, 1999.

2. Dutta, M., Patgiri, C., Sarma, M., & Sarma, K. K. (2015). Closed-set text-independent speaker identification system using multiple ANN classifiers. In Proceedings o f the 3rd international conference on frontiers o f intelligent computing: Theory and applications (FICTA) 2014 (pp. 377-385).

3. Islam, M. R., & Rahman, M. F. (2009). Im provem ent o f text dependent speaker identification system using neuro-genetic hybrid algorithm in office environmental conditions. International Journal o f Com puter Science Issues, 1, 42-48.

4. Kekre, H. B., Athawale, A., & Desai, M. (2011). Speaker identification using row mean vector of spectrogram. In Proceedings o f the international conference and workshop on emerging trends in technology (pp. 171-174).

5. Boujelbene, S. Z., M ezghanni, D. B. A., & Ellouze, N. (2009). Robust text independent speaker identification using hybrid GM M -SVM System. International Journal of Digital Content Technology and its Applications, 3, 103-110.

6. Revathi, A., & Venkataramani, Y (2009). Text independent com posite speaker identification / verification using multiple features. In 2009 W RI W orld congress on com puter science and inform ation engineering: 7 (pp. 257-261).

7. Verma, G. K. (2011). M ulti-feature fusion for closed set text independent speaker identification. In International conference on inform ation intelligence, systems, technology and m anagem ent (pp. 170-179).

8. Richardson, F., Reynolds, D., & Dehak, N. (2015a). Deep neural network approaches to speaker and language recognition. IEEE Signal Processing Letters, 22, 1671-1675.

9. Farrell, K. R., M ammone, R. J., & Assaleh, K. T. (1994). Speaker recognition using neural net­ works and conventional classifiers. IEEE Transactions on speech and audio processing, 2, 194­-205.

10. Hong Kong, China: IEEE. Larcher, A., Lee, K. A., Ma, B., & Li, H. (2014). Text-dependent speak­ er verification: Classifiers, databases and RSR2015. Speech communication, 60, 56-77.

11. Lippmann, R. P. (1989). Review o f neural networks for speech recognition. Neural computation, 1, 1-38.

12. Sidorov, M., Schmitt, A., Zablotskiy, S., & M inker, W. (2013). Survey o f automated speaker identification methods. In 2013 9th international conference on intelligent environm ents (IE) (pp. 236-239).

13. Disken, G., Tufeksi, Z., Saribulut, L., & Cevik, U. (2017). A review on feature extraction for speaker recognition under degraded conditions. IETE Technical Review, 34, 321-332.

14. Rao, K. S., & Sarkar, S. (2014a). Robust speaker verification: A review. In Robust speaker recognition in noisy environm ents (pp. 13-27).

15. Chavan, M., & Chougule, S. (2012). Speaker features and recognition techniques: A review. Inter­national Journal of Computational Engineering Research, 2, 720-728.

16. S. S. Tirumala et al. / Expert Systems With Applications 90 (2017) 250-271.

17. Nagaraja, B. G., & Jayanna, H. S. (2012). M ultilingual speaker identification with the constraint of limited data using multitaper MFCC. In International conference on security in com puter networks and distributed systems (pp. 127-134).

18. Lawson, A., Vabishchevich, P., Huggins, M., Ardis, P., Battles, B., & Stauffer, A. (2011). Survey and evaluation of acoustic features for speaker recognition. In Acoustics, speech and signal processing (ICASSP), 2011 ieee international conference on (pp. 5444-5447).

19. Daoudi, K., Jourani, R., Andre, O. R. e. g., & Aboutajdine, D. (2011). In Speaker identification using discriminative learning of large margin GMM: 6 (pp. 300-307).

20. Shih, P.-Y., Lin, P.-C., Wang, J.-F., & Lin, Y.-N. (2011). Robust several-speaker speech recognition with highly dependable online speaker adaptation and identification. Journal of network and computer applications, 34, 1459-1467.

21. Jiang, S., Frigui, H., & Calhoun, A. W. (2015). Speaker identification in medical simulation data using fisher vector representation. In 2015 IEEE 14th international conference on machine learning and applications (iCM LA) (pp. 197-201).

22. Anguera, X., Bozonnet, S., Evans, N., Fredouille, C., Friedland, G., & Vinyals, O. (2012). Speaker diarization: A review of recent research. IEEE Transactions on Audio, Speech, and Language Processing, 20, 356-370 6.

23. Poignant, J., Besacier, L., & Quenot, G. (2015). Unsupervised speaker identification in TV broad­ cast based on written names. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23, 57-68.

24. Jin, Q., Toth, A. R., Schultz, T., & Black, A. W. (2009). Speaker deidentification via voice transformation (pp. 529-533).

25. Justin, T., Struc, V., Dobrisek, S., Vesnicer, B., Ipsic, I., & Mihelic, F. (2015). In Speaker de-identification using diphone recognition and speech synthesis: 4 (pp. 1-7).

26. Pobar, M., & Ipsic, I. (2014). Online speaker de-identification using voice transformation. In 2014 37th International convention on inform ation and communication technology, electronics and microelectronics (mipro) (pp. 1264-1267).

27. Haigh, J. A., & Mason, J. S. (1993). Robust voice activity detection using cepstral features. In 1993 IEEE Region 10 conference on proceedings. computer, communication, control and power engineering (TEN CO N ’93): 3 (pp. 321-324).

28. Ramir. J., Segura, J. E. C., Ben, I. T. C., De La Torre, A., & Rubio, A. (2004). Efficient voice activity detection algorithm susing long-term speech information. Speech Communication, 42, 271-287.

29. Beigi, H. (2011). Speaker Modeling. In Fundam entals of speaker recognition (pp. 525-541).

30. Ganchev, T. (2011). Contemporary methods for speech parameterization. pp. 233-236.

31. Kawakami, Y , Wang, L., Kai, A., & Nakagawa, S. (2014). Speaker identification by com bining various vocal tract and vocal source features. In International conference on text, speech, and dialogue (pp. 382-389).

32. Kawakami, Y , Wang, L., & Nakagawa, S. (2013). Speaker identification using pseudo pitch synchronized phase information in noisy environments. In 2013 Asia-Pacific on signal and inform a­ tion processing association annual summit and conference (APSIPA) (pp. 1-4).

33. Tanprasert, C., & Achariyakulporn, V. (2000). Comparative study of GMM, DTW, and ANN on Thai speaker identification system. Sixth international conference on spoken language processing, ICSLP 2000 / INTERSPEECH 2000.

34. Luengo, I., Navas, E., Sainz, I. N. A., Saratxaga, I., Sanchez, J., & Odriozola, I. (2008). Text independent speaker identification in multilingual environments. In Proceedings o f the international conference on language resources and evaluation, LREC 2008.

35. Sarma, M., & Sarma, K. K. (2013a). Speaker identification model for Assam ese language using a neural framework. In The 2013 international joint conference on neural networks (IJCNN) (pp. 1-7).

36. Jawarkar, N. P., Holambe, R. S., & Basu, T. K. (2012). Text-independent speaker identification in emotional environments: A classifier fusion approach. In Frontiers in Com puter Education (pp. 569-576).

37. Jawarkar, N. P., Holambe, R. S., & Basu, T. K. (2015). Effect of nonlinear compression function on the performance of the speaker identification system under noisy conditions. In Proceedings of the 2nd International Conference on Perception and Machine Intelligence (pp. 137-144).

38. Nagaraja, B. G., & Jayanna, H. S. (2012). Multilingual speaker identification with the constraint of limited data using m ultitaper MFCC. In International conference on security in com puter networks and distributed systems (pp. 127-134).

39. Wang, L., Zhang, Z., & Kai, A. (2013). Hands-free speaker identification based on spectral subtraction using a multi-channel least mean square approach. In 2013 IEEE international conference on acoustics, speech and signal processing (pp. 7224-7228

40. Busso, C., Hernanz, S., Chu, C.-W., Kwon, S.-i., Lee, S., & Georgiou, P. G. (2005). Smart room: Participant and speaker localization and identification. IEEE International Conference on A coustics, Speech, and Signal Processing: 2. IEEE. Campbell, J. P. (1997). Speaker recognition: A tuto­rial. Proceedings of the IEEE, 85, 1437-1462 6.

41. Sahidullah, M., Chakroborty, S., & Saha, G. (2011). Improving perform ance of speaker identi­fication system using com plementary information fusion. In Proceedings of 17th international conference on advanced com puting and com munications (pp. 182-187).

42. Ahmed, M. Y , Kenkeremath, S., & Stankovic, J. (2015). Socialsense: A collaborative mobile platform for speaker and mood identification. In Wireless sensor networks: 8965 (pp. 68-83).

43. Farhood, Z., & Abdulghafour, M. (2010). Investigation on model selection criteria for speak­er identification. In 2010 International symposium in information technology (ITSim): 2 -6 (pp. 537-541).


Рецензия

Для цитирования:


Мамырбаев О.Ж., Кыдырбекова А.С., Ахмедиярова А.Т., Тұрдалыұлы М., Мекебаев Н.О. СИСТЕМАТИЧЕСКИЙ ОБЗОР И АНАЛИЗ ОСОБЕННОСТЕЙ ИДЕНТИФИКАЦИИ ПО ГОЛОСУ. Вестник Казахстанско-Британского технического университета. 2019;16(2):120-133.

For citation:


Mamyrbayev O., Kydyrbekova A.S., Akhmediyarova А., Turdalyuly M., Mekebayev N. SYSTEMATIC REVIEW AND ANALYSIS OF THE PECULIARITIES OF IDENTIFICATION BY VOICE. Herald of the Kazakh-British technical university. 2019;16(2):120-133. (In Russ.)

Просмотров: 439


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)