Preview

Қазақстан-Британ техникалық университетінің хабаршысы

Кеңейтілген іздеу

DEEP LEARNING ТЕХНОЛОГИЯСЫН ПАЙДАЛАНУ АРҚЫЛЫ ҚАЗАҚША АТАУЛАРЫНЫҢ ГЕНЕРАТОРЫ

Толық мәтін:

Аңдатпа

Соңғы жылдары электрондық поштаның хабарламаларын немесе әлеуметтік желілердегі хабарламаларды талдау өте қарқынды өсіп келеді. Бұл адамдарға жағымды немесе жағымсыз мәліметтерді оқып жатқандығын анықтауға көмектеседі. Сонымен қатар Интернетте жаңа атау табуға немесе жасауға көмектесетін бірнеше қызметтер бар. Шығарманы өңдеу кезінде олар басқа танымал тілдердегі атауды тексереді, сондықтан сіздің атыңыз басқа тілдердегі келеңсіздікті білдірмейді. Бұл үшін олар 25 мың АҚШ долларын талап етеді. Мұндай қызметтердің болуы, сұраныс тудырады. Осы зерттеуде StanfordNLP [1] лемматизаторы мен классикалық машиналарды оқыту алгоритмдерін классификатор ретінде қарастырып, электрондық пошталардың пікірлеріне жүгіндік. Ол орыс тілінде сөйлейтін пошта жәшігіндегі нақты электрондық хаттарға қолданылады, яғни ағылшын және орыс тілдерінде де бар. Осыған орай тілдік сәйкестендіру, сондай-ақ алдын ала өңдеу қадамы ретінде қосылады. Зерттеу барысында тек бинарлық көңілүйге талдау жасалды, бірақ оны анықтауға бірнеше эмоциялар қосып жақсартуға болады. Содан кейін тағы бір модель нейрондық желілерді қолдана отырып, қазақша атауларды жасайды, мұнда барлық қазақ атаулары туралы мәліметтер әртүрлі веб-сайттар арқылы жиналады. Сезім талдауы моделі 81% дәлдік береді және екі модельдің бірігіп пайдаланылуы сәйкессіздік мағынаны білдірсе, онда орыс тілімен тексерілетін жаңа қазақша атауларды шығаруға мүмкіндік береді. Басқа тілдермен салыстыра тексергенде, нәтижесін жақсарта аламыз.

Авторлар туралы

Д. Нурмамбетов
университет им. Сулеймана Демиреля
Қазақстан


С. Дауылов
университет им. Сулеймана Демиреля
Қазақстан


А. Богданчиков
университет им. Сулеймана Демиреля
Қазақстан


Әдебиет тізімі

1. Peng Qi, Timothy Dozat, Yuhao Zhang and Christopher D. Manning. 2018. Universal Dependency Parsing from Scratch in Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pp. 160-170

2. Нұргүл Абай. Балаға еңжиіқойылатын ТОП-20 есімніңмағынасы немесе атқоярда нені ұмыт- паған жөн. Sputniknews.kz. Nov 25, 2018. https://sputniknews.kz/society/20181013/7589294/bala-esim-top-20.html

3. Накипов Мұхамедәлі Асанұлы. Қазақша есімдердің тізімі. Bilim-All.kz. March 12, 2018. https://bilim-all.kz/esimder/all

4. Айнаш Ануарбек. Қазақша қыз есімдері мен олардың мағынасы. April 11, 2017. Yvision.kz. https://yvision.kz/post/763198

5. Stan.kz. Қазақы есімдер. Ұлыңызға қандай есім бердіңіз. Stan.kz. May 12, 2018. https://stan.kz/kazaky-esimder-ulynyzga-kanday-esim-b/

6. Erik Tromp; Mykola Pechenizkiy, “SentiCorr: Multilingual Sentiment Analysis of Personal Correspondence”, 2011 IEEE 11th International Conference on Data Mining Workshops, 2011.

7. R. Miller; E.Y.A. Charles, “A psychological based analysis of marketing email subject lines”, 2016 Sixteenth International Conference on Advances in ICT for Emerging Regions (ICTer), 2016.

8. Muhammad Babar Abbas; Mukarram Khan, “Sentiment Analysis for Automated Email Response System”, 2019 International Conference on Communication Technologies (ComTech), 2019

9. Xiaopeng Yang, Xiaowen Lin, Shunda Suo, Ming Li. Generating Thematic Chinese Poetry using Conditional Variational Autoencoders with Hybrid Decoders. Arxiv Sanity Preserver. 5 Mar 2020. https://arxiv.org/abs/1711.07632v4

10. Анна Слёз. Как выбрать имя ребенку. Koloro brand Design Blog. Dec 4, 2019. https://koloro.ua/blog/brending-i-marketing/sozdanie-imeni-rebenky.html

11. Port of Nakatani Shuyo's language-detection library, Feb 16, 2020 https://pypi.org/project/langdetect/

12. Steven Loria, TextBlob: Simplified Text Processing, April 26, 2020. https://textblob.readthedocs.io/en/dev/

13. Pratima Upadhyay, Removing stop words with NLTK in Python, March 30, 2017. https://www.geeksforgeeks.org/removing-stop-words-nltk-python/

14. Mohamed Afham, “Twitter Sentiment Analysis using NLTK, Python”, towardsdatascience, 2019

15. OLEG YEGOROV, “Why do Russians use parentheses instead of smileys?”, RBTH, 2017. Available: https://www.rbth.com/lifestyle/326858-why-russians-use-parentheses

16. Jeff Hale, Scale, Standardize, or Normalize with Scikit-Learn, Mar 4, 2019. https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02

17. A Ydobon, How to interpret a Classification Report, Jan 25, 2020. https://medium.com/@a.ydobon/justforfunpython-how-to-interpret-a-classification-report-189edc487460

18. Abhishek Sharma, Confusion Matrix in Machine Learning, Dec 13, 2019. https://www.geeksforgeeks.org/confusion-matrix-machine-learning/


Рецензия

Дәйектеу үшін:


 ,  ,   DEEP LEARNING ТЕХНОЛОГИЯСЫН ПАЙДАЛАНУ АРҚЫЛЫ ҚАЗАҚША АТАУЛАРЫНЫҢ ГЕНЕРАТОРЫ. Қазақстан-Британ техникалық университетінің хабаршысы. 2020;17(4):171-177.

For citation:


Nurmambetov D., Dauylov S., Bogdanchikov A. KAZAKH NAMES GENERATOR USING DEEP LEARNING. Herald of the Kazakh-British Technical University. 2020;17(4):171-177.

Қараулар: 2144


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)