Preview

Вестник Казахстанско-Британского технического университета

Расширенный поиск

ГЕНЕРАТОР КАЗАХСКИХ ИМЕН С ИСПОЛЬЗОВАНИЕМ DEEP LEARNING

Аннотация

В последние годы анализ настроений сообщений электронной почты или сообщений в социальных сетях становится очень популярным. Это может помочь людям определить, читают ли они что-то положительное или отрицательное. В то же время в Интернете есть несколько служб, которые могут помочь вам найти или создать новое имя. При обработке создания они проверяют имя на других популярных языках, поэтому ваше имя не означает неуместные вещи на других языках. За это они выставляют счет на 25 тысяч долларов США. Если есть такие услуги, то есть спрос. В этом исследовании был проведен анализ настроений электронной почты с использованием лемматизатора StanfordNLP [1] и классических алгоритмов машинного обучения в качестве классификатора. Он применяется к реальным электронным письмам из русскоязычного почтового ящика, что означает наличие как английских, так и русских сообщений. Таким образом, идентификация языка также добавляется в качестве шага предварительной обработки. В этом исследовании был проведен только анализ бинарных настроений, но его можно улучшить, добавив несколько обнаруживаемых эмоций. Затем другая модель генерирует казахские имена, используя нейронные сети, где все казахские имена были собраны через различные веб-сайты. Модель анализа настроений дает точность 81%, а совместное использование двух моделей позволяет нам генерировать новые казахские имена, которые проверяются на русском языке, если они означают что-то неуместное. Результат может быть улучшен путем проверки с другими языками.

Об авторах

Д. Нурмамбетов
университет им. Сулеймана Демиреля
Казахстан

магистрант



С. А. Дауылов
университет им. Сулеймана Демиреля
Казахстан

магистрант



А. В. Богданчиков
университет им. Сулеймана Демиреля
Казахстан

PhD, ассоц. профессор



Список литературы

1. Peng Qi, Timothy Dozat, Yuhao Zhang and Christopher D. Manning. 2018. Universal Dependency Parsing from Scratch in Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pp. 160-170

2. Нұргүл Абай. Балаға еңжиіқойылатын ТОП-20 есімніңмағынасы немесе атқоярда нені ұмыт- паған жөн. Sputniknews.kz. Nov 25, 2018. https://sputniknews.kz/society/20181013/7589294/bala-esim-top-20.html

3. Накипов Мұхамедәлі Асанұлы. Қазақша есімдердің тізімі. Bilim-All.kz. March 12, 2018. https://bilim-all.kz/esimder/all

4. Айнаш Ануарбек. Қазақша қыз есімдері мен олардың мағынасы. April 11, 2017. Yvision.kz. https://yvision.kz/post/763198

5. Stan.kz. Қазақы есімдер. Ұлыңызға қандай есім бердіңіз. Stan.kz. May 12, 2018. https://stan.kz/kazaky-esimder-ulynyzga-kanday-esim-b/

6. Erik Tromp; Mykola Pechenizkiy, “SentiCorr: Multilingual Sentiment Analysis of Personal Correspondence”, 2011 IEEE 11th International Conference on Data Mining Workshops, 2011.

7. R. Miller; E.Y.A. Charles, “A psychological based analysis of marketing email subject lines”, 2016 Sixteenth International Conference on Advances in ICT for Emerging Regions (ICTer), 2016.

8. Muhammad Babar Abbas; Mukarram Khan, “Sentiment Analysis for Automated Email Response System”, 2019 International Conference on Communication Technologies (ComTech), 2019

9. Xiaopeng Yang, Xiaowen Lin, Shunda Suo, Ming Li. Generating Thematic Chinese Poetry using Conditional Variational Autoencoders with Hybrid Decoders. Arxiv Sanity Preserver. 5 Mar 2020. https://arxiv.org/abs/1711.07632v4

10. Анна Слёз. Как выбрать имя ребенку. Koloro brand Design Blog. Dec 4, 2019. https://koloro.ua/blog/brending-i-marketing/sozdanie-imeni-rebenky.html

11. Port of Nakatani Shuyo's language-detection library, Feb 16, 2020 https://pypi.org/project/langdetect/

12. Steven Loria, TextBlob: Simplified Text Processing, April 26, 2020. https://textblob.readthedocs.io/en/dev/

13. Pratima Upadhyay, Removing stop words with NLTK in Python, March 30, 2017. https://www.geeksforgeeks.org/removing-stop-words-nltk-python/

14. Mohamed Afham, “Twitter Sentiment Analysis using NLTK, Python”, towardsdatascience, 2019

15. OLEG YEGOROV, “Why do Russians use parentheses instead of smileys?”, RBTH, 2017. Available: https://www.rbth.com/lifestyle/326858-why-russians-use-parentheses

16. Jeff Hale, Scale, Standardize, or Normalize with Scikit-Learn, Mar 4, 2019. https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02

17. A Ydobon, How to interpret a Classification Report, Jan 25, 2020. https://medium.com/@a.ydobon/justforfunpython-how-to-interpret-a-classification-report-189edc487460

18. Abhishek Sharma, Confusion Matrix in Machine Learning, Dec 13, 2019. https://www.geeksforgeeks.org/confusion-matrix-machine-learning/


Рецензия

Для цитирования:


Нурмамбетов Д., Дауылов С.А., Богданчиков А.В. ГЕНЕРАТОР КАЗАХСКИХ ИМЕН С ИСПОЛЬЗОВАНИЕМ DEEP LEARNING. Вестник Казахстанско-Британского технического университета. 2020;17(4):171-177.

For citation:


Nurmambetov D., Dauylov S., Bogdanchikov A. KAZAKH NAMES GENERATOR USING DEEP LEARNING. Herald of the Kazakh-British technical university. 2020;17(4):171-177.

Просмотров: 2137


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)