ПРИМЕНЕНИЕ МЕТРИКИ BLEU И SARI В ОЦЕНКЕ УПРОЩЕННЫХ ТЕКСТОВ НА КАЗАХСКОМ ЯЗЫКЕ: АНАЛИЗ И ЭФФЕКТИВНОСТЬ
https://doi.org/10.55452/1998-6688-2025-22-1-36-43
Аннотация
В данной статье рассматривается методика оценки качества упрощенных текстов на казахском языке с использованием метрик BLEU и SARI. Упрощение текстов является важным аспектом для обеспечения доступности информации и облегчения процесса обучения на казахском языке. Метрика BLEU, основанная на сравнении n-грамм перевода и эталона, широко используется для оценки качества машинного перевода, но не учитывает контекст входного текста. Метрика SARI, специально разработанная для оценки упрощения текста, учитывает изменения в семантике и демонстрирует более высокую корреляцию с оценками человека. В рамках исследования были применены алгоритмы замены сложных слов простыми синонимами и алгоритмы замены или удаления сложных фраз. Результаты анализа показали, что метрика SARI более чувствительна к изменениям, внесенным в упрощенные тексты, по сравнению с BLEU. Таким образом, комбинированное использование метрик BLEU и SARI обеспечивает всестороннюю и точную оценку качества упрощенных текстов на казахском языке.
Ключевые слова
Об авторах
С. Т. НұрсапаКазахстан
магистрант
г. Алматы
И. М. Уалиева
Казахстан
к.ф.-м.н., ассоциированный профессор
г. Алматы
Список литературы
1. Jiang, Chao, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu. Comput. Res. Repos., 2020. https://doi.org/10.48550/arXiv.2005.02324
2. Lindstrom, Jennifer H. Teaching Exceptional Children, 2019, vol. 51, pp. 189–200. https://doi.org/10.1177/0040059918763712.
3. Xu W., Callison-Burch C., Napoles C. Transactions of the Association for Computational Linguistics, 2015, vol. 3, pp. 283–297. https://doi.org/10.1162/tacl_a_00139.
4. Suha S. Al-Thanyyan, Aqil M. Azmi. ACM Comput. Surv., 2021, 36 p. https://doi.org/10.1145/3442695.
5. Papineni K., Roukos S., Ward T., Zhu W.-J. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics – ACL ’02, 2001, p. 311. https://doi.org/10.3115/1073083.1073135.
6. Xu, Wei, Napoles, Courtney, Pavlick, Ellie, Chen, Quanze, Callison-Burch, Chris. Transactions of the Association for Computational Linguistics, 2016, pp. 401–415. https://doi.org/10.1162/tacl_a_00107.
7. Narayan S., Gardent C. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014, vol. 1, pp. 435–445. https://doi.org/10.3115/v1/P14-1041.
8. Sulem E., Abend O., Rappoport A. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018, pp. 738–744. https://doi.org/10.18653/v1/D18-1081.
9. 1Sulem E., Abend O., Rappoport A. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2018, vol. 1, pp. 685–696. https://doi.org/10.48550/arXiv.1810.05022.
10. Qonaqjailyqqa negızdelgen qazaq ūlttyq ashanasy, soyle.kz, 2024. Available: https://www.soyle.kz/article/view?id=879. [Accessed: 26-Nov- 2024] [in Kazakh]
11. 1Janfada B., Minaei-Bidgoli B. 6th International Conference on Web Research (ICWR), 2020, p. 271. https://doi.org/10.1109/ICWR49608.2020.9122325.
Рецензия
Для цитирования:
Нұрсапа С.Т., Уалиева И.М. ПРИМЕНЕНИЕ МЕТРИКИ BLEU И SARI В ОЦЕНКЕ УПРОЩЕННЫХ ТЕКСТОВ НА КАЗАХСКОМ ЯЗЫКЕ: АНАЛИЗ И ЭФФЕКТИВНОСТЬ. Вестник Казахстанско-Британского технического университета. 2025;22(1):36-43. https://doi.org/10.55452/1998-6688-2025-22-1-36-43
For citation:
Nursapa S.T., Ualiyeva I.M. APPLICATION OF BLEU AND SARI METRICS IN EVALUATING SIMPLIFIED TEXTS IN KAZAKH: ANALYSIS AND EFFECTIVENESS. Herald of the Kazakh-British technical university. 2025;22(1):36-43. (In Russ.) https://doi.org/10.55452/1998-6688-2025-22-1-36-43