Preview

Қазақстан-Британ техникалық университетінің хабаршысы

Кеңейтілген іздеу

НАҚТЫ АУДИТОРИЯ НЕМЕСЕ МАЗМҰНҒА БАЙЛАНЫСТЫ ТЕКСТ ҚҰРАСТЫРУ СТИЛІН АДАПТАЦИЯЛАУ

https://doi.org/10.55452/1998-6688-2025-22-2-141-154

Толық мәтін:

Аңдатпа

Мәтінді құру стилін белгілі бір аудиторияға немесе мазмұнға бейімдеуге жоғары дәлдіксіз-ақ қол жеткізуге болады. Бұл жұмыста үлгі салмақтарынан бас тартылып, оның орнына: (i) Байес оңтайландыруын қолданып сегіз декодер гиперпараметрі қайталанды; (ii) оқылуды өзгертетін бір жолдық мәнер туралы кеңес қосылды. 8–14B параметрлері бар үш бақылау нүктесі (LLaMA-3.1-8B, DeepSeek-Qwen-8B/14B) және бес математикалық эталон (AQUA-RAT, MathQA, GSM8K, MAWPS, SVAMP) бойынша жүргізілген эксперименттер Optuna-ның 50-сынақтық сәйкестік іздестіру көрсеткіштерін шамамен 3%-ға жақсартқанын көрсетті. 30–70B дәл баптаумен негізгі көрсеткіштермен салыстырғанда 5–10 ұпай айырмашылық байқалды. Сол параметрлер тапсырмалар арасында 2 ұпайдан аз шығынмен қолданылады. Бала аудиториясына бағытталған тақырыпты қосу дәлдікке айтарлықтай әсер етпейді, бірақ Флеш-Кинкейд оқылым ұпайын екі есе төмендетіп, дәлелдеу жолдарын қысқартады. Барлық эксперименттер бір A100 құрылғысында бірнеше GPU сағатында аяқталды, бұл әдісті ресурс шектеулі ортада да тиімді пайдалануға мүмкіндік береді. Зерттеу микробағдарламамен біріктірілген мұқият декодерді басқару қосымша оқыту немесе орнату уақытынсыз сандық дәлдікті және аудиторияға лайықты мәтін ұсынылуын қамтамасыз ететінін көрсетеді.

Авторлар туралы

Ж. Жаңбырбай
Қазақстан-Британ техникалық университеті
Қазақстан

 магистрант 

 Алматы қ. 



И. Aхметов
Ақпараттық және есептеу технологиялары институты
Қазақстан

 PhD, профессор 

 Алматы қ. 



А. Пак
Қазақстан-Британ техникалық университеті
Қазақстан

 PhD, профессор 

 Алматы қ. 



Ә. Жақсылықова
Қазақстан-Британ техникалық университеті
Қазақстан

 докторант 

 Алматы қ. 



П. Комада
Люблин технологиялық университеті
Польша

 PhD, профессор 

Люблин қ. 



Әдебиет тізімі

1. Brown T. et al. Language models are few-shot learners // Advances in neural information processing systems. – 2020. – Vol. 33. – P. 1877–1901.

2. Wei J. et al. Chain-of-thought prompting elicits reasoning in large language models // Advances in neural information processing systems. – 2022. – Vol. 35. – P. 24824–24837.

3. Kojima T. et al. Large language models are zero-shot reasoners // Advances in neural information processing systems. – 2022. – Vol. 35. – P. 22199–22213.

4. Touvron H. et al. Llama: Open and efficient foundation language models //arXiv preprint arXiv:2302.13971. – 2023.

5. Holtzman A. et al. The curious case of neural text degeneration // arXiv preprint arXiv:1904.09751. – 2019.

6. Wu Y. et al. Google’s neural machine translation system: Bridging the gap between human and machine translation // arXiv preprint arXiv:1609.08144. – 2016.

7. Ippolito D. et al. Comparison of diverse decoding methods from conditional language models // arXiv preprint arXiv:1906.06362. – 2019.

8. Bergstra J., Bengio Y. Random search for hyper-parameter optimization // The journal of machine learning research. – 2012. – Vol. 13. – No. 1. – P. 281–305.

9. Snoek J., Larochelle H., Adams R.P. Practical bayesian optimization of machine learning algorithms // Advances in neural information processing systems. – 2012. – Vol. 25.

10. Hutter F., Hoos H. H., Leyton-Brown K. Sequential model-based optimization for general algorithm configuration // Learning and intelligent optimization: 5th international conference, LION 5, Rome, Italy, January 17–21, 2011. selected papers 5. – Springer Berlin Heidelberg, 2011. – P. 507–523.

11. Akiba T. et al. Optuna: A next-generation hyperparameter optimization framework // Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. – 2019. – P. 2623–2631.

12. Falkner S., Klein A., Hutter F. BOHB: Robust and efficient hyperparameter optimization at scale // International conference on machine learning. – PMLR, 2018. – P. 1437–1446.

13. Wang X. et al. H. Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models //The Eleventh International Conference on Learning Representations. – 2023. – Vol. 1.

14. Amini A. et al. Mathqa: Towards interpretable math word problem solving with operation-based formalisms // arXiv preprint arXiv:1905.13319. – 2019.

15. Patel A., Bhattamishra S., Goyal N. Are NLP models really able to solve simple math word problems? //arXiv preprint arXiv:2103.07191. – 2021.

16. Ling W. et al. Program induction by rationale generation: Learning to solve and explain algebraic word problems //arXiv preprint arXiv:1705.04146. – 2017.

17. Cobbe K. et al. Training verifiers to solve math word problems //arXiv preprint arXiv:2110.14168. – 2021.

18. Koncel-Kedziorski R. et al. MAWPS: A math word problem repository //Proceedings of the 2016 conference of the north american chapter of the association for computational linguistics: human language technologies. – 2016. – P. 1152–1157.

19. Gao L. et al. Pal: Program-aided language models // International Conference on Machine Learning. – PMLR, 2023. – P. 10764–10799.

20. Lewkowycz A. et al. Solving quantitative reasoning problems with language models //Advances in Neural Information Processing Systems. – 2022. – Vol. 35. – P. 3843–3857.

21. Hendrycks D. et al. Measuring mathematical problem solving with the math dataset // arXiv preprint arXiv:2103.03874. – 2021.

22. Feurer M., Hutter F. Hyperparameter optimization. – Springer International Publishing, 2019. – P. 3–33.

23. Bergstra J., Yamins D., Cox D. Making a science of model search: Hyperparameter optimization in hundreds of dimensions for vision architectures // International conference on machine learning. – PMLR, 2013. – P. 115–123.

24. Li L. et al. Hyperband: A novel bandit-based approach to hyperparameter optimization // Journal of Machine Learning Research. – 2018. – Vol. 18. – No. 185. – P. 1–52.

25. Fan A., Lewis M., Dauphin Y. Hierarchical neural story generation // arXiv preprint arXiv:1805.04833. – 2018.

26. Keskar N. S. et al. Ctrl: A conditional transformer language model for controllable generation //arXiv preprint arXiv:1909.05858. – 2019.

27. Pillutla K. et al. Mauve: Measuring the gap between neural text and human text using divergence frontiers // Advances in Neural Information Processing Systems. – 2021. – Vol. 34. – P. 4816–4828.

28. Shi C. et al. A thorough examination of decoding methods in the era of llms // arXiv preprint arXiv:2402.06925. – 2024.


Рецензия

Дәйектеу үшін:


Жаңбырбай Ж., Aхметов И., Пак А., Жақсылықова Ә., Комада П. НАҚТЫ АУДИТОРИЯ НЕМЕСЕ МАЗМҰНҒА БАЙЛАНЫСТЫ ТЕКСТ ҚҰРАСТЫРУ СТИЛІН АДАПТАЦИЯЛАУ. Қазақстан-Британ техникалық университетінің хабаршысы. 2025;22(2):141-154. https://doi.org/10.55452/1998-6688-2025-22-2-141-154

For citation:


Zhangbyrbay Zh., Akhmetov I., Pak A., Jaxylykova A., Komada P. ADAPTATION OF TEXT GENERATION STYLE TO A SPECIFIC AUDIENCE OR CONTENT. Herald of the Kazakh-British Technical University. 2025;22(2):141-154. https://doi.org/10.55452/1998-6688-2025-22-2-141-154

Қараулар: 15


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)