Preview

Вестник Казахстанско-Британского технического университета

Расширенный поиск

АДАПТАЦИЯ СТИЛЯ СОЗДАНИЯ ТЕКСТА К КОНКРЕТНОЙ АУДИТОРИИ ИЛИ СОДЕРЖАНИЮ

https://doi.org/10.55452/1998-6688-2025-22-2-141-154

Аннотация

Адаптация стиля генерации текста к конкретной аудитории или содержанию может быть достигнута без дорогостоящей тонкой настройки. Мы отказываемся от модельных весов и вместо этого (i) перебираем восемь гиперпараметров декодера с помощью байесовской оптимизации и (ii) добавляем однострочную стилевую подсказку, которая изменяет удобочитаемость. Эксперименты на пяти математических бенчмарках (AQUA-RAT, MathQA, GSM8K, MAWPS, SVAMP) с тремя контрольными точками с параметрами 8-14 B (LLaMA-3.1-8B, DeepSeek-Qwen-8B/14B) показали, что 50-пробный поиск Optuna повышает точность точного соответствия на 36 процентных пунктов и закрывает 5–10 пунктов разрыва с базовыми точками с точной настройкой 30–70 B. Те же настройки переносятся между задачами с потерей менее двух пунктов. Добавление заголовка, ориентированного на детей, оставляет точность практически неизменной, вдвое снижая уровень оценки по Флешу-Кинкейду и сокращая трассы рассуждений. Все эксперименты укладываются в несколько GPU-часов на одном A100, что делает метод практичным для развертывания в условиях ограниченных ресурсов. Исследование демонстрирует, что тщательный контроль декодера в сочетании с микропрограммами обеспечивает численную корректность и приемлемое для аудитории изложение без дополнительного времени на обучение или настройку.

Об авторах

Ж. Жанбырбай
Казахстанско-Британский технический университет
Казахстан

магистрант 

г. Алматы 



И. Aхметов
Институт информационных и вычислительных технологий
Казахстан

PhD, профессор 

г. Алматы 



А. Пак
Казахстанско-Британский технический университет
Казахстан

 PhD, профессор 

 г. Алматы



А. Джаксылыкова
Казахстанско-Британский технический университет
Казахстан

 докторант 

г. Алматы



П. Комада
Люблинский технологический университет
Польша

PhD, профессор 

г. Люблин



Список литературы

1. Brown T. et al. Language models are few-shot learners // Advances in neural information processing systems. – 2020. – Vol. 33. – P. 1877–1901.

2. Wei J. et al. Chain-of-thought prompting elicits reasoning in large language models // Advances in neural information processing systems. – 2022. – Vol. 35. – P. 24824–24837.

3. Kojima T. et al. Large language models are zero-shot reasoners // Advances in neural information processing systems. – 2022. – Vol. 35. – P. 22199–22213.

4. Touvron H. et al. Llama: Open and efficient foundation language models //arXiv preprint arXiv:2302.13971. – 2023.

5. Holtzman A. et al. The curious case of neural text degeneration // arXiv preprint arXiv:1904.09751. – 2019.

6. Wu Y. et al. Google’s neural machine translation system: Bridging the gap between human and machine translation // arXiv preprint arXiv:1609.08144. – 2016.

7. Ippolito D. et al. Comparison of diverse decoding methods from conditional language models // arXiv preprint arXiv:1906.06362. – 2019.

8. Bergstra J., Bengio Y. Random search for hyper-parameter optimization // The journal of machine learning research. – 2012. – Vol. 13. – No. 1. – P. 281–305.

9. Snoek J., Larochelle H., Adams R.P. Practical bayesian optimization of machine learning algorithms // Advances in neural information processing systems. – 2012. – Vol. 25.

10. Hutter F., Hoos H. H., Leyton-Brown K. Sequential model-based optimization for general algorithm configuration // Learning and intelligent optimization: 5th international conference, LION 5, Rome, Italy, January 17–21, 2011. selected papers 5. – Springer Berlin Heidelberg, 2011. – P. 507–523.

11. Akiba T. et al. Optuna: A next-generation hyperparameter optimization framework // Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. – 2019. – P. 2623–2631.

12. Falkner S., Klein A., Hutter F. BOHB: Robust and efficient hyperparameter optimization at scale // International conference on machine learning. – PMLR, 2018. – P. 1437–1446.

13. Wang X. et al. H. Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models //The Eleventh International Conference on Learning Representations. – 2023. – Vol. 1.

14. Amini A. et al. Mathqa: Towards interpretable math word problem solving with operation-based formalisms // arXiv preprint arXiv:1905.13319. – 2019.

15. Patel A., Bhattamishra S., Goyal N. Are NLP models really able to solve simple math word problems? //arXiv preprint arXiv:2103.07191. – 2021.

16. Ling W. et al. Program induction by rationale generation: Learning to solve and explain algebraic word problems //arXiv preprint arXiv:1705.04146. – 2017.

17. Cobbe K. et al. Training verifiers to solve math word problems //arXiv preprint arXiv:2110.14168. – 2021.

18. Koncel-Kedziorski R. et al. MAWPS: A math word problem repository //Proceedings of the 2016 conference of the north american chapter of the association for computational linguistics: human language technologies. – 2016. – P. 1152–1157.

19. Gao L. et al. Pal: Program-aided language models // International Conference on Machine Learning. – PMLR, 2023. – P. 10764–10799.

20. Lewkowycz A. et al. Solving quantitative reasoning problems with language models //Advances in Neural Information Processing Systems. – 2022. – Vol. 35. – P. 3843–3857.

21. Hendrycks D. et al. Measuring mathematical problem solving with the math dataset // arXiv preprint arXiv:2103.03874. – 2021.

22. Feurer M., Hutter F. Hyperparameter optimization. – Springer International Publishing, 2019. – P. 3–33.

23. Bergstra J., Yamins D., Cox D. Making a science of model search: Hyperparameter optimization in hundreds of dimensions for vision architectures // International conference on machine learning. – PMLR, 2013. – P. 115–123.

24. Li L. et al. Hyperband: A novel bandit-based approach to hyperparameter optimization // Journal of Machine Learning Research. – 2018. – Vol. 18. – No. 185. – P. 1–52.

25. Fan A., Lewis M., Dauphin Y. Hierarchical neural story generation // arXiv preprint arXiv:1805.04833. – 2018.

26. Keskar N. S. et al. Ctrl: A conditional transformer language model for controllable generation //arXiv preprint arXiv:1909.05858. – 2019.

27. Pillutla K. et al. Mauve: Measuring the gap between neural text and human text using divergence frontiers // Advances in Neural Information Processing Systems. – 2021. – Vol. 34. – P. 4816–4828.

28. Shi C. et al. A thorough examination of decoding methods in the era of llms // arXiv preprint arXiv:2402.06925. – 2024.


Рецензия

Для цитирования:


Жанбырбай Ж., Aхметов И., Пак А., Джаксылыкова А., Комада П. АДАПТАЦИЯ СТИЛЯ СОЗДАНИЯ ТЕКСТА К КОНКРЕТНОЙ АУДИТОРИИ ИЛИ СОДЕРЖАНИЮ. Вестник Казахстанско-Британского технического университета. 2025;22(2):141-154. https://doi.org/10.55452/1998-6688-2025-22-2-141-154

For citation:


Zhangbyrbay Zh., Akhmetov I., Pak A., Jaxylykova A., Komada P. ADAPTATION OF TEXT GENERATION STYLE TO A SPECIFIC AUDIENCE OR CONTENT. Herald of the Kazakh-British Technical University. 2025;22(2):141-154. https://doi.org/10.55452/1998-6688-2025-22-2-141-154

Просмотров: 13


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)