Preview

Вестник Казахстанско-Британского технического университета

Расширенный поиск

МЕТОДЫ ВЫЯВЛЕНИЯ И ВЫБОРА ПРИЗНАКОВ ПРИ ОБРАБОТКЕ НАУЧНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ ВУЗА

Аннотация

В данной работе рассматриваются методы выявления и выбора признаков при обработке научных информационных ресурсов вуза. Процедура по обработки неструктурированных информационных ресурсов состоит из нескольких этапов: извлечение терминологических коллокаций, выбор признаков, классификация, тематическое аннотирование, кластеризация документов и аналитический информационный поиск. Методы автоматического извлечения терминологических коллокаций используются для формирования подмножества терминов предметной области. Множество терминологических коллокаций, выделяемое на заданной коллекции научных текстов, характеризует узкую предметную область этой коллекции. Автоматическое извлечение ключевых слов и терминологических коллокаций является основным этапом в задачах обработки естественного языка. Для автоматического извлечения терминологических коллокаций из научных текстов в данной работе рассматривается метод С-value. Установленное ограничение значения C-value позволит рассматривать только термины длиной более одного слова. Полученные таким образом термины-кандидаты формируют список n-грамм (биграммы, триграммы). Основная модификация метода, основанного на статистическом подходе, заключается в предварительном использовании морфологических шаблонов фильтров. Словосочетания, похожие на термины, извлекаются из текста с помощью метода C-value: проводится разделение текста; из текста извлекаются словосочетания, удовлетворяющие установленным условиям; для всех терминов-кандидатов, отобранных по установленному ограничению, создаются записи в базе данных. Методы выбора признаков применяются для сокращения размерности пространства признаков с целью формирования наиболее информативного состава. Выбор признаков способствует повышению эффективности обучения за счет уменьшения размера лексикона и точности классификации благодаря исключению шумовых признаков. Для удаления неинформативных терминов, т.е. для оценки важности терминов, выбран критерий χ2. Корпус документов для обработки собран из статей, опубликованных в журналах по различным направлениям.

Об авторах

Г. Жомарткызы
Восточно-Казахстанский государственный технический университет им. Д. Серикбаева
Казахстан

PhD, доцент



С. К. Кумаргажанова
Восточно-Казахстанский государственный технический университет им. Д. Серикбаева
Казахстан

к. т. н.



Г. В. Попова
Восточно-Казахстанский государственный технический университет им. Д. Серикбаева
Казахстан

к. ф.-м. н., доцент



Список литературы

1. Pivovarova L. M.,Yagunova E. V. (2010). Extraction and classification of terminological collocations on the material of linguistic scientific texts (preliminary observations). In Proceedings of Symposium: “Terminology and knowledge” Russia, Moscow. URL: http://webground.su/data/lit/pivovarova_yagunova/Izvlechenie_i_klassifikatsiya_terminoligicheskih_kollokatsyi.pdf.

2. Sedova Y. A., Kvyatkovskaya I. Y. (2011). Intelligent analysis of corps of scientific information. In Bulletin of the Astrakhan State Technical University. Series: Management, Computing and Informatics, Vol. 1, Russia, P. 128-136.

3. Braslavsky P. Sokolov, Е. A. (2008). Comparison of five methods for extraction of terms of arbitrary length. In Proceedings of International Conference “Dialogue” - Computational Linguistics and Intelligent Technologies, Vol. 7 (14). Russia, P. 67-74.

4. Min J., Josh C. D., Buzhou T., Hongxin C., Hua X. (2012). Extracting semantic lexicons from discharge summaries using machine learning and the C-Value method. Procedding of the AMIA Symposium, P. 409-416.

5. Manning Ch. D., Raghavan P., Schutze H. (2009). Introduction to Information Retrieval.

6. Du M., Chen X. (2013). Accelerated k-nearest neighbors algorithm based on principal component analysis for text categorization. In Journal of Zhejiang University-Science C-Computers & Electronics, Vol. 14 (6), P. 407-416.

7. Shengyi Jiang, Guansong Pang, Meiling Wu, Limin Kuang. (2012). An improved K-nearest-neighbor algorithm for text categorization. In Proceedings of the Expert Systems with AP. lications 39, P. 1503-1509.

8. Jiang J., Tsai Sh., Lee Sh. (2012). FSKNN: Multi-label text categorization based on fuzzy similarity and k nearest neighbors. In Proceedings of the Expert Systems with AP.lications 39, P. 2813-2821.

9. Science journal “Solid State Physics”, url: http://journals.ioffe.ru/ftt/ (date accessed - September 2013).

10. Altin9ay H., Erenel Z. (2010). Analytical evaluation of term weighting schemes for text categorization. In Proceedings of the Pattern Recognition Letters, 1, P. 1310-1323.


Рецензия

Для цитирования:


Жомарткызы Г., Кумаргажанова С.К., Попова Г.В. МЕТОДЫ ВЫЯВЛЕНИЯ И ВЫБОРА ПРИЗНАКОВ ПРИ ОБРАБОТКЕ НАУЧНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ ВУЗА. Вестник Казахстанско-Британского технического университета. 2019;16(3):116-121.

For citation:


Zhomartkyzy G., Kumargazhanova S.K., Popova G.V. METHODS OF IDENTIFICATION AND SELECTION OF CHARACTERISTICS IN THE PROCESSING OF SCIENTIFIC INFORMATION RESOURCES OF THE UNIVERSITY. Herald of the Kazakh-British technical university. 2019;16(3):116-121. (In Russ.)

Просмотров: 281


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)