Preview

Қазақстан-Британ техникалық университетінің хабаршысы

Кеңейтілген іздеу

ЖОҒАРЫ ОҚУ ОРНЫНЫҢ ҒЫЛЫМИ АҚПАРАТТЫҚ РЕСУРСТАРЫН ӨҢДЕУДЕ ҚАСИЕТТЕРДІ БӨЛІП АЛУ ЖӘНЕ ТАҢДАУ ӘДІСТЕРІ

Толық мәтін:

Аннотация

Бұл мақалада жоғары оқу орнының ғылыми ақпараттық ресурстарын өңдеуде қасиеттерді бөліп алу және таңдау әдістері қарастырылған. Құрылымдық емес ақпараттық ресурстарды өңдеу процедурасы бірнеше кезеңдерден тұрады: терминологиялық коллокацияларды бөліп алу, қасиеттерді іріктеу, классификация, тақырыптық талдау, құжаттарды кластерлеу және ақпаратты аналитикалық іздеу. Терминологиялық жинақтарды автоматты түрде бөліп алу әдістері пәндік аймақ терминдерінің жиынын қалыптастыру үшін пайдаланылады. Берілген ғылыми мәтіндер жинағына бөлінген терминологиялық коллокациялар жиынтығы осы коллекциялар бойынша белгілі бір пәндік аймақты ғана қамтиды. Кілттік сөздерді автоматты түрде алу және терминологиялық коллокацияларды іріктеу табиғи тілдерді өңдеу мәселесінде негізгі кезеңі болып есептеледі. Осы мақалада ғылыми мәтіндерден терминологиялық коллокацияларды автоматты түрде алу үшін С-value әдісі ұсынылады. C-value шамасын орнату тек бір сөзден көп терминдерді қарастыруға мүмкіндік береді. Осылайша, термин-кандидаттар n-граммдардың тізімін құрастырады (bigrams, trigrams). Статистикалық тәсілге негізделген әдістегі негізгі модификациясы – фильтрлердің морфологиялық шаблондары. Терминдер тәрізді сөз тіркестері сөйлемдерден C-value әдісінің негізінде шығарылады: мәтін бөлінеді; белгіленген шарттарға сай сөз тіркесі мәтіннен алынады; белгіленген шектеулермен таңдалатын барлық термин-кандидаттар үшін жазбалар дерекқорда сақталады. Қасиеттерді таңдау әдістері қасиеттер кеңістігін азайту және сапалы қасиеттер құрамын қалыптастыру мақсатында пайдаланылады. Қасиеттерді таңдау лексикон көлемін азайту негізінде оқытудың тиімділігін арттыруға және шулы қасиеттерді жоюға байланысты классификация дәлдігін қамтамасыз ету арқылы ықпал етеді. Ақпаратсыз терминдерді шығару үшін, яғни, терминдердің маңыздылығын бағалау үшін χ2 критерийі қолданылған. Өңдеуге арналған құжаттар жинағы әртүрлі саладағы журналдарда жарияланған мақалалардан жиналған.

Авторлар туралы

Г. Жомартқызы
Восточно-Казахстанский государственный технический университет им. Д. Серикбаева
Қазақстан


С. Кумаргажанова
Восточно-Казахстанский государственный технический университет им. Д. Серикбаева
Қазақстан


Г. Попова
Восточно-Казахстанский государственный технический университет им. Д. Серикбаева
Қазақстан


Әдебиет тізімі

1. Pivovarova L. M.,Yagunova E. V. (2010). Extraction and classification of terminological collocations on the material of linguistic scientific texts (preliminary observations). In Proceedings of Symposium: “Terminology and knowledge” Russia, Moscow. URL: http://webground.su/data/lit/pivovarova_yagunova/Izvlechenie_i_klassifikatsiya_terminoligicheskih_kollokatsyi.pdf.

2. Sedova Y. A., Kvyatkovskaya I. Y. (2011). Intelligent analysis of corps of scientific information. In Bulletin of the Astrakhan State Technical University. Series: Management, Computing and Informatics, Vol. 1, Russia, P. 128-136.

3. Braslavsky P. Sokolov, Е. A. (2008). Comparison of five methods for extraction of terms of arbitrary length. In Proceedings of International Conference “Dialogue” - Computational Linguistics and Intelligent Technologies, Vol. 7 (14). Russia, P. 67-74.

4. Min J., Josh C. D., Buzhou T., Hongxin C., Hua X. (2012). Extracting semantic lexicons from discharge summaries using machine learning and the C-Value method. Procedding of the AMIA Symposium, P. 409-416.

5. Manning Ch. D., Raghavan P., Schutze H. (2009). Introduction to Information Retrieval.

6. Du M., Chen X. (2013). Accelerated k-nearest neighbors algorithm based on principal component analysis for text categorization. In Journal of Zhejiang University-Science C-Computers & Electronics, Vol. 14 (6), P. 407-416.

7. Shengyi Jiang, Guansong Pang, Meiling Wu, Limin Kuang. (2012). An improved K-nearest-neighbor algorithm for text categorization. In Proceedings of the Expert Systems with AP. lications 39, P. 1503-1509.

8. Jiang J., Tsai Sh., Lee Sh. (2012). FSKNN: Multi-label text categorization based on fuzzy similarity and k nearest neighbors. In Proceedings of the Expert Systems with AP.lications 39, P. 2813-2821.

9. Science journal “Solid State Physics”, url: http://journals.ioffe.ru/ftt/ (date accessed - September 2013).

10. Altin9ay H., Erenel Z. (2010). Analytical evaluation of term weighting schemes for text categorization. In Proceedings of the Pattern Recognition Letters, 1, P. 1310-1323.


Рецензия

Дәйектеу үшін:


Жомартқызы Г.,  ,   ЖОҒАРЫ ОҚУ ОРНЫНЫҢ ҒЫЛЫМИ АҚПАРАТТЫҚ РЕСУРСТАРЫН ӨҢДЕУДЕ ҚАСИЕТТЕРДІ БӨЛІП АЛУ ЖӘНЕ ТАҢДАУ ӘДІСТЕРІ. Қазақстан-Британ техникалық университетінің хабаршысы. 2019;16(3):116-121.

For citation:


Zhomartkyzy G., Kumargazhanova S.K., Popova G.V. METHODS OF IDENTIFICATION AND SELECTION OF CHARACTERISTICS IN THE PROCESSING OF SCIENTIFIC INFORMATION RESOURCES OF THE UNIVERSITY. Herald of the Kazakh-British technical university. 2019;16(3):116-121. (In Russ.)

Қараулар: 288


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)