Preview

Вестник Казахстанско-Британского технического университета

Расширенный поиск

ИНТЕЛЛЕКТУАЛЬНЫЙ МОДУЛЬ ДЛЯ «УМНОГО» НОВОСТНОГО АГРЕГАТОРА

https://doi.org/10.55452/1998-6688-2021-18-1-109-116

Аннотация

В сегодняшнее время все больше людей получают информацию с онлайн ресурсов, таких как новостные порталы, блоги и т.п. С развитием интернет технологий объем публикуемой информации настолько вырос, что стало трудно и долго находить релевантную и интересную информацию. Новостные агрегаторы – это решение, которое предоставляет возможность пользователю получать только свежие и релевантные новости с разных источников. Платформа агрегатора контента собирает информацию со всей сети и публикует ее в одном месте для доступа посетителей. В данной работе представлена интеллектуальная система новостного агрегатора, которая собирает свежие новости с разных источников с помощью канала RSS/Atom и выводит их в одной платформе. В новостном агрегаторе реализован интеллектуальный модуль, который на основе сохраненных пользователями новостей рекомендует похожие новости. Для рекомендации пользователям похожих новостей к новостным заголовкам применяется метод косинусного сходства, который измеряет схожесть двух векторов путем вычисления косинуса угла между этими двумя векторами. Таким образом, новостные заголовки, которые имеют наибольшее значение косинусного сходства, рекомендуются пользователям. К новостным заголовком применяются следующие технологии обработки естественного языка: токенизация, удаление ненужных символов и пунктуаций, преобразование заголовков в вектора с помощью метода TF-IDF. В данной работе были сравнены результаты измерения сходства для самых популярных метрик, таких как косинусное сходство, Евклидово расстояние и расстояние Жаккарда. Результаты сравнения представлены для новостей, полученных через RSS/Atom каналы ресурсов из категорий программирование и бизнес/маркетинг.

Об авторе

Н. А. Ибрагим
Казахский Национальный университет имени аль-Фараби
Казахстан

магистрант



Список литературы

1. Sudatta Chowdhury Monica Landoni. "News aggregator services: user expectations and experience" // Online Information Review.– 2006. – Т 30. –100-115 с.

2. William A. Hanff. News aggregator [Электронный ресурс].-URL: https://www.britannica.com/topic/news-aggregator

3. Агрегатор социальных сетей: материал из Википедии [Электронный ресурс].-URL: https://en.wikipedia.org/wiki/News_aggregator

4. Franziska Zimmer. An Evaluation of the Social News Aggregator Reddit // European Conference on Social Media. – 2018. – Лимерик, Ирландия.

5. Adrienne Erin. 10 social news aggregators to help you reach new audiences [Электронный ресурс].-URL: https://socialnomics.net/2015/01/08/10-social-news-aggregators-to-help-you-reach-new-audiences/

6. Alex Stolz, Martin Hepp. From RDF to RSS and Atom: Content Syndication with Linked Data // 24th ACM Conference on Hypertext and Social Media. – 1-3 Мая 2013. – Париж, Франция.

7. V. Srividhya, R. Anitha. Evaluating Preprocessing Techniques in Text Categorization // International Journal of Computer Science and Application Issue.-2010.

8. Dr. S. Vijayarani, MS. J. Ilamathi, Ms. Nithya. Preprocessing Techniques for Text Mining - An Overview // International Journalof Computer Science & Communication Networks. – Т 5(1). – 7-16 с.

9. Prasoon Singh. Fundamentals of Bag Of Words and TF-IDF [Электронный ресурс].-URL: https://medium.com/analytics-vidhya/fundamentals-of-bag-of-words-and-tf-idf-9846d301ff22

10. Korbinian Koch. A friendly introduction to text clustering [Электронный ресурс].-URL: https://towardsdatascience.com/a-friendly-introduction-to-text-clustering-fa996bcefd04

11. Tan Thongtan, Tanasanee Phienthrakul. Sentiment Classification using Document Embeddings trained with Cosine Similarity // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop.-28 Июля-2 Августа 2019. – Флоренция, Италия. – 407-414 с.

12. Varun. Cosine similarity: How does it measure the similarity, Maths behind and usage in Python [Электронный ресурс].-URL: https://towardsdatascience.com/cosine-similarity-how-does-it-measure-the-similarity-maths-behind-and-usage-in-python-50ad30aad7db

13. Chris Emmery. Euclidean vs. Cosine Distance [Электронный ресурс].-URL: https://cmry.github.io/notes/euclidean-v-cosine#:~:text=Cosine%20similarity%20is%20generally%20used,data%20represented%20by%20word%20counts.

14. Shashank Gupta, Vasudeva Varma. Scientific Article Recommendation by using Distributed Representations of Text and Graph // International World Wide Web Conference Committee (IW3C2). – 2017.

15. Ziwon Hyung, Kibeom Lee, Kyogu Lee. Music recommendation using text analysis on song requests to radio stations // Music and Audio Research Group, Graduate School of Convergence Science and Technology, Seoul National University. – 2013. – Сеул, Корея.


Рецензия

Для цитирования:


Ибрагим Н.А. ИНТЕЛЛЕКТУАЛЬНЫЙ МОДУЛЬ ДЛЯ «УМНОГО» НОВОСТНОГО АГРЕГАТОРА. Вестник Казахстанско-Британского технического университета. 2021;18(1):109-116. https://doi.org/10.55452/1998-6688-2021-18-1-109-116

For citation:


Ibragim N. INTELLIGENT MODULE FOR «SMART» NEWS AGGREGATOR. Herald of the Kazakh-British technical university. 2021;18(1):109-116. (In Russ.) https://doi.org/10.55452/1998-6688-2021-18-1-109-116

Просмотров: 323


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)