СРАВНЕНИЕ АНАЛИТИЧЕСКИХ ИНСТРУМЕНТОВ ДЛЯ БОЛЬШИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ НАБОРА ТЕКСТА ПЕСЕН
Аннотация
Огромное хранилище размерами в петабайты данных генерируется каждый день из современных информационных систем и цифровых технологий, таких как анализ научных данных, анализ данных в социальных сетях, системы рекомендаций и анализ журналов веб-служб. Данные обладают огромной силой, чтобы напрямую направлять нас к обнаружению знаний. Большие данные, в свою очередь, требуют совершенно нового подхода и инструментов для их обработки. Анализ этих массивных данных требует много усилий на разных уровнях для извлечения знаний и дальнейшего принятия решений. Огромные объемы данных и их неструктурированный характер порождают новые проблемы и вопросы, связанные с их управлением и обработкой. В этой статье рассматриваются некоторые из самых популярных инструментов для анализа больших данных – Hadoop, Spark и Pig являются основными и современными инструментами для анализа больших данных, в связи с чем эти инструменты были выбраны для сравнения. Результаты этого исследования показывают, что для различных задач требуются разные инструменты и нет единого решения. Любые проблемы с большими данными нуждаются в том, чтобы разработчики использовали соответствующий инструмент, чтобы сделать работу более качественной и быстрой.
Об авторах
Р. И. БектемировКазахстан
магистрант
У. Т. Нуркей
Казахстан
магистрант
Список литературы
1. Agneeswaran V. S., Tonpay P., Tiwary J. (2013) Paradigms for realizing machine learning algorithms. Big Data 1 (4) : 207-214
2. https://www.kaggle.com/
3. Lee K.-H., Lee Y.-J., Choi H., Chung Y. D., Moon B. (2012) Parallel data processing with MapReduce: a survey. ACM SIGMOD Record 40 (4) : 11-20
4. Big Data Analysis: Comparison of Hadoop MapReduce, Pig and Hive. Available from: https://www.researchgate.net/publication/308074477_Big_Data_Analysis_Comparision_of_Hadoop_MapReduce_Pig_and_Hive
5. MapReduce vs. Pig vs. Hive - Comparison between the key tools of Hadoop, Available article from: https://www.dezyre.com/article/mapreduce-vs-pig-vs-hive/163
6. Dilpreet Singh and Chandan K. Reddy, “A Survey on Platforms for Big Data Analytics”, Journal of Big Data, 1:1, 8, 2014.
7. https://www.scnsoft.com/blog/spark-vs-hadoop-mapreduce
8. https://dzone.com/articles/hadoop-vs-spark-a-head-to-head-comparison
9. https://www.todaysoftmag.com/article/1553/finding-similar-entities-in-bigdata-models
10. https://neo4j.com/docs/graph-algorithms/current/algorithms/similarity-jaccard/
11. Szmit R. (2013) Locality Sensitive Hashing for Similarity Search Using MapReduce on Large Scale Data. In: Klopotek M. A., Koronacki J., Marciniak M., Mykowiecka A., Wierzchon S. T. (eds) Language Processing and Intelligent Information Systems. IIS 2013. Lecture Notes in Computer Science, vol. 7912. Springer, Berlin, Heidelberg
12. C. Sadowski and G. Levin. Simhash: Hash-based Similarity Detection. Technical report, Technical report, Google, 2007.
13. Tom Kenter , Maarten de Rijke, Short Text Similarity with Word Embeddings, Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, October 18-23, 2015, Melbourne, Australia
Рецензия
Для цитирования:
Бектемиров Р.И., Нуркей У.Т. СРАВНЕНИЕ АНАЛИТИЧЕСКИХ ИНСТРУМЕНТОВ ДЛЯ БОЛЬШИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ НАБОРА ТЕКСТА ПЕСЕН. Вестник Казахстанско-Британского технического университета. 2019;16(4):97-104.
For citation:
Bektemirov R.I., Nurkey U.T. COMPARING BIG DATA ANALYTIC TOOLS USING MUSIC DATASET. Herald of the Kazakh-British Technical University. 2019;16(4):97-104.