ҮЛКЕН ДЕРЕКТЕРДІ ТАЛДАУ ҚҰРАЛДАРЫН ӘНДЕР ЖИЫНТЫҒЫН ҚОЛДАНА САЛЫСТЫРУ
Аңдатпа
Деректердің петабайттарының үлкен репозиторийі күн сайын заманауи ақпараттық жүйелерден және ғылыми деректерді талдаудан, әлеуметтік медиа деректерін өңдеуден, ұсыныс жүйесінен және веб-қызмет журналдарынан талдау сияқты цифрлық технологиялардан жасалады. Деректер білімді анықтауға тікелей бағыттайтын зор күшке ие. Үлкен деректер, өз кезегінде, жаңа тәсілмен өңделуге арналған құралдарды қажет етеді. Бұл массивтік деректерді талдап маңызды деректерді табу және соған сәйкес шешімдер қабылдау көп күш жұмсауды талап етеді. Деректердің үлкен көлемі және оның құрылымдық емес сипаты оны басқару мен өңдеуге қатысты жаңа мәселелерді тудырады. Бұл мақала үлкен деректерді талдаудың ең танымал құралдарының кейбірін қамтиды. Hadoop, Spark және Pig деректерді талдауға бағытталған негізгі және заманауи құрал болып табылады, сондықтан бұл құралдар салыстыру үшін таңдалды. Осы зерттеудің нәтижелері әртүрлі тапсырмалардың әрқилы құралдарды талап ететінін көрсетеді және барлығы бірдей бір платформамен шешілмейді. Үлкен деректермен байланысты кез келген мәселелер бағдарламашылардың сапалы және жылдам жұмыс жасаулары үшін тиісті құралды пайдалануларын қажет етеді.
Авторлар туралы
Р. И. БектемировҚазақстан
Ұ. Т. Нұркей
Қазақстан
Әдебиет тізімі
1. Agneeswaran V. S., Tonpay P., Tiwary J. (2013) Paradigms for realizing machine learning algorithms. Big Data 1 (4) : 207-214
2. https://www.kaggle.com/
3. Lee K.-H., Lee Y.-J., Choi H., Chung Y. D., Moon B. (2012) Parallel data processing with MapReduce: a survey. ACM SIGMOD Record 40 (4) : 11-20
4. Big Data Analysis: Comparison of Hadoop MapReduce, Pig and Hive. Available from: https://www.researchgate.net/publication/308074477_Big_Data_Analysis_Comparision_of_Hadoop_MapReduce_Pig_and_Hive
5. MapReduce vs. Pig vs. Hive - Comparison between the key tools of Hadoop, Available article from: https://www.dezyre.com/article/mapreduce-vs-pig-vs-hive/163
6. Dilpreet Singh and Chandan K. Reddy, “A Survey on Platforms for Big Data Analytics”, Journal of Big Data, 1:1, 8, 2014.
7. https://www.scnsoft.com/blog/spark-vs-hadoop-mapreduce
8. https://dzone.com/articles/hadoop-vs-spark-a-head-to-head-comparison
9. https://www.todaysoftmag.com/article/1553/finding-similar-entities-in-bigdata-models
10. https://neo4j.com/docs/graph-algorithms/current/algorithms/similarity-jaccard/
11. Szmit R. (2013) Locality Sensitive Hashing for Similarity Search Using MapReduce on Large Scale Data. In: Klopotek M. A., Koronacki J., Marciniak M., Mykowiecka A., Wierzchon S. T. (eds) Language Processing and Intelligent Information Systems. IIS 2013. Lecture Notes in Computer Science, vol. 7912. Springer, Berlin, Heidelberg
12. C. Sadowski and G. Levin. Simhash: Hash-based Similarity Detection. Technical report, Technical report, Google, 2007.
13. Tom Kenter , Maarten de Rijke, Short Text Similarity with Word Embeddings, Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, October 18-23, 2015, Melbourne, Australia
Рецензия
Дәйектеу үшін:
Бектемиров Р.И., Нұркей Ұ.Т. ҮЛКЕН ДЕРЕКТЕРДІ ТАЛДАУ ҚҰРАЛДАРЫН ӘНДЕР ЖИЫНТЫҒЫН ҚОЛДАНА САЛЫСТЫРУ. Қазақстан-Британ техникалық университетінің хабаршысы. 2019;16(4):97-104.
For citation:
Bektemirov R.I., Nurkey U.T. COMPARING BIG DATA ANALYTIC TOOLS USING MUSIC DATASET. Herald of the Kazakh-British Technical University. 2019;16(4):97-104.