СИСТЕМА КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ ІЗ ВИКОРИСТАННЯМ ТЕХНОЛОГІЙ BIG DATA
DOI:
https://doi.org/10.32782/IT/2023-2-4Ключові слова:
Big Data, Hadoop, Map Reduce, Apache Spark , алгоритми машинного навчання, системи класифікації, байєсовський класифікатор.Анотація
У роботі було розглянуто модель системи класифікації документів з використанням технології Big Data. При використанні технології Big Data на сервері накопичується великий масив документів, які потрібно попередньо обробити та завантажити у базу даних. В документах потрібно визначити ключові слова за допомогою яких їх потрібно віднести до однієї або декількох тематичних розділів. Крім того розроблена система повинна працювати швидко та передбачати автоматичне навчання. Отже розробка моделей та методів класифікації текстових документів на дійсний час є актуальним завданням. Дуже інтенсивний розвиток цих методів спостерігається в останній час при стрімкому розвитку обчислювальної техніки, та при переході багатьох організацій на електронний документообіг. В результаті дослідження було розроблено метод та модель системи; запропоновано комбінацію підходів для навчання моделі; визначено найбільш продуктивну модель для навчання системи. Метою роботи є проведення аналізу існуючих методів класифікації текстових документів та розробити модель та метод класифікації текстових документів з використанням технології MapRaduce. Методологія вирішення поставленого завдання полягає в проведенні порівняльного аналізу показників продуктивності різних конфігурацій системи, які запроваджені з урахуванням попередніх досліджень моделей систем класифікації документів, які використовують технологію Big Data. Наукова новизна. У роботі запропоноване нове рішення для виконання точної байєсовської класифікації на основі Spark. Цей класифікатор використовує велику кількість операції в пам’яті сервера, щоб класифікувати велику кількість текстових документів на основі великого навчального набору даних з використанням MapReduce. Фаза карти обчислює кількість входжень ключових слів у різних розподілах даних навчання. Після цього кілька редукторів обчислюють вірогідність віднесення документу до певних класів, на підставі обчислень отриманих на етапі карти. Ключовий момент цієї пропозиції полягає в управлінні набором текстових документів, зберігаючи їх в пам’яті, коли це можливо. Висновки. Результати даної роботи можуть бути використані для реалізації ефективної системи класифікації текстової документації, яка використовує точний байєсовської класифікатор, з використання мови програмування Python в поєднанні з сервісом Hadoop Big Data .
Посилання
Gonzalez R.С., Thomason M G. Tree Grammars and Their Application to Pattern Recognition. Tech. Rep. TR-EE/CS-74-10, Electrical Engineering Dept., Univ. of Tennessee, Knoxville. 1974. P. 364.
Gonzalez R С., Thomason M.G. Inference of Tree Grammars for Syntactic Pattern Recognition. Tech. Rept. TR-EE/CS-74-20, Electrical Engineering Dept., University of Tennessee, Knoxville. 1974. P. 160.
Gonzalez R.С., Tou J.Т. Some Results in Minimum-Entropy FeaturExtraction. IEEE Convention Record. Region III. 1968.
Salton G. Another look at automatic text-retrieval systems. Commun. ACM. 1986. № 7. Р. 648–656. 2000. ISBN 951-22-5145-0
Semberecki P., Maciejewski H. Distributed Classification of Text Documents on Apache Spark Platform. International Conference on Artificial Intelligence and Soft Computing. June 2016. P. 621–629. DOI:10.1007/978-3-319-39378-0_53 [Scopus].
I. Pintye, E. Kail, P. Kacsuk, R. Lovas. Big data and machine learning framework for clouds and its usage for text classification. Volume 33. Issue 19. Special Issue: Human oriented solutions for intelligent analysis, multimedia and communication systems (Human Oriented Solutions 2020). Science Gateways Special Issue (Science Gateways 2020) 10 October 2021. https://doi.org/10.1002/cpe.6164.
Ratna S. Chaudhari1 , Seema S. Patil , Smita J. Ghorpade. Classification and clustering methods along with Map Reduce, Apache Spark: a study. IJRAR. November 2020. Volume 7. Issue 4.
Gopalani S., Arora R. Comparing Apache Spark and Map Reduce with Performance Analysis using K-Means. March 2015 International Journal of Computer Applications. 113(1). P. 8–11. DOI:10.5120/19788-0531
Maillo J., Ramírez S., Triguero I., Herrera F. kNN-IS: An Iterative Spark-based design of the k-Nearest Neighbors classifier for big data. June 2016. Knowledge-Based Systems. 1 February 2017. Volume 117. P. 3–15. DOI:10.1016/j.knosys.2016.06.012
Zipf G.K. Human Behavior and the Principle of Least Effort. Cambridge, 1949. P. ix, 3, 5–8.