СУЧАСНИЙ СТАН ТА ПЕРСПЕКТИВИ РОЗВИТКУ МЕТОДІВ ОБРОБЛЕННЯ ГЕТЕРОГЕННИХ ПОТОКОВИХ ДАНИХ
DOI:
https://doi.org/10.32782/IT/2023-1-13Ключові слова:
гетерогенні потокові дані, обробка потоків, аналітика в реальному часі, периферійні обчислення, Інтернет речей, машинне навчання, квантові обчисленняАнотація
Оброблення гетерогенних потокових даних — це сфера досліджень і розробок у сфері аналітики даних, що в наш час розвивається доволі стрімко. Поширення різноманітних джерел даних, включаючи соціальні медіа, сенсорні мережі та пристрої Інтернету речей (IoT) призвело до зростання неоднорідності потокових даних з точки зору типів даних, форматів та швидкості їх генерації. Це створює значні труднощі в обробленні та аналізі даних у реальному часі для виділення корисної інформації. Різноманітність типів даних, форматів і швидкості генерування потокових даних створює нові завдання, вирішення яких потребує застосування передових методів і алгоритмів для ефективного оброблення й аналізу. Потоки даних можуть складатися з різних типів даних, таких як текст, зображення, відео, дані з датчиків і публікації в соціальних мережах, кожен зі своїми унікальними характеристиками та структурою. Потоки даних можуть надходити в різних форматах, включаючи структуровані, напівструктуровані та неструктуровані дані, для яких можуть знадобитися різні підходи до оброблення. Крім того, швидкість, з якою генеруються потоки даних, може змінюватися: від високошвидкісних потоків даних, які вимагають обробки в реальному часі, до низькошвидкісних потоків даних, які дозволяють пакетне оброблення. Щоб вирішувати проблеми неоднорідності потокових даних, потрібні надійні методи, які можуть обробляти дані різних типів, форматів і швидкостей, щоб забезпечити точний і значущий аналіз даних у реальному часі. У цьому огляді аналізуються поточні дослідження та публікації з оброблення гетерогенних потокових даних. У статті розглядаються проблеми та можливості оброблення потоків різних типів даних у режимі реального часу. Розглянуто останні дослідження та публікації в цій галузі, включно з досягненнями в структурах потокової обробки, алгоритмах машинного навчання, периферійних обчисленнях, Інтернеті речей, штучному інтелекті та квантових обчисленнях. Стаття містить огляд сучасного стану та перспектив розвитку оброблення гетерогенних потокових даних; представлені провідні сучасні дослідження, включаючи ключові висновки та ідеї. Наведено перспективи та пропозиції подальших досліджень та інновацій у даній галузі, підкреслюючи необхідність розв'язання таких проблем, як неоднорідність даних, швидкість передачі даних, дрейф концепції, конфіденційність і безпека, потенціал квантових обчислень для оброблення даних у реальному часі.
Посилання
Bajić, B. et al. (2019) «Edge Computing vs. Cloud Computing: Challenges and Opportunities in Industry 4.0», p. 0864-0871. Available at: https://doi.org/10.2507/30th.daaam.proceedings.120.
Nadeem, M., Lee, U, S. and Younus, M. (2022) «A Comparison of Recent Requirements Gathering and Management Tools in Requirements Engineering for IoT-Enabled Sustainable Cities», Sustainability, 14(4), p. 2427. Available at: https://doi.org/10.3390/su14042427.
Seng, P, K. et al. (2022) «Artificial Intelligence (AI) and Machine Learning for Multimedia and Edge Information Processing», Electronics, 11(14), p. 2239. Available at: https://doi.org/10.3390/electronics11142239.
Aydar, M. and Ayvaz, S. (2017) «A Suggestion-Based RDF Instance Matching System», International Journal of Computer Theory and Engineering, 9(5), p. 380-384. Available at: https://doi.org/10.7763/ijcte.2017.v9.1170.
Majeed, A. and Hwang, O, S. (2023) «Quantifying the Vulnerability of Attributes for Effective Privacy Preservation Using Machine Learning», IEEE Access, 11, p. 4400-4411. Available at: https://doi.org/10.1109/access.2023.3235016.
Díaz, O, A. et al. (2015) «Fast Adapting Ensemble: A New Algorithm for Mining Data Streams with Concept Drift», The Scientific World Journal, 2015, p. 1-14. Available at: https://doi.org/10.1155/2015/235810.
Ribeiro, T, M., Singh, S. and Guestrin, C. (2016) Local Interpretable Model-Agnostic Explanations (LIME): An Introduction. Available at: https://www.oreilly.com/content/introduction-to-local-interpretable-modelagnostic-explanations-lime/.
SHAP vs. LIME vs. Permutation Feature Importance - Medium (no date). Available at: https://pub.towardsai.net/model-explainability-shap-vs-lime-vs-permutation-feature-importance-98484efba066.
Doan, Q. et al. (2020) «Integration of IoT Streaming Data With Efficient Indexing and Storage Optimization», IEEE Access, 8, p. 47456-47467. Available at: https://doi.org/10.1109/access.2020.2980006.
Zhu, Y. et al. (2022) «Deep Learning in Diverse Intelligent Sensor Based Systems», Sensors, 23(1), p. 62. Available at: https://doi.org/10.3390/s23010062.
Maximizing Collaboration Through Secure Data Sharing - Accenture (no date). Available at: https://www.accenture.com/us-en/insights/digital/maximize-collaboration-secure-data-sharing.