ПОРІВНЯННЯ НЕЙРОННИХ МЕРЕЖ ТИПУ RNN ТА LSTM
DOI:
https://doi.org/10.32782/IT/2024-3-10Ключові слова:
рекурентна нейронна мережа, LSTM, RNN, класифікація настроїв, довгострокові залежностіАнотація
Дослідження спрямоване на виявлення переваг і недоліків різних підходів до обробки послідовних даних, що є важливим аспектом у задачах обробки природної мови, таких як аналіз настроїв, машинний переклад та генерація тексту. Мета роботи. Мета роботи полягає в дослідженні ефективності різних архітектур нейронних мереж для задачі класифікації настроїв, з акцентом на порівнянні моделей RNN та LSTM. Методологія. У роботі розглянуто теоретичні аспекти функціонування рекурентних нейронних мереж (RNN) та мереж довготривалої короткочасної пам’яті (LSTM), які є спеціалізованими варіантами RNN. Було проведено експериментальне порівняння чотирьох різних моделей нейронних мереж, що включають прості рекурентні мережі (RNN), мережі LSTM, а також згорткові нейронні мережі (CNN), які застосовувалися для задачі класифікації настроїв. Для експерименту було обрано набір даних imdb_reviews, що містить огляди фільмів, призначені для бінарної класифікації настроїв (позитивний або негативний відгук). Реалізація та навчання моделей було виконано за допомогою бібліотек TensorFlow та Keras, що забезпечують інструментарій для ефективного виконання машинного навчання. Процес навчання та тестування моделей відбувався із застосуванням стандартних підходів до попередньої обробки текстових даних, таких як токенізація та підготовка послідовностей. Наукова новизна. Показано, що основною перевагою LSTM є здатність вирішувати проблему довгострокових залежностей, що робить їх більш ефективними для задач, де важливо враховувати контекст на довгих послідовностях даних. Експериментально підтверджено, що час навчання рекурентних нейронних мереж суттєво більший порівняно з нерекурентними моделями, проте вони демонструють трохи кращу точність. Висновки. Результати дослідження свідчать про те, що використання LSTM мереж є більш ефективним підходом для вирішення складних задач, які потребують врахування контексту на рівні послідовностей, що перевищують за довжиною типові фрагменти тексту. LSTM переважають їх завдяки здатності зберігати довготривалі залежності, що особливо важливо в задачах, де необхідно враховувати взаємозв’язок між віддаленими елементами даних.
Посилання
Ісаков С. Рекурентна нейронна мережа (RNN): типи, навчання, приклади. URL: https://neurohive.io/ru/osnovy-data-science/rekurrentnye-nejronnye-seti (дата звернення: 15.08.2024).
Глек П. LSTM – мережа довготривалої короткочасної пам’яті. URL: https://neurohive.io/ru/osnovydata-science/lstm-nejronnaja-set (дата звернення: 15.08.2024).
Hochreiter S. Untersuchungen zu dynamischen neuronalen Netzen. Diploma, Technische Universität München, 1991. 31 с.
Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks. 1994. Vol. 5, № 2. С. 157–166.
Hochreiter S., Schmidhuber J. Long Short-Term Memory. Neural Computation. 1997. Vol. 9, № 8. С. 1735–1780.
Gers F.A., Schmidhuber J. Recurrent nets that time and count. Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. IJCNN 2000. Neural Computing: New Challenges and Perspectives for the New Millennium. Como, Italy, 2000. Vol. 3. С. 189–194.
Cho K., van Merrienboer B., Gulcehre C., Bougares F., Schwenk H., Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Conference on Empirical Methods in Natural Language Processing (EMNLP 2014). 2014.
Yao K., Cohn T., Vylomova K., Duh K., Dyer C. Depth-gated recurrent neural networks. arXiv, 2015. URL: http://arxiv.org/abs/1508.03790.
Koutník J., Greff K., Gomez F., Schmidhuber J. A clockwork RNN. 31st International Conference on Machine Learning, ICML 2014. 2014.
Greff K. et al. LSTM: A search space odyssey. IEEE Transactions on Neural Networks and Learning Systems. 2016. Vol. 28, № 10. С. 2222–2232.
Jozefowicz R., Zaremba W., Sutskever I. An Empirical Exploration of Recurrent Network Architectures. Proceedings of the 32nd International Conference on Machine Learning. PMLR 37:2342–2350. 2015.
Xu K. et al. Show, attend and tell: Neural image caption generation with visual attention. International conference on machine learning. PMLR, 2015.