СУЧАСНІ ПІДХОДИ ТА ВИКЛИКИ У ПОЄДНАННІ ТЕХНОЛОГІЙ OCR ТА NLP ДЛЯ АВТОМАТИЗОВАНОГО АНАЛІЗУ ДРУКОВАНОГО ТЕКСТУ

Автор(и)

DOI:

https://doi.org/10.32782/IT/2025-1-14

Ключові слова:

OCR, NLP, глибоке навчання, трансформери, автоматизований аналіз тексту, багатомовність.

Анотація

У статті розглянуто сучасні підходи до поєднання технологій оптичного OCR та NLP з метою автоматизованого аналізу друкованого тексту. Проведено порівняльний аналіз методів OCR і NLP з акцентом на точність розпізнавання, багатомовну підтримку та контекстуальне розуміння тексту. Особливу увагу приділено нейронним мережам, трансформерним моделям (зокрема TrOCR, BERT, GPT) та алгоритмам глибокого навчання, що забезпечують високу ефективність обробки текстових даних. Запропоновано новий підхід до інтеграції OCR та NLP, який дозволяє підвищити точність і швидкість аналізу, а також адаптувати системи до специфіки різних форматів тексту. Практичне значення дослідження полягає у його застосуванні в галузях освіти, медицини, права та логістики. Визначено основні переваги і виклики таких інтегрованих систем, включаючи обчислювальну складність, чутливість до якості зображень та потребу в якісних навчальних даних. Метою дослідження є розгляд сучасних підходів до інтеграції технологій OCR та NLP для автоматизованого аналізу друкованого тексту. Метою є підвищення точності, ефективності та швидкості обробки таких систем шляхом використання нейронних мереж, трансформерів та алгоритмів машинного навчання. Методологія. У статті проведено порівняльний аналіз існуючих методів OCR і NLP, зосереджений на точності розпізнавання, підтримці багатомовності та контекстному розумінні. У дослідженні оцінюється продуктивність різних підходів залежно від швидкості обробки та адаптивності до різних форматів тексту. Наукова новизна: запропоновано новий підхід до інтеграції OCR-NLP, який оптимізує як точність, так і швидкість обробки. На відміну від традиційних методів, це дослідження акцентує увагу на синергії між передовими технологіями глибокого навчання та звичайними стратегіями розпізнавання тексту. Висновки. Інтеграція технологій OCR і NLP відкриває нові можливості для автоматизованого аналізу друкованого тексту, значно покращуючи точність і ефективність обробки даних. Подальші дослідження мають зосередитися на підвищенні швидкості роботи алгоритмів та їх адаптації до рукописного і багатомовного тексту, що розширить сферу їх застосування та ефективність.

Посилання

Smith R. An Overview of the Tesseract OCR Engine // Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) Vol 2, Curitiba, Parana, Brazil, 23–26 September 2007. P 1–5. https://doi.org/10.1109/icdar.2007.4376991

Martin J. H., Jurafsky D. Speech and Language Processing. 2nd ed. Prentice Hall, 2008. P 1–29.

Teaching Text Classification Models Some Common Sense via Q &A Statistics: A Light and Transplantable Approach / H. Tao et al. Natural Language Processing and Chinese Computing. Cham. Springer International Publishing. 2022. P. 593–605. https://doi.org/10.1007/978-3-031-17120-8_46

Hochreiter S., Schmidhuber J. Long Short-Term Memory. Neural Computation. 1997. Vol. 9, no. 8. P. 1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735

Окунькова О. Сучасні інформаційні технології аналізу україномовних текстів. Вісник Кременчуцького національного університету імені Михайла Остроградського. 2023. No. 1. P. 1–7. https://doi.org/10.32782/1995-0519.2023.1.10

Efficient Estimation of Word Representations in Vector Space / Mikolov T., Chen K., Corrado G., Dean J. 2013. P 1–12.

End-to-End speech recognition: a survey / R. Prabhavalkar та ін. 2023. С. 1–27.

Attention is all you need / A. Vaswani та ін. 2023. С. 1–15.

Confidence-Aware document OCR error detection / A. Hemmer та ін. 2024.

Survey of Post-OCR Processing Approaches / T. T. H. Nguyen et al. ACM Computing Surveys. 2021. Vol. 54, no. 6. P. 1–37. https://doi.org/10.1145/3453476

##submission.downloads##

Опубліковано

2025-04-30