СУЧАСНІ ПІДХОДИ ТА ТЕХНОЛОГІЇ СТВОРЕННЯ ТЕЗАУРУСІВ УКРАЇНСЬКОЇ ТА АНГЛІЙСЬКОЇ МОВИ: КОМПАРАТИВНИЙ АНАЛІЗ

Автор(и)

  • Наталія КОВАЛЕНКО Київський університет інтелектуальної власності та права Національного університету «Одеська юридична академія» https://orcid.org/0000-0001-9881-4835
  • Уляна ЖОРНОКУЙ Київський університет інтелектуальної власності та права Національного університету «Одеська юридична академія»

DOI:

https://doi.org/10.32782/IT/2025-1-15

Ключові слова:

тезаурус, обробка природної мови, машинне навчання, корпусна лінгвістика, семантичні мережі, українська мова, англійська мова.

Анотація

Актуальність. Стрімкий розвиток інформаційних технологій та зростаюча роль штучного інтелекту в обробці природної мови створюють нові виклики та можливості у сфері створення тезаурусів. Особливої актуальності набуває порівняльне дослідження технологій створення тезаурусів для української та англійської мов, враховуючи їхні структурні відмінності та різний рівень розвитку відповідного інструментарію. В умовах глобалізації та діджиталізації якісні тезауруси стають незамінними для розвитку машинного перекладу, інформаційного пошуку та міжкультурної комунікації. Мета. Здійснити порівняльний аналіз сучасних технологій створення тезаурусів української та англійської мов, визначити їхні спільні та відмінні риси, дослідити особливості застосування інструментів обробки природної мови та машинного навчання для кожної з мов, а також окреслити перспективи розвитку тезаурусної лексикографії в умовах цифрової епохи. Методологія. У дослідженні застосовано комплексний підхід до аналізу технологій створення тезаурусів, що включає порівняльний, системний та структурний методи. Проведено детальний аналіз існуючих інструментів обробки природної мови, алгоритмів машинного навчання та корпусних менеджерів. Особлива увага приділена вивченню специфіки застосування технологій Word2Vec, BERT, NLTK, spaCy для української та англійської мов. Досліджено особливості роботи з корпусами текстів та семантични- ми мережами для обох мов. Наукова новизна. Вперше проведено системний порівняльний аналіз технологічних особливостей створення тезаурусів української та англійської мов з урахуванням сучасних досягнень у сфері штучного інтелекту та обробки природної мови. Визначено специфічні виклики та обмеження у створенні україно- мовних тезаурусів, пов’язані з морфологічною складністю мови та обмеженістю доступних ресурсів. Висновки. Дослідження показало, що створення сучасних тезаурусів вимагає поєднання традиційних лексикографічних методів із новітніми технологіями обробки природної мови та машинного навчання. Виявлено суттєві відмінності у доступності та розвиненості інструментарію для англійської та української мов, що впливає на процес створення тезаурусів. Визначено перспективні напрямки розвитку технологій для україномовних тезаурусів, включаючи створення спеціалізованих мовних моделей та розширення корпусів текстів. Обґрунтовано необхідність подальшого розвитку інструментів обробки природної мови з урахуванням специфіки української мови.

Посилання

Українська мова: енциклопедія / НАН України, Ін-т мовознав. ім. О. О. Потебні, Ін-т укр. мови; редкол.: В. М. Русанівський [та ін.]. Вид. 2-ге, випр. і допов. Київ : Вид-во «Українська енциклопедія» ім. М. П. Бажана, 2004. 820 с.

Тур О. Лексикографічні витоки сучасних концепцій тезаурусного моделювання термінолексики. Вісник Книжкової палати. 2014. № 8. С. 15–17.

Бісікало О. В., Яхимович О. В. Автоматизоване визначення лексичних онтологій з тезаурусу технічного спрямування. Оптико-електронні інформаційно-енергетичні технології. 2016. № 1. С. 26–38.

Гладун А. Я, Рогушина Ю. В. Основи методології формування тезаурусів з використанням онтологічного та мереологічного аналізу. Штучний інтелект. 2008. № 4. С. 53–61.

British National Corpus http://www.natcorp.ox.ac.uk/ (дата звернення: 21.12.2024).

Corpus of Contemporary American English. URL: https://www.english-corpora.org/coca/ (дата звернення: 21.12.2024).

Word2Vec. URL: https://www.tensorflow.org/text/tutorials/word2vec (дата звернення: 19.12.2024).

GloVe. URL: https://nlp.stanford.edu/projects/glove/ (дата звернення: 19.12.2024).

Кармазіна Л. Л. Методологія розробки та принципи побудови командного тезаурусу. Закарпатські філологічні студії. 2023. Т. 1, вип. 27. С. 198–202.

Sketch Engine. URL: https://www.sketchengine.eu/ (дата звернення: 15.12.2024).

Natural Language Toolkit. URL: https://www.nltk.org/ (дата звернення: 15.12.2024).

spaCy. URL: https://spacy.io/ (дата звернення: 13.12.2024).

Мацюк Г. Р. Інформаційно-пошукові тезауруси: світовий та вітчизняний досвід формування. Бібліотекознавство. Документознавство. Інформологія. 2019. № 2. С. 106–115.

Corpus Workbench. URL: https://cwb.sourceforge.io/ (дата звернення: 14.12.2024).

Hadoop. URL: https://hadoop.apache.org/ (дата звернення: 17.12.2024).

Spark. URL: https://spark.apache.org/ (дата звернення: 11.12.2024).

Google Books Ngrams. URL: https://books.google.com/ngrams/ (дата звернення: 19.12.2024).

Генеральний регіонально анотований корпус української мови (ГРАК) URL: uacorpus.org (дата звернення: 20.12.2024).

Корпус української мови. URL: http://www.mova.info/corpus.aspx?l1=209 (дата звернення: 21.12.2024).

UkTenTen: Ukrainian corpus from the Web. URL: https://www.sketchengine.eu/uktenten-ukrainiancorpus/ (дата звернення: 20.12.2024).

Лабораторія Української (веб-корпус із синтаксичною розміткою). URL: https://www.sketchengine.eu/uktenten-ukrainian-corpus/ (дата звернення: 19.12.2024).

Olizarenko S., Argunov V. On possibilities of multilingual BERTmodel for determining semantic similarities of the news content. Системи управління, навігації та зв’язку. 2020. Вип. 3 (61). С. 94–98.

Kumari K. RoBERTa: A Modified BERT Model for NLP. URL: https://www.comet.com/site/blog/robertaa-modified-bert-model-for-nlp/ (дата звернення: 10.12.2024).

Ukrainian News Classification Experiments. URL: https://github.com/StepanTita/news-contest (дата звернення: 12.12.2024).

XLM-RoBERTa. URL: https://huggingface.co/docs/transformers/ model_doc/xlm-roberta (дата звернення: 15.12.2024).

BERT multilingual base model (cased) URL: https://huggingface.co/google-bert/bert-base-multilingualcased (дата звернення:17.12.2024).

##submission.downloads##

Опубліковано

2025-04-30