MODERN APPROACHES AND TECHNOLOGIES FOR CREATING THESAURUSES OF THE UKRAINIAN AND ENGLISH LANGUAGES: A COMPARATIVE ANALYSIS

Authors

  • Nataliia KOVALENKO Kyiv University of Intellectual Property and Law of the National University “Odesa Law Academy” https://orcid.org/0000-0001-9881-4835
  • Uliana ZHORNOKUI Kyiv University of Intellectual Property and Law of the National University “Odesa Law Academy”

DOI:

https://doi.org/10.32782/IT/2025-1-15

Keywords:

thesaurus, natural language processing, machine learning, corpus linguistics, semantic networks, Ukrainian language, English language.

Abstract

Relevance. The rapid development of information technologies and the growing role of artificial intelligence in natural language processing create new challenges and opportunities in thesaurus development. Comparative research of thesaurus creation technologies for Ukrainian and English languages becomes particularly relevant, considering their structural differences and varying levels of tool development. In the context of globalization and digitalization, quality thesauri have become indispensable for the development of machine translation, information retrieval, and intercultural communication. Objective. To conduct a comparative analysis of modern technologies for creating thesauri of Ukrainian and English languages, identify their common and distinctive features, investigate the peculiarities of applying natural language processing tools and machine learning for each language, and outline the prospects for thesaurus lexicography development in the digital age. Methodology. The study employs a comprehensive approach to analyzing thesaurus creation technologies, including comparative, systemic, and structural methods. A detailed analysis of existing natural language processing tools, machine learning algorithms, and corpus managers has been conducted. Special attention is paid to studying the specifics of applying Word2Vec, BERT, NLTK, and spaCy technologies for Ukrainian and English languages. The peculiarities of working with text corpora and semantic networks for both languages have been investigated. Scientific novelty. For the first time, a systematic comparative analysis of technological features in creating thesauri for Ukrainian and English languages has been conducted, taking into account modern achievements in artificial intelligence and natural language processing. Specific challenges and limitations in creating Ukrainianlanguage thesauri, related to the morphological complexity of the language and limited available resources, have been identified. Conclusions. The research has shown that creating modern thesauri requires combining traditional lexicographic methods with the latest natural language processing and machine learning technologies. Significant differences in the availability and development of tools for English and Ukrainian languages have been revealed, affecting the thesaurus creation process. Promising directions for developing technologies for Ukrainian-language thesauri have been identified, including the creation of specialized language models and expansion of text corpora. The necessity of further development of natural language processing tools considering the specifics of the Ukrainian language has been substantiated.

References

Українська мова: енциклопедія / НАН України, Ін-т мовознав. ім. О. О. Потебні, Ін-т укр. мови; редкол.: В. М. Русанівський [та ін.]. Вид. 2-ге, випр. і допов. Київ : Вид-во «Українська енциклопедія» ім. М. П. Бажана, 2004. 820 с.

Тур О. Лексикографічні витоки сучасних концепцій тезаурусного моделювання термінолексики. Вісник Книжкової палати. 2014. № 8. С. 15–17.

Бісікало О. В., Яхимович О. В. Автоматизоване визначення лексичних онтологій з тезаурусу технічного спрямування. Оптико-електронні інформаційно-енергетичні технології. 2016. № 1. С. 26–38.

Гладун А. Я, Рогушина Ю. В. Основи методології формування тезаурусів з використанням онтологічного та мереологічного аналізу. Штучний інтелект. 2008. № 4. С. 53–61.

British National Corpus http://www.natcorp.ox.ac.uk/ (дата звернення: 21.12.2024).

Corpus of Contemporary American English. URL: https://www.english-corpora.org/coca/ (дата звернення: 21.12.2024).

Word2Vec. URL: https://www.tensorflow.org/text/tutorials/word2vec (дата звернення: 19.12.2024).

GloVe. URL: https://nlp.stanford.edu/projects/glove/ (дата звернення: 19.12.2024).

Кармазіна Л. Л. Методологія розробки та принципи побудови командного тезаурусу. Закарпатські філологічні студії. 2023. Т. 1, вип. 27. С. 198–202.

Sketch Engine. URL: https://www.sketchengine.eu/ (дата звернення: 15.12.2024).

Natural Language Toolkit. URL: https://www.nltk.org/ (дата звернення: 15.12.2024).

spaCy. URL: https://spacy.io/ (дата звернення: 13.12.2024).

Мацюк Г. Р. Інформаційно-пошукові тезауруси: світовий та вітчизняний досвід формування. Бібліотекознавство. Документознавство. Інформологія. 2019. № 2. С. 106–115.

Corpus Workbench. URL: https://cwb.sourceforge.io/ (дата звернення: 14.12.2024).

Hadoop. URL: https://hadoop.apache.org/ (дата звернення: 17.12.2024).

Spark. URL: https://spark.apache.org/ (дата звернення: 11.12.2024).

Google Books Ngrams. URL: https://books.google.com/ngrams/ (дата звернення: 19.12.2024).

Генеральний регіонально анотований корпус української мови (ГРАК) URL: uacorpus.org (дата звернення: 20.12.2024).

Корпус української мови. URL: http://www.mova.info/corpus.aspx?l1=209 (дата звернення: 21.12.2024).

UkTenTen: Ukrainian corpus from the Web. URL: https://www.sketchengine.eu/uktenten-ukrainiancorpus/ (дата звернення: 20.12.2024).

Лабораторія Української (веб-корпус із синтаксичною розміткою). URL: https://www.sketchengine.eu/uktenten-ukrainian-corpus/ (дата звернення: 19.12.2024).

Olizarenko S., Argunov V. On possibilities of multilingual BERTmodel for determining semantic similarities of the news content. Системи управління, навігації та зв’язку. 2020. Вип. 3 (61). С. 94–98.

Kumari K. RoBERTa: A Modified BERT Model for NLP. URL: https://www.comet.com/site/blog/robertaa-modified-bert-model-for-nlp/ (дата звернення: 10.12.2024).

Ukrainian News Classification Experiments. URL: https://github.com/StepanTita/news-contest (дата звернення: 12.12.2024).

XLM-RoBERTa. URL: https://huggingface.co/docs/transformers/ model_doc/xlm-roberta (дата звернення: 15.12.2024).

BERT multilingual base model (cased) URL: https://huggingface.co/google-bert/bert-base-multilingualcased (дата звернення:17.12.2024).

Published

2025-04-30