ВИЯВЛЕННЯ ПЛАГІАТУ В ТЕКСТІ, ЗГЕНЕРОВАНОГО ВЕЛИКИМИ МОВНИМИ МОДЕЛЯМИ
DOI:
https://doi.org/10.32782/IT/2024-4-2Ключові слова:
ChatGPT, академічна недоброчесність, велика мовна модель, виявлення плагіату, генерація тексту, налаштування моделі.Анотація
Для виявлення тексту, згенерованого за допомогою великих мовних моделей, існують різні підходи, на основі яких розроблені такі алгоритми, як DetectGPT, RADAR, Ghostbuster, GPT-Sentinel та інші для виявлення контенту, згенерованого штучним інтелектом. Хоча автоматизована перевірка може виявити певний плагіат, дослідження показують, що програмне забезпечення для пошуку текстів не тільки не знаходить весь плагіат, але й позначає оригінальний контент як плагіат, надаючи таким чином хибнопозитивні результати. Найсучасніші детектори згенерованого тексту демонструють значне погіршення продуктивності, коли стикаються з текстами, створеними людьми, які не є носіями англійської мови. Метою дослідження є підвищення точності і надійності виявлення тексту, створеного штучним інтелектом, особливо в освітньому середовищі, де плагіат та академічна недоброчесність стають усе більш актуальними через використання генеративних мовних моделей. Методологія дослідження базується на загальнонаукових методах аналізу та синтезу, експериментальному тестуванні та кількісному аналізі ефективності мовної моделі, призначеної для перевірки тексту на наявність плагіату. Наукова новизна дослідження полягає в адаптації сучасних методів виявлення плагіату для надійної класифікації текстів, створених штучним інтелектом, у контексті української мови. Для цього створено новий датасет на основі перефразованих текстових фрагментів, згенерованих ChatGPT, та налаштовано модель для класифікації тексту. Ефективність моделі оцінена за допомогою трьох різних оціночних метрик: показника F1, частоти хибно позитивних спрацювань і частоти хибно негативних спрацювань. Результати дослідження показують, що налаштована модель ефективно виявляє відмінності між двома типами тексту, надають певне представлення про сильні та слабкі сторони моделі і демонструють її потенціал для застосування для практичних задач. Подальше дослідження полягає у зборі даних з іншим контекстом, щоб оцінити точність налаштованої моделі для різних задач обробки природної мови.
Посилання
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature / E. Mitchell et al. Proceedings of Machine Learning Research : Proceedings of the 40th International Conference on Machine Learning, 3 July 2023. Honolulu, Hawaii, USA, 2023. P. 24950-24962. DOI: 10.48550/arXiv.2301.11305
RADAR: Robust AI-Text Detection via Adversarial Learning / X. Hu et al. Advances in Neural Information Processing Systems, 10-16 December 2023. Vol. 36. New Orleans, USA, 2023. P. 15077–15095. DOI: 10.48550/arXiv.2307.03838
Ghostbuster: Detecting Text Ghostwritten by Large Language Models / V. Verma et al. North American Chapter of the Association for Computational Linguistics. USA, 2023. 16 p. (arXiv preprint). DOI: 10.48550/arXiv.2305.15047
GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content / Y. Chen et al. 2023. 18 p. (arXiv preprint). DOI: 10.48550/arXiv.2305.07969
Cai S., Cui W. Evade ChatGPT Detectors via A Single Space. 2023. 12 p. (arXiv preprint). DOI: 10.48550/arXiv.2307.02599
Cross-domain detection of gpt-2-generated technical text / J. Rodriguez et al. Human Language Technologies: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics, July 2022. Seattle, USA, 2022. P. 1213–1233. URL: https://aclanthology.org/2022.naacl-main.88 (дата звернення: 07.09.2024)
DeepHider: A Multi-module and Invisibility Watermarking Scheme for Language Model / L. Dai et al. 2022. 16 p. (arXiv preprint). DOI: 10.48550/arXiv.2208.04676
A Watermark for Large Language Models / J. Kirchenbauer et al. Proceedings of Machine Learning Research : Proceedings of the 40th International Conference on Machine Learning, 3 July 2023. Honolulu, Hawaii, USA, 2023. 26 p. DOI: 10.48550/arXiv.2301.10226
Can AI-Generated Text be Reliably Detected? / V.S. Sadasivan et al. 2023. 34 p. (arXiv preprint). DOI: 10.48550/arXiv.2303.11156
Large Language Models can be Guided to Evade AI-Generated Text Detection / N. Lu et al. 2023. 29 p. (arXiv preprint). DOI:10.48550/arXiv.2305.10847
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense / K. Krishna et al. Advances in Neural Information Processing Systems, 10-16 December 2023. Vol. 36. New Orleans, USA, 2023. P. 27469-27500. DOI: 10.48550/arXiv.2303.13408
Authorship Obfuscation in Multilingual Machine-Generated Text Detection / D. Macko et al. 2024. 21 p. (arXiv preprint). DOI: 10.48550/arXiv.2401.07867
Foltynek T., Meuschke N., Gipp B. Academic plagiarism detection: a systematic literature review. Association for Computing Machinery Computing Surveys (CSUR). Vol. 52(6). USA, 2019. p. 1–42. DOI: 10.1145/3345317
Survey on Plagiarism Detection in Large Language Models: The Impact of ChatGPT and Gemini on Academic Integrity / S. Pudasaini et al. 2024. 23 p. (arXiv preprint). URL: https://arxiv.org/pdf/2407.13105 (дата звернення: 10.10.2024)
Jawahar G., Abdul-Mageed M., Lakshmanan L. V. Automatic detection of machine generated text: A critical survey. Proceedings of the 28th International Conference on Computational Linguistics, December 2020. Barcelona, Spain, 2020. P. 2296–2309. URL: https://aclanthology.org/2020.coling-main.208 (дата звернення: 10.10.2024)
Chaplynskyi D. Introducing UberText 2.0: A Corpus of Modern Ukrainian at Scale. Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), May 2023. Dubrovnik, Croatia, 2023. P. 1–10. URL: https://aclanthology.org/2023.unlp-1.1 (дата звернення: 21.09.2024)
mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer / L. Xue et al. Human Language Technologies : Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics, June 2021. USA, 2021. P. 483-498. DOI: 10.18653/v1/2021.naacl-main.41
GPT-2 Output Detector Demo. URL: https://openai-openai-detector.hf.space/ (дата звернення: 27.08.2024)
AI Detector – the Original AI Checker for ChatGPT & More. URL: https://gptzero.me/ (дата звернення: 27.08.2024)