НЕЙРОМЕРЕЖЕВИЙ ПОШУК І КЛАСИФІКАЦІЯ КІБЕРЗАЛЯКУВАНЬ У ТЕКСТОВИХ ПОВІДОМЛЕННЯХ

Автор(и)

DOI:

https://doi.org/10.32782/IT/2024-4-23

Ключові слова:

кіберзалякування, репрезентативність, інтерпретація результатів, BERT, LIME.

Анотація

У статті висвітлено проблему пошуку і класифікації кіберзалякувань у текстових повідомленнях, що є одним із ключових викликів сучасного інформаційного суспільства. Актуальність дослідження зумовлена необхідністю створення ефективних систем, здатних забезпечувати точне, етичне та прозоре нейромережеве виявлення кіберзалякувань. Особливе значення приділяється адаптації таких систем до чутливих тем, як дискримінація за віковими, етнічними, гендерними та релігійними ознаками. Мета роботи полягає у створенні комплексного методу до нейромережевих пошуку і класифікації кіберзалякувань у текстових повідомленнях, який передбачає забезпечення репрезентативності даних у датасеті, що використовується для навчання моделі, дотримання етичного принципу справедливості в розробці моделі та можливість інтерпретації результатів моделі щодо типів виявлених кіберзалякувань. Новизна запропонованого підходу полягає у створенні нового методу, який дозволяє не тільки оцінювати наявність кібербулінгу в текстових повідомленнях, але й визначати з високою точністю прояв кожного з видів кібербулінгу, забезпечуючи формування репрезентативно збалансованих датасетів для навчання нейромережевих моделей, що виконується у три етапи. На першому етапі проводиться оцінка репрезентативності датасету для навчання нейромережевих моделей для задачі виявлення та класифікації кіберзалякувань. Зокрема, метод дозволяє мінімізувати відхилення у розподілі даних за класами, що досягає максимуму лише 0,04%. На другому етапі використовуються моделі нейромережевої класифікації: BiLSTM для бінарної класифікації кіберзалякувань, яка демонструє точність 96%, та BERT для мультилейблової класифікації за різними типами кіберзалякувань з точністю 94%. Третій етап передбачає застосування моделі LIME, яка забезпечує візуальну інтерпретацію рішень нейромережі, дозволяючи користувачам отримати пояснення кожного виявленого типу кіберзалякувань. Методологія дослідження базується на поєднанні сучасних підходів до машинного навчання, якісного аналізу репрезентативності даних та використання інтерпретаційних моделей. Інтеграція цих підходів спрямована на створення прозорих і довірених систем виявлення кіберзалякувань, що можуть бути застосовані у реальних умовах. Результати демонструють ефективність запропонованого методу, який не лише підвищує точність і прозорість процесу виявлення та класифікації кіберзалякувань, але й відповідає Цілям Сталого Розвитку № 5, № 10 та № 16, що дозволяє запропонованому комплексному методу бути релевантним для використання в системах, де етичність і точність є важливими.

Посилання

Teng T. H., Varathan, K. D. Cyberbullying detection in social networks: A comparison between machine learning and transfer learning approaches. IEEE Access, vol. 11, 2023. С. 55533–55560.

Unnava S., Parasana S. R. A Study of Cyberbullying Detection and Classification Techniques: A Machine Learning Approach. Engineering, Technology & Applied Science Research, 14(4), 2024. P. 15607–15613.

Pagano T. P., Loureiro R. B., Lisboa F.V.N., Peixoto R. M., Guimarães G.A.S., Cruz G.O.R., Araujo M. M., Santos L. L., Cruz M.A.S., Oliveira E.L.S. Bias and Unfairness in Machine Learning Models: A Systematic Review on Datasets, Tools, Fairness Metrics, and Identification and Mitigation Methods. Big Data Cogn. Comput., 7(1), 2023. P. 15.

Собко О. В. Метод інтелектуального пошуку кіберзалякувань у текстовому контенті. Розвитки інформаційно-керуючих систем та технологій: монографія. Львів-Торунь: Lina-Pres, 2024. С. 267–287.

Krak I., Zalutska O., Molchanova M., Mazurets O., Bahrii R., Sobko O., Barmak O. Abusive Speech Detection Method for Ukrainian Language Used Recurrent Neural Network. CEUR Workshop Proceedings. Vol. 3688, 2024. С. 16–28.

Harish D., Alamelu M., Manimaran M. Automatic Detection of Cyberbullying on Social Media Using Machine Learning. In 2023 2nd International Conference on Advancements in Electrical, Electronics, Communication, Computing and Automation (ICAECA), 2023. С. 1–6.

Orrù G., Galli A., Gattulli V., Gravina M., Micheletto M., Marrone S., Sansone C. Development of Technologies for the Detection of (Cyber) Bullying Actions: The BullyBuster Project. Information, 14(8), 430, 2023.

Samee N. A., Khan U., Khan S., Jamjoom M. M., Sharif M., Kim D. H. Safeguarding Online Spaces: A Powerful Fusion of Federated Learning, Word Embeddings, and Emotional Features for Cyberbullying Detection. IEEE Access, vol. 11, 2023. С. 124524–124541.

Kaggle.com. Cyberbullying Classification, 2021. URL: https://www.kaggle.com/datasets/andrewmvd/ cyberbullying-classification?resource=download. Дата останнього звернення: 2024/12/02.

Kaggle.com. CyberBullying Detection Dataset, 2024. URL: https://www.kaggle.com/datasets/sayankr007/cyber-bullying-data-for-multi-label-classification. Дата останнього звернення: 2024/12/02.

Kaggle.com. Tweet Files for Gender Guessing, 2019. URL: https://www.kaggle.com/datasets/aharless/tweet-files-for-gender-guessing. Дата останнього звернення: 2024/12/02.

Live.european-language-grid.eu. TAG-it Dataset Distribution, 2024. URL: https://live.europeanlanguage-grid.eu/catalogue/corpus/8112/download. Дата останнього звернення: 2024/12/02.

Cyberbullying Tweets. URL: https://www.kaggle.com/datasets/soorajtomar/cyberbullying-tweets. Last accessed: 2024/10/27. Дата останнього звернення: 2024/12/02.

Idss.org.ua. Національні демографічні прогнози 2023. URL: https://idss.org.ua/forecasts/nation_pop_proj. Дата останнього звернення: 2024/12/02.

##submission.downloads##

Опубліковано

2025-02-18