Hybrid detection of fuzzy duplicate texts: сosine similarity and transformers

Zabolotnia, Tetiana M.; Заболотня, Тетяна Миколаївна; Kozynets, Nazarii V.; Козинець, Назарій Вікторович

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/15089

Название:	Hybrid detection of fuzzy duplicate texts: сosine similarity and transformers
Другие названия:	Гібридне виявлення нечітких текстів-дублікатів: косинусна подібність та трансформери
Авторы:	Zabolotnia, Tetiana M. Заболотня, Тетяна Миколаївна Kozynets, Nazarii V. Козинець, Назарій Вікторович
Ключевые слова:	Hybrid methods fuzzy duplicates cosine similarity transformer models ukrainian language texts content moderation systems гібридні методи нечіткі дублікати косинусна подібність трансформерні моделі українськомовні тексти системи модерації контенту
Дата публикации:	4-Апр-2025
Издательство:	Odessа Polytechnic National University
Краткий осмотр (реферат):	This paper addresses the challenge of detecting texts that share the same meaning but differ in wording and structure. Such “fuzzy duplicates” are increasingly prevalent in user-generated content, media articles, and academic materials. Traditional TF-IDF-based methods with cosine similarity process data swiftly but often overlook deeper semantic nuances, especially in languages with free word order and complex morphology (for example, Slavic languages such as Ukrainian or Bulgarian, and agglutinative languages like Hungarian). Fully neural solutions (e.g., transformers) typically offer higher accuracy yet can be slow and computationally demanding. To tackle these issues, we propose a hybrid approach that integrates a simplified neural component with classical cosine similarity. The workflow normalizes text variants (correcting spelling and inflectional forms), converts them into semantic vectors using a lightweight transformer model, and then applies a dynamic threshold mechanism tuned to text genre (e.g., news vs. social media). Experiments on Ukrainian-language datasets suggest that this method balances accuracy and speed more effectively than a fully neural pipeline. The approach is novel in combining domain-specific preprocessing and lightweight neural embeddings for fuzzy duplicate detection in text, achieving approximately ten to twelve percent higher detection accuracy than known solutions while maintaining faster runtime than a full BERT model. Preliminary tests in editorial and plagiarism-checking scenarios indicate that the system more reliably identifies paraphrased content than purely statistical methods, thereby reducing the burden of manual verification. Overall, the hybrid design offers a practical compromise between detection performance and computational requirements, which is especially beneficial for resource- constrained applications in morphologically rich languages like Ukrainian or other Slavic languages. Future efforts will focus on extending morphological coverage to further improve reliability. Cтаття розглядає проблему виявлення текстів, які мають однаковий зміст, але відрізняються лексикою та побудовою. Такі «нечіткі дублікати» дедалі частіше зустрічаються в контенті, створеному користувачами, медійних статтях та академічних матеріалах. Традиційні методи на основі TF-IDF із косинусною подібністю дозволяють швидко обробляти дані, проте часто оминають глибші семантичні нюанси, особливо в мовах із вільним порядком слів та складною морфологією (наприклад, слов’янські мови, такі як українська чи болгарська, та аглютинативні мови, як угорська). Повністю нейронні рішення (наприклад, трансформери) зазвичай забезпечують вищу точність, але можуть працювати повільно та вимагати значних обчислювальних ресурсів. Щоб вирішити ці проблеми, ми пропонуємо гібридний підхід, який інтегрує спрощений нейронний компонент із класичною косинусною подібністю. Робочий процес включає нормалізацію варіантів тексту (виправлення орфографічних помилок та форм словозмін), перетворення їх на семантичні вектори за допомогою полегшеної моделі трансформера, а потім застосування динамічного механізму порогів, налаштованого під конкретний жанр тексту (наприклад, новинні матеріали проти публікацій у соціальних мережах). Експерименти на наборах даних українською мовою свідчать, що запропонований метод більш ефективно збалансовує точність та швидкість порівняно з повністю нейронним пайплайном. Запропонований підхід є новаторським завдяки поєднанню доменоспецифічної попередньої обробки та полегшених нейронних вбудовувань для виявлення нечітких дублікатів у тексті, що дозволяє досягти приблизно на десять-дванадцять відсотків вищої точності виявлення порівняно з відомими рішеннями при збереженні більш швидкого часу обробки, ніж повна модель BERT. Попередні тести в редакційному середовищі та при перевірці на плагіат показали, що система більш надійно ідентифікує перефразований контент порівняно з чисто статистичними методами, тим самим знижуючи навантаження на ручну перевірку. Загалом, гібридний дизайн пропонує практичний компроміс між продуктивністю виявлення та обчислювальними вимогами, що є особливо корисним для застосувань із обмеженими ресурсами в мовах із багатою морфологією, таких як українська або інші слов’янські мови. Подальші дослідження будуть спрямовані на розширення морфологічного охоплення з метою подальшого підвищення надійності.
URI (Унифицированный идентификатор ресурса):	http://dspace.opu.ua/jspui/handle/123456789/15089
ISSN:	2617-4316 2663-7723
Располагается в коллекциях:	2025, Vol. 8, № 1

Файлы этого ресурса:

Файл	Описание	Размер	Формат
4_Zabolotnia.pdf		709.46 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.