eONPUIR

Hybrid detection of fuzzy duplicate texts: сosine similarity and transformers

Показать сокращенную информацию

dc.contributor.author Zabolotnia, Tetiana M.
dc.contributor.author Заболотня, Тетяна Миколаївна
dc.contributor.author Kozynets, Nazarii V.
dc.contributor.author Козинець, Назарій Вікторович
dc.date.accessioned 2025-04-17T20:46:28Z
dc.date.available 2025-04-17T20:46:28Z
dc.date.issued 2025-04-04
dc.identifier.issn 2617-4316
dc.identifier.issn 2663-7723
dc.identifier.uri http://dspace.opu.ua/jspui/handle/123456789/15089
dc.description.abstract This paper addresses the challenge of detecting texts that share the same meaning but differ in wording and structure. Such “fuzzy duplicates” are increasingly prevalent in user-generated content, media articles, and academic materials. Traditional TF-IDF-based methods with cosine similarity process data swiftly but often overlook deeper semantic nuances, especially in languages with free word order and complex morphology (for example, Slavic languages such as Ukrainian or Bulgarian, and agglutinative languages like Hungarian). Fully neural solutions (e.g., transformers) typically offer higher accuracy yet can be slow and computationally demanding. To tackle these issues, we propose a hybrid approach that integrates a simplified neural component with classical cosine similarity. The workflow normalizes text variants (correcting spelling and inflectional forms), converts them into semantic vectors using a lightweight transformer model, and then applies a dynamic threshold mechanism tuned to text genre (e.g., news vs. social media). Experiments on Ukrainian-language datasets suggest that this method balances accuracy and speed more effectively than a fully neural pipeline. The approach is novel in combining domain-specific preprocessing and lightweight neural embeddings for fuzzy duplicate detection in text, achieving approximately ten to twelve percent higher detection accuracy than known solutions while maintaining faster runtime than a full BERT model. Preliminary tests in editorial and plagiarism-checking scenarios indicate that the system more reliably identifies paraphrased content than purely statistical methods, thereby reducing the burden of manual verification. Overall, the hybrid design offers a practical compromise between detection performance and computational requirements, which is especially beneficial for resource- constrained applications in morphologically rich languages like Ukrainian or other Slavic languages. Future efforts will focus on extending morphological coverage to further improve reliability. en
dc.description.abstract Cтаття розглядає проблему виявлення текстів, які мають однаковий зміст, але відрізняються лексикою та побудовою. Такі «нечіткі дублікати» дедалі частіше зустрічаються в контенті, створеному користувачами, медійних статтях та академічних матеріалах. Традиційні методи на основі TF-IDF із косинусною подібністю дозволяють швидко обробляти дані, проте часто оминають глибші семантичні нюанси, особливо в мовах із вільним порядком слів та складною морфологією (наприклад, слов’янські мови, такі як українська чи болгарська, та аглютинативні мови, як угорська). Повністю нейронні рішення (наприклад, трансформери) зазвичай забезпечують вищу точність, але можуть працювати повільно та вимагати значних обчислювальних ресурсів. Щоб вирішити ці проблеми, ми пропонуємо гібридний підхід, який інтегрує спрощений нейронний компонент із класичною косинусною подібністю. Робочий процес включає нормалізацію варіантів тексту (виправлення орфографічних помилок та форм словозмін), перетворення їх на семантичні вектори за допомогою полегшеної моделі трансформера, а потім застосування динамічного механізму порогів, налаштованого під конкретний жанр тексту (наприклад, новинні матеріали проти публікацій у соціальних мережах). Експерименти на наборах даних українською мовою свідчать, що запропонований метод більш ефективно збалансовує точність та швидкість порівняно з повністю нейронним пайплайном. Запропонований підхід є новаторським завдяки поєднанню доменоспецифічної попередньої обробки та полегшених нейронних вбудовувань для виявлення нечітких дублікатів у тексті, що дозволяє досягти приблизно на десять-дванадцять відсотків вищої точності виявлення порівняно з відомими рішеннями при збереженні більш швидкого часу обробки, ніж повна модель BERT. Попередні тести в редакційному середовищі та при перевірці на плагіат показали, що система більш надійно ідентифікує перефразований контент порівняно з чисто статистичними методами, тим самим знижуючи навантаження на ручну перевірку. Загалом, гібридний дизайн пропонує практичний компроміс між продуктивністю виявлення та обчислювальними вимогами, що є особливо корисним для застосувань із обмеженими ресурсами в мовах із багатою морфологією, таких як українська або інші слов’янські мови. Подальші дослідження будуть спрямовані на розширення морфологічного охоплення з метою подальшого підвищення надійності. en
dc.language.iso en en
dc.publisher Odessа Polytechnic National University en
dc.subject Hybrid methods en
dc.subject fuzzy duplicates en
dc.subject cosine similarity en
dc.subject transformer models en
dc.subject ukrainian language texts en
dc.subject content moderation systems en
dc.subject гібридні методи en
dc.subject нечіткі дублікати en
dc.subject косинусна подібність en
dc.subject трансформерні моделі en
dc.subject українськомовні тексти en
dc.subject системи модерації контенту en
dc.title Hybrid detection of fuzzy duplicate texts: сosine similarity and transformers en
dc.title.alternative Гібридне виявлення нечітких текстів-дублікатів: косинусна подібність та трансформери en
dc.type Article en
opu.citation.journal Applied Aspects of Information Technology en
opu.citation.volume 1 en
opu.citation.firstpage 48 en
opu.citation.lastpage 61 en
opu.citation.issue 8 en


Файлы, содержащиеся в элементе

Этот элемент содержится в следующих коллекциях

Показать сокращенную информацию