This paper addresses the challenge of detecting texts that share the same meaning but differ in wording and structure. Such “fuzzy
duplicates” are increasingly prevalent in user-generated content, media articles, and academic materials. Traditional TF-IDF-based
methods with cosine similarity process data swiftly but often overlook deeper semantic nuances, especially in languages with free word
order and complex morphology (for example, Slavic languages such as Ukrainian or Bulgarian, and agglutinative languages like
Hungarian). Fully neural solutions (e.g., transformers) typically offer higher accuracy yet can be slow and computationally demanding.
To tackle these issues, we propose a hybrid approach that integrates a simplified neural component with classical cosine similarity. The
workflow normalizes text variants (correcting spelling and inflectional forms), converts them into semantic vectors using a lightweight
transformer model, and then applies a dynamic threshold mechanism tuned to text genre (e.g., news vs. social media). Experiments on
Ukrainian-language datasets suggest that this method balances accuracy and speed more effectively than a fully neural pipeline. The
approach is novel in combining domain-specific preprocessing and lightweight neural embeddings for fuzzy duplicate detection in text,
achieving approximately ten to twelve percent higher detection accuracy than known solutions while maintaining faster runtime than a
full BERT model. Preliminary tests in editorial and plagiarism-checking scenarios indicate that the system more reliably identifies
paraphrased content than purely statistical methods, thereby reducing the burden of manual verification. Overall, the hybrid design offers
a practical compromise between detection performance and computational requirements, which is especially beneficial for resource-
constrained applications in morphologically rich languages like Ukrainian or other Slavic languages. Future efforts will focus on
extending morphological coverage to further improve reliability.
Cтаття розглядає проблему виявлення текстів, які мають однаковий зміст, але відрізняються лексикою та побудовою. Такі
«нечіткі дублікати» дедалі частіше зустрічаються в контенті, створеному користувачами, медійних статтях та академічних
матеріалах. Традиційні методи на основі TF-IDF із косинусною подібністю дозволяють швидко обробляти дані, проте часто
оминають глибші семантичні нюанси, особливо в мовах із вільним порядком слів та складною морфологією (наприклад,
слов’янські мови, такі як українська чи болгарська, та аглютинативні мови, як угорська). Повністю нейронні рішення
(наприклад, трансформери) зазвичай забезпечують вищу точність, але можуть працювати повільно та вимагати значних
обчислювальних ресурсів. Щоб вирішити ці проблеми, ми пропонуємо гібридний підхід, який інтегрує спрощений нейронний
компонент із класичною косинусною подібністю. Робочий процес включає нормалізацію варіантів тексту (виправлення
орфографічних помилок та форм словозмін), перетворення їх на семантичні вектори за допомогою полегшеної моделі
трансформера, а потім застосування динамічного механізму порогів, налаштованого під конкретний жанр тексту (наприклад,
новинні матеріали проти публікацій у соціальних мережах). Експерименти на наборах даних українською мовою свідчать, що
запропонований метод більш ефективно збалансовує точність та швидкість порівняно з повністю нейронним пайплайном.
Запропонований підхід є новаторським завдяки поєднанню доменоспецифічної попередньої обробки та полегшених нейронних
вбудовувань для виявлення нечітких дублікатів у тексті, що дозволяє досягти приблизно на десять-дванадцять відсотків вищої
точності виявлення порівняно з відомими рішеннями при збереженні більш швидкого часу обробки, ніж повна модель BERT.
Попередні тести в редакційному середовищі та при перевірці на плагіат показали, що система більш надійно ідентифікує
перефразований контент порівняно з чисто статистичними методами, тим самим знижуючи навантаження на ручну перевірку.
Загалом, гібридний дизайн пропонує практичний компроміс між продуктивністю виявлення та обчислювальними вимогами,
що є особливо корисним для застосувань із обмеженими ресурсами в мовах із багатою морфологією, таких як українська або
інші слов’янські мови. Подальші дослідження будуть спрямовані на розширення морфологічного охоплення з метою
подальшого підвищення надійності.