From classification to taxonomy: Automated structuring of vehicle repair names in multilingual corpora

Mashtalir, Sergii V.; Машталір, Сергій Володимирович; Nikolenko, Oleksandr  V.; Ніколенко, Олександр  Володимирович

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/15475

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Mashtalir, Sergii V.	-
dc.contributor.author	Машталір, Сергій Володимирович	-
dc.contributor.author	Nikolenko, Oleksandr V.	-
dc.contributor.author	Ніколенко, Олександр Володимирович	-
dc.date.accessioned	2025-07-05T21:34:00Z	-
dc.date.available	2025-07-05T21:34:00Z	-
dc.date.issued	2025-06-27	-
dc.identifier.issn	2663-0176	-
dc.identifier.issn	2663-7731	-
dc.identifier.uri	http://dspace.opu.ua/jspui/handle/123456789/15475	-
dc.description.abstract	This study introduces and rigorously validates a hybrid, five-stage Natural Language Processing pipeline that transforms unstructured, bilingual repair-order text into fullynavigable, hierarchical action taxonomy–bridging the gap between flat keyword classification and business-grade knowledge organization. Addressing the limitations of both traditional and modern Natural Language Processingmethods in technical, noisy, and domain-specific datasets, the proposed methodology integrates advanced lemmatization, manual core dictionary creation, semantic filtering, transformer-based classification, and embedding-driven clustering. Building on advanced Ukrainian lemmatization, dynamic semantic filtering, multilingual sentence embeddings, and density clustering, the pipeline systematically overcomes the noise, code-switching, and “long-tail” rarity that typify real-world automotive datasets. Tested on a corpus of over 4.3 million service records, the approach achieves over 92% cluster coherence with minimal manual annotation. The resulting taxonomy unlocks four immediate industrial benefits: enterprise-wide repair analytics and benchmarking across branches and brands; intent-aware chatbots capable of precise service triage andautomated quotation; inventory and workforce optimizationthrough fine-grained job statistics; and a practical blueprint for industry-level standardizationof repair nomenclature and data exchange. In sum, the work demonstrates that combining minimal expert input with modern embedding techniques and density clustering can automate taxonomy induction at industrial scale, setting a new benchmark for digital transformation initiatives that depend on accurate structuring of noisy technical language.	en
dc.description.abstract	У цьому дослідженні запропоновано й ретельно перевіреногібридний п’ятиетапнийпідхіддо обробки природньої мови (Natural Language Processing), який перетворює неструктуровані двомовнітексти про роботи з наряд-замовленьдля ремонту автомобілівна багаторівневуієрархічну класифікацію робіт. Підхід ліквідуєрозрив між класичноюкласифікацією за ключовими словами та бізнес-орієнтованою організацією даних. Враховуючи обмеження як традиційних, так і сучасних NLP-методів у технічних, зашумлених і галузево-специфічних датасетах,запропонована методологія об’єднує:розвинену лематизацію, ручне створення словника-ядра, семантичну фільтрацію, класифікацію на основі трансформерів і кластеризацію за векторнимипредставленнями. Спираючись на вдосконалену українськулематизацію, динамічну семантичну фільтрацію, реченнєві вкладення та кластеризацію на основі густини, запропонований алгоритм послідовно нейтралізує шум, багатомовністьі «довгий хвіст», притаманні реальним даним по автомобільним ремонтам. Підхід був випробуваний на корпусі зпонад 4,3 млн сервісних записів.Віндосяг понад 92 % когерентності кластерів, потребуючи лише мінімальний обсяг ручної анотації. Сформовані стандартні довідникивідкриваютьчотири безпосередні перевагидля бізнесу:аналітику та порівнянняремонтів на рівні філій, мережі брендів; чат-боти з розумінням запитів і намірівдля точного визначення заявок і автоматизованого розрахунку кошторисів;оптимізацію запасів і робочого часу завдяки деталізованій статистиці робіт;практичну стандартизаціюноменклатуриремонтів, яка сприяєобміну даними в межах галузі.Показано, що поєднання мінімального експертного вкладу із сучасними техніками векторних поданьі кластеризацією на основі густини,дає змогу автоматизувати створення довідниківу промислових масштабах. Цевстановлюєновий орієнтир для проєктів цифрової трансформації, що залежать від точної структуризації даних на основі зашумленихтехнічних виразів.	en
dc.language.iso	en	en
dc.publisher	Odessа Polytechnic National University	en
dc.subject	Natural Language Processing	en
dc.subject	taxonomy induction	en
dc.subject	semantic clustering	en
dc.subject	machine learning	en
dc.subject	data analysis	en
dc.subject	applied intelligent systems	en
dc.subject	data-driven automation	en
dc.subject	knowledge organization	en
dc.subject	business process automation	en
dc.subject	обробка природної мови	en
dc.subject	індукція таксономій	en
dc.subject	емантична кластеризація	en
dc.subject	машинне навчання	en
dc.subject	аналіз даних	en
dc.subject	прикладні інтелектуальні системи	en
dc.subject	автоматизація	en
dc.subject	керована даними	en
dc.subject	організація знань	en
dc.subject	автоматизація бізнес-процесів	en
dc.title	From classification to taxonomy: Automated structuring of vehicle repair names in multilingual corpora	en
dc.title.alternative	Від класифікації до таксономії: автоматизоване структурування назв робіт з ремонту автомобіліву багатомовних корпусах	en
dc.type	Article	en
opu.citation.journal	Herald of Advanced Information Technology	en
opu.citation.volume	2	en
opu.citation.firstpage	151	en
opu.citation.lastpage	163	en
opu.citation.issue	8	en
Располагается в коллекциях:	2025, Vol. 8, № 2

Файлы этого ресурса:

Файл	Описание	Размер	Формат
1_Mashtalir.pdf		1.04 MB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.