Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/14088
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.authorMashtalir, Sergii Volodymyrovych-
dc.contributor.authorМашталір, Сергій Володимирович-
dc.contributor.authorNikolenko, Oleksandr Volodymyrovych-
dc.contributor.authorНіколенко, Олександр Володимирович-
dc.date.accessioned2023-10-02T22:43:24Z-
dc.date.available2023-10-02T22:43:24Z-
dc.date.issued2023-09-20-
dc.identifier.issn2617-4316-
dc.identifier.issn2663-7723-
dc.identifier.urihttp://dspace.opu.ua/jspui/handle/123456789/14088-
dc.description.abstractThe field of Natural Language Processing (NLP) has witnessed significant advancements fueled by machine learning, deep learning, and artificial intelligence, expanding its applicability and enhancing human-computer interactions. However, NLP systems grapple with issues related to incomplete and error-laden data, potentially leading to biased model outputs. Specialized technical domains pose additional challenges, demanding domain-specific fine-tuning and custom lexicons. Moreover, many languages lack comprehensive NLP support, hindering accessibility. In this context, we explore novel NLP data preprocessing and tokenization techniques tailored for technical Ukrainian texts. We address a dataset comprising automotive repair labor entity names, known for errors and domain-specific terms, often in a blend of Ukrainian and Russian. Our goal is to classify these entities accurately, requiring comprehensive data cleaning, preprocessing and tokenization. Our approach modifies classical NLP preprocessing, incorporating language detection, specific Cyrillic character recognition, compounded word disassembly, and abbreviation handling. Text line normalization standardizes characters, punctuation, and abbreviations, improving consistency. Stopwords are curated to enhance classification relevance. Translation of Russian to Ukrainian leverages detailed classifiers, resulting in a correspondence dictionary. Tokenization addresses concatenated tokens, spelling errors, common prefixes in compound words and abbreviations. Lemmatization, crucial in languages like Ukrainian and Russian, builds dictionaries mapping word forms to lemmas, with a focus on noun cases. The results yield a robust token dictionary suitable for various NLP tasks, enhancing the accuracy and reliability of applications, particularly in technical Ukrainian contexts. This research contributes to the evolving landscape of NLP data preprocessing and tokenization, offering valuable insights for handling domain-specific languagesen
dc.description.abstractЗа останні роки галузь обробки природної мови (Natural Language Processing, NLP) пережила значні досягнення завдяки машинному та глибинному навчанню і штучному інтелекту, що розширило її застосування та покращило взаємодію між людиною та комп'ютером. Однак системи обробки природної мови стикаються з проблемами, пов'язаними з неповними та помилковими даними, що може призводити до побудови моделей з помилковими результатами. Спеціалізовані технічні області ставлять додаткові вимоги, вимагаючи налаштування моделей під конкретну галузь та використання власних специфічних термінів. Більше того, багато природніх мов не мають повноцінної підтримки в NLP. У цьому контексті ми досліджуємо нові методи попередньої обробки даних та токенізації, призначені для технічних українських текстів. Ми працюємо з набором даних, що містить назви операцій з галузі автомобільного ремонту, специфікою яких є наявність багатьох помилок та присутність специфічних термінів, часто у комбінації української та російської мов. Нашою метою є точна класифікація цих сутностей, що на першому етапі передбачає комплексну очистку даних, попередню обробку та токенізацію. Наш підхід модифікує класичну попередню обробку NLP, включаючи виявлення мови, розпізнавання конкретних кириличних символів, розклад складних слів на прості частини та обробку абревіатур. Нормалізація частин окремого речення стандартизує символи, видаляє розділові знаки та розшифровує абревіатури. Переклад з російської на українську мову здійснюється шляхом використання детальних довідників та автоматично створених словників відповідностей. Під час токенізації вирішуються питання злитих токенів, орфографічних помилок, спільних префіксів у складних словах та абревіатурах. Лематизація, особливо важлива для мов, які використовують відмінки, використовує великі наукові словники, які перетворюють словоформи у леми, з акцентом на називному відмінку іменників. В результаті створюється повний словник токенів, який може використовуватись у різних завданнях у сфері обробки природної мови. Повнота словника та унікальність окремих токенів підвищує точність та надійність їхнього застосування, особливо в технічних українських текстах. Це дослідження поглиблює існуючі методи і моделі попередньої обробки та токенізації даних в рамках NLP та надає конкретні інструменти для роботи з текстами із специфічних галузейen
dc.language.isoenen
dc.publisherOdessа Polytechnic National Universityen
dc.subjectMultilingual natural language processingen
dc.subjectdata preprocessingen
dc.subjecttokenizationen
dc.subjecttechnical Ukrainian textsen
dc.subjectlemmatizationen
dc.subjectобробка природної мовиen
dc.subjectпопередня обробка данихen
dc.subjectтокенізаціяen
dc.subjectтехнічні українські текстиen
dc.subjectвизначення мовиen
dc.subjectлематизаціяen
dc.subjectтехнічні словникиen
dc.titleData preprocessing and tokenization techniques for technical Ukrainian textsen
dc.title.alternativeМетоди препроцесінгу та токенізації даних для технічних українських текстівen
dc.typeArticleen
opu.citation.journalApplied Aspects of Information Technologyen
opu.citation.volume3en
opu.citation.firstpage318en
opu.citation.lastpage326en
opu.citation.issue6en
Располагается в коллекциях:2023, Vol. 6, № 3

Файлы этого ресурса:
Файл Описание РазмерФормат 
7_Nikolenko_Mashtalir.pdf900.1 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.