eONPUIR

Data preprocessing and tokenization techniques for technical Ukrainian texts

Показать сокращенную информацию

dc.contributor.author Mashtalir, Sergii Volodymyrovych
dc.contributor.author Машталір, Сергій Володимирович
dc.contributor.author Nikolenko, Oleksandr Volodymyrovych
dc.contributor.author Ніколенко, Олександр Володимирович
dc.date.accessioned 2023-10-02T22:43:24Z
dc.date.available 2023-10-02T22:43:24Z
dc.date.issued 2023-09-20
dc.identifier.issn 2617-4316
dc.identifier.issn 2663-7723
dc.identifier.uri http://dspace.opu.ua/jspui/handle/123456789/14088
dc.description.abstract The field of Natural Language Processing (NLP) has witnessed significant advancements fueled by machine learning, deep learning, and artificial intelligence, expanding its applicability and enhancing human-computer interactions. However, NLP systems grapple with issues related to incomplete and error-laden data, potentially leading to biased model outputs. Specialized technical domains pose additional challenges, demanding domain-specific fine-tuning and custom lexicons. Moreover, many languages lack comprehensive NLP support, hindering accessibility. In this context, we explore novel NLP data preprocessing and tokenization techniques tailored for technical Ukrainian texts. We address a dataset comprising automotive repair labor entity names, known for errors and domain-specific terms, often in a blend of Ukrainian and Russian. Our goal is to classify these entities accurately, requiring comprehensive data cleaning, preprocessing and tokenization. Our approach modifies classical NLP preprocessing, incorporating language detection, specific Cyrillic character recognition, compounded word disassembly, and abbreviation handling. Text line normalization standardizes characters, punctuation, and abbreviations, improving consistency. Stopwords are curated to enhance classification relevance. Translation of Russian to Ukrainian leverages detailed classifiers, resulting in a correspondence dictionary. Tokenization addresses concatenated tokens, spelling errors, common prefixes in compound words and abbreviations. Lemmatization, crucial in languages like Ukrainian and Russian, builds dictionaries mapping word forms to lemmas, with a focus on noun cases. The results yield a robust token dictionary suitable for various NLP tasks, enhancing the accuracy and reliability of applications, particularly in technical Ukrainian contexts. This research contributes to the evolving landscape of NLP data preprocessing and tokenization, offering valuable insights for handling domain-specific languages en
dc.description.abstract За останні роки галузь обробки природної мови (Natural Language Processing, NLP) пережила значні досягнення завдяки машинному та глибинному навчанню і штучному інтелекту, що розширило її застосування та покращило взаємодію між людиною та комп'ютером. Однак системи обробки природної мови стикаються з проблемами, пов'язаними з неповними та помилковими даними, що може призводити до побудови моделей з помилковими результатами. Спеціалізовані технічні області ставлять додаткові вимоги, вимагаючи налаштування моделей під конкретну галузь та використання власних специфічних термінів. Більше того, багато природніх мов не мають повноцінної підтримки в NLP. У цьому контексті ми досліджуємо нові методи попередньої обробки даних та токенізації, призначені для технічних українських текстів. Ми працюємо з набором даних, що містить назви операцій з галузі автомобільного ремонту, специфікою яких є наявність багатьох помилок та присутність специфічних термінів, часто у комбінації української та російської мов. Нашою метою є точна класифікація цих сутностей, що на першому етапі передбачає комплексну очистку даних, попередню обробку та токенізацію. Наш підхід модифікує класичну попередню обробку NLP, включаючи виявлення мови, розпізнавання конкретних кириличних символів, розклад складних слів на прості частини та обробку абревіатур. Нормалізація частин окремого речення стандартизує символи, видаляє розділові знаки та розшифровує абревіатури. Переклад з російської на українську мову здійснюється шляхом використання детальних довідників та автоматично створених словників відповідностей. Під час токенізації вирішуються питання злитих токенів, орфографічних помилок, спільних префіксів у складних словах та абревіатурах. Лематизація, особливо важлива для мов, які використовують відмінки, використовує великі наукові словники, які перетворюють словоформи у леми, з акцентом на називному відмінку іменників. В результаті створюється повний словник токенів, який може використовуватись у різних завданнях у сфері обробки природної мови. Повнота словника та унікальність окремих токенів підвищує точність та надійність їхнього застосування, особливо в технічних українських текстах. Це дослідження поглиблює існуючі методи і моделі попередньої обробки та токенізації даних в рамках NLP та надає конкретні інструменти для роботи з текстами із специфічних галузей en
dc.language.iso en en
dc.publisher Odessа Polytechnic National University en
dc.subject Multilingual natural language processing en
dc.subject data preprocessing en
dc.subject tokenization en
dc.subject technical Ukrainian texts en
dc.subject lemmatization en
dc.subject обробка природної мови en
dc.subject попередня обробка даних en
dc.subject токенізація en
dc.subject технічні українські тексти en
dc.subject визначення мови en
dc.subject лематизація en
dc.subject технічні словники en
dc.title Data preprocessing and tokenization techniques for technical Ukrainian texts en
dc.title.alternative Методи препроцесінгу та токенізації даних для технічних українських текстів en
dc.type Article en
opu.citation.journal Applied Aspects of Information Technology en
opu.citation.volume 3 en
opu.citation.firstpage 318 en
opu.citation.lastpage 326 en
opu.citation.issue 6 en


Файлы, содержащиеся в элементе

Этот элемент содержится в следующих коллекциях

Показать сокращенную информацию