Data preprocessing and tokenization techniques for technical Ukrainian texts

Mashtalir, Sergii Volodymyrovych; Машталір, Сергій Володимирович; Nikolenko, Oleksandr Volodymyrovych; Ніколенко, Олександр Володимирович

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/14088

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Mashtalir, Sergii Volodymyrovych	-
dc.contributor.author	Машталір, Сергій Володимирович	-
dc.contributor.author	Nikolenko, Oleksandr Volodymyrovych	-
dc.contributor.author	Ніколенко, Олександр Володимирович	-
dc.date.accessioned	2023-10-02T22:43:24Z	-
dc.date.available	2023-10-02T22:43:24Z	-
dc.date.issued	2023-09-20	-
dc.identifier.issn	2617-4316	-
dc.identifier.issn	2663-7723	-
dc.identifier.uri	http://dspace.opu.ua/jspui/handle/123456789/14088	-
dc.description.abstract	The field of Natural Language Processing (NLP) has witnessed significant advancements fueled by machine learning, deep learning, and artificial intelligence, expanding its applicability and enhancing human-computer interactions. However, NLP systems grapple with issues related to incomplete and error-laden data, potentially leading to biased model outputs. Specialized technical domains pose additional challenges, demanding domain-specific fine-tuning and custom lexicons. Moreover, many languages lack comprehensive NLP support, hindering accessibility. In this context, we explore novel NLP data preprocessing and tokenization techniques tailored for technical Ukrainian texts. We address a dataset comprising automotive repair labor entity names, known for errors and domain-specific terms, often in a blend of Ukrainian and Russian. Our goal is to classify these entities accurately, requiring comprehensive data cleaning, preprocessing and tokenization. Our approach modifies classical NLP preprocessing, incorporating language detection, specific Cyrillic character recognition, compounded word disassembly, and abbreviation handling. Text line normalization standardizes characters, punctuation, and abbreviations, improving consistency. Stopwords are curated to enhance classification relevance. Translation of Russian to Ukrainian leverages detailed classifiers, resulting in a correspondence dictionary. Tokenization addresses concatenated tokens, spelling errors, common prefixes in compound words and abbreviations. Lemmatization, crucial in languages like Ukrainian and Russian, builds dictionaries mapping word forms to lemmas, with a focus on noun cases. The results yield a robust token dictionary suitable for various NLP tasks, enhancing the accuracy and reliability of applications, particularly in technical Ukrainian contexts. This research contributes to the evolving landscape of NLP data preprocessing and tokenization, offering valuable insights for handling domain-specific languages	en
dc.description.abstract	За останні роки галузь обробки природної мови (Natural Language Processing, NLP) пережила значні досягнення завдяки машинному та глибинному навчанню і штучному інтелекту, що розширило її застосування та покращило взаємодію між людиною та комп'ютером. Однак системи обробки природної мови стикаються з проблемами, пов'язаними з неповними та помилковими даними, що може призводити до побудови моделей з помилковими результатами. Спеціалізовані технічні області ставлять додаткові вимоги, вимагаючи налаштування моделей під конкретну галузь та використання власних специфічних термінів. Більше того, багато природніх мов не мають повноцінної підтримки в NLP. У цьому контексті ми досліджуємо нові методи попередньої обробки даних та токенізації, призначені для технічних українських текстів. Ми працюємо з набором даних, що містить назви операцій з галузі автомобільного ремонту, специфікою яких є наявність багатьох помилок та присутність специфічних термінів, часто у комбінації української та російської мов. Нашою метою є точна класифікація цих сутностей, що на першому етапі передбачає комплексну очистку даних, попередню обробку та токенізацію. Наш підхід модифікує класичну попередню обробку NLP, включаючи виявлення мови, розпізнавання конкретних кириличних символів, розклад складних слів на прості частини та обробку абревіатур. Нормалізація частин окремого речення стандартизує символи, видаляє розділові знаки та розшифровує абревіатури. Переклад з російської на українську мову здійснюється шляхом використання детальних довідників та автоматично створених словників відповідностей. Під час токенізації вирішуються питання злитих токенів, орфографічних помилок, спільних префіксів у складних словах та абревіатурах. Лематизація, особливо важлива для мов, які використовують відмінки, використовує великі наукові словники, які перетворюють словоформи у леми, з акцентом на називному відмінку іменників. В результаті створюється повний словник токенів, який може використовуватись у різних завданнях у сфері обробки природної мови. Повнота словника та унікальність окремих токенів підвищує точність та надійність їхнього застосування, особливо в технічних українських текстах. Це дослідження поглиблює існуючі методи і моделі попередньої обробки та токенізації даних в рамках NLP та надає конкретні інструменти для роботи з текстами із специфічних галузей	en
dc.language.iso	en	en
dc.publisher	Odessа Polytechnic National University	en
dc.subject	Multilingual natural language processing	en
dc.subject	data preprocessing	en
dc.subject	tokenization	en
dc.subject	technical Ukrainian texts	en
dc.subject	lemmatization	en
dc.subject	обробка природної мови	en
dc.subject	попередня обробка даних	en
dc.subject	токенізація	en
dc.subject	технічні українські тексти	en
dc.subject	визначення мови	en
dc.subject	лематизація	en
dc.subject	технічні словники	en
dc.title	Data preprocessing and tokenization techniques for technical Ukrainian texts	en
dc.title.alternative	Методи препроцесінгу та токенізації даних для технічних українських текстів	en
dc.type	Article	en
opu.citation.journal	Applied Aspects of Information Technology	en
opu.citation.volume	3	en
opu.citation.firstpage	318	en
opu.citation.lastpage	326	en
opu.citation.issue	6	en
Располагается в коллекциях:	2023, Vol. 6, № 3

Файлы этого ресурса:

Файл	Описание	Размер	Формат
7_Nikolenko_Mashtalir.pdf		900.1 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.