Показать сокращенную информацию
dc.contributor.author | Mashtalir, Sergii V.![]() |
|
dc.contributor.author | Машталір, Сергій Володимирович![]() |
|
dc.contributor.author | Kovtunenko, Andrii R.![]() |
|
dc.contributor.author | Ковтуненко, Андрій Романович![]() |
|
dc.date.accessioned | 2025-04-17T21:58:29Z | |
dc.date.available | 2025-04-17T21:58:29Z | |
dc.date.issued | 2025-04-04 | |
dc.identifier.issn | 2617-4316 | |
dc.identifier.issn | 2663-7723 | |
dc.identifier.uri | http://dspace.opu.ua/jspui/handle/123456789/15098 | |
dc.description.abstract | The rapidly increasing amount of multimedia information requires significant methods development for its rapid processing. In this case, one of the areas of processing is preliminary analysis with the images characteristic features detection to reduce the information required for subsequent tasks. One of the types for an information reduction is image segmentation. In this case, the general task of image segmentation is often reduced to the task of object segmentation is a fundamental task in computer vision, requiring accurate pixel-by-pixel object delineation and scene understanding. With the development of natural language processing techniques, many approaches have been successfully adapted to computer vision tasks, allowing for more intuitive descriptions of scenes using natural language. Unlike traditional models limited to a fixed set of classes, natural language processing-based approaches allow searching for objects based on attributes, expanding their applicability. While existing object segmentation methods are typically categorized into one-stage and two-stage methods – depending on speed and accuracy - there remains a gap in developing models that can effectively identify and segment objects based on textual prompts. To address this, we propose an open- set instance segmentation model capable of detecting and segmenting objects from prompts. Our approach builds upon CLIPSeg, integrating architectural modifications from Panoptic-DeepLab and PRN (Panoptic Refinement Network) to predict object centers and pixel-wise distances to boundaries. A post-processing phase refines segmentation results to improve object separation. The proposed architecture is trained on large vocabulary instance segmentation and PhraseCut datasets and evaluated using the mean Dice score against state-of-the-art open-set segmentation models. Experimental results show that although our model achieves the highest inference rate among open-set methods while maintaining FastSAM-level segmentation quality, post-processing remains a limiting factor. This suggests that future improvements should be aimed at eliminating the post-processing process itself or improving its algorithm, which could lead to more efficient segmentation. | en |
dc.description.abstract | Кількість мультимедійної інформації, що стрімко зросла, вимагає суттєвого розвитку методів її швидкої обробки. При цьому одним із напрямів обробки є попередній аналіз із виділенням характерних ознак зображень для скорочення інформації необхідної для подальших завдань. Одним із видів такого скорочення інформації є сегментація зображень. При цьому загальне завдання сегментації зображень часто зводиться до задачі сегментації об'єктів, що є фундаментальною задачею комп'ютерного зору, що вимагає точного піксельного розмежування об'єктів і розуміння сцени. З розвитком методів обробки природньої мови (NLP) багато підходів були успішно адаптовані до завдань комп'ютерного зору, дозволяючи більш інтуїтивно описувати сцени за допомогою природної мови. На відміну від традиційних моделей, обмежених фіксованим набором класів, підходи на основі обробки природньої мови NLP дозволяють шукати об'єкти на основі атрибутів, що розширює їх застосування. Хоча існуючі методи сегментації об'єктів зазвичай поділяються на одноетапні та двоетапні - залежно від швидкості та точності - залишається прогалина в розробці моделей, які можуть ефективно ідентифікувати та сегментувати об'єкти на основі текстових підказок. Для вирішення цієї проблеми ми пропонуємо модель сегментації екземплярів з необмеженою кількістю класів, здатну виявляти та сегментувати об'єкти за підказками. Наш підхід базується на CLIPSeg, інтегруючи архітектурні модифікації Panoptic-DeepLab та PRN (Panoptic Refinement Network) для прогнозування центрів об'єктів та попіксельних відстаней до меж. На етапі постобробки результати сегментації уточнюються для покращення розділення об'єктів. Запропонована архітектура навчалася на наборах даних LVIS і PhraseCut та оцінюється за допомогою середнього Dice score з сучасними моделями сегментації з відкритими наборами класів. Експериментальні результати показують, що хоча наша модель досягає найвищої швидкості виведення серед методів з відкритими множинами, зберігаючи при цьому якість сегментації на рівні FastSAM, постобробка залишається слабкою ланкою. Майбутні вдосконалення повинні бути спрямовані на усунення самого процесу постобробки або вдосконалення його алгоритму що може призвести до більш ефективної сегментації. | en |
dc.language.iso | en | en |
dc.publisher | Odessа Polytechnic National University | en |
dc.subject | Deep learning | en |
dc.subject | image segmentation | en |
dc.subject | convolution neural networks | en |
dc.subject | transformers | en |
dc.subject | contrastive language-image pretraining | en |
dc.subject | open-set segmentation | en |
dc.subject | глибоке навчання | en |
dc.subject | сегментація зображень | en |
dc.subject | згорткові нейронні мережі | en |
dc.subject | архітектури-трансформери | en |
dc.subject | контрастна мовно-образна підготовка | en |
dc.subject | сегментація з нефіксованим набором класів | en |
dc.title | Improved segmentation model to identify object instances based on textual prompts | en |
dc.title.alternative | Поліпшена модель сегментації для ідентифікації екземплярів об'єктів на основі текстових запитів | en |
dc.type | Article | en |
opu.citation.journal | Applied Aspects of Information Technology | en |
opu.citation.volume | 1 | en |
opu.citation.firstpage | 54 | en |
opu.citation.lastpage | 66 | en |
opu.citation.issue | 8 | en |