Improved segmentation model to identify object instances based on textual prompts

Mashtalir, Sergii V.; Машталір, Сергій Володимирович; Kovtunenko, Andrii R.; Ковтуненко, Андрій Романович

dc.contributor.author	Mashtalir, Sergii V.
dc.contributor.author	Машталір, Сергій Володимирович
dc.contributor.author	Kovtunenko, Andrii R.
dc.contributor.author	Ковтуненко, Андрій Романович
dc.date.accessioned	2025-04-17T21:58:29Z
dc.date.available	2025-04-17T21:58:29Z
dc.date.issued	2025-04-04
dc.identifier.issn	2617-4316
dc.identifier.issn	2663-7723
dc.identifier.uri	http://dspace.opu.ua/jspui/handle/123456789/15098
dc.description.abstract	The rapidly increasing amount of multimedia information requires significant methods development for its rapid processing. In this case, one of the areas of processing is preliminary analysis with the images characteristic features detection to reduce the information required for subsequent tasks. One of the types for an information reduction is image segmentation. In this case, the general task of image segmentation is often reduced to the task of object segmentation is a fundamental task in computer vision, requiring accurate pixel-by-pixel object delineation and scene understanding. With the development of natural language processing techniques, many approaches have been successfully adapted to computer vision tasks, allowing for more intuitive descriptions of scenes using natural language. Unlike traditional models limited to a fixed set of classes, natural language processing-based approaches allow searching for objects based on attributes, expanding their applicability. While existing object segmentation methods are typically categorized into one-stage and two-stage methods – depending on speed and accuracy - there remains a gap in developing models that can effectively identify and segment objects based on textual prompts. To address this, we propose an open- set instance segmentation model capable of detecting and segmenting objects from prompts. Our approach builds upon CLIPSeg, integrating architectural modifications from Panoptic-DeepLab and PRN (Panoptic Refinement Network) to predict object centers and pixel-wise distances to boundaries. A post-processing phase refines segmentation results to improve object separation. The proposed architecture is trained on large vocabulary instance segmentation and PhraseCut datasets and evaluated using the mean Dice score against state-of-the-art open-set segmentation models. Experimental results show that although our model achieves the highest inference rate among open-set methods while maintaining FastSAM-level segmentation quality, post-processing remains a limiting factor. This suggests that future improvements should be aimed at eliminating the post-processing process itself or improving its algorithm, which could lead to more efficient segmentation.	en
dc.description.abstract	Кількість мультимедійної інформації, що стрімко зросла, вимагає суттєвого розвитку методів її швидкої обробки. При цьому одним із напрямів обробки є попередній аналіз із виділенням характерних ознак зображень для скорочення інформації необхідної для подальших завдань. Одним із видів такого скорочення інформації є сегментація зображень. При цьому загальне завдання сегментації зображень часто зводиться до задачі сегментації об'єктів, що є фундаментальною задачею комп'ютерного зору, що вимагає точного піксельного розмежування об'єктів і розуміння сцени. З розвитком методів обробки природньої мови (NLP) багато підходів були успішно адаптовані до завдань комп'ютерного зору, дозволяючи більш інтуїтивно описувати сцени за допомогою природної мови. На відміну від традиційних моделей, обмежених фіксованим набором класів, підходи на основі обробки природньої мови NLP дозволяють шукати об'єкти на основі атрибутів, що розширює їх застосування. Хоча існуючі методи сегментації об'єктів зазвичай поділяються на одноетапні та двоетапні - залежно від швидкості та точності - залишається прогалина в розробці моделей, які можуть ефективно ідентифікувати та сегментувати об'єкти на основі текстових підказок. Для вирішення цієї проблеми ми пропонуємо модель сегментації екземплярів з необмеженою кількістю класів, здатну виявляти та сегментувати об'єкти за підказками. Наш підхід базується на CLIPSeg, інтегруючи архітектурні модифікації Panoptic-DeepLab та PRN (Panoptic Refinement Network) для прогнозування центрів об'єктів та попіксельних відстаней до меж. На етапі постобробки результати сегментації уточнюються для покращення розділення об'єктів. Запропонована архітектура навчалася на наборах даних LVIS і PhraseCut та оцінюється за допомогою середнього Dice score з сучасними моделями сегментації з відкритими наборами класів. Експериментальні результати показують, що хоча наша модель досягає найвищої швидкості виведення серед методів з відкритими множинами, зберігаючи при цьому якість сегментації на рівні FastSAM, постобробка залишається слабкою ланкою. Майбутні вдосконалення повинні бути спрямовані на усунення самого процесу постобробки або вдосконалення його алгоритму що може призвести до більш ефективної сегментації.	en
dc.language.iso	en	en
dc.publisher	Odessа Polytechnic National University	en
dc.subject	Deep learning	en
dc.subject	image segmentation	en
dc.subject	convolution neural networks	en
dc.subject	transformers	en
dc.subject	contrastive language-image pretraining	en
dc.subject	open-set segmentation	en
dc.subject	глибоке навчання	en
dc.subject	сегментація зображень	en
dc.subject	згорткові нейронні мережі	en
dc.subject	архітектури-трансформери	en
dc.subject	контрастна мовно-образна підготовка	en
dc.subject	сегментація з нефіксованим набором класів	en
dc.title	Improved segmentation model to identify object instances based on textual prompts	en
dc.title.alternative	Поліпшена модель сегментації для ідентифікації екземплярів об'єктів на основі текстових запитів	en
dc.type	Article	en
opu.citation.journal	Applied Aspects of Information Technology	en
opu.citation.volume	1	en
opu.citation.firstpage	54	en
opu.citation.lastpage	66	en
opu.citation.issue	8	en