The rapidly increasing amount of multimedia information requires significant methods development for its rapid processing. In
this case, one of the areas of processing is preliminary analysis with the images characteristic features detection to reduce the
information required for subsequent tasks. One of the types for an information reduction is image segmentation. In this case, the
general task of image segmentation is often reduced to the task of object segmentation is a fundamental task in computer vision,
requiring accurate pixel-by-pixel object delineation and scene understanding. With the development of natural language processing
techniques, many approaches have been successfully adapted to computer vision tasks, allowing for more intuitive descriptions of
scenes using natural language. Unlike traditional models limited to a fixed set of classes, natural language processing-based
approaches allow searching for objects based on attributes, expanding their applicability. While existing object segmentation
methods are typically categorized into one-stage and two-stage methods – depending on speed and accuracy - there remains a gap in
developing models that can effectively identify and segment objects based on textual prompts. To address this, we propose an open-
set instance segmentation model capable of detecting and segmenting objects from prompts. Our approach builds upon CLIPSeg,
integrating architectural modifications from Panoptic-DeepLab and PRN (Panoptic Refinement Network) to predict object centers
and pixel-wise distances to boundaries. A post-processing phase refines segmentation results to improve object separation. The
proposed architecture is trained on large vocabulary instance segmentation and PhraseCut datasets and evaluated using the mean
Dice score against state-of-the-art open-set segmentation models. Experimental results show that although our model achieves the
highest inference rate among open-set methods while maintaining FastSAM-level segmentation quality, post-processing remains a
limiting factor. This suggests that future improvements should be aimed at eliminating the post-processing process itself or
improving its algorithm, which could lead to more efficient segmentation.
Кількість мультимедійної інформації, що стрімко зросла, вимагає суттєвого розвитку методів її швидкої обробки. При
цьому одним із напрямів обробки є попередній аналіз із виділенням характерних ознак зображень для скорочення
інформації необхідної для подальших завдань. Одним із видів такого скорочення інформації є сегментація зображень. При
цьому загальне завдання сегментації зображень часто зводиться до задачі сегментації об'єктів, що є фундаментальною
задачею комп'ютерного зору, що вимагає точного піксельного розмежування об'єктів і розуміння сцени. З розвитком
методів обробки природньої мови (NLP) багато підходів були успішно адаптовані до завдань комп'ютерного зору,
дозволяючи більш інтуїтивно описувати сцени за допомогою природної мови. На відміну від традиційних моделей,
обмежених фіксованим набором класів, підходи на основі обробки природньої мови NLP дозволяють шукати об'єкти на
основі атрибутів, що розширює їх застосування. Хоча існуючі методи сегментації об'єктів зазвичай поділяються на
одноетапні та двоетапні - залежно від швидкості та точності - залишається прогалина в розробці моделей, які можуть
ефективно ідентифікувати та сегментувати об'єкти на основі текстових підказок. Для вирішення цієї проблеми ми
пропонуємо модель сегментації екземплярів з необмеженою кількістю класів, здатну виявляти та сегментувати об'єкти за
підказками. Наш підхід базується на CLIPSeg, інтегруючи архітектурні модифікації Panoptic-DeepLab та PRN (Panoptic
Refinement Network) для прогнозування центрів об'єктів та попіксельних відстаней до меж. На етапі постобробки результати
сегментації уточнюються для покращення розділення об'єктів. Запропонована архітектура навчалася на наборах даних LVIS
і PhraseCut та оцінюється за допомогою середнього Dice score з сучасними моделями сегментації з відкритими наборами
класів. Експериментальні результати показують, що хоча наша модель досягає найвищої швидкості виведення серед методів
з відкритими множинами, зберігаючи при цьому якість сегментації на рівні FastSAM, постобробка залишається слабкою
ланкою. Майбутні вдосконалення повинні бути спрямовані на усунення самого процесу постобробки або вдосконалення
його алгоритму що може призвести до більш ефективної сегментації.