Deep learning technologyfor videoframe processing in face segmentation on mobile devices

Ruvinskaya, Victoria; Рувінська, Вікторія Михайлівна; Рувинская, Виктория Михайловна; Timkov, Yurii; Тімков, Юрій Юрійович; Тимков, Юрий Юрьевич

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/11722

Название:	Deep learning technologyfor videoframe processing in face segmentation on mobile devices
Другие названия:	Технології глибинного навчання для обробки відеокадрів при сегментації обличчяна мобільних пристроях
Авторы:	Ruvinskaya, Victoria Рувінська, Вікторія Михайлівна Рувинская, Виктория Михайловна Timkov, Yurii Тімков, Юрій Юрійович Тимков, Юрий Юрьевич
Ключевые слова:	Segmentation Video Processing Deep Neural Networks Deeplabv3+ Сегментація обробка відео глибинні нейронні мережі Deeplabv3+
Дата публикации:	30-Мар-2021
Издательство:	Odessa National Polytechnic University
Библиографическое описание:	Ruvinskaya, V., Timkov, Yu. (2021). Deep learning technologyfor videoframe processing in face segmentation on mobile devices. Herald of Advanced Information Technology, Vol. 4, N 2, р. 185–194. Ruvinskaya, V. Deep learning technologyfor videoframe processing in face segmentation on mobile devices / V. Ruvinskaya, Yu. Timkov // Herald of Advanced Information Technology = Вісн. сучас. інформ. технологій. – Оdesa, 2021. – Vol. 4, N 2. – Р. 185–194.
Краткий осмотр (реферат):	The aim of the research is to reduce the frame processing time for face segmentation on videos on mobile devices using deep learning technologies. The paper analyzes the advantages and disadvantages of existing segmentation methods, as well as their applicability to various tasks. The existing real-time realizations of face segmentation in the most popular mobile applications, which provide the functionality for adding visual effects to videos, were compared. As a result, it was determined that the classical segmentation methods do not have a suitable combination of accuracy and speed, and require manual tuning for a particular task, while the neural network-based segmentation methods determine the deepfeatures automatically and have high accuracy with an acceptablespeed. The method based on convolutional neural networks is chosen for use because, in addition to the advantages of other methods based on neural networks, it does not require such a significant amount of computing resources during its execution. A review of existing convolutional neural networks for segmentation was held, based on which the DeepLabV3+ network was chosen as having sufficiently high accuracy and being optimized for work on mobile devices. Modifications were made to the structure of the selected network to match the task of two classes segmentation and to speed up the work on devices with low performance. 8-bit quantization was applied to the values processed by the network for further acceleration. The network was adapted to the taskof face segmentation by transfer learningperformed on a setof face images from the COCO dataset. Based on the modified and additionally trained segmentation model, a mobile app was created to record video with real-time visual effects, which applies segmentation to separately addeffects on two zones -the face (color filters, brightness adjustment, animated effects) and the background (blurring, hiding, replacement with another image). The time of frames processing in the application was tested on mobile devices with different technical characteristics. We analyzed the differences in testing results for segmentation using the obtained model and segmentation using the normalized cuts method. The comparison reveals a decrease of frame processing time on the majority of devices with a slight decrease of segmentation accuracy Метою дослідження є зменшення часу обробки кадрів при сегментації обличчяна відео на мобільних пристроях за допомогою технологій глибинного навчання. В роботі проведено аналіз переваг і недоліків існуючих методів сегментації, а також їх застосовності для вирішення різних завдань. Виконано порівняння існуючих реалізацій сегментації обличчяв реальному часі в найбільш популярних мобільних додатках, які надають функціонал додавання візуальних ефектів на відео. В результаті визначено, що класичні методи сегментації не володіють відповідним поєднанням точності і швидкості роботи, а також вимагають ручного налаштування під конкретну задачу, тоді як методи сегментації на базінейронних мереж визначають глибинні ознаки автоматично і мають високу точність при прийнятному часіроботи. Для використання обрано метод на базіглибинних згортковихнейронних мереж, оскільки, крім переваг інших методів на базінейронних мереж, він не вимагаєнастільки значних витрат обчислювальних ресурсів під час виконання. Проведено огляд існуючих згортковихнейронних мереж для сегментації, виходячи з якого длязастосування в роботі обрано мережу DeepLabV3 + як ту, що має досить високу точністьі при цьому оптимізована для роботи на мобільних пристроях. У структуру обраної мережі внесені модифікації з метою відповідності завданню сегментації на два класи і для прискорення роботи на пристроях з низькою продуктивністю. Для подальшого прискорення роботи до оброблюваних мережею значень застосована восьмібітнаквантизація. Адаптація мережі під задачу сегментації обличчявиконана за допомогою перенесення навчання, проведеного на вибірці зображень з обличчямиз датасета COCO. На базі зміненої і навченоїмоделі сегментації створено мобільний додаток для запису відео з візуальними ефектами в реальному часі, яке застосовує сегментацію для роздільного накладення ефектів на дві зони -обличчя(фільтрикольору, зміна яскравості, анімовані ефекти) і фон (розмиття, приховування, заміна на інше зображення). Проведено тестування часу обробки кадрів в додатку на мобільних пристроях з різними технічними характеристиками. Проаналізовано відмінності в показниках тестування при сегментації за допомогою отриманої моделі і з використанням сегментації методом нормального розрізу графа. В результаті порівняння виявлено зниження часу обробки кадрів на більшості пристроїв при незначному зменшенні точності сегментації
URI (Унифицированный идентификатор ресурса):	http://dspace.opu.ua/jspui/handle/123456789/11722
ISSN:	2663-0176 2663-7731
Располагается в коллекциях:	2021, Vol. 4, № 2

Файлы этого ресурса:

Файл	Описание	Размер	Формат
109-Article Text-99-1-10-20210706.pdf		842.73 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.