eONPUIR

Improvement of the Color Text Image Binarization Methodusing the Minimum-Distance Classifier

Показать сокращенную информацию

dc.contributor.author Polyakova, Marina
dc.contributor.author Полякова, Марина В’ячеславівна
dc.contributor.author Полякова, Марина Вячеславoвна
dc.contributor.author Nesteryuk, Alexandr
dc.contributor.author Нестерюк, Олександр Геннадійович
dc.contributor.author Нестерюк, Александр Геннадиевич
dc.date.accessioned 2021-04-10T20:57:02Z
dc.date.available 2021-04-10T20:57:02Z
dc.date.issued 2021-04-10
dc.identifier.citation Polyakova, M. V., Nesteryuk, A. G. (2021). Improvement of the Color Text Image Binarization Methodusing the Minimum-Distance Classifier. Applied Aspects of Information Technology, Vol. 4, N 1, p. 57–70. en
dc.identifier.citation Polyakova, M. V. Improvement of the Color Text Image Binarization Methodusing the Minimum-Distance Classifier / M. V. Polyakova, A. G. Nesteryuk // Applied Aspects of Information Technology = Прикладні аспекти інформ. технологій. – Оdesa, 2021. – Vol. 4, N 1. – P. 57–70. en
dc.identifier.issn 2617-4316
dc.identifier.issn 2663-7723
dc.identifier.uri http://dspace.opu.ua/jspui/handle/123456789/11538
dc.description.abstract Optical character recognition systems for the images are used to convert books and documents into electronic form, to automate accounting systems in business, when recognizing markers using augmented reality technologies and etс. The quality of optical character recognition, provided that binarization is applied, is largely determined by the quality of separation of the foreground pixels from the background. Methods of text image binarization are analyzed and insufficient quality of binarization is noted. As a way of research the minimum-distance classifier for the improvement of the existing method of binarization of color text images is used. To improve the quality of the binarization of color text images, it is advisable to divide image pixels into two classes, “Foreground” and “Background”, to use classification methods instead of heuristic threshold selection, namely, a minimum-distance classifier. To reduce the amount of processed information before applying the classifier, it is advisable to select blocks of pixels for subsequent processing. This was done by analyzing the connected components on the original image. An improved method of the color text image binarization with the use of analysis of connected components and minimum-distance classifier has been elaborated. The research of the elaborated method showed that it is better than existing binarization methods in terms of robustness of binarization, but worse in terms of the error of the determining the boundaries of objects. Among the recognition errors, the pixels of images from the class labeled “Foreground” were more often mistaken for the class labeled “Background”. The proposed method of binarization with the uniqueness of class prototypes is recommended to be used in problems of the processing of color images of the printed text, for which the error in determining the boundaries of characters as a result of binarization is compensated by the thickness of the letters. With a multiplicity of class prototypes, the proposed binarization method is recommended to be used in problems of processing color images of handwritten text, if high performance is not required. The improved binarization method has shown its efficiency in cases of slow changes in the color and illumination of the text and background, however, abrupt changes in color and illumination, as well as a textured background, do not allowing the binarization quality required for practical problems. en
dc.description.abstract Системи оптичного розпізнавання символів на зображеннях використовуються для конвертації книг і документів в електронний вигляд, для автоматизації систем обліку в бізнесі, при розпізнаванні маркерів технологіями доповненої реальності та ін. Якість оптичного розпізнавання символів за умови застосування бінаризації в значній мірі визначається якістю відділення пікселів переднього плану від фону. Проаналізовано методи бінаризації зображень тексту та відзначено недостатню якість бінаризації. Щоб підвищити якість бинаризации кольорових зображень тексту, доцільно для поділу пікселів зображення на два класи, «Передній план» і «Фон», використовувати замість евристичного вибору порога класифікаційні методи. Як напрямок досліджень вибрано вдосконалення існуючого методу бінаризації кольорових зображень тексту шляхом використання класифікатора за мінімумом відстані. Для скорочення обсягу оброблюваної інформації до застосування класифікатора доцільно виділити блоки пікселів для подальшої обробки. Це виконувалося за допомогою аналізу зв'язкових компонент на оригінальному документі. Розроблено вдосконалений метод бінаризації кольорових зображень тексту із застосуванням аналізу зв'язкових компонент та класифікатора за мінімумом відстані. Дослідження розробленого методу показало, що він краще існуючих методів бінаризації за показниками завадостійкості бінаризації, але гірший за показником, що характеризує похибку визначення границь об'єктів. Серед помилок розпізнавання частіше пікселі зображень з класу з міткою «Передній план» неправильно ставилися до класу з міткою «Фон». Запропонований метод бінаризації при єдиності прототипів класів рекомендується використовувати в задачах обробки кольорових зображень друкованого тексту, для якого похибка визначення меж символів в результаті бинаризации компенсується товщиною букв. При множинності прототипів класів запропонований метод бінаризації рекомендується використовувати в задачах обробки кольорових зображень рукописного тексту, якщо не потрібна висока швидкодія. Вдосконалений метод бінаризації показав свою працездатність у випадках повільного зміни кольору і освітленості тексту і фону, проте стрибкоподібні зміни кольору і освітленості, а також текстурований фон не дозволяють забезпечити необхідну для вирішення практичних завдань якість бінаризації. en
dc.language.iso en en
dc.publisher Odessa National Polytechnic University en
dc.subject Image binarization; en
dc.subject minimum-distance classifier; en
dc.subject optical character recognition; en
dc.subject color text image; en
dc.subject image background; en
dc.subject image foreground en
dc.subject бінаризація зображень; en
dc.subject класифікатор за мінімумом відстані; en
dc.subject оптичне розпізнавання символів; en
dc.subject кольорове зображення тексту; en
dc.subject фон зображення; en
dc.subject передній план зображення en
dc.title Improvement of the Color Text Image Binarization Methodusing the Minimum-Distance Classifier en
dc.title.alternative Вдосконалення методу бінаризації кольорових зображень тексту з використанням класифікатора за мінімумом відстані en
dc.type Article en
opu.citation.journal Applied Aspects of Information Technology en
opu.citation.volume 1 en
opu.citation.firstpage 57 en
opu.citation.lastpage 70 en
opu.citation.issue 4 en


Файлы, содержащиеся в элементе

Этот элемент содержится в следующих коллекциях

Показать сокращенную информацию