Показать сокращенную информацию
dc.contributor.author | Ishchenko, Alesya | |
dc.contributor.author | Іщенко, Олеся Володимирівна | |
dc.contributor.author | Ищенко, Алеся Владимировна | |
dc.contributor.author | Polyakova, Marina | |
dc.contributor.author | Полякова, Марина Вячеславівна | |
dc.contributor.author | Полякова, Марина Вячеславовна | |
dc.contributor.author | Nesteryuk, Alexandr | |
dc.contributor.author | Нестерюк, Олександр Геннадійович | |
dc.contributor.author | Нестерюк, Александр Геннадиевич | |
dc.date.accessioned | 2019-09-05T12:04:57Z | |
dc.date.available | 2019-09-05T12:04:57Z | |
dc.date.issued | 2019-04-18 | |
dc.identifier.citation | Ishchenko, A., Polyakova, M., Nesteryuk, A. (2019). The Technique of Extraction Text Areas on Scanned Document Image Using Linear Filtration. Applied Aspects of Information Technology, Vol. 2, N 3, p. 206–215. | |
dc.identifier.citation | Ishchenko, A. The Technique of Extraction Text Areas on Scanned Document Image Using Linear Filtration / A. Ishchenko, M. Polyakova, A. Nesteryuk // Applied Aspects of Information Technology = Прикладні аспекти інформ. технологій. – Оdesa, 2019. – Vol. 2, N 3. – P. 206–215. | |
dc.identifier.issn | 2617-4316 | |
dc.identifier.issn | 2663-7723 | |
dc.identifier.uri | http://dspace.opu.ua/jspui/handle/123456789/8769 | |
dc.description.abstract | The method of selection of text areas on the image of the scanned document from the background is proposed. Text areas of the image have approximately the same intensity values inside these areas. Therefore, linear filtering and threshold image transformation are used. Linear filtering allows you to smooth out the intensity values of pixels inside homogeneous areas. In the case of a threshold transformation, the threshold value is used, which makes it possible to isolate homogeneous areas of the image that make up the text fragments from the background.A study was conducted on the selection of a threshold value for highlighting homogeneous areas of text, which showed that the threshold value is better to choose among the pixel intensities at the base of the histogram peak, which corresponds to the background. It is proposed to select the threshold by the value of the second derivative for the image histogram after linear filtering. Therefore, the intensity of the local maximum of the histogram, which is closer than the other local maxima to the right end of the image intensity interval, is chosen as the threshold. For this purpose, an analysis of the histogram of the distribution of image pixel intensity values is carried out after linear filtering by rows and columns at each step. Testing of the proposed method of separating textual image areas was carried out for segmentation of textual images of scanned archival newspapers from the MediaTeam documents database at the University of Oulu (Finland).The proposed method of extracting text fragments from the background using linear filtering and threshold conversion allowed to improve the quality of selection of these areas compared to the similar method in the percentage of correct recognition of text areas by 12 %, which is important for the task of image segmentation | en |
dc.description.abstract | Запропоновано методику виділення текстових областей на зображенні відсканованого документа з фону. Текстові області зображення мають приблизно однакові значення інтенсивності всередині цих областей. Тому використовується лінійна фільтрація і порогове перетворення зображення. Лінійна фільтрація дозволяє згладити значення інтенсивності пікселів всередині однорідних областей. При пороговому перетворенні використовується значення порога, яке дозволяє виділити однорідні області зображення, що становлять текстові фрагменти, з фону. Проведено дослідження вибору порогового значення для виділення однорідних областей тексту, яке показало, що значення порога краще вибирати серед інтенсивностей пікселів у підставі піку гістограми, який відповідає фону. Вибір порога запропоновано здійснювати за значенням другої похідної для гістограми зображення після лінійної фільтрації. Тому в якості порога вибирається значення інтенсивності локального максимуму гістограми, який знаходиться ближче інших локальних максимумів до правого кінця інтервалу інтенсивностей зображення. Для цього проводиться аналіз гістограми розподілу значень інтенсивності пікселів зображення після лінійної фільтрації по рядках і по стовпцях на кожному кроці. Апробація запропонованої методики виділення текстових областей зображення проведена для сегментації текстових зображень відсканованих архівних газет з бази даних документів MediaTeam університету Оулу (Фінляндія). Запропонована методика виділення текстових фрагментів з фону з використанням лінійної фільтрації та поро-гового перетворення дозволила підвищити якість виділення цих областей у порівнянні з аналогічним методом за відсотком правильного розпізнавання областей тексту на 12%, що актуально для задачі сегментації зображень. | en |
dc.description.abstract | Предложена методика выделения текстовых областей на изображении отсканированного документа из фона. Текстовые области изображения имеют приблизительно одинаковые значения интенсивности внутри этих областей. Поэтому используется линейная фильтрация и пороговое преобразование изображения. Линейная фильтрация позволяет сгладить значения интенсивности пикселей внутри однородных областей. При пороговом преобразовании используется значение порога, которое позволяет выделить однородные области изображения, составляющие текстовые фрагменты, из фона. Проведено исследование выбора порогового значения для выделения однородных областей текста, которое показало, что значение порога лучше выбирать среди интенсивностей пикселей в основании пика гистограммы, который соответствует фону. Выбор порога предложено осуществлять по значению второй производной для гистограммы изображения после линейной фильтрации. Поэтому в качестве порога выбирается значение интенсивности локального максимума гистограммы, который находится ближе остальных локальных максимумов к правому концу интервала интенсивностей изображения. Для этого проводится анализ гистограммы распределения значений интенсивности пикселей изображения после линейной фильтрации по строкам и по столбцам на каждом шаге. Апробация предложенной методики выделения текстовых областей изображения проведена для сегментации текстовых изображений отсканированных архивных газет из базы данных документов MediaTeam университета Оулу (Финляндия). Предложенная методика выделения текстовых фрагментов из фона с использованием линейной фильтрации и порогового преобразования позволила повысить качество выделения этих областей по сравнению с аналогичным методом по проценту правильного распознавания областей текста на 12 %, что актуально для задачи сегментации изображений. | en |
dc.language.iso | en | en |
dc.publisher | Odessa National Polytechnic University | en |
dc.subject | image segmentation | en |
dc.subject | text areas | en |
dc.subject | scanned document | en |
dc.subject | linear filtering | en |
dc.subject | image processing | en |
dc.subject | сегментація зображень | en |
dc.subject | текстові області | en |
dc.subject | відсканований документ | en |
dc.subject | лінійна фільтрація | en |
dc.subject | обробка зображень | en |
dc.subject | сегментация изображений | en |
dc.subject | текстовые области | en |
dc.subject | отсканированный документ | en |
dc.subject | линейная фильтрация | en |
dc.subject | обработка изображений | en |
dc.title | The Technique of Extraction Text Areas on Scanned Document Image Using Linear Filtration | en |
dc.title.alternative | Методика виділення текстових областей на зображенні відсканованого документа з використанням лінійної фільтрації | en |
dc.title.alternative | Методика выделения текстовых областей на изображении отсканированного документа с использованием линейной фильтрации | en |
dc.type | Article | en |
opu.citation.journal | Applied Aspects of Information Technology | en |
opu.citation.volume | 2 | en |
opu.citation.firstpage | 206 | en |
opu.citation.lastpage | 215 | en |
opu.citation.issue | 3 | en |