Nowadays, accurate diagnosis of diseases, their treatment and prognosis is a very acute problem of modern medi-cine. By studying information about human proteins, you can identify differentially expressed proteins. These proteins are potentially interesting biomarkers that can be used for an accurate diagnosis, prognosis, or selection of individual treatments, especially for cancer. A surprising finding from this research is that we have relatively few proteins that are tissue specific. Almost half of all pro-teins are categorized as housekeeping proteins, expressed in all cells. Only 2,300 proteins in the human body have been identified as tissue enriched, meaning they have elevated expression levels in certain tissues. Thanks to advances in high-throughput microscopy, images are generated too quickly for manual evaluation. Consequently, the need for automating the analysis of biomedical images is as great as ever to speed up the understanding of human cells and diseases. Historically, the classification of proteins was limited to individual patterns in one or more cell types, but in order to fully understand the complexity of a human cell, models must classify mixed patterns according to a number of different human cells. The article formulates the problem of image classification in medical research. In this area, classification methods using deep convolutional neural networks are actively used. Presented article gives a brief overview of the various approaches and methods of similar research. As a dataset was taken “The Human Protein Atlas”, that presents a tissue-based map of the human proteome, completed in 2014 after 11 years of research. All protein expression profiling data is publicly accessible in an interactive database, enabling tissue-based exploration of the human proteome. It was done an analysis of the work and the methods that were used during the research. To solve this problem, the deep neural network model is proposed taking into account the characteristics of the domain and the sample under study. The neural network model is based on Inception-v3 architecture. Optimization procedure contains combination of several tweaks for fast convergence: stochastic gradient descent with warm restarts (learning rate schedule for exploring different local minima), progressive image resizing (training starts from small resolution and sequentially increases each cycle of SGDR). We propose new method for threshold selection for F1 meas-ure. Developed model can be used to create an instrument integrated into the medical system of intellectual microscopy to determine the location of the protein from a high-performance image.
В наш час точна діагностика захворювань, їх лікування та прогноз є гострою проблемою сучасної медици-ни. Вивчаючи інформацію про людські протеїни, можливо ідентифікувати диференційно експресовані білки. Ці протеїни є потенційно цікавими біомаркерами, які слід використовувати для точного діагнозу, прогнозу або вибору індивідуального лікування, особливо в разі онкологічних захворювань. Результати досліджень показують, що відносно мало білків мало біл-ків в людському тілі є тканеспеціфічнимі. Майже половина всіх білків класифікується як допоміжні білки, що експресу-ються в усіх клітинах. Тільки 2300 білків в організмі людини були ідентифіковані як тканеспеціфічні, що означає, що вони мають підвищені рівні експресії в певних тканинах. Завдяки досягненням в області високопродуктивної мікроскопії зобра-ження генеруються занадто швидко для ручної оцінки. Отже, потреба в автоматизації аналізу біомедичних зображень як ніколи велика, щоб прискорити розуміння людських клітин і захворювань. Історично класифікація білків обмежувалася ін-дивідуальними паттернами в одному або декількох типах клітин, але для повного розуміння складності людської клітини моделі повинні класифікувати змішані па терни відповідно до кількості різних типів людських клітин. У статті сформу-льована проблема класифікації зображень в медичних дослідженнях. У цій області активно використовуються методи класифікації з використанням глибоких загортальних нейронних мереж. Представлена стаття дає короткий огляд різних підходів і методів подібного дослідження. Як набору даних було взято «Human Protein Atlas», що представляє тканинну карту протеома людини, складену в 2014 році після 11 років досліджень. Всі дані профілювання експресії протеїнів загаль-нодоступні в інтерактивній базі даних, що дозволяє досліджувати протеом людини на тканинній основі. Було проведено аналіз робіт і методів, які були використані в ході дослідження. Для вирішення цієї завдані запропонована модель глибокої нейронної мережі з урахуванням характеристик домену і досліджуваної вибірки. Модель нейронної мережі заснована на архітектурі Inception-v3. Процедура оптимізації містить комбінацію декількох методів для швидкої збіжності: стохас-тичний градієнтний спуск з перезапуском (зміна швидкості навчання для вивчення різних локальних мінімумів), прогресивне зміна розміру зображення (навчання починається з невеликої роздільної здатності і послідовно збільшує її кожен цикл SGDR). Ми пропонуємо новий метод вибору порогу для заходи F1. Розроблена модель може бути використана для ство-рення приладу, інтегрованого в медичну систему інтелектуальної мікроскопії, для визначення місця розташування білка по високоефективному зображенню.
В настоящее время точная диагностика заболеваний, их лечение и прогноз являются острой проблемой современной медицины. Изучая информацию о человеческих белках, возможно идентифицировать дифференциально экс-прессируемые белки. Эти белки являются потенциально интересными биомаркерами, которые следует использовать для точного диагноза, прогноза или выбора индивидуального лечения, особенно в случае онкологических заболеваний. Результа-ты исследований показывают, что относительно мало белков мало белков в человеческом теле являются тканеспецифич-ными. Почти половина всех белков классифицируется как вспомогательные белки, экспрессируемые во всех клетках. Только 2300 белков в организме человека были идентифицированы как тканеспецифичные, что означает, что они имеют повы-шенные уровни экспрессии в определенных тканях. Благодаря достижениям в области высокопроизводительной микроско-пии изображения генерируются слишком быстро для ручной оценки. Следовательно, потребность в автоматизации ана-лиза биомедицинских изображений как никогда велика, чтобы ускорить понимание человеческих клеток и заболеваний. Исторически классификация белков ограничивалась индивидуальными паттернами в одном или нескольких типах клеток, но для полного понимания сложности человеческой клетки модели должны классифицировать смешанные паттерны в соответствии с количеством различных типов человеческих клеток. В статье сформулирована проблема классификации изображений в медицинских исследованиях. В этой области активно используются методы классификации с использовани-ем глубоких сверточных нейронных сетей. Представленная статья дает краткий обзор различных подходов и методов подобного исследования. В качестве набора данных был взят «Human Protein Atlas», представляющий тканевую карту протеома человека, составленную в 2014 году после 11 лет исследований. Все данные профилирования экспрессии белка общедоступны в интерактивной базе данных, что позволяет исследовать протеом человека на тканевой основе. Был про-изведен анализ работ и методов, которые были использованы в ходе исследования. Для решения этой задачи предложена модель глубокой нейронной сети с учетом характеристик домена и исследуемой выборки. Модель нейронной сети основана на архитектуре Inception-v3. Процедура оптимизации содержит комбинацию нескольких методов для быстрой сходимо-сти: стохастический градиентный спуск с перезапусками (изменение скорости обучения для изучения различных локальных минимумов), прогрессивное изменение размера изображения (обучение начинается с небольшого разрешения и последова-тельно увеличивает каждый цикл SGDR). Мы предлагаем новый метод выбора порога для меры F1. Разработанная модель может быть использована для создания прибора, интегрированного в медицинскую систему интеллектуальной микроско-пии, для определения местоположения белка по высокоэффективному изображению.