The analysis of gene expression data has grown increasingly complex with the expansion of high-throughput techniques like
bulk RNA-seq and scRNA-seq. These datasets challenge traditional clustering methods, which often struggle with the high
dimensionality, noise, and variability in biological data. Consequently, biclustering methods, which group genes and conditions
simultaneously, have gained popularity in bioinformatics. Biclustering is valuable for identifying co-regulated gene subsets under
specific conditions, aiding in the exploration of transcriptional modules and gene-disease links. This review examines both traditional
clustering and biclustering methods for gene expression analysis, covering applications such as patient stratification, gene network
identification, and drug-gene interaction studies. Key biclustering algorithms are discussed, focusing on their strengths and
challenges in handling complex profiles. The article highlights significant issues like hyperparameter optimization, scalability, and
the need for biologically interpretable results. Emerging trends are also reviewed, such as consensus clustering and distance metrics
for high-dimensional data, with attention to the limitations of evaluation metrics. The potential for these methods in diagnostic
systems for diseases like cancer and neurodegenerative disorders is also considered. Finally, we outline future directions for
enhancing clustering and biclustering algorithms to create a personalized medicine system based on gene expression data.
Аналіз даних експресії генів стає дедалі складнішим через розширення високопродуктивних технологій, таких як bulk
RNA-seq та одноядерне секвенування РНК (scRNA-seq). Ці набори даних створюють значні виклики для традиційних
методів кластеризації, які часто не здатні справлятися з високою вимірністю, шумом та варіабельністю, властивими
біологічним даним. Як результат, у біоінформатиці набувають популярності методи бікластеризації, що дозволяють
одночасно групувати гени та умови. Бікластеризація є корисною для ідентифікації підмножин співрегульованих генів за
певних умов, сприяючи дослідженню транскрипційних модулів та зв’язків між генами та хворобами. Цей огляд охоплює як
традиційні методи кластеризації, так і методи бікластеризації для аналізу експресії генів, розглядаючи їх застосування для
стратифікації пацієнтів, ідентифікації генних мереж та дослідження взаємодії між генами та ліками. Обговорено ключові
алгоритми бікластеризації з акцентом на їхні сильні сторони та виклики у роботі зі складними профілями. Стаття висвітлює
важливі питання, такі як оптимізація гіперпараметрів, масштабованість та необхідність біологічно інтерпретованих
результатів. Розглянуто новітні тенденції, такі як консенсусна кластеризація та метрики відстані для високовимірних даних,
а також обмеження поточних метрик оцінки. Розглядається потенціал цих методів у діагностичних системах для таких
захворювань, як рак та нейродегенеративні розлади. Нарешті, ми окреслюємо перспективні напрями для вдосконалення
алгоритмів кластеризації та бікластеризації з метою створення системи персоналізованої медицини на основі даних
експресії генів..