Целью работы является определение наиболее подходящей тема-
тической модели для классификации научных публикаций по авторам-однофамильцам. Проанализированы вероят-
ностные тематические модели и предложено использование модели латентного размещения Дирихле — лидирую-
щей среди вероятностных тематических моделей благодаря многочисленным обобщениям и приложениям к анализу
коллекций текстовых документов. Для сравнения выбрана модель латентно семантического анализа, недостатки
которой решаются при помощи рассматриваемой модели. Модель применена в проекте по извлечению публикаций
из наукометрических баз данных. В этом проекте применение тематического моделирования позволяет решить про-
блему разделения публикаций авторов-однофамильцев, где в качестве коллекции документов выбраны названия
публикаций. Результаты показали что модель латентного размещения Дирихле уступает латентно-семантическому
анализу, когда используется малый обьем содержимого документов. Поэтому для коллекций документов малого
обьема предпочтительным является использование латентно-семантического анализа, а для больших обьемов —
латентного размещения Дирихле.
The aim of the work is to determine the most appropriate model for a thematic classification of
scientific publications by author with the same sirname. The probabilistic models are analyzed and it is proposed to use the
model of latent Dirichlet allocation — the leading one among probabilistic models thanks to numerous generalizations and
applications to the analysis of collections of text documents. For comparison the latent semantic analysis model is chosen.
The model is used in the project for the extraction of publications from scientometric databases. In this project the usage of
topic modeling solves the problem of separation of publications of authors with the same sirname, where titles of publications
are selected as collection of documents. The results show that the model of latent Dirichlet allocation yield to the latent semantic
analysis with usage of small volume of the contents of documents. Therefore, for small collections of documents of
volume it is preferable to use latent semantic analysis, and for large volumes — latent Dirichlet allocation.
Метою роботи є визначення найбільш відповідної тематичної моделі для
класифікації наукових публікацій за автором-однофамільцем. Проаналізовано ймовірнісні тематичні моделі та за-
пропоновано використання моделі латентного розміщення Діріхле — лідируючої серед імовірнісних тематичнихмоделей завдяки численним узагальненням і додаткам до аналізу колекцій текстових документів. Для порівняння
обрано модель латентно-семантичного аналізу, недоліки якої вирішуються за допомогою розглянутої моделі. Мо-
дель використана у проекті по вилученню публікацій з наукометричних баз даних. У цьому проекті застосування
тематичного моделювання дозволяє вирішити проблему поділу публікацій авторів-однофамільців, де колекцією до-
кументів обрано назви публікацій. Результати показують, що модель латентного розміщення Діріхле поступається
латентно-семантичному аналізу, коли використовується малий обсяг вмісту документів. Тому для колекцій докумен-
тів малого обсягу переважним є використання латентно-семантичного аналізу, а для великих обсягів — латентного
розміщення Діріхле