Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://dspace.opu.ua/jspui/handle/123456789/2612
Название: | Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных. |
Другие названия: | Applying latent Dirichlet allocation for analysis of publications in scientometric databases. Застосування латентного розміщення Діріхле для аналізу публікацій з наукометричних баз даних. |
Авторы: | Коляда, А . С . Яковенко, В . А . Гогунский, В . Д . Kolyada, A . S . Yakovenko, В . A . Gogunsky, V . D . Коляда, А . С . Яковенко, В . О . Гогунський, В . Д . |
Ключевые слова: | модель латентный семантический Дирихле тематический публикация model latent semantic Dirichlet topic publication модель латентний семантичний Діріхле тематичний публікація |
Дата публикации: | 2014 |
Издательство: | Odessa Politechnic University |
Библиографическое описание: | Коляда, А. С. Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных / А. С. Коляда, В. А. Яковенко, В. Д. Гогунский // Пр. Одес. політехн. ун-ту. - Одеса, 2014. - Вип. 1 (43). - С. 186-191. |
Краткий осмотр (реферат): | Целью работы является определение наиболее подходящей тема-
тической модели для классификации научных публикаций по авторам-однофамильцам. Проанализированы вероят-
ностные тематические модели и предложено использование модели латентного размещения Дирихле — лидирую-
щей среди вероятностных тематических моделей благодаря многочисленным обобщениям и приложениям к анализу
коллекций текстовых документов. Для сравнения выбрана модель латентно семантического анализа, недостатки
которой решаются при помощи рассматриваемой модели. Модель применена в проекте по извлечению публикаций
из наукометрических баз данных. В этом проекте применение тематического моделирования позволяет решить про-
блему разделения публикаций авторов-однофамильцев, где в качестве коллекции документов выбраны названия
публикаций. Результаты показали что модель латентного размещения Дирихле уступает латентно-семантическому
анализу, когда используется малый обьем содержимого документов. Поэтому для коллекций документов малого
обьема предпочтительным является использование латентно-семантического анализа, а для больших обьемов —
латентного размещения Дирихле. The aim of the work is to determine the most appropriate model for a thematic classification of scientific publications by author with the same sirname. The probabilistic models are analyzed and it is proposed to use the model of latent Dirichlet allocation — the leading one among probabilistic models thanks to numerous generalizations and applications to the analysis of collections of text documents. For comparison the latent semantic analysis model is chosen. The model is used in the project for the extraction of publications from scientometric databases. In this project the usage of topic modeling solves the problem of separation of publications of authors with the same sirname, where titles of publications are selected as collection of documents. The results show that the model of latent Dirichlet allocation yield to the latent semantic analysis with usage of small volume of the contents of documents. Therefore, for small collections of documents of volume it is preferable to use latent semantic analysis, and for large volumes — latent Dirichlet allocation. Метою роботи є визначення найбільш відповідної тематичної моделі для класифікації наукових публікацій за автором-однофамільцем. Проаналізовано ймовірнісні тематичні моделі та за- пропоновано використання моделі латентного розміщення Діріхле — лідируючої серед імовірнісних тематичнихмоделей завдяки численним узагальненням і додаткам до аналізу колекцій текстових документів. Для порівняння обрано модель латентно-семантичного аналізу, недоліки якої вирішуються за допомогою розглянутої моделі. Мо- дель використана у проекті по вилученню публікацій з наукометричних баз даних. У цьому проекті застосування тематичного моделювання дозволяє вирішити проблему поділу публікацій авторів-однофамільців, де колекцією до- кументів обрано назви публікацій. Результати показують, що модель латентного розміщення Діріхле поступається латентно-семантичному аналізу, коли використовується малий обсяг вмісту документів. Тому для колекцій докумен- тів малого обсягу переважним є використання латентно-семантичного аналізу, а для великих обсягів — латентного розміщення Діріхле |
URI (Унифицированный идентификатор ресурса): | http://pratsi.opu.ua/app/webroot/articles/1414145257.pdf http://dspace.opu.ua/jspui/handle/123456789/2612 |
ISSN: | 2076-2429 2223-3814 |
Располагается в коллекциях: | Праці Одеського політехнічного університету, №1(43), 2014 |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
14.pdf | 405.09 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.