eONPUIR

Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных.

Показать сокращенную информацию

dc.contributor.author Коляда, А . С .
dc.contributor.author Яковенко, В . А .
dc.contributor.author Гогунский, В . Д .
dc.contributor.author Kolyada, A . S .
dc.contributor.author Yakovenko, В . A .
dc.contributor.author Gogunsky, V . D .
dc.contributor.author Коляда, А . С .
dc.contributor.author Яковенко, В . О .
dc.contributor.author Гогунський, В . Д .
dc.date.accessioned 2017-05-16T17:21:46Z
dc.date.available 2017-05-16T17:21:46Z
dc.date.issued 2014
dc.identifier.citation Коляда, А. С. Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных / А. С. Коляда, В. А. Яковенко, В. Д. Гогунский // Пр. Одес. політехн. ун-ту. - Одеса, 2014. - Вип. 1 (43). - С. 186-191. ru
dc.identifier.issn 2076-2429
dc.identifier.issn 2223-3814
dc.identifier.uri http://pratsi.opu.ua/app/webroot/articles/1414145257.pdf
dc.identifier.uri http://dspace.opu.ua/jspui/handle/123456789/2612
dc.description.abstract Целью работы является определение наиболее подходящей тема- тической модели для классификации научных публикаций по авторам-однофамильцам. Проанализированы вероят- ностные тематические модели и предложено использование модели латентного размещения Дирихле — лидирую- щей среди вероятностных тематических моделей благодаря многочисленным обобщениям и приложениям к анализу коллекций текстовых документов. Для сравнения выбрана модель латентно семантического анализа, недостатки которой решаются при помощи рассматриваемой модели. Модель применена в проекте по извлечению публикаций из наукометрических баз данных. В этом проекте применение тематического моделирования позволяет решить про- блему разделения публикаций авторов-однофамильцев, где в качестве коллекции документов выбраны названия публикаций. Результаты показали что модель латентного размещения Дирихле уступает латентно-семантическому анализу, когда используется малый обьем содержимого документов. Поэтому для коллекций документов малого обьема предпочтительным является использование латентно-семантического анализа, а для больших обьемов — латентного размещения Дирихле. en
dc.description.abstract The aim of the work is to determine the most appropriate model for a thematic classification of scientific publications by author with the same sirname. The probabilistic models are analyzed and it is proposed to use the model of latent Dirichlet allocation — the leading one among probabilistic models thanks to numerous generalizations and applications to the analysis of collections of text documents. For comparison the latent semantic analysis model is chosen. The model is used in the project for the extraction of publications from scientometric databases. In this project the usage of topic modeling solves the problem of separation of publications of authors with the same sirname, where titles of publications are selected as collection of documents. The results show that the model of latent Dirichlet allocation yield to the latent semantic analysis with usage of small volume of the contents of documents. Therefore, for small collections of documents of volume it is preferable to use latent semantic analysis, and for large volumes — latent Dirichlet allocation. en
dc.description.abstract Метою роботи є визначення найбільш відповідної тематичної моделі для класифікації наукових публікацій за автором-однофамільцем. Проаналізовано ймовірнісні тематичні моделі та за- пропоновано використання моделі латентного розміщення Діріхле — лідируючої серед імовірнісних тематичнихмоделей завдяки численним узагальненням і додаткам до аналізу колекцій текстових документів. Для порівняння обрано модель латентно-семантичного аналізу, недоліки якої вирішуються за допомогою розглянутої моделі. Мо- дель використана у проекті по вилученню публікацій з наукометричних баз даних. У цьому проекті застосування тематичного моделювання дозволяє вирішити проблему поділу публікацій авторів-однофамільців, де колекцією до- кументів обрано назви публікацій. Результати показують, що модель латентного розміщення Діріхле поступається латентно-семантичному аналізу, коли використовується малий обсяг вмісту документів. Тому для колекцій докумен- тів малого обсягу переважним є використання латентно-семантичного аналізу, а для великих обсягів — латентного розміщення Діріхле en
dc.language.iso ru en
dc.publisher Odessa Politechnic University en
dc.subject модель en
dc.subject латентный en
dc.subject семантический en
dc.subject Дирихле en
dc.subject тематический en
dc.subject публикация en
dc.subject model en
dc.subject latent en
dc.subject semantic en
dc.subject Dirichlet en
dc.subject topic en
dc.subject publication en
dc.subject модель en
dc.subject латентний en
dc.subject семантичний en
dc.subject Діріхле en
dc.subject тематичний en
dc.subject публікація en
dc.title Применение латентного размещения Дирихле для анализа публикаций из наукометрических баз данных. en
dc.title.alternative Applying latent Dirichlet allocation for analysis of publications in scientometric databases. en
dc.title.alternative Застосування латентного розміщення Діріхле для аналізу публікацій з наукометричних баз даних. en
dc.type Article en
opu.citation.journal Pratsi en
opu.citation.firstpage 186 en
opu.citation.lastpage 191 en
opu.citation.issue 1(43) en


Файлы, содержащиеся в элементе

Этот элемент содержится в следующих коллекциях

Показать сокращенную информацию