eONPUIR

Моделі і методи пошуку інформації у наукометричних базах даних

Показать сокращенную информацию

dc.contributor.author Коляда, А. С.
dc.contributor.author Коляда, А. С.
dc.contributor.author Кolyada, A. S.
dc.date.accessioned 2017-05-29T11:58:08Z
dc.date.available 2017-05-29T11:58:08Z
dc.date.issued 2015-10-01
dc.identifier.citation Коляда, А. С. Моделі і методи пошуку інформації у наукометричних базах даних : автореф. дис. ... канд. техн. наук : спец. 05.13.06 – інформаційні технології : захист 01.10.2015 / А. С. Коляда ; наук. керівник В. Д. Гогунський ; Одес. нац. політехн. ун-т. - Одеса, 2015. - 22 с. en
dc.identifier.uri http://dspace.opu.ua/jspui/handle/123456789/2865
dc.description.abstract Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – інформаційні технології. – Одеський національний політехнічний університет МОН України, Одеса, 2015. Дисертація присвячена вирішенню проблеми створення інформаційної технології для вилучення метаданих наукових публікацій із наукометричних баз даних на основі веб-інтерфейсу. Дано визначення наукометричної бази даних, приведено характеристику найпоширеніших із них, а також способи використання інформації з цих баз даних. Розроблено модель вилучення інформації із слабо структурованих веб-сторінок та модель автоматизації процесу вилучення із багатьох наукометричних баз даних. Також удосконалено спосіб вилучення інформації із динамічних веб-сторінок, які потребують виконання програмного коду на стороні користувача. Проаналізовано процес тематичного моделювання, та застосовано латентно-семантичний аналіз і латентне розміщення Діріхле до списку назв вилучених публікацій з метою розподілу їх на близькі за змістом теми. Розроблено програмну систему автоматизації вилучення метаданих публікацій з найбільш поширених наукометричних баз даних разом із графічним інтерфейсом користувача для управління пошуком публікацій, їх перегляду та аналізу. en
dc.description.abstract Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 – информационные технологии. – Одесский национальный политехнический университет МОН Украины, Одесса, 2015. Диссертация посвящена решению проблемы создания информационной технологии для извлечения метаданных научных публикаций из наукометрических баз данных на основе веб-интерфейса. Дано определение наукометрической базы данных, а также перечислены наукометрические показатели. Приведены характеристики наиболее распространенных наукометрических баз данных. Показаны способы использования информации из этих баз данных на основе рейтингов университетов мира. Определено понятие метаданных публикации и приведены примеры их представления в наукометрических базах данных. Рассмотрена структура поисковых систем в сети Интернет, которые состоят из поисковой машины и интерфейса пользователя. Разработаны методы извлечения информации из слабо структурированных веб-страниц и автоматизации этого процесса из многих наукометрических баз данных. Извлечение структурированных данных из веб-страниц сводится к решению следующих задач: поиск и получение целевых страниц с исходными данными (проблема навигации); распознавание участков, содержащих нужные данные (проблема распознавания данных); поиск структуры найденных данных (проблема поиска общей структуры данных); обеспечение однородности данных (проблема сопоставления атрибутов извлеченных данных); объединение данных из различных источников (проблема объединения данных). Для преобразования загруженной информации в структурированный формат данных использовано процесс веб-скрапинга, что фокусируется на преобразовании неструктурированных данных в сети (например, в формате HTML) в структурированный формат данных, который может быть проанализирован и сохранен. В отличие от модели поисковой машины, сканируется узкий круг веб-страниц, заданный начальными условиями и извлекается только полезная информация. Также усовершенствован способ извлечения информации из динамических веб-страниц, которые требуют выполнения программного кода на стороне пользователя. Проанализирован процесс тематического моделирования и разработаны методы ранжирования публикаций по их названию на основе ключевых слов, что повышает точность поиска. Латентно-семантический анализ и латентное размещение Дирихле применены для решения проблемы определения публикаций конкретного автора, различая однофамильцев. Список названий извлеченных публикаций в данном случае является набором текстов – входной параметр вероятностных тематических моделей. Разработана программная система автоматизации извлечения метаданных публикаций из самых распространенных наукометрических баз данных вместе с графическим интерфейсом пользователя для управления поиском публикаций, их просмотра и анализа. Предусмотрено предоставление программного интерфейса к функционалу данной программной системы с целью использования другими программами. Из известных аналогов данного программного продукта можно отметить программу Publish Or Perish, которая, правда, работает только с двумя источниками публикаций – Google Scholar и Microsoft Academic Search. Для оценки результатов поиска публикаций в обеих системах использованы следующие меры: точность, полнота и мера Ван Ризбергена. Исходя из полученных оценок, определено, что эффективность поиска разработанной системы с применением ранжирования результатов сравнительно выше, чем у Publish or Perish. Данная система предназначена в первую очередь для мониторинга групповой публикационной активности лабораторий, кафедр и институтов и внедрена в Киевском национальном университете строительства и архитектуры. en
dc.description.abstract The dissertation for obtaining the scientific degree of Candidate of technical sciences in specialty 05.13.06 – Information technologies. – Odessa national polytechnic university MES of Ukraine, Odessa, 2015. The thesis is devoted to the problem of creating information technology to extract metadata from scientometric publications database based on a web interface. The definition of scientometrics database is shown as well as the most common characteristic of them, including how to use these databases. Developed the method of extracting information from poorly structured web pages and automation of the extraction process from many sciencesmetric databases. A method of information extraction from dynamic web pages that require code execution on the user side is also shown. Analyzed the process of topic modeling. And latent semantic analysis with latent Dirichlet allocation applied to the names of publications in order to place them close in content topics. Software system to automate metadata extraction from publications of the most common scientometric databases with graphic user interface was developed to manage search publications viewing and analysis. en
dc.language.iso uk en
dc.publisher Рукопис en
dc.subject наукометрія en
dc.subject публікація en
dc.subject вилучення en
dc.subject модель en
dc.subject латентний en
dc.subject семантичний en
dc.subject Діріхле en
dc.subject слабоструктурований en
dc.subject веб-сторінка en
dc.subject краулер en
dc.subject павук en
dc.subject наукометрия en
dc.subject публикация en
dc.subject извлечение en
dc.subject модель en
dc.subject латентный en
dc.subject семантический en
dc.subject Дирихле en
dc.subject слабоструктурированный en
dc.subject веб-страница en
dc.subject краулер en
dc.subject паук en
dc.subject scientometrics en
dc.subject extraction en
dc.subject publication en
dc.subject semistructured en
dc.subject model en
dc.subject latent en
dc.subject semantic en
dc.subject Dirichlet en
dc.subject webpage en
dc.subject crawler en
dc.subject spider en
dc.title Моделі і методи пошуку інформації у наукометричних базах даних en
dc.title.alternative Модели и методы поиска информации в наукометрических базах данных en
dc.title.alternative Models and methods of information search in scientometric databases en
dc.type Preprint en
opu.kafedra Кафедра управління системами безпеки життєдіяльності uk
opu.citation.firstpage 01 en
opu.citation.lastpage 22 en
opu.staff.id kolyada@opu.ua en


Файлы, содержащиеся в элементе

Этот элемент содержится в следующих коллекциях

Показать сокращенную информацию