Моделі і методи пошуку інформації у наукометричних базах даних

Коляда, А. С.; Коляда, А. С.; Кolyada, A. S.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/2865

Название:	Моделі і методи пошуку інформації у наукометричних базах даних
Другие названия:	Модели и методы поиска информации в наукометрических базах данных Models and methods of information search in scientometric databases
Авторы:	Коляда, А. С. Коляда, А. С. Кolyada, A. S.
Ключевые слова:	наукометрія публікація вилучення модель латентний семантичний Діріхле слабоструктурований веб-сторінка краулер павук наукометрия публикация извлечение модель латентный семантический Дирихле слабоструктурированный веб-страница краулер паук scientometrics extraction publication semistructured model latent semantic Dirichlet webpage crawler spider
Дата публикации:	1-Окт-2015
Издательство:	Рукопис
Библиографическое описание:	Коляда, А. С. Моделі і методи пошуку інформації у наукометричних базах даних : автореф. дис. ... канд. техн. наук : спец. 05.13.06 – інформаційні технології : захист 01.10.2015 / А. С. Коляда ; наук. керівник В. Д. Гогунський ; Одес. нац. політехн. ун-т. - Одеса, 2015. - 22 с.
Краткий осмотр (реферат):	Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – інформаційні технології. – Одеський національний політехнічний університет МОН України, Одеса, 2015. Дисертація присвячена вирішенню проблеми створення інформаційної технології для вилучення метаданих наукових публікацій із наукометричних баз даних на основі веб-інтерфейсу. Дано визначення наукометричної бази даних, приведено характеристику найпоширеніших із них, а також способи використання інформації з цих баз даних. Розроблено модель вилучення інформації із слабо структурованих веб-сторінок та модель автоматизації процесу вилучення із багатьох наукометричних баз даних. Також удосконалено спосіб вилучення інформації із динамічних веб-сторінок, які потребують виконання програмного коду на стороні користувача. Проаналізовано процес тематичного моделювання, та застосовано латентно-семантичний аналіз і латентне розміщення Діріхле до списку назв вилучених публікацій з метою розподілу їх на близькі за змістом теми. Розроблено програмну систему автоматизації вилучення метаданих публікацій з найбільш поширених наукометричних баз даних разом із графічним інтерфейсом користувача для управління пошуком публікацій, їх перегляду та аналізу. Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 – информационные технологии. – Одесский национальный политехнический университет МОН Украины, Одесса, 2015. Диссертация посвящена решению проблемы создания информационной технологии для извлечения метаданных научных публикаций из наукометрических баз данных на основе веб-интерфейса. Дано определение наукометрической базы данных, а также перечислены наукометрические показатели. Приведены характеристики наиболее распространенных наукометрических баз данных. Показаны способы использования информации из этих баз данных на основе рейтингов университетов мира. Определено понятие метаданных публикации и приведены примеры их представления в наукометрических базах данных. Рассмотрена структура поисковых систем в сети Интернет, которые состоят из поисковой машины и интерфейса пользователя. Разработаны методы извлечения информации из слабо структурированных веб-страниц и автоматизации этого процесса из многих наукометрических баз данных. Извлечение структурированных данных из веб-страниц сводится к решению следующих задач: поиск и получение целевых страниц с исходными данными (проблема навигации); распознавание участков, содержащих нужные данные (проблема распознавания данных); поиск структуры найденных данных (проблема поиска общей структуры данных); обеспечение однородности данных (проблема сопоставления атрибутов извлеченных данных); объединение данных из различных источников (проблема объединения данных). Для преобразования загруженной информации в структурированный формат данных использовано процесс веб-скрапинга, что фокусируется на преобразовании неструктурированных данных в сети (например, в формате HTML) в структурированный формат данных, который может быть проанализирован и сохранен. В отличие от модели поисковой машины, сканируется узкий круг веб-страниц, заданный начальными условиями и извлекается только полезная информация. Также усовершенствован способ извлечения информации из динамических веб-страниц, которые требуют выполнения программного кода на стороне пользователя. Проанализирован процесс тематического моделирования и разработаны методы ранжирования публикаций по их названию на основе ключевых слов, что повышает точность поиска. Латентно-семантический анализ и латентное размещение Дирихле применены для решения проблемы определения публикаций конкретного автора, различая однофамильцев. Список названий извлеченных публикаций в данном случае является набором текстов – входной параметр вероятностных тематических моделей. Разработана программная система автоматизации извлечения метаданных публикаций из самых распространенных наукометрических баз данных вместе с графическим интерфейсом пользователя для управления поиском публикаций, их просмотра и анализа. Предусмотрено предоставление программного интерфейса к функционалу данной программной системы с целью использования другими программами. Из известных аналогов данного программного продукта можно отметить программу Publish Or Perish, которая, правда, работает только с двумя источниками публикаций – Google Scholar и Microsoft Academic Search. Для оценки результатов поиска публикаций в обеих системах использованы следующие меры: точность, полнота и мера Ван Ризбергена. Исходя из полученных оценок, определено, что эффективность поиска разработанной системы с применением ранжирования результатов сравнительно выше, чем у Publish or Perish. Данная система предназначена в первую очередь для мониторинга групповой публикационной активности лабораторий, кафедр и институтов и внедрена в Киевском национальном университете строительства и архитектуры. The dissertation for obtaining the scientific degree of Candidate of technical sciences in specialty 05.13.06 – Information technologies. – Odessa national polytechnic university MES of Ukraine, Odessa, 2015. The thesis is devoted to the problem of creating information technology to extract metadata from scientometric publications database based on a web interface. The definition of scientometrics database is shown as well as the most common characteristic of them, including how to use these databases. Developed the method of extracting information from poorly structured web pages and automation of the extraction process from many sciencesmetric databases. A method of information extraction from dynamic web pages that require code execution on the user side is also shown. Analyzed the process of topic modeling. And latent semantic analysis with latent Dirichlet allocation applied to the names of publications in order to place them close in content topics. Software system to automate metadata extraction from publications of the most common scientometric databases with graphic user interface was developed to manage search publications viewing and analysis.
URI (Унифицированный идентификатор ресурса):	http://dspace.opu.ua/jspui/handle/123456789/2865
Располагается в коллекциях:	Автореферати каф. УСБЖД

Файлы этого ресурса:

Файл	Описание	Размер	Формат
arefKolyada.pdf		839.83 kB	Adobe PDF	Просмотреть/Открыть
disKolyada.pdf		3.01 MB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.