Constructing a website graph using the crawling procedure

Dolotov, Ivan O.; Долотов, Іван Олександрович; Guk, Natalia A.; Гук, Наталія Анатоліївна

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/14788

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Dolotov, Ivan O.	-
dc.contributor.author	Долотов, Іван Олександрович	-
dc.contributor.author	Guk, Natalia A.	-
dc.contributor.author	Гук, Наталія Анатоліївна	-
dc.date.accessioned	2024-12-15T16:49:55Z	-
dc.date.available	2024-12-15T16:49:55Z	-
dc.date.issued	2024-12-04	-
dc.identifier.issn	2663-0176	-
dc.identifier.issn	2663-7731	-
dc.identifier.uri	http://dspace.opu.ua/jspui/handle/123456789/14788	-
dc.description.abstract	The paper presents an approach to analyzing website structures. The objective is to develop an automated data collection procedure (crawling process) that systematically traverses a website and constructs a web graph represented as either lists of vertices and edges or an adjacency matrix, enabling subsequent analysis of structural connections between its elements. An unclear website structure can hinder user navigation and slow down the indexing process for search engines. Consequently, the development of automatic structure analysis methods is a relevant task. Existing information collection procedures for websites are deficient in providing comprehensive dataset and lack configuration options for setting data collection parameters. Considering that modern websites often have dynamic structures, which leads to variations in URL composition, this work enhances the approach to automating website structure data collection, accounting for dynamic pages and the specific features of their URL structure. The research method involves analyzing both internal and external links on webpages to understand the interconnections between different parts of a site. The quality of the structure is evaluated by calculating metric characteristics of the generated web graph, including diameter, density, clustering coefficient, and others. In this work a crawling procedure and algorithm were developed based on a breadth-first traversal of the graph. Software was developed to implement the crawling procedure and analyze the collected data, utilizing Python libraries such as requests, BeautifulSoup4, and networkx. Web graphs of several websites of various types and topics were constructed. The web graph representation allowed to explore the website's structural properties. Graphs were created to demonstrate the dependence between the average density of web graphs and the number of vertices, the average graph formation time and the number of vertices, and the average modularity coefficient relative to the average clustering coefficient. It was found that websites with well-defined thematic structures exhibit higher modularity and clustering coefficients. The practical significance of this work lies in its potential applications for optimizing website structures and developing new tools for data analysis.	en
dc.description.abstract	Розглянуто підхід до аналізу структури вебсайту. Мета роботи полягає у розробці процедури автоматичного збору даних про структуру вебсайту (процедури краулінгу), за допомогою якої здійснюється обхід сайту та будується вебграф у вигляді списків вершин та ребер або матриці суміжності, для подальшого вивчення структури через аналіз зв’язків між його елементами. Незрозуміла структура вебсайту призводить до погіршення навігації сайтом для користувача та уповільнення індексації сайту пошуковими машинами, тому розробка процедур автоматичного аналізу структури є актуальною задачею. Відомі процедури збору інформації про сайт не забезпечують можливість отримання повного набору даних та не мають налаштувань для визначення параметрів збору інформації. Враховуючи, що сучасні вебсайти мають динамічну структуру, яка призводить до відмінностей у записі URL-адрес, у роботі вдосконалюється підхід до автоматизації збору інформації про структуру сайту з врахуванням наявності динамічних сторінок та особливостей побудови їхніх URL-адрес. Методом дослідження є вивчення зовнішніх та внутрішніх посилань на вебсторінках для розуміння зв’язків між окремими частинами сайту, оцінювання якості структури через визначення метричних характеристик побудованого вебграфа, зокрема діаметру, щільності, коефіцієнту кластеризації тощо. В роботі розроблено процедуру та алгоритм краулінгу, що спираються на метод обходу графа в ширину. Для реалізації процедури краулінгу та аналізу отриманих даних розроблено програмне забезпечення із використанням бібліотек Python (requests, BeautifulSoup4, networkx). Побудовано вебграфи кількох вебсайтів різного спрямування та тематики. Зображення сайту у вигляді вебграфа дозволило дослідити його структуру. Побудовано графіки залежності середньої щільності вебграфів від кількості вершин, середнього часу формування графа від кількості вершин та середнього коефіцієнту модулярності від коефіцієнту кластеризації. Встановлено, що вебсайти з чітко вираженою тематичною структурою мають більш високі значення коефіцієнтів модулярності та кластеризації. Практична значущість роботи полягає в тому, що отримані результати можуть бути використані для оптимізації структури сайтів та розробки нових інструментів для аналізу даних.	en
dc.language.iso	en	en
dc.publisher	Odessа Polytechnic National University	en
dc.subject	Graph	en
dc.subject	website	en
dc.subject	web graph	en
dc.subject	crawling	en
dc.subject	breadth-first search	en
dc.subject	clustering	en
dc.subject	modularity	en
dc.subject	transitivity	en
dc.subject	metric	en
dc.subject	граф	en
dc.subject	вебсайт	en
dc.subject	вебграф	en
dc.subject	краулінг	en
dc.subject	обхід в ширину	en
dc.subject	кластеризація	en
dc.subject	модулярність	en
dc.subject	транзитивність	en
dc.subject	метрика	en
dc.title	Constructing a website graph using the crawling procedure	en
dc.title.alternative	Побудова графа вебсайту з використанням процедури краулінгу	en
dc.type	Article	en
opu.citation.journal	Herald of Advanced Information Technology	en
opu.citation.volume	4	en
opu.citation.firstpage	384	en
opu.citation.lastpage	392	en
opu.citation.issue	7	en
Располагается в коллекциях:	2024, Vol. 7, № 4

Файлы этого ресурса:

Файл	Описание	Размер	Формат
4_Dolotov.pdf		773.51 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.