Порівняння текстової інформації з інформаційних джерел на основі алгоритму косинусної подібності

Угрин, Дмитро Ілліч; Uhryn, Dmytro I.; Каланча, Артем Дмитрович; Kalancha, Artem D.

eONPUIR
→
2. Матеріали конференцій
→
2024
→
«Informatics. Culture. Technology» = «Інформатика. Культура. Техніка»
→
Посмотреть элемент

dc.contributor.author	Угрин, Дмитро Ілліч
dc.contributor.author	Uhryn, Dmytro I.
dc.contributor.author	Каланча, Артем Дмитрович
dc.contributor.author	Kalancha, Artem D.
dc.date.accessioned	2024-10-09T12:47:21Z
dc.date.available	2024-10-09T12:47:21Z
dc.date.issued	2024-09-26
dc.identifier.issn	2522-1523
dc.identifier.uri	http://dspace.opu.ua/jspui/handle/123456789/14652
dc.description.abstract	У тезах представлено дослідження, спрямоване на розробку оптимальної концепції аналізу та порівняння інформаційних джерел на основі великих обсягів текстової інформації за допомогою методів обробки природної мови (NLP). Об'єктом дослідження стали новинні Telegram-канали, які використовуються як джерела текстових даних. Було здійснено попередню обробку текстів, включаючи очищення, токенізацію та лематизацію, для формування глобального словника, що складається з унікальних слів усіх інформаційних джерел. Для кожного джерела було побудовано векторне представлення текстів, розмірність якого відповідає кількості унікальних слів у глобальному словнику. Частота вживання кожного слова у текстах каналу відображалася у відповідних позиціях вектора. Застосувавши алгоритм косинусної подібності до пар векторів, було отримано квадратну матрицю, яка демонструє ступінь подібності між різними джерелами. Результати дослідження показують ефективність запропонованого підходу для кількісної оцінки подібності текстових даних з різних джерел. Виявлено необхідність подальшої оптимізації алгоритму, зокрема шляхом параметризації для досягнення балансу між точністю та обчислювальними витратами, а також відокремлення слів з надмірною вагою, таких як специфічні терміни або назви каналів. Запропонований метод може бути застосований для аналізу інформаційних потоків, виявлення взаємозв'язків між джерелами та дослідження соціально-культурного впливу медіа-контенту в умовах сучасного інформаційного середовища	en
dc.description.abstract	This article presents research aimed at developing an optimal concept of analysis and comparison of information sources based on large volumes of textual information using natural language processing (NLP) methods. The object of the study was Telegram news channels, which are used as sources of text data. Texts were pre-processed, including cleaning, tokenization, and lemmatization, to form a global dictionary consisting of unique words from all information sources. For each source, a vector representation of the texts was built, the dimension of which corresponds to the number of unique words in the global dictionary. The frequency of use of each word in the channel's texts was displayed in the corresponding positions of the vector. By applying the cosine similarity algorithm to pairs of vectors, a square matrix was obtained that demonstrates the degree of similarity between different sources. The results of the study show the effectiveness of the proposed approach for quantitative assessment of the similarity of textual data from different sources. The need for further optimization of the algorithm was identified, in particular by parameterization to achieve a balance between accuracy and computational cost, as well as the separation of words with excessive weight, such as specific terms or channel names. The proposed method can be applied to the analysis of information flows, the identification of relationships between sources and the study of the socio-cultural influence of media content in the conditions of the modern information environment.	en
dc.language.iso	uk	en
dc.publisher	Odessа Polytechnic National University	en
dc.subject	інформаційне джерело	en
dc.subject	текст	en
dc.subject	подібність	en
dc.subject	обробка природної мови	en
dc.subject	попередня обробка тексту	en
dc.subject	Telegram	en
dc.subject	векторизація	en
dc.subject	косинусна подібність	en
dc.subject	Information source	en
dc.subject	text	en
dc.subject	similarity	en
dc.subject	natural language processing	en
dc.subject	text preprocessing	en
dc.subject	vectorization	en
dc.subject	cosine similarity	en
dc.title	Порівняння текстової інформації з інформаційних джерел на основі алгоритму косинусної подібності	en
dc.title.alternative	Comparison of text information from information sources based on the cosine similarity algorithm	en
dc.type	Article	en
opu.citation.journal	Інформатика. Культура. Техніка = Informatics. Culture. Technology	en
opu.citation.volume	1	en
opu.citation.firstpage	173	en
opu.citation.lastpage	178	en
opu.citation.conference	Х МІЖНАРОДНА НАУКОВО-ПРАКТИЧНА КОНФЕРЕНЦІЯ «Інформатика. Культура. Техніка» = X International conference "INFORMATICS. CULTURE. TECHNIQUE"	en
opu.citation.issue	1	en

Файлы, содержащиеся в элементе

Имя: 25__1-3_Угрин_Кал ...

Размер: 710.3Кб

Формат: PDF

Посмотреть/Открыть

Этот элемент содержится в следующих коллекциях

«Informatics. Culture. Technology» = «Інформатика. Культура. Техніка»
PROCEEDINGS OF THE Х INTERNATIONAL SCIENTIFIC CONFERENCE SEPTEMBER 26-27, 2024 = МАТЕРІАЛИ Х МІЖНАРОДНОЇ НАУКОВО-ПРАКТИЧНА КОНФЕРЕНЦІЇ 26-27 ВЕРЕСНЯ 2024 РОКУ

Показать сокращенную информацию

Поиск в DSpace

Продвинутый поиск

Просмотр

Весь DSpace
Эта коллекция

Мой профиль

Статистика

View Usage Statistics

Порівняння текстової інформації з інформаційних джерел на основі алгоритму косинусної подібності

Файлы, содержащиеся в элементе

Этот элемент содержится в следующих коллекциях

Поиск в DSpace

Просмотр

Весь DSpace

Эта коллекция

Мой профиль

Статистика