Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://dspace.opu.ua/jspui/handle/123456789/10562
Название: Optimization of analysis and minimization of information losses in text mining
Другие названия: Оптимізація аналізу та мінімізація інформаційних втрат у text mining
Авторы: Mezentseva, Olha
Мезенцева, Ольга Олексіївна
Мезенцева, Ольга Алексеевна
Kolomiiets, Anna
Коломієць, Анна Степанівна
Коломиец, Анна Степановна
Ключевые слова: text analysis;
annotation;
text mining;
software;
algorithm;
text data;
natural language
аналіз текстової інформації;
анотування;
інтелектуальний аналіз текстів;
програмний продукт;
алгоритм;
текстові дані;
природна мова
анализ текстовой информации;
аннотирования;
интеллектуальный анализ текстов;
программный продукт;
алгоритм;
текстовые данные;
естественный язык
Дата публикации: 2-Фев-2020
Издательство: Odessa National Polytechnic University
Библиографическое описание: Mezentseva, O., Kolomiiets, A. (2020). Optimization of analysis and minimization of information losses in text mining. Herald of Advanced Information Technology, Vol. 3, N 1, р. 373–382.
Mezentseva, O. Optimization of analysis and minimization of information losses in text mining / O. Mezentseva, A. Kolomiiets // Herald of Advanced Information Technology = Вісн. сучас. інформ. технологій. – Оdesa, 2020. – Vol. 3, N 1. – Р. 373–382.
Краткий осмотр (реферат): Information is one of the most important resources of today's business environment. It is difficult for any company to succeed without having sufficient information about its customers, employees and other key stakeholders. Every day, companies receive unstructured and structured text from a variety of sources, such as survey results, tweets, call center notes, phone emails, online customer reviews, recorded interactions, emails and other documents. These sources provide raw text that is difficult to understand without using the right text analysis tool. You can do text analytics manually, but the manual process is inefficient. Traditional systems use keywords and cannot read and understand language in emails, tweets, web pages, and text documents. For this reason, companies use text analysis software to analyze large amounts of text data. The software helps users retrieve textual information to act accordingly The most common manual annotation is currently the most common, which can be attributed to the high quality of annotation and its “meaningfulness”. Typical disadvantages of manual annotation systems, textual information analysis systems are the high material costs and the inherent low speed of work. Therefore, the topic of this article is to explore the methods by which you can effectively annotate reviews of various products from the largest marketplace in Ukraine. The following tasks should be solved: to analyze modern approaches to data analysis and processing; to study basic algorithms for data analysis and processing; build a program that will collect data, design the program architecture for more efficient use, based on the use of the latest technologies; clear data using minimize information loss techniques; analyze the data collected, using data analysis and processing approaches; to draw conclusions from the results of all the above works. There are quite a number of varieties of the listed tasks, as well as methods of solving them. This again confirms the importance and relevance of the topic we choose. The purpose of the study is the methods and means by which information losses can be minimized when analyzing and processing textual data. The object of the study is the process of minimizing information losses in the analysis and processing of textual data. In the course of the study, recent research on the analysis and processing of textual information was analyzed; methods of textual information processing and Data Mining algorithms are analyzed.
Стаття присвячена вирішенню таких завдань: провести аналіз сучасних підходів до аналізу та обробки даних; вивчити основні алгоритми для аналізу та обробки даних; на основі застосування новітніх технологій створити програму, яка буде збирати дані, спроектувати архітектуру програми для більш ефективного використання; очистити дані, застосовуючи методи мінімізації інформаційних втрат; проаналізувати отримані очищені дані застосовуючи підходи до аналізу та обробки текстових даних; зробити висновки за результатами усіх вищезгаданих робіт. Існує досить велика кількість різновидів перерахованих завдань, а також методів їх вирішення Інформація є одним з найважливіших ресурсів сучасного бізнес-середовища. Для будь-якої компанії важко досягти успіху, не маючи достатньої інформації про своїх клієнтів, співробітників та інших ключових зацікавлених сторін. Щодня компанії отримують неструктурований і структурований текст з різних джерел, таких як результати опитування, твіти, нотатки до колл-центру, телефонні розсилки, онлайн-відгуки клієнтів, записані взаємодії, листи та інші документи. Ці джерела надають необроблений текст, який нелегко зрозуміти без використання правильного інструменту аналізу тексту. Можна виконувати аналітику тексту вручну, але процес вручну неефективний. Традиційні системи використовують ключові слова і не можуть читати і розуміти мову в електронних листах, твітах, веб-сторінках і текстових документах. З цих причин компанії використовують програмне забезпечення для аналізу текстів для аналізу великих обсягів текстових даних. Програмне забезпечення допомагає користувачам отримувати інформацію з текстових даних, щоб діяти відповідно В даний час найбільш поширене ручне анотування, до переваг якого можна віднести, безумовно, високу якість складання анотації та її «осмисленість». Типові недоліки ручних систем анотування, систем аналізу текстової інформації - це високі матеріальні витрати і притаманна їм низька швидкість роботи. Тому тематика цієї статті – це дослідження методів за допомогою яких можна ефективно анотувати відгуки про різноманітні товари з найбільшого торгівельного майданчику України. Це ще раз підтверджує значущість і актуальність обраної нами теми. Метою дослідження є методи та засоби за допомогою яких можна мінімізувати інформаційні втрати при аналізі та обробці текстових даних. Об’єктом дослідження є процес мінімізації інформаційних втрат при аналізі та обробці текстових даних. В ході дослідження проведено аналіз останніх досліджень з аналізу та обробки текстової інформації; проаналізовано методи обробки текстової інформації та алгоритми Data Mining
Информация является одним из важнейших ресурсов современного бизнес-среды. Для любой компании трудно добиться успеха, не имея достаточной информации о своих клиентах, сотрудников и других ключевых заинтересованных сторон. Ежедневно компании получают неструктурированный и структурированный текст из различных источников, таких как результаты опроса, твиты, заметки в колл-центр, телефонные рассылки, онлайн-отзывы клиентов, записанные взаимодействия, письма и другие документы. Эти источники предоставляют необработанный текст, который нелегко понять без использования правильного инструмента анализа текста. Можно выполнять аналитику текста вручную, но процесс вручную неэффективен. Традиционные системы используют ключевые слова и не могут читать и понимать язык в электронных письмах, твитах, веб-страниц и текстовых документах. По этим причинам компании используют программное обеспечение для анализа текстов для анализа больших объемов текстовых данных. Программное обеспечение помогает пользователям получать информацию из текстовых данных, чтобы действовать в соответствии В настоящее время наиболее распространено ручное аннотирования, к преимуществам которого можно отнести, безусловно, высокое качество сборки аннотации и его «осмысленность». Типичные недостатки ручных систем аннотирования, систем анализа текстовой информации - это высокие материальные затраты и присущая им низкая скорость работы. Поэтому тематика этой статьи - это исследование методов с помощью которых можно эффективно аннотировать отзывы о различных товары из крупнейшего торгового площадке Украины. И решение следующих задач: провести анализ современных подходов к анализу и обработки данных; изучить основные алгоритмы для анализа и обработки данных; на основе применения новейших технологий создать программу, которая будет собирать данные, спроектировать архитектуру программы для более эффективного использования; очистить данные, применяя методы минимизации информационных потерь; проанализировать полученные очищенные данные применяя подходы к анализу и текстовых данных; сделать выводы по результатам всех вышеупомянутых работ. Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость и актуальность выбранной нами темы. Цель исследования являются методы и средства с помощью которых можно минимизировать информационные потери при анализе и обработке текстовых данных. Объектом исследования является процесс минимизации информационных потерь при анализе и обработке текстовых данных. В ходе исследования проведен анализ последних исследований по анализу и обработки текстовой информации; проанализированы методы обработки текстовой информации и алгоритмы Data Mining.
URI (Унифицированный идентификатор ресурса): http://dspace.opu.ua/jspui/handle/123456789/10562
ISSN: 2663-0176
2663-7731
Располагается в коллекциях:2020, Vol. 3, № 1

Файлы этого ресурса:
Файл Описание РазмерФормат 
4_МЕЗЕНЦЕВА_pdf.pdf562.94 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.