Об’єкт дослідження – процеси классифікації текстової інформації.
Предмет дослідження – методи класифікації бінарного та багатокласового
типу.
Мета роботи – розробка і реалізація класифікатора тексту на основі нечітких
множин, який зможе визначити предметну область за допомогою ключових слів з
точністю вище 55%.
В роботі проведено дослідження двох алгоритмів класифікації, які засновані
на нечітких множинах. Алгоритми були реалізовані на мові програмування Java і
протестовані. Отримано результати точності 79% для багатокласової класифікації
та 75% для бінарної класифікації. Також проведено огляд нечітких множин.
Проведено порівняння з іншими популярними алгоритмами (метод опорних
векторів, нейронні мережі, дерева рішень). Популярні алгоритми були реалізовані
в середовищі KNIME. В результаті порівняння алгоритми, розроблені автором
роботи, дали найбільші значення точності. Розроблені алгоритми пропонується
використовувати в базах даних для автоматичної класифікації текстів або в
поєднанні з іншими алгоритмами розпізнавання.
The object of research is the processes of classification of text information.
The subject of the research is binary and multiclass classification methods.
The aim of the work is to develop and implement a text classifier based on fuzzy
sets, which will be able to determine the subject area using keywords with an accuracy of
more than 55%.
The paper studies two classification algorithms that are based on fuzzy sets. The
algorithms were implemented in the Java programming language and tested. Accuracy
results of 79% for multiclass classification and 75% for binary classification were
obtained. Fuzzy sets are also reviewed. A comparison is made with other popular
algorithms (the method of reference vectors, neural networks, decision trees). Popular
algorithms were implemented in the KNIME environment. As a result of the comparison,
the algorithms developed by the author of the work gave the highest accuracy values. The
developed algorithms are proposed to be used in databases for automatic classification of
texts or in combination with other speech recognition algorithms.