It has been demonstrated that the detailed data collected on online platforms are heterogeneous, semantically inconsistent, and weakly structured. Therefore, the use of machine learning for their aggregation, structuring, and analysis is well-justified. As a case study for developing machine learning models, the task of predicting the payment behavior of clients on an online car rental platform was considered. Input data were automatically generated based on users’ actions on the platform. Subsequently, the data were aggregated and structured through feature engineering, time field transformation, and the removal of redundant attributes to enhance model quality. Five classification models were developed: Support Vector Machine, Naive Bayes classifier, Logistic Regression, and two ensemble models (Soft Voting and Stacking). The results showed that Logistic Regression and ensemble models (particularly Stacking) achieved the best precision and recall, making them the most reliable for predicting on-time payments. Ensemble models, especially stacking, demonstrated high efficiency by combining the strengths of different base models. Although SVM can account for complex relationships between features, it showed the weakest performance in distinguishing payment statuses. The findings contribute to a better understanding of customer payment behavior and highlight the importance of choosing appropriate classification models for financial risk assessment. Future research will focus on improving model performance through enhanced feature selection, class imbalance correction, and the integration of additional data sources such as customer credit history. The use of such models can significantly improve automated risk management and enhance decision-making efficiency for companies dealing with payment obligations.
Показано, що деталізовані дані, які збираються на онлайн платформах є гетерогенними семантично неоднорідними та слабко структурованими. Тому є виправданим використання машинного навчання для їх агрегації, структуризації та аналізу. Як приклад для розробки моделей машинного розглянуто задачу прогнозування платіжної поведінки клієнтів онлайн платформи оренди авто. На основі дій користувачів цієї платформи автоматично формувалися вхідні данні. В подальшому дані агрегувалися та структуризувалися шляхом створення нових ознак, перетворення часових полів та видалення надлишкових атрибутів для підвищення якості моделей. Було розроблено п'ять класифікаційних моделей: метод опорних векторів (support vector machine), наївний байєсівський класифікатор, логістичну регресію та дві ансамблеві моделі (м'яке голосування та стекування). Результати показали, що логістична регресія та ансамблеві моделі (стекування) забезпечили найкращі показники точності та повноти, що робить їх найбільш надійними моделями для прогнозування своєчасних платежів. Ансамблеві моделі, особливо стекування, показали високу ефективність, поєднуючи переваги різних базових моделей. Метод опорних векторів, хоча і здатний враховувати складні взаємозв’язки між ознаками, продемонстрував найгіршу ефективність у розрізненні статусів платежів. Отримані результати дозволяють краще зрозуміти платіжну поведінку клієнтів та підкреслюють важливість правильного вибору класифікаційних моделей для оцінки фінансових ризиків. Подальші дослідження будуть спрямовані на оптимізацію продуктивності моделей шляхом розширеного вибору ознак, усунення дисбалансу класів та інтеграції додаткових джерел даних, таких як кредитна історія клієнтів. Використання цих моделей може значно покращити автоматизоване управління ризиками та підвищити ефективність прийняття рішень для компаній, що працюють з платіжними зобов’язаннями.