Обсяг медичних даних в світі величезний. Швидко ростуть електронні історії хвороб.
Тому для встановлення правильного діагнозу, при великій кількості різних аналізів (КТ, кардіограм і т.д.) на допомогу лікарю приходять інтелектуальні системи прогнозування серцево-судинних захворювань. Задачу прогнозування вирішують методами машинного навчання. Найбільш популярними методами машинного
навчання в задачах класифікації та прогнозування є дерева прийняття рішень. Ідея, що лежить в основі дерев рішень, полягає в розбитті безлічі можливих значень вектора ознак (незалежних змінних) на непересічні безлічі і підгонці простої моделі
для кожного такого безлічі. Дерева рішень дозволяють отримати високу точність у вирішенні багатьох задач, зберігаючи при цьому високий рівень інтерпретації.
Дерево рішень будується автоматично в залежності від статистичних даних. У даній роботі досліджуються методи дерев прийняття рішень: CART, ID3, С4.5, Random Forest, Gradient Boosting. На основі аналізу даних методів кращий результат
прогнозування серцево-судинних захворювань отримано алгоритмами Random Forest та Gradient Boosting. Метод випадкових лісів заснований на побудові ансамблю дерев
рішень, кожне з яких будується за вибіркою, що отримується з вихідної навчальної вибірки за допомогою бутстрепа (тобто вибірки з поверненням). Іншим ансамблем є метод Gradient Boosting. Його основна відмінність від Random Forest полягає в тому,
що в Random Forest дерева будуються незалежно один від одного, в той час як Gradient Boosting на кожному кроці покращує попередню модель. За допомогою дерева рішень (Random Forest та Gradient Boosting) можна з розумною точністю передбачити вразливість до серцевих захворювань у пацієнтів. У роботі
пропонуються поліпшення методу Gradient Boosting шляхом модифікації бустінга. А саме, на кожному кроці алгоритму новий єлемент ансамблю будується спираючись не на всю навчальну вибірку, а лише на випадкову підвибірку фіксованого розміру. Ця ідея є об'єднанням технік градієнтного бустінга і беггінга В якості вихідних даних виористовується набір Heart Disease UCI. Для перевірки результатів роботи поліпшеного алгоритму Gradient Boosting використовувалася набір heart_failure_clinical_records. В результаті проведеної роботи отримано алгоритм, який дозволяє збільшити точність прогнозування серцево-судинних захворювань з
89% до 94%.
The volume of medical data in the world is enormous. Electronic medical records are growing rapidly. Therefore, in order to establish the correct diagnosis, with a large number of different analyzes (CT, cardiograms, etc.), intelligent systems for predicting cardiovascular diseases come to the aid of the doctor. The prediction problem is solved by machine learning methods. The most popular machine learning method for classification and prediction are decision trees. The idea behind decision trees is to split the set of possible values of the feature vector (independent variables) into disjoint sets and fit a simple model for each such set. Decision trees allow you to get high accuracy in solving
many problems, while maintaining a high level of interpretation. The decision tree is built automatically depending on the statistical data. This paper examines different types of decision trees: CART, ID3, C4.5, Random Forest, Gradient Boosting. Based on the analysis
of these types, the best result for predicting cardiovascular diseases was obtained by the Random Forest and Gradient Boosting methods. The random forest method is based on the construction of an ensemble of decision trees, each of which is constructed from a sample
obtained from the original training sample using a bootstrap. Another ensemble is the Gradient Boosting method. Its main difference from Random Forest is that in Random Forest trees are built independently of each other, while Gradient Boosting improves the previous model at every step. Using a decision tree (Random Forest and Gradient
Boosting), you can predict the vulnerability to heart disease in patients with reasonable accuracy. The paper proposes improvements to the Gradient Boosting method by modifying boosting. Namely, at each step of the algorithm, a new ensemble item is constructed based not on the entire training sample, but only on a random subsample of a
fixed size. This idea is a combination of gradient boosting and bagging techniques. The Heart Disease UCI set is used as initial data. The heart_failure_clinical_records set was used to test the performance of the improved Gradient Boosting algorithm. As a result of the work carried out, an algorithm was obtained that allows increasing the accuracy of predicting cardiovascular diseases from 89% to 94%.