The work based on determining the best algorithm for processing and analyzing large volumes of data. Proceeding from the simulation of two popular approaches was determined the most optimal and time-efficient algorithm for the study area - a method using the user-defined functions of the Hive data warehouse.
Робота базується на визначенні найкращого алгоритму обробки та аналізу великих обсягів даних. Шляхом імітаційного моделювання двох популярних підходів було виявлено найбільш оптимальний та ефективний щодо часу виконання для досліджуваної предметної області – метод з використанням користувальницьких функцій сховища даних Hive.