Робота присвячена розробці програмної системи для прототипування, тренування та аналізу якості багатомовної мовної моделі на базі багатозадачного підходу. Метою роботи є збільшення точності та зменшення часу тренування мовних моделей за рахунок удосконалення методу багатозадачного тренування. В результаті шляхом поєднання задач маскованого мовного моделювання, передбачення наступної послідовності та контрастного навчання вдосконалено метод багатозадачного навчання. На цій основі створено повноцінну програмну екосистему, що містить сервіси моделювання, розмітки текстових даних, а також оповіщення щодо прогресу у тренуванні і розмітці. У роботі використано мову програмування Python, веб-фреймворк Flask, сховища даних MongoDB та AWS S3, фреймворк глибинного навчання Pytorch та сервіс перекладу GCP Cloud Translation.
The work is devoted to developing a software system for prototyping, training, and evaluating a multilingual language model based on a multi-task approach. The work aims to increase the accuracy and reduce the training time of language models. As a result, the method of multi-task learning was improved by combining the tasks of masked language modeling, next sequence prediction, and contrasting learning. On this basis, a complete software ecosystem was created, including modeling services, text data annotation, and training notifications. Python, Flask web framework, MongoDB and AWS S3 storages, Pytorch deep learning framework, and GCP Cloud Translation service were used for the development phase.