ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian

Syromiatnikov, Mykyta V.; Сиром’ятніков, Микита Валерійович; Ruvinskaya, Victoria M.; Рувінська, Вікторія Михайлівна; Troynina, Anastasiya S.; Тройніна, Анастасія Сергіївна

eONPUIR
→
2. Матеріали конференцій
→
2024
→
«Informatics. Culture. Technology» = «Інформатика. Культура. Техніка»
→
Посмотреть элемент

dc.contributor.author	Syromiatnikov, Mykyta V.
dc.contributor.author	Сиром’ятніков, Микита Валерійович
dc.contributor.author	Ruvinskaya, Victoria M.
dc.contributor.author	Рувінська, Вікторія Михайлівна
dc.contributor.author	Troynina, Anastasiya S.
dc.contributor.author	Тройніна, Анастасія Сергіївна
dc.date.accessioned	2024-10-09T12:58:03Z
dc.date.available	2024-10-09T12:58:03Z
dc.date.issued	2024-09-26
dc.identifier.issn	2522-1523
dc.identifier.uri	http://dspace.opu.ua/jspui/handle/123456789/14654
dc.description.abstract	As the usage of large language models for problems outside of simple text understanding or generation increases, assessing their abilities and limitations becomes crucial. While significant progress has been made in this area over the last few years, most research has focused on benchmarking English, leaving other languages underexplored. This makes evaluating the reasoning and robustness level of language models in Ukrainian particularly challenging. The purpose of this work is to establish a comprehensive benchmark for the reasoning capabilities evaluation of large language models in the Ukrainian language. This paper presents the ZNO-Eval benchmark based on real exam tasks from Ukraine's standardized educational testing system: the External Independent Evaluation and the National Multi-subject Test. With singleanswer options, multiple-choice, matching, and open-ended questions from diverse subjects, including Ukrainian language, mathematics, history, and geography, this dataset paves the way toward a thorough analysis of reasoning capabilities across different domains and complexities. Evaluation of several well-known language models, such as GPT-3.5-Turbo, GPT-4o, GPT-4-Turbo, Mistral Large, Claude 3 Opus, and Gemini-1.5 Pro on this benchmark demonstrated the superiority of GPT-4o in both common knowledge reasoning and intricate language tasks. At the same time, Gemini Pro and GPT-4 Turbo excelled in the arithmetic domain, leading in single-answer and open-ended math problems. While all models were close to max performance in text-only common knowledge tasks like history and geography, there still is a gap for Ukrainian language and math, thus highlighting the importance of developing specialized language benchmarks for more accurate assessments of model capabilities and limitations across different languages and contexts. This research introduced ZNO-Eval, an effective benchmark for evaluating reasoning capabilities, and thoroughly explored the abilities and limitations of modern solutions in the Ukrainian language. Future research should aim to expand the scope of ZNO-Eval to other modalities like images commonly used for exam problem description	en
dc.description.abstract	Оскільки усе частіше великі мовні моделі використовуються для вирішення завдань, що виходять за рамки простого розуміння та генерації тексту, оцінка їхніх можливостей та обмежень стає критично важливою. Хоча в цьому напрямку було досягнуто значного прогресу за останні кілька років, більшість досліджень зосереджено на тестуванні англійської мови, залишаючи інші мови недостатньо дослідженими. Це робить оцінку розумових здібностей та стійкості мовних моделей для української мови особливо складною задачею. Метою цієї роботи є створення дігностичного набору для оцінки розумових здібностей великих мовних моделей у українській мові. У цій роботі представлено датасет ZNO-Eval, що базується на завданнях з української системи стандартизованого освітнього тестування: зовнішнього незалежного оцінювання та національного мультипредметного тесту. Утворений набір, що включає запитання з однією або декількома відповідями, задачі на відповідність, а також відкриті питанння з української мови, математики, історії та географіі, прокладає шлях до всебічного аналізу розумових здібностей мовних моделей у різних галузях та з різними рівнями складності. Оцінка відомих мовних моделей, таких як GPT-3.5-Turbo, GPT-4o, GPT-4-Turbo, Mistral Large, Claude 3 Opus та Gemini-1.5 Pro на побудованому діагностичному наборі продемонструвала перевагу GPT-4o у завданнях, що потребують загальних знань, а також у складних мовних задачах. У той же час, Gemini Pro і GPT-4 Turbo досягли найкращих результатів у арифметичних завданнях, випередивши конкурентів у математичних запитаннях з одним правильним варіантом та відкритою відповіддю. Хоча всі моделі досягли практично максимально можливих результатів у тестуванні загальних знань, що включає історію та географію, існує значний розрив для тестів з української мови та математики – це підкреслює важливість розробки спеціалізованих датасетів для більш точної оцінки можливостей та обмежень моделей у різних мовах і контекстах. У рамках цієї роботи було представлено ZNO-Eval - ефективний датасет для оцінки розумових здібностей, а також було детально досліджено можливості та обмеження сучасних рішень для української мови. Майбутні дослідження включатимуть розширення ZNO-Eval на інші модальності, такі як зображення, що використовуються для опису тестових запитань.	en
dc.language.iso	en	en
dc.publisher	Odessа Polytechnic National University	en
dc.subject	large language model	en
dc.subject	reasoning capabilities	en
dc.subject	external independent evaluation	en
dc.subject	math	en
dc.subject	history	en
dc.subject	geography	en
dc.subject	benchmark	en
dc.subject	великі мовні моделі	en
dc.subject	розумові здібності	en
dc.subject	зовнішнє незалежне оцінювання	en
dc.subject	математика	en
dc.subject	історія	en
dc.subject	географія	en
dc.subject	діагностичний набір	en
dc.title	ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian	en
dc.title.alternative	ZNO-Eval: Оцінка розумових здібностей великих мовних моделей при роботі з україномовними текстами	en
dc.type	Article	en
opu.citation.journal	Інформатика. Культура. Техніка = Informatics. Culture. Technology	en
opu.citation.volume	1	en
opu.citation.firstpage	185	en
opu.citation.lastpage	191	en
opu.citation.conference	Х МІЖНАРОДНА НАУКОВО-ПРАКТИЧНА КОНФЕРЕНЦІЯ «Інформатика. Культура. Техніка» = X International conference "INFORMATICS. CULTURE. TECHNIQUE"	en
opu.citation.issue	1	en

Файлы, содержащиеся в элементе

Имя: 27__1-4_Syromiatn ...

Размер: 1.088Мб

Формат: PDF

Посмотреть/Открыть

Этот элемент содержится в следующих коллекциях

«Informatics. Culture. Technology» = «Інформатика. Культура. Техніка»
PROCEEDINGS OF THE Х INTERNATIONAL SCIENTIFIC CONFERENCE SEPTEMBER 26-27, 2024 = МАТЕРІАЛИ Х МІЖНАРОДНОЇ НАУКОВО-ПРАКТИЧНА КОНФЕРЕНЦІЇ 26-27 ВЕРЕСНЯ 2024 РОКУ

Показать сокращенную информацию

Поиск в DSpace

Продвинутый поиск

Просмотр

Весь DSpace
Эта коллекция

Мой профиль

Статистика

View Usage Statistics

ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian

Файлы, содержащиеся в элементе

Этот элемент содержится в следующих коллекциях

Поиск в DSpace

Просмотр

Весь DSpace

Эта коллекция

Мой профиль

Статистика