Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ
Краткое резюме
Команда MERA разработала MERA Multi — первый мультимодальный бенчмарк для оценки русскоязычных моделей ИИ. Он позволит объективно измерять и сравнивать мультимодальные способности современных ИИ на русском языке.
Приветствуем вас, это команда MERA! В текущем году мы совершили значительные прорывы. Были запущены проекты MERA Industrial, MERA Code и SWE-MERA, которые стали фундаментом для комплексной оценки моделей в различных сферах.
Но самое важное событие ещё впереди. MERA — это не просто название, а сокращение от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оценка русскоязычных архитектур). В 2023 году мы поставили перед собой смелую цель — разработать стандарт для оценки мультимодальных моделей на русском языке.
Сегодня мы рады сообщить, что достигли этой цели. Представляем MERA Multi — первую полную версию мультимодального бенчмарка для русскоязычных моделей. Теперь у нас есть возможность объективно измерять и сравнивать мультимодальные способности современных ИИ на русском языке.