Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Краткое резюме

Команда MERA разработала MERA Multi — первый мультимодальный бенчмарк для оценки русскоязычных моделей ИИ. Он позволит объективно измерять и сравнивать мультимодальные способности современных ИИ на русском языке.

Приветствуем вас, это команда MERA! В текущем году мы совершили значительные прорывы. Были запущены проекты MERA Industrial, MERA Code и SWE-MERA, которые стали фундаментом для комплексной оценки моделей в различных сферах. Но самое важное событие ещё впереди. MERA — это не просто название, а сокращение от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оценка русскоязычных архитектур). В 2023 году мы поставили перед собой смелую цель — разработать стандарт для оценки мультимодальных моделей на русском языке. Сегодня мы рады сообщить, что достигли этой цели. Представляем MERA Multi — первую полную версию мультимодального бенчмарка для русскоязычных моделей. Теперь у нас есть возможность объективно измерять и сравнивать мультимодальные способности современных ИИ на русском языке.

Краткое резюме

Фильтры и сортировка