GigaChat 3 Ultra Preview — тяжёлый open source
Краткое резюме
Компания представила новые модели GigaChat 3 Lightning и GigaChat 3 Ultra Preview с открытым исходным кодом. GigaChat 3 Ultra Preview — это масштабная модель с 702 миллиардами параметров, обученная на русском языке и совместимая с open source-инструментарием.
Приветствуем, Хабр! За прошедший год произошло много событий: мы выпустили линейку GigaChat 2, которая умеет распознавать речь, анализировать видео и даже интерпретировать мемы. Кроме того, мы интегрировали функцию Reasoning в наш веб-сервис giga.chat, заняли первое место в бенчмарке ruMTEB и сделали доступными в open source версии GigaChat Lite и Giga-Embeddings.
Сегодня мы хотим представить нечто большее — модели нового поколения с колоссальными 712 миллиардами параметров (702 + 10), которые мы предоставляем под открытой лицензией MIT.
**Новые модели**
Мы и наши вычислительные кластеры проделали значительную работу и подготовили две новые модели с открытыми весами:
* GigaChat 3 Lightning — компактная модель MoE с примерно 10 миллиардами общих и около 1,8 миллиарда активных параметров, предназначенная для локального запуска на ноутбуке и быстрых итераций с обучением.
* GigaChat 3 Ultra Preview — наша флагманская модель с 702 миллиардами параметров и примерно 36 миллиардами активных, о которой мы расскажем подробнее.
Если вы хотите быть в курсе последних новостей, подписывайтесь на наш канал в Telegram (t.me/gigadev_channel). Там мы делимся промежуточными результатами и анонсами.
**Почему GigaChat 3 Ultra важна**
GigaChat 3 Ultra — это первая открытая модель такого масштаба, обученная на русском языке и совместимая со стандартным open source-инструментарием. Благодаря архитектуре Mixture of Experts (MoE) мы смогли обучить очень большую модель, сохраняя её пригодной для практического применения: на каждом шаге генерации активируется всего около 5 % от общего объёма параметров.
Мы публикуем раннюю версию модели, чтобы сообщество могло экспериментировать с ней. Модель полностью функциональна, но мы продолжаем её улучшать: дообучаем на большем количестве данных, оптимизируем инференс и совершенствуем post-training. Ваша обратная связь поможет сделать финальную версию ещё лучше.
Важно отметить, что это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете. Это более сложный и дорогостоящий процесс, но только так можно получить модель, которая:
* действительно понимает русский язык на всех уровнях;
* не наследует проблемы и ограничения чужих датасетов;
* обучена на актуальных данных без географических и временных искажений;
* полностью контролируема и модифицируема под наши задачи.
Обучение с нуля на таком масштабе — это вызов, который приняли немногие команды в мире. Мы гордимся тем, что смогли его преодолеть.
**Что мы расскажем**
Сегодня мы охватим все аспекты — от технических деталей до практического применения:
* как мы собрали обучающий корпус из 14 триллионов токенов, подходящий для обучения такого гиганта;
* как мы обучали Ultra с нуля и какие трудности преодолели;
* как мы учили модель быть полезной, безопасной и интересной;
* сравнение скорости инференса и бенчмарок с мировыми лидерами на русских и международных датасетах.