Кино

GigaChat 3 Ultra Preview — тяжёлый open source

Краткое резюме

Компания представила новые модели GigaChat 3 Lightning и GigaChat 3 Ultra Preview с открытым исходным кодом. GigaChat 3 Ultra Preview — это масштабная модель с 702 миллиардами параметров, обученная на русском языке и совместимая с open source-инструментарием.

Приветствуем, Хабр! За прошедший год произошло много событий: мы выпустили линейку GigaChat 2, которая умеет распознавать речь, анализировать видео и даже интерпретировать мемы. Кроме того, мы интегрировали функцию Reasoning в наш веб-сервис giga.chat, заняли первое место в бенчмарке ruMTEB и сделали доступными в open source версии GigaChat Lite и Giga-Embeddings. Сегодня мы хотим представить нечто большее — модели нового поколения с колоссальными 712 миллиардами параметров (702 + 10), которые мы предоставляем под открытой лицензией MIT. **Новые модели** Мы и наши вычислительные кластеры проделали значительную работу и подготовили две новые модели с открытыми весами: * GigaChat 3 Lightning — компактная модель MoE с примерно 10 миллиардами общих и около 1,8 миллиарда активных параметров, предназначенная для локального запуска на ноутбуке и быстрых итераций с обучением. * GigaChat 3 Ultra Preview — наша флагманская модель с 702 миллиардами параметров и примерно 36 миллиардами активных, о которой мы расскажем подробнее. Если вы хотите быть в курсе последних новостей, подписывайтесь на наш канал в Telegram (t.me/gigadev_channel). Там мы делимся промежуточными результатами и анонсами. **Почему GigaChat 3 Ultra важна** GigaChat 3 Ultra — это первая открытая модель такого масштаба, обученная на русском языке и совместимая со стандартным open source-инструментарием. Благодаря архитектуре Mixture of Experts (MoE) мы смогли обучить очень большую модель, сохраняя её пригодной для практического применения: на каждом шаге генерации активируется всего около 5 % от общего объёма параметров. Мы публикуем раннюю версию модели, чтобы сообщество могло экспериментировать с ней. Модель полностью функциональна, но мы продолжаем её улучшать: дообучаем на большем количестве данных, оптимизируем инференс и совершенствуем post-training. Ваша обратная связь поможет сделать финальную версию ещё лучше. Важно отметить, что это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете. Это более сложный и дорогостоящий процесс, но только так можно получить модель, которая: * действительно понимает русский язык на всех уровнях; * не наследует проблемы и ограничения чужих датасетов; * обучена на актуальных данных без географических и временных искажений; * полностью контролируема и модифицируема под наши задачи. Обучение с нуля на таком масштабе — это вызов, который приняли немногие команды в мире. Мы гордимся тем, что смогли его преодолеть. **Что мы расскажем** Сегодня мы охватим все аспекты — от технических деталей до практического применения: * как мы собрали обучающий корпус из 14 триллионов токенов, подходящий для обучения такого гиганта; * как мы обучали Ultra с нуля и какие трудности преодолели; * как мы учили модель быть полезной, безопасной и интересной; * сравнение скорости инференса и бенчмарок с мировыми лидерами на русских и международных датасетах.

Фильтры и сортировка