ИИ

Как тестировать промпты и чейны (Ручная разметка/BERTScore/LLM as judge)

Представьте, что у нас есть бенчмарк из 4 тысяч вопросов и эталонных ответов. Как определить, действительно ли очередное изменение в системе (обновления в промпте, дополнительный агент в цепочке или, например, переход с базового RAG на гибридный) даёт реальный прирост качества?

15.04.2025 18:54

ИИ

Источник: Все публикации подряд на Хабре

Вернуться к ленте

Фильтры и сортировка