LangSmith запустил более 30 шаблонов оценки, проверка качества AI-агентов больше не требует написания с нуля

robot
Генерация тезисов в процессе
МЕ Новости, 17 апреля (UTC+8), по данным мониторинга 动察Beating, платформа для разработки AI-агентов LangChain выпустила два обновления для своей системы наблюдаемости LangSmith: библиотеку шаблонов оценщиков и повторно используемые оценщики.
Оценка «удобства» AI-агента — один из самых затратных по времени этапов разработки.
Агент может вызвать правильный инструмент, но ответить в неправильном формате,
в однопроходных диалогах всё работает нормально, а при многократных — происходит сбой,
или итоговый ответ кажется разумным, но промежуточные шаги содержат ошибочные документы.
Разработчикам приходится устанавливать контрольные точки на уровне отдельных шагов, полного траектории, многократных диалогов и вызовов конкретных инструментов,
а каждый оценщик требует написания подсказок, калибровки с реальными данными и многократной настройки,
что зачастую занимает недели с нуля.
Теперь LangSmith предоставляет более 30 готовых шаблонов, охватывающих пять категорий:
безопасность и защита (обнаружение инъекций подсказок, проверка утечки личной информации, предвзятость и токсичность),
качество ответов (точность, полезность, тон),
траектория выполнения (правильность шагов агента),
анализ поведения пользователя (распределение языка, сигналы удовлетворенности),
мультимодальные (аудио и визуальный вывод).
Шаблоны включают настроенные подсказки для оценки LLM и правила-основанные кодовые оценщики,
их можно использовать прямо или модифицировать по необходимости,
они подходят для онлайн-мониторинга и офлайн-экспериментов.
Повторно используемые оценщики решают управленческие задачи на уровне организации:
вкладка Evaluators отображает все оценщики в рабочем пространстве,
их можно быстро подключить к новым проектам,
после обновления подсказок изменения распространяются глобально,
не нужно дублировать их в каждом проекте.
Вышеуказанные шаблоны открыты исходным кодом и выпущены вместе с openevals v0.2.0,
добавлена поддержка мультимодальной оценки.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 8
  • 7
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
VineGeometry
· 2ч назад
Я ранее писал подобные системы оценки траекторий, как только появится официальный вариант, его можно будет перенести, что снизит затраты на обслуживание.
Посмотреть ОригиналОтветить0
GateUser-4bd1cc87
· 4ч назад
Наконец-то появилась единая схема многоуровневой оценки, и проблема разногласий в стандартах между членами команды значительно снизилась.
Посмотреть ОригиналОтветить0
MempoolDrifter
· 4ч назад
Шаблон анализа поведения пользователей довольно интересен, наконец-то можно систематически посмотреть, как используется агент.
Посмотреть ОригиналОтветить0
GateUser-5578154d
· 4ч назад
Функция однократной монтировки в новый проект очень удобна для нас, кто работает с несколькими проектами параллельно.
Посмотреть ОригиналОтветить0
MistValleyFront
· 4ч назад
Шаблон безопасности и защиты — это необходимость, перед запуском AI-агента больше всего волнует именно это.
Посмотреть ОригиналОтветить0
MorningGoldAsWavesCrashAgainst
· 4ч назад
Вкладка Evaluators — этот интерфейс спроектирован довольно интуитивно, искать его не сложно
Посмотреть ОригиналОтветить0
PermissionedFury
· 4ч назад
Открытый проект openevals v0.2.0 получил положительные отзывы, совместное развитие сообщества гораздо лучше, чем закрытая разработка
Посмотреть ОригиналОтветить0
GateUser-176c498f
· 4ч назад
LangSmith эта обновка очень полезна, раньше писать evaluator было настоящей головной болью, а теперь просто используешь шаблон — и всё решено.
Посмотреть ОригиналОтветить0
  • Закреплено