LangSmith запустил более 30 шаблонов оценки, проверка качества AI-агентов больше не требует написания с нуля

МЕ Новости, 17 апреля (UTC+8), по данным мониторинга Дунчжа Beating, инструмент наблюдения LangSmith от платформы разработки AI-агентов LangChain выпустил два обновления: библиотеку шаблонов оценщиков и многоразовые оценщики.
Оценка «удобства» AI-агента — один из самых затратных по времени этапов разработки.
Агент может вызвать правильный инструмент, но формат ответа неправильный, однопроходный диалог проходит нормально, а при многократных — происходит сбой, окончательный ответ кажется разумным, но промежуточные шаги ссылаются на неправильные документы.
Разработчикам приходится устанавливать контрольные точки на уровне отдельных шагов, полного траектории, многократных диалогов и вызовов конкретных инструментов, а каждый оценщик требует написания подсказок, калибровки с реальными данными и многократной настройки, что зачастую занимает недели с нуля.
Теперь LangSmith предоставляет более 30 готовых шаблонов, охватывающих пять категорий: безопасность и защита (обнаружение внедрения подсказок, проверка утечки личной информации, предвзятость и токсичность), качество ответов (точность, полезность, тон), траектория выполнения (правильность шагов агента), анализ поведения пользователя (распределение языка, сигналы удовлетворенности), мультимодальные (аудио и визуальный вывод).
Шаблоны включают настроенные подсказки для оценки LLM и правила-основанные кодовые оценщики, которые можно использовать прямо или модифицировать, а также подходят для онлайн-мониторинга и офлайн-экспериментов.
Многоразовые оценщики решают управленческие задачи на уровне организации: новая вкладка Evaluators централизует все оценщики в рабочей области, их можно быстро подключить к новым проектам, после обновления подсказок они вступают в силу глобально, без необходимости дублировать в каждом проекте.
Вышеуказанные шаблоны синхронизированы с открытым исходным кодом и выпущены вместе с openevals v0.2.0, добавлена поддержка мультимодальной оценки.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 12
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
DegenWithNotebook
· 10ч назад
Библиотека шаблонов оценщиков + переиспользуемые оценщики, комплексный подход повышает эффективность разработки
Посмотреть ОригиналОтветить0
OutsiderOfZhiyuandao
· 11ч назад
Мониторинг Beating довольно быстрый, экосистема LangChain становится всё более активной.
Посмотреть ОригиналОтветить0
StargazerInTheWoods
· 11ч назад
Идея дизайна переиспользуемого оценщика хороша, она помогает избегать изобретения велосипеда
Посмотреть ОригиналОтветить0
QuietValidator
· 11ч назад
Подсчет с нуля недель против готовых шаблонов — это сравнение немного болезненное
Посмотреть ОригиналОтветить0
AirdropDreamsInAGlassBottle
· 11ч назад
Проблема с сбоем многоразовых диалогов — это очень реально, наконец-то кто-то серьезно решил эту проблему
Посмотреть ОригиналОтветить0
Don’tRushToDoubleItYet.
· 11ч назад
Сможет ли более 30 шаблонов сэкономить несколько недель? Я сначала подожду и посмотрю на реальный эффект
Посмотреть ОригиналОтветить0
MirrorBallPeeking
· 11ч назад
LangSmith эта обновление действительно попало в больные точки, оценка AI-агентов слишком мучительна
Посмотреть ОригиналОтветить0
  • Закреплено