МЕ Новости, 17 апреля (UTC+8), по данным мониторинга Дунчжа Beating, инструмент наблюдения LangSmith от платформы разработки AI-агентов LangChain выпустил два обновления: библиотеку шаблонов оценщиков и многоразовые оценщики.
Оценка «удобства» AI-агента — один из самых затратных по времени этапов разработки.
Агент может вызвать правильный инструмент, но формат ответа неправильный, однопроходный диалог проходит нормально, а при многократных — происходит сбой, окончательный ответ кажется разумным, но промежуточные шаги ссылаются на неправильные документы.
Разработчикам приходится устанавливать контрольные точки на уровне отдельных шагов, полного траектории, многократных диалогов и вызовов конкретных инструментов, а каждый оценщик требует написания подсказок, калибровки с реальными данными и многократной настройки, что зачастую занимает недели с нуля.
Теперь LangSmith предоставляет более 30 готовых шаблонов, охватывающих пять категорий: безопасность и защита (обнаружение внедрения подсказок, проверка утечки личной информации, предвзятость и токсичность), качество ответов (точность, полезность, тон), траектория выполнения (правильность шагов агента), анализ поведения пользователя (распределение языка, сигналы удовлетворенности), мультимодальные (аудио и визуальный вывод).
Шаблоны включают настроенные подсказки для оценки LLM и правила-основанные кодовые оценщики, которые можно использовать прямо или модифицировать, а также подходят для онлайн-мониторинга и офлайн-экспериментов.
Многоразовые оценщики решают управленческие задачи на уровне организации: новая вкладка Evaluators централизует все оценщики в рабочей области, их можно быстро подключить к новым проектам, после обновления подсказок они вступают в силу глобально, без необходимости дублировать в каждом проекте.
Вышеуказанные шаблоны синхронизированы с открытым исходным кодом и выпущены вместе с openevals v0.2.0, добавлена поддержка мультимодальной оценки.
（Источник: BlockBeats）

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

12 Лайков

Награда
12
7
12
Поделиться

комментарий

Добавить комментарий

DegenWithNotebook

· 10ч назад

Библиотека шаблонов оценщиков + переиспользуемые оценщики, комплексный подход повышает эффективность разработки

Посмотреть ОригиналОтветить0

OutsiderOfZhiyuandao

· 11ч назад

Мониторинг Beating довольно быстрый, экосистема LangChain становится всё более активной.

Посмотреть ОригиналОтветить0

StargazerInTheWoods

· 11ч назад

Идея дизайна переиспользуемого оценщика хороша, она помогает избегать изобретения велосипеда

Посмотреть ОригиналОтветить0

QuietValidator

· 11ч назад

Подсчет с нуля недель против готовых шаблонов — это сравнение немного болезненное

Посмотреть ОригиналОтветить0

AirdropDreamsInAGlassBottle

· 11ч назад

Проблема с сбоем многоразовых диалогов — это очень реально, наконец-то кто-то серьезно решил эту проблему

Посмотреть ОригиналОтветить0

Don’tRushToDoubleItYet.

· 11ч назад

Сможет ли более 30 шаблонов сэкономить несколько недель? Я сначала подожду и посмотрю на реальный эффект

Посмотреть ОригиналОтветить0

MirrorBallPeeking

· 11ч назад

LangSmith эта обновление действительно попало в больные точки, оценка AI-агентов слишком мучительна

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
226.14K Популярность
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Популярность
#
IsraelStrikesIranBTCPlunges
48.44K Популярность
#
#DailyPolymarketHotspot
1.01M Популярность
#
SpaceXOfficiallyFilesforIPO
748.1K Популярность

Закреплено

Карта сайта

LangSmith запустил более 30 шаблонов оценки, проверка качества AI-агентов больше не требует написания с нуля

Популярные темы

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Закреплено