МЕ Новости, 17 апреля (UTC+8), по данным мониторинга 动察Beating, платформа для разработки AI-агентов LangChain выпустила два обновления для своей системы наблюдаемости LangSmith: библиотеку шаблонов оценщиков и повторно используемые оценщики.
Оценка «удобства» AI-агента — один из самых затратных по времени этапов разработки.
Агент может вызвать правильный инструмент, но ответить в неправильном формате,
в однопроходных диалогах всё работает нормально, а при многократных — происходит сбой,
или итоговый ответ кажется разумным, но промежуточные шаги содержат ошибочные документы.
Разработчикам приходится устанавливать контрольные точки на уровне отдельных шагов, полного траектории, многократных диалогов и вызовов конкретных инструментов,
а каждый оценщик требует написания подсказок, калибровки с реальными данными и многократной настройки,
что зачастую занимает недели с нуля.
Теперь LangSmith предоставляет более 30 готовых шаблонов, охватывающих пять категорий:
безопасность и защита (обнаружение инъекций подсказок, проверка утечки личной информации, предвзятость и токсичность),
качество ответов (точность, полезность, тон),
траектория выполнения (правильность шагов агента),
анализ поведения пользователя (распределение языка, сигналы удовлетворенности),
мультимодальные (аудио и визуальный вывод).
Шаблоны включают настроенные подсказки для оценки LLM и правила-основанные кодовые оценщики,
их можно использовать прямо или модифицировать по необходимости,
они подходят для онлайн-мониторинга и офлайн-экспериментов.
Повторно используемые оценщики решают управленческие задачи на уровне организации:
вкладка Evaluators отображает все оценщики в рабочем пространстве,
их можно быстро подключить к новым проектам,
после обновления подсказок изменения распространяются глобально,
не нужно дублировать их в каждом проекте.
Вышеуказанные шаблоны открыты исходным кодом и выпущены вместе с openevals v0.2.0,
добавлена поддержка мультимодальной оценки.
（Источник: BlockBeats）

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

9 Лайков

Награда
9
8
7
Поделиться

комментарий

Добавить комментарий

VineGeometry

· 2ч назад

Я ранее писал подобные системы оценки траекторий, как только появится официальный вариант, его можно будет перенести, что снизит затраты на обслуживание.

Посмотреть ОригиналОтветить0

GateUser-4bd1cc87

· 4ч назад

Наконец-то появилась единая схема многоуровневой оценки, и проблема разногласий в стандартах между членами команды значительно снизилась.

Посмотреть ОригиналОтветить0

MempoolDrifter

· 4ч назад

Шаблон анализа поведения пользователей довольно интересен, наконец-то можно систематически посмотреть, как используется агент.

Посмотреть ОригиналОтветить0

GateUser-5578154d

· 4ч назад

Функция однократной монтировки в новый проект очень удобна для нас, кто работает с несколькими проектами параллельно.

Посмотреть ОригиналОтветить0

MistValleyFront

· 4ч назад

Шаблон безопасности и защиты — это необходимость, перед запуском AI-агента больше всего волнует именно это.

Посмотреть ОригиналОтветить0

MorningGoldAsWavesCrashAgainst

· 4ч назад

Вкладка Evaluators — этот интерфейс спроектирован довольно интуитивно, искать его не сложно

Посмотреть ОригиналОтветить0

PermissionedFury

· 4ч назад

Открытый проект openevals v0.2.0 получил положительные отзывы, совместное развитие сообщества гораздо лучше, чем закрытая разработка

Посмотреть ОригиналОтветить0

GateUser-176c498f

· 4ч назад

LangSmith эта обновка очень полезна, раньше писать evaluator было настоящей головной болью, а теперь просто используешь шаблон — и всё решено.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
211.91K Популярность
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Популярность
#
IsraelStrikesIranBTCPlunges
48.36K Популярность
#
#DailyPolymarketHotspot
1.01M Популярность
#
SpaceXOfficiallyFilesforIPO
740.51K Популярность

Закреплено

Карта сайта

LangSmith запустил более 30 шаблонов оценки, проверка качества AI-агентов больше не требует написания с нуля

Популярные темы

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Закреплено